このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230712となっている論文です。

PDF登録状況(公開日: 20230712)

TitleAuthorsAbstract論文公表日・翻訳日
# C#でセキュアにローコードアプリケーションを拡張および実行

Securely extending and running low-code applications with C# ( http://arxiv.org/abs/2307.06340v1 )

ライセンス: Link先を確認
Lennart Br\"uggemann(参考訳) ローコード開発プラットフォームは、正式なプログラミング教育を必要とせずに、ドメインの専門家によるソフトウェア作成のためのアクセス可能なインフラを提供する。 開発はグラフィカルなユーザインターフェースを通じて容易になるが、例えば、プラットフォームで利用可能な機能では実現できない、外部サービスや複雑なビジネスロジックを実装する必要がある場合など、従来のプログラミングはローコードアプリケーションの拡張に引き続き使用できる。 シチズンディベロッパーは通常、ソフトウェア開発で特別に訓練されていないため、特にセキュリティやデバッグやバージョニングのような高度な技術に関して、コードを書く際に追加のサポートが必要である。 この論文では、ローコードアプリケーションの開発者を支援するいくつかのオプションを調査し、実装する。 コードエディタ拡張を迅速に構築するフレームワークが開発され、ローコード開発プラットフォーム向けのカスタム静的コード解析ルールを実装するためにRoslynコンパイラプラットフォームを活用するアプローチが開発されている。 NETプラットフォームがデモされている。 さらに、Roslynを使ってシンプルな統合デバッグツールを構築する方法を示すサンプルアプリケーションや、市民開発者の使い勝手を高めるバージョン管理システムGitの抽象化も実装されている。 ローコードアプリケーションがデプロイされる場合、セキュリティは重要な側面である。 OSレベルの仮想化、サンドボックス、ランタイムコードセキュリティ実装の比較の基礎として、脅威モデルを開発、使用し、ローコードアプリケーションのセキュアで孤立した実行を保証するためのオプションの概要を提供する。

Low-code development platforms provide an accessible infrastructure for the creation of software by domain experts, also called "citizen developers", without the need for formal programming education. Development is facilitated through graphical user interfaces, although traditional programming can still be used to extend low-code applications, for example when external services or complex business logic needs to be implemented that cannot be realized with the features available on a platform. Since citizen developers are usually not specifically trained in software development, they require additional support when writing code, particularly with regard to security and advanced techniques like debugging or versioning. In this thesis, several options to assist developers of low-code applications are investigated and implemented. A framework to quickly build code editor extensions is developed, and an approach to leverage the Roslyn compiler platform to implement custom static code analysis rules for low-code development platforms using the .NET platform is demonstrated. Furthermore, a sample application showing how Roslyn can be used to build a simple, integrated debugging tool, as well as an abstraction of the version control system Git for easier usage by citizen developers, is implemented. Security is a critical aspect when low-code applications are deployed. To provide an overview over possible options to ensure the secure and isolated execution of low-code applications, a threat model is developed and used as the basis for a comparison between OS-level virtualization, sandboxing, and runtime code security implementations.
翻訳日:2023-10-23 17:46:19 公開日:2023-07-12
# 安全自動運転のための接続依存性ケージアプローチ

Connected Dependability Cage Approach for Safe Automated Driving ( http://arxiv.org/abs/2307.06258v1 )

ライセンス: Link先を確認
Adina Aniculaesei, Iqra Aslam, Daniel Bamal, Felix Helsch, Andreas Vorwald, Meng Zhang and Andreas Rausch(参考訳) 自動運転システムは、例えば、ラストマイル配送のためのモビリティ・オン・デマンドや輸送のロジスティクスなど、幅広い社会的な課題において、車両の運転を補助したり、ダイナミック運転タスクの責任を部分的にあるいは完全に引き継ぐことで役立つ。 自動走行システムの安全性を確保することは、SAEレベル3以上のシステムにとって、決して簡単な作業ではない。 これを実現するには、システムの動作条件を継続的に監視するメカニズムが必要である。 本稿では,自動走行システムの安全概念として,接続された信頼性ケージによるオンボードランタイム監視と,遠隔コマンド制御センタによるオフボードランタイム監視を組み合わせて,システムのODDを継続的に監視する。 一方、接続された信頼性ケージは、(1)自動運転システムの運転設計ドメインを連続的に監視し、(2)遠隔指令制御センターに存在する自動運転システムとオフボードの遠隔安全運転者との間で、円滑かつ安全な方法で責任を伝達する、という2つの機能を実現する。 一方、遠隔操作制御センターは、遠隔操作者が車両の制御の監視と乗っ取りを可能にする。 実験室環境および試験場における自動走行システムに対する安全概念を評価し,得られた結果と教訓について報告する。

Automated driving systems can be helpful in a wide range of societal challenges, e.g., mobility-on-demand and transportation logistics for last-mile delivery, by aiding the vehicle driver or taking over the responsibility for the dynamic driving task partially or completely. Ensuring the safety of automated driving systems is no trivial task, even more so for those systems of SAE Level 3 or above. To achieve this, mechanisms are needed that can continuously monitor the system's operating conditions, also denoted as the system's operational design domain. This paper presents a safety concept for automated driving systems which uses a combination of onboard runtime monitoring via connected dependability cage and off-board runtime monitoring via a remote command control center, to continuously monitor the system's ODD. On one side, the connected dependability cage fulfills a double functionality: (1) to monitor continuously the operational design domain of the automated driving system, and (2) to transfer the responsibility in a smooth and safe manner between the automated driving system and the off-board remote safety driver, who is present in the remote command control center. On the other side, the remote command control center enables the remote safety driver the monitoring and takeover of the vehicle's control. We evaluate our safety concept for automated driving systems in a lab environment and on a test field track and report on results and lessons learned.
翻訳日:2023-10-23 17:45:54 公開日:2023-07-12
# ソフトウェアエンジニアリングにおける生成AI導入の複雑さのナビゲート

Navigating the Complexity of Generative AI Adoption in Software Engineering ( http://arxiv.org/abs/2307.06081v1 )

ライセンス: Link先を確認
Daniel Russo(参考訳) 本稿では,ソフトウェア工学における生成人工知能(AI)ツールの採用パターンについて検討する。 個人、技術、社会的レベルの影響要因は、AI導入の広範な理解のために混合メソッドアプローチを用いて分析される。 最初の構造化されたインタビューは100人のソフトウェアエンジニアで行われ、TAM(Technology Acceptance Model)、DOI(Diffusion of Innovations Theory)、SCT(Social Cognitive Theory)を導く理論として採用した。 Human-AI Collaboration and Adaptation Framework (HACAF) という理論モデルがGioia Methodologyを使って推論され、ソフトウェア工学におけるAIの採用を特徴づけた。 このモデルの妥当性は、その後183人のソフトウェア専門家から収集されたデータを用いて、Partial Least Squares - Structure Equation Modeling (PLS-SEM)を通して検証された。 その結果、これらの初期の統合段階におけるAIツールの採用は、主に既存の開発ワークフローとの互換性が原因であることが示唆された。 この発見は、従来の技術受容理論に反する。 期待とは対照的に, 有用性, 社会的側面, 個人的革新性の影響は, それほど大きくなかった。 本稿では、将来のAIツールの設計に関する重要な洞察を与え、組織実装のための効果的な戦略を考案するための構造を提供する。

In this paper, the adoption patterns of Generative Artificial Intelligence (AI) tools within software engineering are investigated. Influencing factors at the individual, technological, and societal levels are analyzed using a mixed-methods approach for an extensive comprehension of AI adoption. An initial structured interview was conducted with 100 software engineers, employing the Technology Acceptance Model (TAM), the Diffusion of Innovations theory (DOI), and the Social Cognitive Theory (SCT) as guiding theories. A theoretical model named the Human-AI Collaboration and Adaptation Framework (HACAF) was deduced using the Gioia Methodology, characterizing AI adoption in software engineering. This model's validity was subsequently tested through Partial Least Squares - Structural Equation Modeling (PLS-SEM), using data collected from 183 software professionals. The results indicate that the adoption of AI tools in these early integration stages is primarily driven by their compatibility with existing development workflows. This finding counters the traditional theories of technology acceptance. Contrary to expectations, the influence of perceived usefulness, social aspects, and personal innovativeness on adoption appeared to be less significant. This paper yields significant insights for the design of future AI tools and supplies a structure for devising effective strategies for organizational implementation.
翻訳日:2023-10-23 17:45:29 公開日:2023-07-12
# あなたは何冊の論文をレビューすべきですか? ソフトウェア工学における体系的文献レビューの研究合成

How Many Papers Should You Review? A Research Synthesis of Systematic Literature Reviews in Software Engineering ( http://arxiv.org/abs/2307.06056v1 )

ライセンス: Link先を確認
Xiaofeng Wang, Henry Edison, Dron Khanna and Usman Rafiq(参考訳) [Context] Systematic Literature Review (SLR) は約20年間,Software Engineering (SE) の会場で発表された主要な研究の1つです。 しかし,従来の文献レビューと比較すると,SLRが本当に必要であるかどうかは理解されていない。 しばしばSEの研究者たちは疑念を持ってSLRに乗り出す。 私たちは、slrがいつ行われるべきかをより理解したいと考えています。 目的]本研究の第1段階は,研究トピックや領域の発達を示すSLRにおいて,レビュー論文のデータセットに焦点を当てた。 このステップの目的は、SEにおけるSLRのデータセットの特徴をよりよく理解することである。 方法]トップクラスのseジャーナルに掲載された170のslrのサンプルを用いて研究合成を行った。 これらのSLRのデータセットの量的属性を抽出し分析した。 その結果, サンプル中のデータセットの中央値サイズは57紙であり, 調査期間は14年であった。 レビュー論文の数とレビュー期間は、非常に弱く、重要な正の相関がある。 結論]本研究の結果はSE研究者によって,SLRが良好なタイミングで実施されているかどうかの指標やベンチマークとして利用することができる。

[Context] Systematic Literature Review (SLR) has been a major type of study published in Software Engineering (SE) venues for about two decades. However, there is a lack of understanding of whether an SLR is really needed in comparison to a more conventional literature review. Very often, SE researchers embark on an SLR with such doubts. We aspire to provide more understanding of when an SLR in SE should be conducted. [Objective] The first step of our investigation was focused on the dataset, i.e., the reviewed papers, in an SLR, which indicates the development of a research topic or area. The objective of this step is to provide a better understanding of the characteristics of the datasets of SLRs in SE. [Method] A research synthesis was conducted on a sample of 170 SLRs published in top-tier SE journals. We extracted and analysed the quantitative attributes of the datasets of these SLRs. [Results] The findings show that the median size of the datasets in our sample is 57 reviewed papers, and the median review period covered is 14 years. The number of reviewed papers and review period have a very weak and non-significant positive correlation. [Conclusions] The results of our study can be used by SE researchers as an indicator or benchmark to understand whether an SLR is conducted at a good time.
翻訳日:2023-10-23 17:45:06 公開日:2023-07-12
# 自動ログ生成におけるLCMの有効性を探る:実証的研究

Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study ( http://arxiv.org/abs/2307.05950v1 )

ライセンス: Link先を確認
Yichen Li, Yintong Huo, Zhihan Jiang, Renyi Zhong, Pinjia He, Yuxin Su, Michael R. Lyu(参考訳) 自動ロギングステートメント生成技術は、開発者がソフトウェアの振る舞いを文書化する適切なロギングステートメントを書くのに役立つ。 現在の検索ベースおよび学習ベースのロギング手法は、複雑なソフトウェアで正確なロギングステートメントを提供できない。 既存の大規模言語モデル(LLM)は、自然言語生成とプログラミング言語理解において大きな成功を収めたために、このタスクに適しているかもしれないが、その有効性と一般化能力は検討されていない。 そこで本稿では,ロギングステートメント生成にLLMを適用した最初の大規模研究を行う。 最初のロギングステートメント生成データセットであるLogBenchを構築します。 LogBenchでは、60Mから175Bの汎用およびコード固有モデルを含む8つの最先端LCMの有効性と一般化能力を評価する。 具体的には,LLMのロギングの有効性を研究によって評価する。 1) 伐採材料を決定する能力 2 LLMの内部特性の影響、及び 3)外部要因の影響。 さらに,LLMのロギング一般化機能について,コード変換手法から導出した未確認データを用いて評価する。 本研究は,既存のLCMが適切なロギング文を生成するための実践的な要件を満たさないことを示す。 また,自動ロギングにおけるLCMの内部特性と外部要因の影響を明らかにした。 さらに,既存のLLMでは,未確認コードのロギングには一般化できないこと,不満足な一般化能力を明らかにする。 本稿では,ロギング品質の統一化,共有可能なコード知識のLLMへの組み込み,適切なプロンプトの考案など,ロギングステートメント生成を将来的に向上させる上での3つの意味について考察する。

Automated logging statement generation techniques facilitate developers in writing appropriate logging statements that document software behaviors. Current retrieval-based and learning-based logging methods fail to provide accurate logging statements in complex software. Although existing large language models (LLMs) might be a good fit for the task due to their great success in natural language generation and programming language comprehension, their effectiveness and generalization capabilities have not been explored. To this end, this paper performs the first extensive study on applying LLMs for logging statement generation. We build LogBench, the first logging statement generation dataset. On LogBench, we evaluate the effectiveness and generalization capabilities of eight state-of-the-art LLMs, which include general-purpose and code-specific models ranging from 60M to 175B in size. Specifically, we evaluate LLM's logging effectiveness by studying 1) their ability to decide logging ingredients, 2) the impact of the internal characteristics of LLMs, and 3) the influence of external factors. We further evaluate LLM's logging generalization capabilities using unseen data derived from code transformation techniques. Our study demonstrates that existing LLMs fall short of practical requirements for generating proper logging statement texts. We also disclose the impact of internal characteristics and external factors for LLMs in automated logging. In addition, we observe that existing LLMs cannot generalize to logging unseen code, revealing their unsatisfactory generalization capabilities. Based on our findings, we further discuss three implications that can enhance logging statement generation in the future, such as developing a unified metric for logging quality, incorporating shareable code knowledge into LLMs, and devising suitable prompts.
翻訳日:2023-10-23 17:44:27 公開日:2023-07-12
# テストケースの品質:信念と証拠に関する実証的研究

Test case quality: an empirical study on belief and evidence ( http://arxiv.org/abs/2307.06410v1 )

ライセンス: Link先を確認
Daniel Lucr\'edio, Auri Marcelo Rizzo Vincenzi, Eduardo Santana de Almeida, Iftekhar Ahmed(参考訳) バグはソフトウェア開発における現実であるため、ソフトウェアテストはあらゆる深刻なソフトウェア開発プロセスにおいて必須の活動です。 優れたテストはバグを見つけるのに効果的ですが、テストケースが実際にバグを見つけるまで、その効果は依然として不明です。 したがって、良いテストや悪いテストを構成するものを決定する必要がある。 これは単純なタスクではなく、良いテストケースの異なる特性を特定する多くの研究があります。 以前の研究では、良いテストケースを構成するものについて29の仮説を評価したが、結果は主観的で偏りのある開発者の信念に基づいている。 本稿では,これら8つの仮説について,オープンソフトウェアリポジトリに基づく広範な実証的研究を通して検討する。 最善の努力にもかかわらず、我々はこれらの信念を支持する証拠を見つけることができなかった。 これは、これらの仮説が優れたソフトウェアエンジニアリングのアドバイスを表しているが、必ずしも良いテストコードの望ましい結果を提供するのに十分であるという意味ではないことを示している。

Software testing is a mandatory activity in any serious software development process, as bugs are a reality in software development. This raises the question of quality: good tests are effective in finding bugs, but until a test case actually finds a bug, its effectiveness remains unknown. Therefore, determining what constitutes a good or bad test is necessary. This is not a simple task, and there are a number of studies that identify different characteristics of a good test case. A previous study evaluated 29 hypotheses regarding what constitutes a good test case, but the findings are based on developers' beliefs, which are subjective and biased. In this paper we investigate eight of these hypotheses, through an extensive empirical study based on open software repositories. Despite our best efforts, we were unable to find evidence that supports these beliefs. This indicates that, although these hypotheses represent good software engineering advice, they do not necessarily mean that they are enough to provide the desired outcome of good testing code.
翻訳日:2023-10-23 17:31:59 公開日:2023-07-12
# 実世界データによるzkpフレームワークのデプロイ:課題と提案ソリューション

Deploying ZKP Frameworks with Real-World Data: Challenges and Proposed Solutions ( http://arxiv.org/abs/2307.06408v1 )

ライセンス: Link先を確認
Piergiuseppe Mallozzi(参考訳) ゼロ知識証明(ZKP)フレームワークは、さまざまなドメインにおける機密データの処理に革命をもたらす可能性がある。 しかしながら、実世界のデータを使ったzkpフレームワークのデプロイには、スケーラビリティ、ユーザビリティ、相互運用性など、いくつかの課題がある。 本稿では,一般文のゼロ知識証明を設計,展開するためのエンドツーエンドフレームワークであるFact Fortressを紹介する。 当社のソリューションでは,データ生成証明と監査可能なデータアクセスポリシを活用して,機密性の高いデータの処理方法の信頼性を確保し,処理された計算の保証を行う。 ZKPは主にブロックチェーン技術に関連しており、ロールアップを通じてトランザクションのプライバシとスケーラビリティを高め、ブロックチェーン固有のデータに対処する。 このアプローチでは、ブロックチェーンが公開監査可能なインフラストラクチャとして機能し、ZK証明の有効性を確認し、データ自体を公開せずにデータアクセスが許可されたかを追跡することにより、ブロックチェーン外部のデータプライバシの保護に重点を置いています。 さらに,本フレームワークは,演算回路を気にすることなく複雑な計算を表現し,オンチェーン検証のデプロイを容易にする高レベルの抽象化を提供する。 当社のアプローチは,大規模なデータセットに対して公平なスケーラビリティを示すものだが,まだ改善の余地があり,スケーラビリティの向上にはさらなる作業が必要である。 データそのものに関する情報を明かさずに、計算とデータのオンチェーン検証を可能にすることにより、プライバシを保ちながら、データの計算の完全性を保証する。

Zero-knowledge proof (ZKP) frameworks have the potential to revolutionize the handling of sensitive data in various domains. However, deploying ZKP frameworks with real-world data presents several challenges, including scalability, usability, and interoperability. In this project, we present Fact Fortress, an end-to-end framework for designing and deploying zero-knowledge proofs of general statements. Our solution leverages proofs of data provenance and auditable data access policies to ensure the trustworthiness of how sensitive data is handled and provide assurance of the computations that have been performed on it. ZKP is mostly associated with blockchain technology, where it enhances transaction privacy and scalability through rollups, addressing the data inherent to the blockchain. Our approach focuses on safeguarding the privacy of data external to the blockchain, with the blockchain serving as publicly auditable infrastructure to verify the validity of ZK proofs and track how data access has been granted without revealing the data itself. Additionally, our framework provides high-level abstractions that enable developers to express complex computations without worrying about the underlying arithmetic circuits and facilitates the deployment of on-chain verifiers. Although our approach demonstrated fair scalability for large datasets, there is still room for improvement, and further work is needed to enhance its scalability. By enabling on-chain verification of computation and data provenance without revealing any information about the data itself, our solution ensures the integrity of the computations on the data while preserving its privacy.
翻訳日:2023-10-23 17:31:45 公開日:2023-07-12
# マルチモーダル電気生理学的多頭注意コントラスト学習に基づく感情認識

Emotion recognition based on multi-modal electrophysiology multi-head attention Contrastive Learning ( http://arxiv.org/abs/2308.01919v1 )

ライセンス: Link先を確認
Yunfei Guo, Tao Zhang, Wu Huang(参考訳) 感情認識は人工知能の重要な研究方向であり、機械が人間の感情状態を理解し適応するのを助ける。 脳波、GSR、呼吸(Resp)、温度(Temp)などのマルチモーダル電気生理学的(ME)信号は、人間の感情の変化を反映する効果的なバイオマーカーである。 しかし、感情認識に電気生理学的信号を用いることは、データの不足、一貫性のないラベリング、個人間一般化の困難といった課題に直面している。 そこで本研究では,無ラベル電気生理学的信号から有意義な特徴表現を学習し,特徴融合のためのマルチヘッド注意機構を用いて認識性能を向上させるための,自己教師付きコントラスト学習に基づくマルチモーダル感情認識手法であるme-mhaclを提案する。 提案手法は,まずMeiosis法を用いて,無ラベルの電気生理学的信号をグループ化し,自己監督型コントラスト学習タスクを設計し,さらに,訓練された特徴抽出器をラベル付き電気生理学的信号に適用し,特徴融合にマルチヘッドアテンション機構を用いる。 我々は,2つの公開データセットであるDEAPとMAHNOB-HCIについて実験を行った。

Emotion recognition is an important research direction in artificial intelligence, helping machines understand and adapt to human emotional states. Multimodal electrophysiological(ME) signals, such as EEG, GSR, respiration(Resp), and temperature(Temp), are effective biomarkers for reflecting changes in human emotions. However, using electrophysiological signals for emotion recognition faces challenges such as data scarcity, inconsistent labeling, and difficulty in cross-individual generalization. To address these issues, we propose ME-MHACL, a self-supervised contrastive learning-based multimodal emotion recognition method that can learn meaningful feature representations from unlabeled electrophysiological signals and use multi-head attention mechanisms for feature fusion to improve recognition performance. Our method includes two stages: first, we use the Meiosis method to group sample and augment unlabeled electrophysiological signals and design a self-supervised contrastive learning task; second, we apply the trained feature extractor to labeled electrophysiological signals and use multi-head attention mechanisms for feature fusion. We conducted experiments on two public datasets, DEAP and MAHNOB-HCI, and our method outperformed existing benchmark methods in emotion recognition tasks and had good cross-individual generalization ability.
翻訳日:2023-08-14 02:06:45 公開日:2023-07-12
# 機械学習を用いた南アフリカのTwitterデータからのCOVID-19ワクチン接種状況の検出

Detecting the Presence of COVID-19 Vaccination Hesitancy from South African Twitter Data Using Machine Learning ( http://arxiv.org/abs/2307.15072v1 )

ライセンス: Link先を確認
Nicholas Perikli, Srimoy Bhattacharya, Blessing Ogbuokiri, Zahra Movahedi Nia, Benjamin Lieberman, Nidhi Tripathi, Salah-Eddine Dahbi, Finn Stevenson, Nicola Bragazzi, Jude Kong, Bruce Mellado(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、南アフリカのユーザー生成コンテンツに関するソーシャルメディアの研究はほとんど行われていない。 ワクチン接種はパンデミックと戦う主要なツールだが、ワクチンのヘシタシーは公衆衛生の努力を危険にさらしている。 本研究では,AIによる分類モデルを訓練し,UGCの分類における信頼性を評価することを目的として,ワクチンヘシタシーに関連する南アフリカのツイートに対する感情分析を行った。 南アフリカの30000ツイートのデータセットを抽出し、ポジティブ、ネガティブ、ニュートラルの3つの感情クラスのうちの1つに手でラベル付けした。 使用される機械学習モデルはLSTM、bi-LSTM、SVM、BERT-base-cased、RoBERTa-baseモデルで、そのハイパーパラメータは慎重に選択され、WandBプラットフォームを使用してチューニングされる。 1つは意味論に基づくもので、もう1つはコーパスに基づくものです。 データセット内のつぶやきの事前処理は, それぞれ, 両手法を用いて行った。 すべてのモデルは45$\%$-55$\%$の範囲内でF1スコアが低いことが判明したが、BERTとRoBERTaはいずれも60$\%$と61$\%$の総合的なF1スコアで大幅に改善された。 誤り分類されたRoBERTaモデルのつぶやきに対して,LDAを用いたトピックモデリングを行い,モデルの精度をさらに向上させる方法について考察した。

Very few social media studies have been done on South African user-generated content during the COVID-19 pandemic and even fewer using hand-labelling over automated methods. Vaccination is a major tool in the fight against the pandemic, but vaccine hesitancy jeopardizes any public health effort. In this study, sentiment analysis on South African tweets related to vaccine hesitancy was performed, with the aim of training AI-mediated classification models and assessing their reliability in categorizing UGC. A dataset of 30000 tweets from South Africa were extracted and hand-labelled into one of three sentiment classes: positive, negative, neutral. The machine learning models used were LSTM, bi-LSTM, SVM, BERT-base-cased and the RoBERTa-base models, whereby their hyperparameters were carefully chosen and tuned using the WandB platform. We used two different approaches when we pre-processed our data for comparison: one was semantics-based, while the other was corpus-based. The pre-processing of the tweets in our dataset was performed using both methods, respectively. All models were found to have low F1-scores within a range of 45$\%$-55$\%$, except for BERT and RoBERTa which both achieved significantly better measures with overall F1-scores of 60$\%$ and 61$\%$, respectively. Topic modelling using an LDA was performed on the miss-classified tweets of the RoBERTa model to gain insight on how to further improve model accuracy.
翻訳日:2023-08-06 11:31:45 公開日:2023-07-12
# ランキングの一貫性向上に向けて: 早期広告ランキングのためのマルチタスク学習フレームワーク

Towards the Better Ranking Consistency: A Multi-task Learning Framework for Early Stage Ads Ranking ( http://arxiv.org/abs/2307.11096v1 )

ライセンス: Link先を確認
Xuewei Wang, Qiang Jin, Shengyu Huang, Min Zhang, Xi Liu, Zhengli Zhao, Yukun Chen, Zhengyu Zhang, Jiyan Yang, Ellie Wen, Sagar Chordia, Wenlin Chen, Qin Huang(参考訳) 広告ランキングシステムを検索,早期,最終段階に分割することは,効率と精度のバランスをとるため,大規模広告推薦において一般的な方法である。 アーリーステージランキングは、しばしば効率の良いモデルを使用して、検索された広告から候補を生成する。 その後、候補者はより計算集約的だが正確な最終段階ランキングシステムに入力され、最終的な広告推薦が作成される。 初期段階と最終段階のランキングはシステムの制約のために異なる特徴とモデルアーキテクチャを使用するため、早期段階が低い広告リコール、すなわち最終段階のトップ広告が早い段階に低いランクでランク付けされるような、深刻なランキング一貫性の問題が発生する。 最終段階から最終段階までの優れた広告を配信するために,複数の最終段階ランキングコンポーネント(広告クリックや広告品質イベント)とそのタスクの関係をキャプチャする,早期段階ランキングのためのマルチタスク学習フレームワークを提案する。 マルチタスク学習フレームワークでは,モデル統合によるコスト削減を実現するだけでなく,広告のリコールやランキングの一貫性も向上しています。 オンラインa/bテストでは,大規模産業広告ランキングシステムにおいて,クリックスルー率(ctr),コンバージョン率(cvr),総価値,広告品質(広告クロスアウト率の低減など)が有意に向上した。

Dividing ads ranking system into retrieval, early, and final stages is a common practice in large scale ads recommendation to balance the efficiency and accuracy. The early stage ranking often uses efficient models to generate candidates out of a set of retrieved ads. The candidates are then fed into a more computationally intensive but accurate final stage ranking system to produce the final ads recommendation. As the early and final stage ranking use different features and model architectures because of system constraints, a serious ranking consistency issue arises where the early stage has a low ads recall, i.e., top ads in the final stage are ranked low in the early stage. In order to pass better ads from the early to the final stage ranking, we propose a multi-task learning framework for early stage ranking to capture multiple final stage ranking components (i.e. ads clicks and ads quality events) and their task relations. With our multi-task learning framework, we can not only achieve serving cost saving from the model consolidation, but also improve the ads recall and ranking consistency. In the online A/B testing, our framework achieves significantly higher click-through rate (CTR), conversion rate (CVR), total value and better ads-quality (e.g. reduced ads cross-out rate) in a large scale industrial ads ranking system.
翻訳日:2023-07-30 04:25:26 公開日:2023-07-12
# Pathway: 分析および機械学習アプリケーションのための高速で柔軟な統一ストリームデータ処理フレームワーク

Pathway: a fast and flexible unified stream data processing framework for analytical and Machine Learning applications ( http://arxiv.org/abs/2307.13116v1 )

ライセンス: Link先を確認
Michal Bartoszkiewicz, Jan Chorowski, Adrian Kosowski, Jakub Kowalski, Sergey Kulik, Mateusz Lewandowski, Krzysztof Nowicki, Kamil Piechowiak, Olivier Ruas, Zuzanna Stamirowska, Przemyslaw Uznanski(参考訳) 我々は、バウンダリデータストリームとアンバウンドデータストリームの両方でワークロードを実行できる、新しい統合データ処理フレームワークであるpathwayを提案する。 このフレームワークは、IoTやエンタープライズシステムによって生成されたデータのストリームを含む物理的な経済からのデータを分析し処理する際に直面する課題を解決するという、元々のモチベーションによって作成された。 これらは、高度な計算パラダイム(機械学習による分析、コンテキスト分析、および複雑なイベント処理の他の要素)の適用を呼びかけながら、迅速な反応を必要とした。 pathはpythonとpython/sqlのワークフロー用にカスタマイズされたテーブルapiを備えており、rust内の分散インクリメンタルデータフローで動作する。 両シナリオで最先端の業界フレームワークを越えられるような,バッチおよびストリーミングの両コンテキストにおいて,その能力を示すベンチマーク結果について述べる。 また、ストリーミング反復グラフアルゴリズム(ページランクなど)のような最先端の業界フレームワークでは容易に解決できない経路によって処理されるストリーミングのユースケースについても論じる。

We present Pathway, a new unified data processing framework that can run workloads on both bounded and unbounded data streams. The framework was created with the original motivation of resolving challenges faced when analyzing and processing data from the physical economy, including streams of data generated by IoT and enterprise systems. These required rapid reaction while calling for the application of advanced computation paradigms (machinelearning-powered analytics, contextual analysis, and other elements of complex event processing). Pathway is equipped with a Table API tailored for Python and Python/SQL workflows, and is powered by a distributed incremental dataflow in Rust. We describe the system and present benchmarking results which demonstrate its capabilities in both batch and streaming contexts, where it is able to surpass state-of-the-art industry frameworks in both scenarios. We also discuss streaming use cases handled by Pathway which cannot be easily resolved with state-of-the-art industry frameworks, such as streaming iterative graph algorithms (PageRank, etc.).
翻訳日:2023-07-30 04:06:40 公開日:2023-07-12
# SSVEPに基づくBCI車椅子制御システム

SSVEP-Based BCI Wheelchair Control System ( http://arxiv.org/abs/2307.08703v1 )

ライセンス: Link先を確認
Ce Zhou (Michigan State University)(参考訳) 脳-コンピュータインタフェース (BCI) は、末梢神経や筋肉の通常の出力経路に依存することなく、周囲のコミュニケーションや制御を可能にするシステムである。 多くのアプリケーションがBCIの利点を利用して、障害者にいわゆる補助技術で支援している。 BCIの使用には制限が少なく、大きな可能性を秘めているため、このプロジェクトは脳信号を介して電子車椅子の動きを制御することが提案されている。 このプロジェクトの目標は、障害者、特に運動障害に苦しむ麻痺した人々を助け、生活の質を改善することにある。 上記のプロジェクトを実現するため、Steady-State Visual Evoked Potential (SSVEP) が関与している。 被写体が焦点を合わせているのと同じ周波数の視覚皮質で容易に誘発することができる。 このプロジェクトには2つの重要な部分がある。 1つは脳波信号を処理し、もう1つはハードウェアを使って視覚刺激器を作ることである。 EEG信号は、Butterworth Infinite Impulse Response(IIR)バンドパスフィルタ(前処理)とFast Fourier Transform(FFT)(特徴抽出)のアルゴリズムを用いて、Matlabで処理される。 また,分類部にハーモニクスに基づく分類法を提案し,適用した。 さらに、この視覚刺激器の設計は、LEDをフリックとして、LCDを情報表示器として一つのパネル上に組み合わせている。 マイクロコントローラは、SSVEP視覚刺激パネルを制御するために使用される。 このプロジェクトは人種や年齢の異なる被験者によって評価される。 実験の結果,システムは操作が容易で,約1秒の時間遅延が達成できることがわかった。 そこで、このSSVEPベースのBCI制御車椅子は、将来障害者に適用される可能性が大きいことを実証した。

A brain-computer interface (BCI) is a system that allows a person to communicate or control the surroundings without depending on the brain's normal output pathways of peripheral nerves and muscles. A lot of successful applications have arisen utilizing the advantages of BCI to assist disabled people with so-called assistive technology. Considering using BCI has fewer limitations and huge potential, this project has been proposed to control the movement of an electronic wheelchair via brain signals. The goal of this project is to help disabled people, especially paralyzed people suffering from motor disabilities, improve their life qualities. In order to realize the project stated above, Steady-State Visual Evoked Potential (SSVEP) is involved. It can be easily elicited in the visual cortical with the same frequency as the one is being focused by the subject. There are two important parts in this project. One is to process the EEG signals and another one is to make a visual stimulator using hardware. The EEG signals are processed in Matlab using the algorithm of Butterworth Infinite Impulse Response (IIR) bandpass filter (for preprocessing) and Fast Fourier Transform (FFT) (for feature extraction). Besides, a harmonics-based classification method is proposed and applied in the classification part. Moreover, the design of the visual stimulator combines LEDs as flickers and LCDs as information displayers on one panel. Microcontrollers are employed to control the SSVEP visual stimuli panel. This project is evaluated by subjects with different races and ages. Experimental results show the system is easy to be operated and it can achieve approximately a minimum 1-second time delay. So it demonstrates that this SSVEP-based BCI-controlled wheelchair has a huge potential to be applied to disabled people in the future.
翻訳日:2023-07-23 12:17:45 公開日:2023-07-12
# 自動運転車の軌道予測のための機械学習: 総合的な調査, 課題, 今後の研究方向

Machine Learning for Autonomous Vehicle's Trajectory Prediction: A comprehensive survey, Challenges, and Future Research Directions ( http://arxiv.org/abs/2307.07527v1 )

ライセンス: Link先を確認
Vibha Bharilya, Neetesh Kumar(参考訳) 自律走行車(AV)は、人間のドライバーを高度なコンピュータ支援による意思決定システムに置き換えることで、有望なソリューションとして登場した。 しかし、avsが道路を効果的に走行するためには、人間ドライバーの予測運転能力と同様に、近くの交通参加者の将来の行動を予測する能力を持つ必要がある。 既存の文献に基づく構築は、自動運転の文脈において、分野を前進させ、軌道予測手法の包括的な理解を深める上で不可欠である。 このニーズに対応するため,我々はavsの軌道予測法に着目し,深層学習や強化学習に基づくアプローチを含む機械学習技術に注目した総合的なレビューを行った。 AVの文脈における軌道予測に関する200以上の研究を幅広く検討した。 本稿は、車両軌道の予測に関する一般的な問題の導入から始まり、主要な概念と用語の概要を概説する。 従来の手法を概観した後,いくつかの深層学習に基づく手法を総合的に評価した。 各メソッドは簡潔に要約され、その強みと弱みを詳細に分析する。 この議論はさらに強化学習に基づく手法にまで拡張された。 本稿では,軌道予測タスクで一般的に使用される各種データセットと評価指標についても検討する。 偏見のない客観的な議論を行ない、特定の機能的特徴を考慮した2つの主要な学習プロセスを比較する。 既存の文献の課題を特定し,潜在的研究の方向性を概説することにより,AV軌道予測領域における知識の進歩に大きく貢献する。

Autonomous Vehicles (AVs) have emerged as a promising solution by replacing human drivers with advanced computer-aided decision-making systems. However, for AVs to effectively navigate the road, they must possess the capability to predict the future behavior of nearby traffic participants, similar to the predictive driving abilities of human drivers. Building upon existing literature is crucial to advance the field and develop a comprehensive understanding of trajectory prediction methods in the context of automated driving. To address this need, we have undertaken a comprehensive review that focuses on trajectory prediction methods for AVs, with a particular emphasis on machine learning techniques including deep learning and reinforcement learning-based approaches. We have extensively examined over two hundred studies related to trajectory prediction in the context of AVs. The paper begins with an introduction to the general problem of predicting vehicle trajectories and provides an overview of the key concepts and terminology used throughout. After providing a brief overview of conventional methods, this review conducts a comprehensive evaluation of several deep learning-based techniques. Each method is summarized briefly, accompanied by a detailed analysis of its strengths and weaknesses. The discussion further extends to reinforcement learning-based methods. This article also examines the various datasets and evaluation metrics that are commonly used in trajectory prediction tasks. Encouraging an unbiased and objective discussion, we compare two major learning processes, considering specific functional features. By identifying challenges in the existing literature and outlining potential research directions, this review significantly contributes to the advancement of knowledge in the domain of AV trajectory prediction.
翻訳日:2023-07-23 12:16:39 公開日:2023-07-12
# SAM-Path:デジタル病理におけるセマンティックセグメンテーションのためのセグメンテーションモデル

SAM-Path: A Segment Anything Model for Semantic Segmentation in Digital Pathology ( http://arxiv.org/abs/2307.09570v1 )

ライセンス: Link先を確認
Jingwei Zhang, Ke Ma, Saarthak Kapse, Joel Saltz, Maria Vakalopoulou, Prateek Prasanna, Dimitris Samaras(参考訳) 病理組織のセマンティックセグメンテーションは、計算病理ワークフローにおいて重要な臨床的価値を持っている。 Segment Anything Model (SAM) のような基礎モデルは、最近セグメンテーションタスクで普遍的に使用されるように提案されている。 samは、自然画像のセグメンテーションの例で注目すべき約束を示している。 しかし, (1) SAMトレーニングで使用される包括的病理データセットの欠如, (2) SAMの設計はセマンティックセグメンテーションタスクに本質的に最適化されていない。 本研究では,学習可能なクラスプロンプトの導入による意味セグメンテーションへのsamの適用と,病理エンコーダ,特に病理基盤モデルの導入によるさらなる拡張について述べる。 我々のフレームワークSAM-Pathは、人間の入力プロンプトを使わずに、デジタル病理のセマンティックセグメンテーションを行うSAMの能力を高める。 BCSSとCRAGの2つの公開病理データセットの実験を通じて、トレーニング可能なクラスによる微調整が、手動によるプロンプトと後処理でバニラSAMを27.52%、IOUが71.63%上回ることを示す。 これら2つのデータセットに基づいて、提案された病理基盤モデルにより、Diceスコアの5.07%から5.12%、IOUの4.50%から8.48%の相対的な改善が達成される。

Semantic segmentations of pathological entities have crucial clinical value in computational pathology workflows. Foundation models, such as the Segment Anything Model (SAM), have been recently proposed for universal use in segmentation tasks. SAM shows remarkable promise in instance segmentation on natural images. However, the applicability of SAM to computational pathology tasks is limited due to the following factors: (1) lack of comprehensive pathology datasets used in SAM training and (2) the design of SAM is not inherently optimized for semantic segmentation tasks. In this work, we adapt SAM for semantic segmentation by introducing trainable class prompts, followed by further enhancements through the incorporation of a pathology encoder, specifically a pathology foundation model. Our framework, SAM-Path enhances SAM's ability to conduct semantic segmentation in digital pathology without human input prompts. Through experiments on two public pathology datasets, the BCSS and the CRAG datasets, we demonstrate that the fine-tuning with trainable class prompts outperforms vanilla SAM with manual prompts and post-processing by 27.52% in Dice score and 71.63% in IOU. On these two datasets, the proposed additional pathology foundation model further achieves a relative improvement of 5.07% to 5.12% in Dice score and 4.50% to 8.48% in IOU.
翻訳日:2023-07-23 11:55:49 公開日:2023-07-12
# 協調フィルタリングにおける高パラメータと構造探索の効率化

Efficient and Joint Hyperparameter and Architecture Search for Collaborative Filtering ( http://arxiv.org/abs/2307.11004v1 )

ライセンス: Link先を確認
Yan Wen, Chen Gao, Lingling Yi, Liwei Qiu, Yaqing Wang, Yong Li(参考訳) 自動機械学習(AutoML)技術は、データ固有の方法で協調フィルタリング(CF)モデルを設計するために最近導入された。 しかし、既存の研究はアーキテクチャやハイパーパラメータを探索する一方で、それらが本質的に関連しており、一緒に考えるべきであるという事実を無視している。 これにより、CFモデルを設計するための統合ハイパーパラメータとアーキテクチャ探索法を考えることができる。 しかし,大規模な検索スペースと高い評価コストのため,これは容易ではない。 これらの課題を解決するために,各ハイパーパラメータの包括的理解を通じてyperパラメータの選択の有用性をスクリーニングすることにより,空間を縮小する。 次に,縮小空間から適切な構成を求めるための2段階探索アルゴリズムを提案する。 第1段階では、サブサンプルデータセットからの知識を活用して評価コストを削減する。第2段階では、データセット全体の上位候補モデルを効率的に微調整する。 実世界のデータセットに関する広範囲な実験は、ハンドデザインモデルと以前の検索モデルの両方と比較して、パフォーマンスが向上することを示している。 また,アブレーションとケーススタディは,検索フレームワークの有効性を示す。

Automated Machine Learning (AutoML) techniques have recently been introduced to design Collaborative Filtering (CF) models in a data-specific manner. However, existing works either search architectures or hyperparameters while ignoring the fact they are intrinsically related and should be considered together. This motivates us to consider a joint hyperparameter and architecture search method to design CF models. However, this is not easy because of the large search space and high evaluation cost. To solve these challenges, we reduce the space by screening out usefulness yperparameter choices through a comprehensive understanding of individual hyperparameters. Next, we propose a two-stage search algorithm to find proper configurations from the reduced space. In the first stage, we leverage knowledge from subsampled datasets to reduce evaluation costs; in the second stage, we efficiently fine-tune top candidate models on the whole dataset. Extensive experiments on real-world datasets show better performance can be achieved compared with both hand-designed and previous searched models. Besides, ablation and case studies demonstrate the effectiveness of our search framework.
翻訳日:2023-07-23 11:09:35 公開日:2023-07-12
# エンハンサー関連転写因子結合を同定する有意な反復的ランダム森林

Signed iterative random forests to identify enhancer-associated transcription factor binding ( http://arxiv.org/abs/1810.07287v2 )

ライセンス: Link先を確認
Karl Kumbier and Sumanta Basu and Erwin Frise and Susan E. Celniker and James B. Brown and Susan Celniker and Bin Yu(参考訳) 標準的なChIP-seqピーク呼び出しパイプラインは、個々のゲノム要素の生化学的に再現可能な信号を背景ノイズと区別しようとする。 しかし、再現性だけでは機能的制御(エンハンサー活性化や代替スプライシングなど)は含まない。 そこで本研究では,ショウジョウバエのエンハンサー要素を取り巻く転写因子と機能的結合因子の制御相互作用を推測するために,シリンダー・イテレーティブ・ランダム・フォレスト(siRF)を同定する汎用機械学習手法を提案する。

Standard ChIP-seq peak calling pipelines seek to differentiate biochemically reproducible signals of individual genomic elements from background noise. However, reproducibility alone does not imply functional regulation (e.g., enhancer activation, alternative splicing). Here we present a general-purpose, interpretable machine learning method: signed iterative random forests (siRF), which we use to infer regulatory interactions among transcription factors and functional binding signatures surrounding enhancer elements in Drosophila melanogaster.
翻訳日:2023-07-17 17:47:10 公開日:2023-07-12
# カオスを受け入れる:変動流における数値不安定の解析と診断

Embracing the chaos: analysis and diagnosis of numerical instability in variational flows ( http://arxiv.org/abs/2307.06957v1 )

ライセンス: Link先を確認
Zuheng Xu, Trevor Campbell(参考訳) 本稿では,変動流における数値不安定性がサンプリングの信頼性,密度評価,エビデンスローバウンド(elbo)推定に与える影響について検討する。 数値フローマップは正確なマップ(サンプリングに影響する)から大きく逸脱し、数値逆フローマップは、密度とelbo計算に影響を与える初期入力を正確に回復することができない。 驚くべきことに、深刻な数値不安定が存在するにもかかわらず、流れによって生じる結果は、応用に十分正確であることが多い。 本研究では, 変動流を力学系として扱い, シャドーイング理論を活用し, サンプリング誤差, 密度評価, ELBO推定の理論的保証により, この挙動を解明する。 最後に,数値的に不安定な流れによる結果の検証に使用できる診断手法を開発し,実証的に検証する。

In this paper, we investigate the impact of numerical instability on the reliability of sampling, density evaluation, and evidence lower bound (ELBO) estimation in variational flows. We first empirically demonstrate that common flows can exhibit a catastrophic accumulation of error: the numerical flow map deviates significantly from the exact map -- which affects sampling -- and the numerical inverse flow map does not accurately recover the initial input -- which affects density and ELBO computations. Surprisingly though, we find that results produced by flows are often accurate enough for applications despite the presence of serious numerical instability. In this work, we treat variational flows as dynamical systems, and leverage shadowing theory to elucidate this behavior via theoretical guarantees on the error of sampling, density evaluation, and ELBO estimation. Finally, we develop and empirically test a diagnostic procedure that can be used to validate results produced by numerically unstable flows in practice.
翻訳日:2023-07-17 16:11:56 公開日:2023-07-12
# 深い強結合における寒冷原子をもつ周期量子ラビモデル

Periodic quantum Rabi model with cold atoms at deep strong coupling ( http://arxiv.org/abs/2307.06956v1 )

ライセンス: Link先を確認
Geram R. Hunanyan, Johannes Koch, Stefanie Moll, Enrique Rico, Enrique Solano, and Martin Weitz(参考訳) 量子ラビモデルは、2状態系のボゾン場モードへの結合を記述する。 近年の研究では、超伝導量子ビット設定に適用可能なハミルトンに写像するこのモデルの一般化された周期バージョンが、冷たく閉じ込められた原子で量子シミュレーションできることが指摘されている。 ここでは, 周期的量子ラビモデルによって予測される原子動力学を, 深い強結合状態から遠ざかって実験的に実証する。 本実装では,2状態系を光格子内の2つのブロッホバンドで表現し,重畳した光双極子トラップポテンシャルの振動によりボソニックモードを表現した。 通常の量子ラビ物理学を超えて観測される特性ダイナミクスは、ブリルアンゾーンの端に到達し、極端に結合した状態で初期状態の崩壊と回復の証拠を明らかにすることで関係する。

The quantum Rabi model describes the coupling of a two-state system to a bosonic field mode. Recent work has pointed out that a generalized periodic version of this model, which maps onto Hamiltonians applicable in superconducting qubit settings, can be quantum simulated with cold trapped atoms. Here we experimentally demonstrate atomic dynamics predicted by the periodic quantum Rabi model far in the deep strong coupling regime. In our implementation, the two-state system is represented by two Bloch bands of cold atoms in an optical lattice, and the bosonic mode by oscillations in a superimposed optical dipole trap potential. The observed characteristic dynamics beyond usual quantum Rabi physics becomes relevant upon that the edge of the Brillouin zone is reached, and evidence for collapse and revival of the initial state is revealed at extreme coupling conditions.
翻訳日:2023-07-17 16:11:39 公開日:2023-07-12
# ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task

ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task ( http://arxiv.org/abs/2307.06954v1 )

ライセンス: Link先を確認
Giuseppe Russo, Niklas Stoehr, Manoel Horta Ribeiro(参考訳) 共謀理論の証明タスクは、エヴァリタ2023で初めて提案された新しい共有タスクである。 actiチャレンジはtelegramの共謀チャンネルで公開されているコメントのみに基づいており、以下の2つのサブタスクに分割されている。 (i)共謀内容分類:共謀内容の同定及び (ii)特定の共謀理論の分類に関する共謀圏分類。 合計15チームがタスクに参加し、合計81回の応募を行った。 提案手法は,大規模言語モデルの利用に基づくものである。 最後に、オンラインプラットフォームにおける誤情報の拡散防止にこれらのモデルの活用について結論を出す。

Conspiracy Theory Identication task is a new shared task proposed for the first time at the Evalita 2023. The ACTI challenge, based exclusively on comments published on conspiratorial channels of telegram, is divided into two subtasks: (i) Conspiratorial Content Classification: identifying conspiratorial content and (ii) Conspiratorial Category Classification about specific conspiracy theory classification. A total of fifteen teams participated in the task for a total of 81 submissions. We illustrate the best performing approaches were based on the utilization of large language models. We finally draw conclusions about the utilization of these models for counteracting the spreading of misinformation in online platforms.
翻訳日:2023-07-17 16:11:25 公開日:2023-07-12
# 植込み型心臓モニターデータのecg解析 : マルチラベル分類のための効率的なパイプライン

Enhancing ECG Analysis of Implantable Cardiac Monitor Data: An Efficient Pipeline for Multi-Label Classification ( http://arxiv.org/abs/2307.07423v1 )

ライセンス: Link先を確認
Amnon Bleich, Antje Linnemann, Benjamin Jaidi, Bj\"orn H Diem and Tim OF Conrad(参考訳) 植込み型心臓モニター(ICM)は、現在、移植型心臓デバイスで急速に成長している市場である。 そのため、心臓の電気活動を測定する患者ではますます一般的になりつつある。 icmsは、患者の心臓のリズムを常に監視し、記録し、トリガーすると、医療専門家(以下、hcp)がレビューできる安全なサーバーに送る。 これらのデバイスは(エネルギー消費の制約による)比較的単純なルールベースのアルゴリズムを使用して、異常な心臓のリズムを警告する。 このアルゴリズムは通常、ケースを見逃さないために過敏モードにパラメータ化され(比較的高い偽陽性率で表現される)、心臓リズムと人気の高まりを常に監視するデバイスの性質と相まって、HCPはますます増加するデータを分析して診断しなければならない。 後者の負荷を軽減するため,心電図解析の自動化手法が近年,HCPの分析を支援するための優れたツールになりつつある。 state-of-the-artアルゴリズムはルールベースではなくデータ駆動だが、icmのトレーニングデータは、分析をユニークかつ特に困難にする特定の特徴で構成されることが多い。 本研究は,ICMデータの自動解析における課題と解決方法を示し,既存の手法よりも優れた分類法を提案する。 したがって、ICMから派生したECGの分析において、例えばリズムタイプを示唆するHCPを補助するなど、様々な方法で使用することができる。

Implantable Cardiac Monitor (ICM) devices are demonstrating as of today, the fastest-growing market for implantable cardiac devices. As such, they are becoming increasingly common in patients for measuring heart electrical activity. ICMs constantly monitor and record a patient's heart rhythm and when triggered - send it to a secure server where health care professionals (denote HCPs from here on) can review it. These devices employ a relatively simplistic rule-based algorithm (due to energy consumption constraints) to alert for abnormal heart rhythms. This algorithm is usually parameterized to an over-sensitive mode in order to not miss a case (resulting in relatively high false-positive rate) and this, combined with the device's nature of constantly monitoring the heart rhythm and its growing popularity, results in HCPs having to analyze and diagnose an increasingly growing amount of data. In order to reduce the load on the latter, automated methods for ECG analysis are nowadays becoming a great tool to assist HCPs in their analysis. While state-of-the-art algorithms are data-driven rather than rule-based, training data for ICMs often consist of specific characteristics which make its analysis unique and particularly challenging. This study presents the challenges and solutions in automatically analyzing ICM data and introduces a method for its classification that outperforms existing methods on such data. As such, it could be used in numerous ways such as aiding HCPs in the analysis of ECGs originating from ICMs by e.g. suggesting a rhythm type.
翻訳日:2023-07-17 13:21:58 公開日:2023-07-12
# sumformer : 音声認識のためのセルフアテンションに代わる線形複合性

Sumformer: A Linear-Complexity Alternative to Self-Attention for Speech Recognition ( http://arxiv.org/abs/2307.07421v1 )

ライセンス: Link先を確認
Titouan Parcollet and Rogier van Dalen and Shucong Zhang and Sourav Bhattacharya(参考訳) 現代の音声認識システムは自己認識に依存している。 残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論が遅くなり、トレーニングが遅くなり、メモリ消費が増加する。 ASRの自己注意に代わる安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。 しかし実際には、訓練された音声認識者の自己注意重みは、時間とともに世界平均の形をとる。 そこで本稿では,音声認識のための線形時間代替手法を提案する。 これは全ての時間ステップに対して平均オーバーベクターと全発話を要約する。 この単一の要約は、時間固有の情報と組み合わせられる。 私たちはこのメソッドを ``Summary Mixing'' と呼ぶ。 最新のASRモデルにおける要約混合の導入により、トレーニング時間と推論時間を最大27%削減し、メモリ予算を2倍に削減しつつ、従来の音声認識性能を維持または超えることが可能となる。

Modern speech recognition systems rely on self-attention. Unfortunately, token mixing with self-attention takes quadratic time in the length of the speech utterance, slowing down inference as well as training and increasing memory consumption. Cheaper alternatives to self-attention for ASR have been developed, but fail to consistently reach the same level of accuracy. In practice, however, the self-attention weights of trained speech recognizers take the form of a global average over time. This paper, therefore, proposes a linear-time alternative to self-attention for speech recognition. It summarises a whole utterance with the mean over vectors for all time steps. This single summary is then combined with time-specific information. We call this method ``Summary Mixing''. Introducing Summary Mixing in state-of-the-art ASR models makes it feasible to preserve or exceed previous speech recognition performance while lowering the training and inference times by up to 27% and reducing the memory budget by a factor of two.
翻訳日:2023-07-17 13:21:34 公開日:2023-07-12
# 気候不変機械学習

Climate-Invariant Machine Learning ( http://arxiv.org/abs/2112.08440v2 )

ライセンス: Link先を確認
Tom Beucler, Pierre Gentine, Janni Yuval, Ankitesh Gupta, Liran Peng, Jerry Lin, Sungduk Yu, Stephan Rasp, Fiaz Ahmed, Paul A. O'Gorman, J. David Neelin, Nicholas J. Lutsko, Michael Pritchard(参考訳) 気候変動を予測することは一般化の問題であり、過去、現在、そして将来の気候の物理的モデルを用いて最近の過去を外挿する。 現在の気候モデルは、モデル予測の不確実性の主要な原因であるモデルグリッドサイズよりも規模が小さいプロセスの表現を必要とする。 最近の機械学習(ML)アルゴリズムは、そのようなプロセス表現を改善することを約束するが、訓練されていない気候体制に悪影響を及ぼす傾向がある。 物理と統計の世界を最大限に活用するために、我々は、気候プロセスの知識をMLアルゴリズムに取り入れた「気候不変」MLと呼ばれる新しいフレームワークを提案し、3つの異なる大気モデルにおいて、幅広い気候と地理的条件で高い精度を維持することができることを示した。 以上の結果から,地球系プロセスのデータ駆動モデルに物理知識を明示的に組み込むことで,その一貫性,データの効率,一般化性が向上することが示唆された。

Projecting climate change is a generalization problem: we extrapolate the recent past using physical models across past, present, and future climates. Current climate models require representations of processes that occur at scales smaller than model grid size, which have been the main source of model projection uncertainty. Recent machine learning (ML) algorithms hold promise to improve such process representations, but tend to extrapolate poorly to climate regimes they were not trained on. To get the best of the physical and statistical worlds, we propose a new framework -- termed "climate-invariant" ML -- incorporating knowledge of climate processes into ML algorithms, and show that it can maintain high accuracy across a wide range of climate and geographic conditions in three distinct atmospheric models. Our results suggest that explicitly incorporating physical knowledge into data-driven models of Earth system processes can improve their consistency, data efficiency, and generalizability across climate regimes.
翻訳日:2023-07-14 20:06:40 公開日:2023-07-12
# FR3D:等角写像支援畳み込みオートエンコーダによる押出しブラフ体まわりの非定常流れの3次元流れ再構成と力推定

FR3D: Three-dimensional Flow Reconstruction and Force Estimation for Unsteady Flows Around Extruded Bluff Bodies via Conformal Mapping Aided Convolutional Autoencoders ( http://arxiv.org/abs/2302.01802v2 )

ライセンス: Link先を確認
Ali Girayhan \"Ozbay and Sylvain Laizet(参考訳) 多くの実用的な流体力学実験において、速度や圧力などの変数の測定は、少数の2次元平面に対して、またはフロー内の小さな3次元領域に対して、限られた数のセンサー位置においてのみ可能である。 しかし、多くの流れのダイナミクスを理解するためには、全分野の知識が必要である。 近年,この限界を克服する手段として,スパース計測によるフルフローフィールドの深層学習再構築が注目されている。 このタスクは、フロー再構成(FR)タスクと呼ばれる。 本研究では,異なる断面を持つ押出3次元物体のまわりの3次元流れに対してfrを適用可能な畳み込みオートエンコーダに基づくニューラルネットワークモデルfr3dを提案する。 複数の流体ドメインを環状にマッピングする革新的なマッピング手法により、FR3Dはその性能を訓練中に遭遇しない物体に一般化することができる。 この一般化機能を80のトレーニングと20のテストジオメトリからなるデータセットを使って決定的に実証する。 FR3Dモデルは数ポイントの誤差で圧力と速度の成分を再構成する。 さらに,これらの予測値を用いて,q基準場を高精度に推定し,測地線上の揚力と引きずり力を推定した。

In many practical fluid dynamics experiments, measuring variables such as velocity and pressure is possible only at a limited number of sensor locations, \textcolor{black}{for a few two-dimensional planes, or for a small 3D domain in the flow}. However, knowledge of the full fields is necessary to understand the dynamics of many flows. Deep learning reconstruction of full flow fields from sparse measurements has recently garnered significant research interest, as a way of overcoming this limitation. This task is referred to as the flow reconstruction (FR) task. In the present study, we propose a convolutional autoencoder based neural network model, dubbed FR3D, which enables FR to be carried out for three-dimensional flows around extruded 3D objects with different cross-sections. An innovative mapping approach, whereby multiple fluid domains are mapped to an annulus, enables FR3D to generalize its performance to objects not encountered during training. We conclusively demonstrate this generalization capability using a dataset composed of 80 training and 20 testing geometries, all randomly generated. We show that the FR3D model reconstructs pressure and velocity components with a few percentage points of error. Additionally, using these predictions, we accurately estimate the Q-criterion fields as well lift and drag forces on the geometries.
翻訳日:2023-07-14 20:01:50 公開日:2023-07-12
# EPiC-GAN: 粒子噴流の同変点雲生成

EPiC-GAN: Equivariant Point Cloud Generation for Particle Jets ( http://arxiv.org/abs/2301.08128v3 )

ライセンス: Link先を確認
Erik Buhmann, Gregor Kasieczka, Jesse Thaler(参考訳) 現在および将来の高エネルギーコライダー実験の膨大なデータ収集能力により、計算効率のよいシミュレーションへの需要が高まっている。 生成機械学習モデルは、高速なイベント生成を可能にするが、今のところこれらのアプローチは、固定データ構造と固い検出器ジオメトリに大きく制約されている。 本稿では, EPiC-GAN - 同変点雲生成対数ネットワーク - を導入し, 可変多重性を持つ点雲を生成する。 この柔軟な枠組みは深層集合に基づいており、ジェットと呼ばれる粒子の噴霧をシミュレートするのに適している。 ジェネレータと判別器は、解釈可能なグローバル潜在ベクトルを持つ複数のEPiC層を利用する。 重要なことに、EPiC層は粒子間の情報共有に頼らず、より複雑な関係図を持つグラフおよびトランスフォーマーベースのアプローチよりも大幅にスピードアップする。 我々は, EPiC-GAN が大規模粒子乗数によく対応し, ベンチマークジェット生成タスクにおける高次忠実度を実現することを実証した。

With the vast data-collecting capabilities of current and future high-energy collider experiments, there is an increasing demand for computationally efficient simulations. Generative machine learning models enable fast event generation, yet so far these approaches are largely constrained to fixed data structures and rigid detector geometries. In this paper, we introduce EPiC-GAN - equivariant point cloud generative adversarial network - which can produce point clouds of variable multiplicity. This flexible framework is based on deep sets and is well suited for simulating sprays of particles called jets. The generator and discriminator utilize multiple EPiC layers with an interpretable global latent vector. Crucially, the EPiC layers do not rely on pairwise information sharing between particles, which leads to a significant speed-up over graph- and transformer-based approaches with more complex relation diagrams. We demonstrate that EPiC-GAN scales well to large particle multiplicities and achieves high generation fidelity on benchmark jet generation tasks.
翻訳日:2023-07-14 20:01:27 公開日:2023-07-12
# 六方晶窒化ホウ素の強相互作用電子スピン欠陥のコヒーレントダイナミクス

Coherent dynamics of strongly interacting electronic spin defects in hexagonal boron nitride ( http://arxiv.org/abs/2210.11485v3 )

ライセンス: Link先を確認
Ruotian Gong, Guanghui He, Xingyu Gao, Peng Ju, Zhongyuan Liu, Bingtian Ye, Erik A. Henriksen, Tongcang Li, Chong Zu(参考訳) ファンデルワールス材料の光学活性スピン欠陥は、現代の量子技術にとって有望なプラットフォームである。 本研究では, 欠陥密度の異なる六方晶窒化ホウ素 (hbn) における負に荷電されたホウ素空孔(英語版)("\mathrm{v}_{\mathrm{b}}^-$")中心の強相互作用のコヒーレントダイナミクスについて検討する。 異なるデファス源を選択的に分離するために高度な動的デカップリング配列を用いることにより、すべてのhbnサンプルで測定されたコヒーレンス時間の5倍以上の改善が観察される。 重要となるのは、$\mathrm{v}_{\mathrm{b}}^-$アンサンブル内の多体相互作用がコヒーレントダイナミクスにおいて重要な役割を果たすことであり、これは$\mathrm{v}_{\mathrm{b}}^-$ の濃度を直接推定するために用いられる。 高イオン注入量では、生成したホウ素空隙欠陥のごく一部のみが所望の負の荷電状態にあることが判明した。 最後に,局所荷電欠陥誘起電界信号に対する$\mathrm{v}_{\mathrm{b}}^-$のスピン応答を調べ,その基底状態横電界感受性を推定する。 この結果は,hBNの欠陥を量子センサやシミュレータとして将来利用するために重要な$\mathrm{V}_{\mathrm{B}}^-$のスピンおよび電荷特性に関する新たな知見を提供する。

Optically active spin defects in van der Waals materials are promising platforms for modern quantum technologies. Here we investigate the coherent dynamics of strongly interacting ensembles of negatively charged boron-vacancy ($\mathrm{V}_{\mathrm{B}}^-$) centers in hexagonal boron nitride (hBN) with varying defect density. By employing advanced dynamical decoupling sequences to selectively isolate different dephasing sources, we observe more than 5-fold improvement in the measured coherence times across all hBN samples. Crucially, we identify that the many-body interaction within the $\mathrm{V}_{\mathrm{B}}^-$ ensemble plays a substantial role in the coherent dynamics, which is then used to directly estimate the concentration of $\mathrm{V}_{\mathrm{B}}^-$. We find that at high ion implantation dosage, only a small portion of the created boron vacancy defects are in the desired negatively charged state. Finally, we investigate the spin response of $\mathrm{V}_{\mathrm{B}}^-$ to the local charged defects induced electric field signals, and estimate its ground state transverse electric field susceptibility. Our results provide new insights on the spin and charge properties of $\mathrm{V}_{\mathrm{B}}^-$, which are important for future use of defects in hBN as quantum sensors and simulators.
翻訳日:2023-07-14 20:00:36 公開日:2023-07-12
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v5 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。 近似を計算するための効率的なアルゴリズムを更に開発する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet).
翻訳日:2023-07-14 19:48:58 公開日:2023-07-12
# ゼロショットコーディネーションの新しい形式主義, 方法, オープン問題

A New Formalism, Method and Open Issues for Zero-Shot Coordination ( http://arxiv.org/abs/2106.06613v3 )

ライセンス: Link先を確認
Johannes Treutlein, Michael Dennis, Caspar Oesterheld, Jakob Foerster(参考訳) 多くの協調問題において、人間を独立に推論することは相互に互換性のあるポリシーを発見することができる。 対照的に、独立して訓練された自己再生ポリシーは、しばしば相互に相容れない。 ゼロショットコーディネート(ZSC)は、この根本的な問題に対処するためのマルチエージェント強化学習の新たなフロンティアとして提案されている。 事前の作業は、プレイヤーが共有学習アルゴリズムで合意できるが、行動や観察のラベルには同意できないと仮定して、ZSC問題にアプローチし、最適解として他のプレイを提案する。 しかし、これまでこの「ラベルフリー」問題は非公式に定義されただけである。 ラベルフリーコーディネーションゲームを定義することにより、ラベルフリーコーディネーション(LFC)問題としてこの設定を定式化する。 本研究は,LFC問題の最適解ではないことを示し,非互換な最大値間の関係を常に破ることに失敗する。 本稿では,lfc問題の最適解とlfcゲームにおける均衡を証明し,このアルゴリズムの拡張について述べる。 任意のタイブレーキングがZSCの設定の目的であるので、LFC問題はZSCの目的を反映していないと結論付ける。 そこで本稿では,今後の作業の出発点として,ZSCの非公式運用を導入する。

In many coordination problems, independently reasoning humans are able to discover mutually compatible policies. In contrast, independently trained self-play policies are often mutually incompatible. Zero-shot coordination (ZSC) has recently been proposed as a new frontier in multi-agent reinforcement learning to address this fundamental issue. Prior work approaches the ZSC problem by assuming players can agree on a shared learning algorithm but not on labels for actions and observations, and proposes other-play as an optimal solution. However, until now, this "label-free" problem has only been informally defined. We formalize this setting as the label-free coordination (LFC) problem by defining the label-free coordination game. We show that other-play is not an optimal solution to the LFC problem as it fails to consistently break ties between incompatible maximizers of the other-play objective. We introduce an extension of the algorithm, other-play with tie-breaking, and prove that it is optimal in the LFC problem and an equilibrium in the LFC game. Since arbitrary tie-breaking is precisely what the ZSC setting aims to prevent, we conclude that the LFC problem does not reflect the aims of ZSC. To address this, we introduce an alternative informal operationalization of ZSC as a starting point for future work.
翻訳日:2023-07-14 18:04:49 公開日:2023-07-12
# 一つのデモ映像から模倣する学習に向けて

Towards Learning to Imitate from a Single Video Demonstration ( http://arxiv.org/abs/1901.07186v4 )

ライセンス: Link先を確認
Glen Berseth, Florian Golemo, Christopher Pal(参考訳) 与えられたビデオ観察を模倣することを学ぶことができるエージェント -- \emph{without direct access to state or action information]は、自然界での学習にもっと適している。 しかし、この目標を促進する強化学習(RL)エージェントの定式化は依然として大きな課題である。 我々は,エージェントの行動と1つのデモンストレーションを比較する報酬関数を学ぶために,対照的なトレーニングを用いてこの課題にアプローチする。 この距離を最小化するためにRLポリシーをトレーニングしながら、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。 実験により,マルチタスクデータと画像エンコーディングロスの追加により,学習報酬の時間的一貫性が向上し,その結果,ポリシ学習が大幅に向上することが分かった。 2dと4倍体と3dのヒューマノイドをシミュレートしたヒューマノイド,犬,およびラプター剤に対するアプローチを実証した。 提案手法は,これらの環境下での最先端技術よりも優れており,単一のビデオデモから模倣を学べることを示す。

Agents that can learn to imitate given video observation -- \emph{without direct access to state or action information} are more applicable to learning in the natural world. However, formulating a reinforcement learning (RL) agent that facilitates this goal remains a significant challenge. We approach this challenge using contrastive training to learn a reward function comparing an agent's behaviour with a single demonstration. We use a Siamese recurrent neural network architecture to learn rewards in space and time between motion clips while training an RL policy to minimize this distance. Through experimentation, we also find that the inclusion of multi-task data and additional image encoding losses improve the temporal consistency of the learned rewards and, as a result, significantly improves policy learning. We demonstrate our approach on simulated humanoid, dog, and raptor agents in 2D and a quadruped and a humanoid in 3D. We show that our method outperforms current state-of-the-art techniques in these environments and can learn to imitate from a single video demonstration.
翻訳日:2023-07-14 18:02:47 公開日:2023-07-12
# 温暖化起動による胸部X線レポート生成の改善

Improving Chest X-Ray Report Generation by Leveraging Warm Starting ( http://arxiv.org/abs/2201.09405v2 )

ライセンス: Link先を確認
Aaron Nicolson, Jason Dowling, and Bevan Koopman(参考訳) 患者の胸部X線(CXR)からの報告を自動生成することは、臨床負荷を減らし、患者のケアを改善するための有望な解決策である。 しかし、現在のcxrレポートジェネレータ(主にエンコーダからデコーダモデル)は、臨床環境でデプロイされる診断精度を欠いている。 CXRレポート生成を改善するため、最近のオープンソースコンピュータビジョンとViT(Vision Transformer)やPubMedBERT(PubMedBERT)といった自然言語処理チェックポイントを用いて、エンコーダとデコーダを暖かく起動する。 この目的のために、各チェックポイントをMIMIC-CXRとIU X線データセットで評価する。 本研究では, コンボリューションビジョン変換器 (CvT) ImageNet-21K とDistilled Generative Pre-trained Transformer 2 (DistilGPT2) のチェックポイントが, それぞれエンコーダとデコーダを温めるのに最適であることを示す。 CvT2DistilGPT2はCE F-1では8.3\%、BLEU-4では1.8\%、ROUGE-Lでは1.6\%、METEORでは1.0\%向上した。 CvT2DistilGPT2による報告は、以前のアプローチよりも放射線学者の報告に類似している。 これは、ウォームスタートを活用することでCXRレポートの生成が向上することを示している。 CvT2DistilGPT2のコードとチェックポイントはhttps://github.com/aehrc/cvt2distilgpt2で入手できる。

Automatically generating a report from a patient's Chest X-Rays (CXRs) is a promising solution to reducing clinical workload and improving patient care. However, current CXR report generators -- which are predominantly encoder-to-decoder models -- lack the diagnostic accuracy to be deployed in a clinical setting. To improve CXR report generation, we investigate warm starting the encoder and decoder with recent open-source computer vision and natural language processing checkpoints, such as the Vision Transformer (ViT) and PubMedBERT. To this end, each checkpoint is evaluated on the MIMIC-CXR and IU X-Ray datasets. Our experimental investigation demonstrates that the Convolutional vision Transformer (CvT) ImageNet-21K and the Distilled Generative Pre-trained Transformer 2 (DistilGPT2) checkpoints are best for warm starting the encoder and decoder, respectively. Compared to the state-of-the-art ($\mathcal{M}^2$ Transformer Progressive), CvT2DistilGPT2 attained an improvement of 8.3\% for CE F-1, 1.8\% for BLEU-4, 1.6\% for ROUGE-L, and 1.0\% for METEOR. The reports generated by CvT2DistilGPT2 have a higher similarity to radiologist reports than previous approaches. This indicates that leveraging warm starting improves CXR report generation. Code and checkpoints for CvT2DistilGPT2 are available at https://github.com/aehrc/cvt2distilgpt2.
翻訳日:2023-07-14 17:55:30 公開日:2023-07-12
# 量子古典ハイブリッド系とその準自由変換

Quantum-Classical Hybrid Systems and their Quasifree Transformations ( http://arxiv.org/abs/2208.05020v2 )

ライセンス: Link先を確認
Lars Dammeier, Reinhard F. Werner(参考訳) 量子および古典自由度が結合され、同じ基底上で扱われる連続変数系について研究する。 したがって、入力やチャネルへの出力を含む全てのシステムは、量子古典ハイブリッドである。 これにより、測定や古典パラメータへの依存を含む様々な量子演算を統一的に扱うことができる。 基本変数はスカラー変換子を持つ標準演算子によって与えられる。 一部の変数は他の変数と交換でき、従って古典的なサブシステムを生成する。 位相空間変換の中間条件か、ハイゼンベルク図において、ワイル作用素はワイル作用素の倍数に写像されるという条件によって同等に特徴づけられる「準自由」演算のクラスを体系的に研究する。 これには、よく知られたガウス演算、二次ハミルトニアンによる進化、および「線形ボソニックチャネル」が含まれるが、より一般的なノイズを許容する。 例えば、全ての状態は準自由である。 我々は,準自由準備,測定,反復観測,クローン,テレポーテーション,高密度符号化,古典的極限の設定,および不可逆力学のいくつかの側面の解析と,不確実性,誤り,乱れの厳密なトレードオフをスケッチする。 観測可能な状態と状態の空間は、我々が考慮するすべての非自明なシステムに対して無限次元であるが、これに関連する技術を一様かつ決定的な方法で扱い、使いやすく、完全に厳密な計算を提供する。

We study continuous variable systems, in which quantum and classical degrees of freedom are combined and treated on the same footing. Thus all systems, including the inputs or outputs to a channel, may be quantum-classical hybrids. This allows a unified treatment of a large variety of quantum operations involving measurements or dependence on classical parameters. The basic variables are given by canonical operators with scalar commutators. Some variables may commute with all others and hence generate a classical subsystem. We systematically study the class of "quasifree" operations, which are characterized equivalently either by an intertwining condition for phase-space translations or by the requirement that, in the Heisenberg picture, Weyl operators are mapped to multiples of Weyl operators. This includes the well-known Gaussian operations, evolutions with quadratic Hamiltonians, and "linear Bosonic channels", but allows for much more general kinds of noise. For example, all states are quasifree. We sketch the analysis of quasifree preparation, measurement, repeated observation, cloning, teleportation, dense coding, the setup for the classical limit, and some aspects of irreversible dynamics, together with the precise salient tradeoffs of uncertainty, error, and disturbance. Although the spaces of observables and states are infinite dimensional for every non-trivial system that we consider, we treat the technicalities related to this in a uniform and conclusive way, providing a calculus that is both easy to use and fully rigorous.
翻訳日:2023-07-14 17:46:36 公開日:2023-07-12
# TRUST-LAPSE: モデルモニタリングのための説明可能で行動可能なミストラストスコーディングフレームワーク

TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework for Model Monitoring ( http://arxiv.org/abs/2207.11290v2 )

ライセンス: Link先を確認
Nandita Bhaskhar, Daniel L. Rubin, Christopher Lee-Messer(参考訳) トレーニング済みのMLモデルの継続的監視によって、安全なデプロイメントには、予測をいつ、信頼すべきでないかを判断することが不可欠だ。 このようなフレームワークは、ハイパフォーマンス、説明可能、ポストホック、アクション可能でなければならない。 連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。 潜在空間埋め込みのシーケンスを用いて,各入力サンプルのモデル予測の信頼性を評価する。 具体的には (a)潜在空間における距離測定値(マハラノビス距離)と類似度測定値(コサイン類似度)を用いて不信を推定する。 b) 非パラメトリックスライディングウインドウ型連続監視アルゴリズムにおいて, 逐次不信頼スコアによって過去の入力表現の列に対する相関の偏差が決定される。 我々は,TRUST-LAPSEを,(1)分散シフト入力検出,(2)データドリフト検出という2つの下流タスクによって評価する。 我々は、パブリックデータセットを用いた音声と視覚の多様な領域を評価するとともに、発作検出のための挑戦的で現実世界の脳波(EEG)データセットに対するアプローチをさらにベンチマークする。 AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs), 77.1 (clinical EEGs) は, ベースラインを10ポイント以上上回った。 セマンティックコンテンツの入力に敏感な人気ベースラインにおいて重要な障害を露呈し、実際のモデル監視には適さない。 ストリームの90%以上がすべての領域で20%の誤差を示しています。 広範な質的定量的評価を通じて,信頼感の低下はより強固であり,実践への導入が容易であることを示す。

Continuous monitoring of trained ML models to determine when their predictions should and should not be trusted is essential for their safe deployment. Such a framework ought to be high-performing, explainable, post-hoc and actionable. We propose TRUST-LAPSE, a "mistrust" scoring framework for continuous model monitoring. We assess the trustworthiness of each input sample's model prediction using a sequence of latent-space embeddings. Specifically, (a) our latent-space mistrust score estimates mistrust using distance metrics (Mahalanobis distance) and similarity metrics (cosine similarity) in the latent-space and (b) our sequential mistrust score determines deviations in correlations over the sequence of past input representations in a non-parametric, sliding-window based algorithm for actionable continuous monitoring. We evaluate TRUST-LAPSE via two downstream tasks: (1) distributionally shifted input detection, and (2) data drift detection. We evaluate across diverse domains - audio and vision using public datasets and further benchmark our approach on challenging, real-world electroencephalograms (EEG) datasets for seizure detection. Our latent-space mistrust scores achieve state-of-the-art results with AUROCs of 84.1 (vision), 73.9 (audio), and 77.1 (clinical EEGs), outperforming baselines by over 10 points. We expose critical failures in popular baselines that remain insensitive to input semantic content, rendering them unfit for real-world model monitoring. We show that our sequential mistrust scores achieve high drift detection rates; over 90% of the streams show < 20% error for all domains. Through extensive qualitative and quantitative evaluations, we show that our mistrust scores are more robust and provide explainability for easy adoption into practice.
翻訳日:2023-07-14 17:46:08 公開日:2023-07-12
# 分散検出のための複数テストフレームワーク

Multiple Testing Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09522v4 )

ライセンス: Link先を確認
Akshayaa Magesh, Venugopal V. Veeravalli, Anirban Roy, Susmit Jha(参考訳) 本研究では,学習アルゴリズムの出力を推定時に信頼できるかどうかを検知するOOD(Out-of-Distribution)検出の問題について検討する。 OOD検出のためのいくつかの試験が先行研究で提案されているが、この問題を研究するための正式な枠組みが欠如している。 我々は,OOD検出のための強力なテスト構築のための洞察を提供する,入力分布と学習アルゴリズムの両方を含むOOD概念の定義を提案する。 共形p-値を用いた学習アルゴリズムから,様々な統計情報を体系的に組み合わせた多重仮説テスト法を提案する。 さらに, 流通中のサンプルをOODと誤分類する可能性を強く保証する。 実験では、前処理で提案したしきい値ベースのテストは、特定の環境では良好に動作するが、異なるタイプのOODインスタンスでは均一に機能しないことがわかった。 対照的に,複数の統計値を組み合わせた提案手法は,異なるデータセットとニューラルネットワークに対して均一に機能する。

We study the problem of Out-of-Distribution (OOD) detection, that is, detecting whether a learning algorithm's output can be trusted at inference time. While a number of tests for OOD detection have been proposed in prior work, a formal framework for studying this problem is lacking. We propose a definition for the notion of OOD that includes both the input distribution and the learning algorithm, which provides insights for the construction of powerful tests for OOD detection. We propose a multiple hypothesis testing inspired procedure to systematically combine any number of different statistics from the learning algorithm using conformal p-values. We further provide strong guarantees on the probability of incorrectly classifying an in-distribution sample as OOD. In our experiments, we find that threshold-based tests proposed in prior work perform well in specific settings, but not uniformly well across different types of OOD instances. In contrast, our proposed method that combines multiple statistics performs uniformly well across different datasets and neural networks.
翻訳日:2023-07-14 17:45:11 公開日:2023-07-12
# ポリトープスライスからのタイトベルの不等式

Tight Bell inequalities from polytope slices ( http://arxiv.org/abs/2212.03212v3 )

ライセンス: Link先を確認
Jos\'e Jesus and Emmanuel Zambrini Cruzeiro(参考訳) 我々は様々なシナリオで新しい密接な二部ベル不等式を導出する。 a bipartite Bell のシナリオ $(X,Y,A,B)$ は、パーティごとの設定と結果の数、$X$、$A$、$Y$、$B$ for Alice、Bobによって定義される。 局所ポリトープ全体の集合は、$(6,3,2,2)$, $(3,3,3,2)$, $(3,2,3,3)$, $(2,2,3,5)$である。 2,2,4,4)$,$(3,3,4,2)$と$(4,3,3,2)$に対して、ファセットの広範なリストを提供する。 各不等式について、量子違反の最大値、ノイズに対する抵抗値、およびqubits、qutrits、ququartsの検出ループホールを閉じるために必要な最小対称検出効率を計算する。 これらの結果から,CHSHと比較して可視性,耐雑音性,あるいはその両方において良好な性能を示すシナリオを特定する。 このようなシナリオは量子通信において重要な応用を見出すことができる。

We derive new tight bipartite Bell inequalities for various scenarios. A bipartite Bell scenario $(X,Y,A,B)$ is defined by the numbers of settings and outcomes per party, $X$, $A$ and $Y$, $B$ for Alice and Bob, respectively. We derive the complete set of facets of the local polytopes of $(6,3,2,2)$, $(3,3,3,2)$, $(3,2,3,3)$, and $(2,2,3,5)$. We provide extensive lists of facets for $(2,2,4,4)$, $(3,3,4,2)$ and $(4,3,3,2)$. For each inequality we compute the maximum quantum violation, the resistance to noise, and the minimal symmetric detection efficiency required to close the detection loophole, for qubits, qutrits and ququarts. Based on these results, we identify scenarios which perform better in terms of visibility, resistance to noise, or both, when compared to CHSH. Such scenarios could find important applications in quantum communication.
翻訳日:2023-07-14 17:36:30 公開日:2023-07-12
# 継続的強化学習における世界モデルの有効性

The Effectiveness of World Models for Continual Reinforcement Learning ( http://arxiv.org/abs/2211.15944v2 )

ライセンス: Link先を確認
Samuel Kessler, Mateusz Ostaszewski, Micha{\l} Bortkiewicz, Mateusz \.Zarski, Maciej Wo{\l}czyk, Jack Parker-Holder, Stephen J. Roberts and Piotr Mi{\l}o\'s(参考訳) 世界モデルは、最も効率的な強化学習アルゴリズムを駆動する。 本研究では,エージェントが環境の変化に直面している状況において,連続学習に活用できることを示す。 世界モデルは、通常、トレーニングのためにリプレイバッファを使用し、継続的な学習に自然に拡張することができる。 選択的体験再生法がパフォーマンス, 忘れ, 移動に与える影響を系統的に研究する。 また、世界モデルを使用するための様々なモデリングオプションについても推奨する。 最高の選択セットはContinuous-Dreamerと呼ばれ、タスクに依存しず、連続的な探索に世界モデルを利用する。 Continual-Dreamerはサンプル効率が高く、MinigridおよびMinihackベンチマーク上で、最先端のタスク非依存の継続的強化学習手法より優れている。

World models power some of the most efficient reinforcement learning algorithms. In this work, we showcase that they can be harnessed for continual learning - a situation when the agent faces changing environments. World models typically employ a replay buffer for training, which can be naturally extended to continual learning. We systematically study how different selective experience replay methods affect performance, forgetting, and transfer. We also provide recommendations regarding various modeling options for using world models. The best set of choices is called Continual-Dreamer, it is task-agnostic and utilizes the world model for continual exploration. Continual-Dreamer is sample efficient and outperforms state-of-the-art task-agnostic continual reinforcement learning methods on Minigrid and Minihack benchmarks.
翻訳日:2023-07-14 17:36:10 公開日:2023-07-12
# FishRecGAN: 魚眼矯正・校正のためのGANベースのネットワークの終了

FishRecGAN: An End to End GAN Based Network for Fisheye Rectification and Calibration ( http://arxiv.org/abs/2305.05222v3 )

ライセンス: Link先を確認
Xin Shen, Kyungdon Joo, Jean Oh(参考訳) 魚眼画像の修正とカメラ内在・歪みパラメータの校正を同時に行うエンドツーエンドのディープラーニング手法を提案する。 提案手法は,Pix2Pix GAN と Wasserstein GAN (W-Pix2PixGAN) で開発されたQuick Image Rectification Module と,CNNアーキテクチャによるキャリブレーションモジュールからなる。 高速整流ネットワークは、良好な解像度でロバスト整流を行い、カメラベースの監視機器の定常キャリブレーションに適している。 高品質キャリブレーションを実現するために,高速整流モジュールからのストレート出力をキャリブレーションモジュールの誘導的意味特徴マップとして使用し,ストレート化特徴と歪み特徴との幾何学的関係を学習する。 我々は、視点画像データセットによくシミュレーションされたパラメータをラベル付けした大規模な合成データセットを用いて、我々の手法を訓練し、検証する。 提案手法はPSNR値が22.343の高分解能で頑健な性能を実現している。

We propose an end-to-end deep learning approach to rectify fisheye images and simultaneously calibrate camera intrinsic and distortion parameters. Our method consists of two parts: a Quick Image Rectification Module developed with a Pix2Pix GAN and Wasserstein GAN (W-Pix2PixGAN), and a Calibration Module with a CNN architecture. Our Quick Rectification Network performs robust rectification with good resolution, making it suitable for constant calibration in camera-based surveillance equipment. To achieve high-quality calibration, we use the straightened output from the Quick Rectification Module as a guidance-like semantic feature map for the Calibration Module to learn the geometric relationship between the straightened feature and the distorted feature. We train and validate our method with a large synthesized dataset labeled with well-simulated parameters applied to a perspective image dataset. Our solution has achieved robust performance in high-resolution with a significant PSNR value of 22.343.
翻訳日:2023-07-14 17:28:37 公開日:2023-07-12
# 従来の通信と共存する展開繊維の2モードスクイーズ

Two-mode squeezing over deployed fiber coexisting with conventional communications ( http://arxiv.org/abs/2304.10053v2 )

ライセンス: Link先を確認
Joseph C. Chapman, Alexander Miloshevsky, Hsuan-Hao Lu, Nageswara Rao, Muneer Alshowkan, Nicholas A. Peters(参考訳) 圧縮光は連続変数(cv)量子情報科学の重要な資源である。 分散マルチモードスクイージングはcv量子ネットワークと分散量子センシングを実現するために重要である。 これまで、ホモダイン検出で測定されたマルチモードスクイージングは、古典的な信号、すなわち「ダーク」ファイバーを共存させることなく、単室実験に限定されてきた。 ここでは、別個の繊維スプール(5〜km)を通して分布した後、$-0.9\pm0.1$-dB共存二モードスクイーズを測定する。 さらに, 別配置のキャンパス繊維(約250~m, 1.2〜km)による配電後, $-0.5\pm0.1$-dB共存2モードスクイーズの測定を行った。 分布に先立ち、スクイーズモードは、各周波数に、ローカル発振器や従来のネットワーク信号を含むいくつかの古典的な信号と多重化され、スクイーズモードは専用のダークファイバを必要としない。 分散後, トリガーホモダイン検出による後処理のために, ジョイント2モードのスクイージングを測定し, 記録する。 このデモは、分散マルチモードスクイーズに依存する量子ネットワークと量子センシングにおける将来の応用を可能にする。

Squeezed light is a crucial resource for continuous-variable (CV) quantum information science. Distributed multi-mode squeezing is critical for enabling CV quantum networks and distributed quantum sensing. To date, multi-mode squeezing measured by homodyne detection has been limited to single-room experiments without coexisting classical signals, i.e., on ``dark'' fiber. Here, after distribution through separate fiber spools (5~km), $-0.9\pm0.1$-dB coexistent two-mode squeezing is measured. Moreover, after distribution through separate deployed campus fibers (about 250~m and 1.2~km), $-0.5\pm0.1$-dB coexistent two-mode squeezing is measured. Prior to distribution, the squeezed modes are each frequency multiplexed with several classical signals -- including the local oscillator and conventional network signals -- demonstrating that the squeezed modes do not need dedicated dark fiber. After distribution, joint two-mode squeezing is measured and recorded for post-processing using triggered homodyne detection in separate locations. This demonstration enables future applications in quantum networks and quantum sensing that rely on distributed multi-mode squeezing.
翻訳日:2023-07-14 17:27:05 公開日:2023-07-12
# ミニバッチ最適輸送によるフローベース生成モデルの改良と一般化

Improving and generalizing flow-based generative models with minibatch optimal transport ( http://arxiv.org/abs/2302.00482v2 )

ライセンス: Link先を確認
Alexander Tong, Nikolay Malkin, Guillaume Huguet, Yanlei Zhang, Jarrid Rector-Brooks, Kilian Fatras, Guy Wolf, Yoshua Bengio(参考訳) 連続正規化フロー(cnfs)は魅力的な生成的モデリング手法であるが、シミュレーションに基づく最大確率トレーニングの限界によって回避されている。 本稿では,CNFのシミュレーション不要な学習目標であるCFM(Generalized Conditional Flow Match)技術を紹介する。 cfmは拡散モデルの確率的流れを訓練するために使われるような安定した回帰目標を持っているが、決定論的フローモデルの効率的な推論を享受している。 拡散モデルとそれ以前のCNFトレーニングアルゴリズムの両方とは対照的に、CFMはソース分布をガウス的や密度評価を必要としない。 我々の目的の1つの変種は最適輸送CFM (OT-CFM) であり、これは訓練に安定であり、より高速な推論をもたらすより単純なフローを生成する。 さらに、OT-CFMはシミュレーションのない方法で動的OTを計算する最初の方法である。 CFMを用いたCNFのトレーニングは、単一セルダイナミクスの推測、教師なし画像翻訳、Schr\"odinger Bridge推論など、さまざまな条件および非条件生成タスクの結果を改善する。

Continuous normalizing flows (CNFs) are an attractive generative modeling technique, but they have been held back by limitations in their simulation-based maximum likelihood training. We introduce the generalized conditional flow matching (CFM) technique, a family of simulation-free training objectives for CNFs. CFM features a stable regression objective like that used to train the stochastic flow in diffusion models but enjoys the efficient inference of deterministic flow models. In contrast to both diffusion models and prior CNF training algorithms, CFM does not require the source distribution to be Gaussian or require evaluation of its density. A variant of our objective is optimal transport CFM (OT-CFM), which creates simpler flows that are more stable to train and lead to faster inference, as evaluated in our experiments. Furthermore, OT-CFM is the first method to compute dynamic OT in a simulation-free way. Training CNFs with CFM improves results on a variety of conditional and unconditional generation tasks, such as inferring single cell dynamics, unsupervised image translation, and Schr\"odinger bridge inference.
翻訳日:2023-07-14 17:26:04 公開日:2023-07-12
# 生成データ拡張によるPubMedQAの小型言語モデルの改善

Improving Small Language Models on PubMedQA via Generative Data Augmentation ( http://arxiv.org/abs/2305.07804v3 )

ライセンス: Link先を確認
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu(参考訳) 大規模言語モデル(LLM)は自然言語処理の分野で顕著な進歩を遂げている。 しかし、その増大は計算コストの面での課題を生じさせる。 一方、Small Language Models (SLM) はその効率性で知られているが、特に特定の領域において、限られた能力と訓練データに悩まされることが多い。 本稿では, 医療領域におけるSLMの改善を目的とした, LLMを用いた生成データ拡張手法を提案する。 このアプローチの目的は、特殊用途に特化されたより効率的で有能なモデルを開発することである。 PubMedQAデータセット上で行った実験を通じて、既存の質問応答ペアの精製および多様化におけるLLMの有効性を実証する。 この改良プロセスにより、微調整後のかなり小さなモデルの性能が向上する。 特に、私たちの最高のSLMは、160億以下のパラメータを持つが、PubMedQAデータセットでは、数ショットのGPT-4よりも優れています。 私たちのコードと生成されたデータは、さらなる探索を容易にするために公開されています。

Large Language Models (LLMs) have made remarkable advancements in the field of natural language processing. However, their increasing size poses challenges in terms of computational cost. On the other hand, Small Language Models (SLMs) are known for their efficiency, but they often struggle with limited capacity and training data, especially in specific domains. In this paper, we introduce a novel method aimed at improving SLMs in the medical domain using LLM-based generative data augmentation. The objective of our approach is to develop more efficient and capable models that are specifically tailored for specialized applications. Through experiments conducted on the PubMedQA dataset, we demonstrate the effectiveness of LLMs in refining and diversifying existing question-answer pairs. This refinement process leads to improved performance in a significantly smaller model after fine-tuning. Notably, our best SLM, with under 1.6 billion parameters, outperforms the few-shot GPT-4 on the PubMedQA dataset. Our code and generated data are publicly available to facilitate further explorations.
翻訳日:2023-07-14 17:15:11 公開日:2023-07-12
# 共有モビリティによるアクセシビリティの計算について

On the Computation of Accessibility Provided by Shared Mobility ( http://arxiv.org/abs/2307.03148v2 )

ライセンス: Link先を確認
Severin Diepolder, Andrea Araldo, Tarek Chouaki, Santa Maiti, Sebastian H\"orl, Constantinos Antoniou(参考訳) シェアード・モビリティ・サービス(SMS)、例えばデマンド・レスポンシブ・トランジット(DRT)やライドシェアリングは、低密度領域におけるモビリティを改善することができる。 このような改善は、主に待ち時間や旅行時間といった基本的なパフォーマンス指標によって定量化される。 しかし、アクセシビリティ指標は、周囲の機会(例えば、仕事、学校、店など)にたどり着くことの容易さを測定することで、より包括的な指標となる。 現在、経験的測定に基づいてSMSのアクセシビリティを定量化する方法は存在しない。 実際、アクセシビリティは一般的にptネットワークのグラフ表現で計算されるが、smsは動的であり、事前定義されたネットワークに従わない。 本研究では,ptのフィーダとして作用するsmsの入力観測トリップをグラフにまとめた空間-時間統計手法を提案する。 このようなグラフでは、古典的なアクセシビリティ指標を計算する。 本手法をパリ・サクレーにおけるDRTに関するMATSimシミュレーション研究に適用する。

Shared Mobility Services (SMS), e.g., Demand-Responsive Transit (DRT) or ride-sharing, can improve mobility in low-density areas, often poorly served by conventional Public Transport (PT). Such improvement is mostly quantified via basic performance indicators, like wait or travel time. However, accessibility indicators, measuring the ease of reaching surrounding opportunities (e.g., jobs, schools, shops, ...), would be a more comprehensive indicator. To date, no method exists to quantify the accessibility of SMS based on empirical measurements. Indeed, accessibility is generally computed on graph representations of PT networks, but SMS are dynamic and do not follow a predefined network. We propose a spatial-temporal statistical method that takes as input observed trips of a SMS acting as a feeder for PT and summarized such trips in a graph. On such a graph, we compute classic accessibility indicators. We apply our method to a MATSim simulation study concerning DRT in Paris-Saclay.
翻訳日:2023-07-14 17:07:37 公開日:2023-07-12
# 高スピンキネティカル拘束モデルにおけるエクササイズ多体スカー

Exact Quantum Many-Body Scars in Higher-Spin Kinetically Constrained Models ( http://arxiv.org/abs/2307.06357v1 )

ライセンス: Link先を確認
Dong Yuan, Shun-Yao Zhang, Dong-Ling Deng(参考訳) 我々は最近開発されたDMRG-Sアルゴリズム[Zhang et al., Phys. Rev. Lett. 131, 020402]を通して、高スピンの運動的制約のあるモデルにおける様々な正確な量子多体傷を発見した。 具体的には、任意の空間次元の任意の二部格子上の高スピンPXPモデルに対して、エネルギースペクトルに等間隔で配置された正確な多体傷を発見し、Affleck-Kennedy-Lieb-Tasaki模型の基底状態に類似した構造を示す。 あるパラメータ系において傾きポテンシャルを持つ1次元フェルミ・ハッバードモデルに対し、実効モデルは各部位に4自由度を持つ運動的に制限されたスピンモデルと等価であり、エネルギー$E=0$と$E=\pm \sqrt{2}$の多体傷がいくつか見出され、有限結合次元を持つ行列積状態として正確に表される。 その結果, 速度論的に制約されたモデルにおける局所的な自由度が大きいことが, 量子多体傷の発生と弱いエルゴディシティの破れのより広い空間をもたらすことがわかった。

We discover a variety of exact quantum many-body scars in higher-spin kinetically constrained models, through the recently developed DMRG-S algorithm [Zhang et al., Phys. Rev. Lett. 131, 020402]. Specifically, for the higher-spin PXP model on arbitrary bipartite lattices of any spatial dimension, we find exact many-body scars that are equidistantly spaced in the energy spectrum and exhibit similar structures to the ground state of the Affleck-Kennedy-Lieb-Tasaki model. For the one-dimensional Fermi-Hubbard model with a tilted potential in a certain parameter regime, whose effective model is equivalent to a kinetically constrained spin model with four degrees of freedom on each site, we find several many-body scars at energy $E=0$ and $E=\pm \sqrt{2}$ that can be exactly represented as matrix product states with finite bond dimensions. Our results demonstrate that larger local degrees of freedom in the kinetically constrained models provide a much broader space for the emergence of quantum many-body scars and weak ergodicity breaking.
翻訳日:2023-07-14 16:58:53 公開日:2023-07-12
# 絡み合い浄化回路の高速クリフォードシミュレーションとそのフルスタック最適化

Faster-than-Clifford Simulations of Entanglement Purification Circuits and Their Full-stack Optimization ( http://arxiv.org/abs/2307.06354v1 )

ライセンス: Link先を確認
Vaishnavi L. Addala, Shu Ge, Stefan Krastanov(参考訳) 量子エンタングルメントは量子情報科学において基本的に重要な資源であるが、実際にはノイズやデコヒーレンスに悩まされ、実用性は制限されている。 エンタングルメント蒸留と前方誤差補正は、我々がこのノイズに対処するために使用するツールですが、今日の不完全なハードウェアで特にうまく機能する最高の蒸留とエラー補正回路の設計は依然として難しいです。 本稿では,ゲートシミュレーションの複雑度が$\mathcal{o}(1)$ステップである蒸留回路のシミュレーションアルゴリズムを開発し,$\mathcal{o}(n)$ cliffordシミュレータや$\mathcal{o}(2^n)$ qubits以上の波動関数シミュレータと比較して,極めて高速なモデリングを実現する。 この新しいシミュレータは、モデルだけでなく、実際に興味深い浄化回路の最適化を可能にした。 これにより、単純な離散最適化アルゴリズムを使用して、$n$ raw bellペアから$k$ purifiedペアまでの回路の設計を行い、第2世代の量子リピータにおける論理量子ビットのテレポーテーションにおけるこれらの回路の使用を研究しました。 その結果得られる浄化回路は、有限サイズのノイズハードウェアの最もよく知られた浄化回路であり、特定のハードウェアエラーモデルのために微調整することができる。 さらに、テレポーテーションや他の高レベルプロトコルで使用される誤り訂正符号の性能が大幅に向上するように、精製ペア内のエラーの相関を形作る浄化回路を設計する。 ネットワークスタックの複数の層を最適化する手法は,低レベルのエンタングルメントの浄化と,その上への前方誤差の補正の両方が,高性能な第2世代量子リピータの設計に不可欠であることが示された。

Quantum Entanglement is a fundamentally important resource in Quantum Information Science; however, generating it in practice is plagued by noise and decoherence, limiting its utility. Entanglement distillation and forward error correction are the tools we employ to combat this noise, but designing the best distillation and error correction circuits that function well, especially on today's imperfect hardware, is still challenging. Here, we develop a simulation algorithm for distillation circuits with gate-simulation complexity of $\mathcal{O}(1)$ steps, providing for drastically faster modeling compared to $\mathcal{O}(n)$ Clifford simulators or $\mathcal{O}(2^n)$ wavefunction simulators over $n$ qubits. This new simulator made it possible to not only model but also optimize practically interesting purification circuits. It enabled us to use a simple discrete optimization algorithm to design purification circuits from $n$ raw Bell pairs to $k$ purified pairs and study the use of these circuits in the teleportation of logical qubits in second-generation quantum repeaters. The resulting purification circuits are the best-known purification circuits for finite-size noisy hardware and can be fine-tuned for specific hardware error models. Furthermore, we design purification circuits that shape the correlations of errors in the purified pairs such that the performance of the error-correcting code used in teleportation or other higher-level protocols is greatly improved. Our approach of optimizing multiple layers of the networking stack, both the low-level entanglement purification, and the forward error correction on top of it, are shown to be indispensable for the design of high-performance second-generation quantum repeaters.
翻訳日:2023-07-14 16:58:28 公開日:2023-07-12
# T2I-CompBench: オープンワールドコンポジションテキスト画像生成のための総合ベンチマーク

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation ( http://arxiv.org/abs/2307.06350v1 )

ライセンス: Link先を確認
Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu(参考訳) 最近のテキストから画像へのモデルによって高品質な画像を生成する素晴らしい能力にもかかわらず、現在のアプローチでは、異なる属性と関係を持つオブジェクトを複雑で一貫性のあるシーンに効果的に構成するのに苦労することが多い。 T2I-CompBenchは3つのカテゴリ(属性バインディング、オブジェクト関係、複雑な構成)と6つのサブカテゴリ(カラーバインディング、形状バインディング、テクスチャバインディング、空間関係、非空間関係、複雑な構成)から6000のコンポジションテキストプロンプトからなるオープンワールドコンポジションテキスト画像生成のための総合ベンチマークである。 さらに,合成テキストから画像への生成を評価するための評価指標をいくつか提案する。 本稿では,プリトレーニングされたテキスト対画像モデルの合成テキスト生成能力を高めるために,報酬駆動サンプル選択(gors)による生成モデルの微調整を提案する。 従来のt2i-compbench法をベンチマークし,提案手法の有効性を検証するため,広範な実験と評価を行った。 プロジェクトページはhttps://karine-h.github.io/t2i-compbench/。

Despite the stunning ability to generate high-quality images by recent text-to-image models, current approaches often struggle to effectively compose objects with different attributes and relationships into a complex and coherent scene. We propose T2I-CompBench, a comprehensive benchmark for open-world compositional text-to-image generation, consisting of 6,000 compositional text prompts from 3 categories (attribute binding, object relationships, and complex compositions) and 6 sub-categories (color binding, shape binding, texture binding, spatial relationships, non-spatial relationships, and complex compositions). We further propose several evaluation metrics specifically designed to evaluate compositional text-to-image generation. We introduce a new approach, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), to boost the compositional text-to-image generation abilities of pretrained text-to-image models. Extensive experiments and evaluations are conducted to benchmark previous methods on T2I-CompBench, and to validate the effectiveness of our proposed evaluation metrics and GORS approach. Project page is available at https://karine-h.github.io/T2I-CompBench/.
翻訳日:2023-07-14 16:57:55 公開日:2023-07-12
# schr\"odinger cat状態測定支援非ガウスゲートの作成:フォック資源状態と立方相状態

Measurement-assisted non-Gaussian gate for Schr\"odinger cat states preparation: Fock resource state versus cubic phase state ( http://arxiv.org/abs/2307.06349v1 )

ライセンス: Link先を確認
A. V. Baeva, N. G. Veselkova, N. I. Masalaeva, and I. V. Sokolov(参考訳) 本稿では,Fock資源状態,量子非破壊(QND)エンタングル操作,ホモダイン測定に基づく計測補助ゲートを用いたSchr\"odinger cat stateの作成について検討する。 従来,同じ目的のために,現実的(有限)スクイーズにおける二次スクイーズ状態から生成される非ガウシアン立方晶相状態を用いたゲートを検討してきた。 両方のスキームの効率、すなわち猫のような重ね合わせを高い忠実度と成功の確率で生成する能力を比較することは明らかである。 本稿では、ゲート演算の正確な理論的記述と並行して、入力フィールド変数の半古典的マッピングに基づく出力状態の明確な視覚的解釈を紹介する。 両方のスキームにおける入力状態のコピーの重ね合わせの出現は、これらのマッピングが出力フィールドオブザーバブルの2つの(または、一般に、それ以上)値セットと互換性があるためである。 両ゲートの出力の詳細な詳細さえも効果的に予測され,我々のアプローチで解釈されることを示す。 我々は、忠実度と成功確率を調べ、フォック状態と立方相状態に基づくゲートが同等の忠実度と(または)成功確率を示す物理パラメータの範囲を明らかにする。

In this paper, we consider the preparation of Schr\"odinger cat states using a measurement-assisted gate based on the Fock resource state, the quantum non-demolition (QND) entangling operation, and the homodyne measurement. Previously we have investigated the gate, which for the same goal uses the ancillary non-Gaussian cubic phase state generated from quadrature squeezed states at realistic (finite) squeezing. It is of evident interest to compare the efficiency of both schemes, that is, their ability to produce cat-like superpositions with high fidelity and probability of success. We introduce, in parallel with the exact theoretical description of the gate operation, a clear visual interpretation of the output state based on the semiclassical mapping of the input field variables. The emergence of the superpositions of copies of the input state in both schemes is due to the fact that such mapping is compatible with two (or, in general, more) sets of values of the output field observables. We demonstrate that even fine details of the output of both gates are effectively predicted and interpreted in our approach. We examine the fidelity and success probability and reveal the ranges of physical parameters where the Fock state-based and the cubic phase state-based gates demonstrate comparable fidelity and (or) probability of success.
翻訳日:2023-07-14 16:57:31 公開日:2023-07-12
# 弱教師付き学習による全病的スライド分類

The Whole Pathological Slide Classification via Weakly Supervised Learning ( http://arxiv.org/abs/2307.06344v1 )

ライセンス: Link先を確認
Qiehe Sun, Jiawen Li, Jin Xu, Junru Cheng, Tian Guan, Yonghong He(参考訳) アノテーションの利用やギガピクセルサイズの画像への対処に優れた効率のため、複数インスタンス学習(mil)は、デジタル病理診断における全スライド画像(wsi)分類の枠組みとして大きな期待を寄せている。 しかし、既存の手法では異なる構造を持つ高度なアグリゲータに注目する傾向があり、しばしばH\&E病理スライドの本質的な特徴を見落としている。 この制限に対処するために,病原細胞の核多様性と病原性タイルの空間的相関という2つの病原性前兆を導入した。 そこで,本研究では,抽出者学習におけるステンド分離を利用したデータ拡張法を提案し,インスタンスレベルの表現を得るためのコントラスト学習戦略を提案する。 次に,隣接行列を用いてタイル間の空間的関係を記述した。 これら2つの視点を統合することで,病理的帰納的バイアス,特徴抽出,フィルタリング,アグリゲーションに基づくh\&e維持組織画像の解析を行うマルチインテンスフレームワークを考案した。 camelyon16胸部データセットとtcga-nsclc肺データセットに関する広範な実験により,提案手法が癌検出とサブタイプの分化に関連する課題を効果的に処理できることが証明された。 コードは後でリリースされる。

Due to its superior efficiency in utilizing annotations and addressing gigapixel-sized images, multiple instance learning (MIL) has shown great promise as a framework for whole slide image (WSI) classification in digital pathology diagnosis. However, existing methods tend to focus on advanced aggregators with different structures, often overlooking the intrinsic features of H\&E pathological slides. To address this limitation, we introduced two pathological priors: nuclear heterogeneity of diseased cells and spatial correlation of pathological tiles. Leveraging the former, we proposed a data augmentation method that utilizes stain separation during extractor training via a contrastive learning strategy to obtain instance-level representations. We then described the spatial relationships between the tiles using an adjacency matrix. By integrating these two views, we designed a multi-instance framework for analyzing H\&E-stained tissue images based on pathological inductive bias, encompassing feature extraction, filtering, and aggregation. Extensive experiments on the Camelyon16 breast dataset and TCGA-NSCLC Lung dataset demonstrate that our proposed framework can effectively handle tasks related to cancer detection and differentiation of subtypes, outperforming state-of-the-art medical image classification methods based on MIL. The code will be released later.
翻訳日:2023-07-14 16:57:08 公開日:2023-07-12
# 深部強化学習を用いたX線CTの逐次実験設計

Sequential Experimental Design for X-Ray CT Using Deep Reinforcement Learning ( http://arxiv.org/abs/2307.06343v1 )

ライセンス: Link先を確認
Tianyuan Wang, Felix Lucka, and Tristan van Leeuwen(参考訳) x線ctでは、様々な角度からの投影が取得され、3次元再構成に用いられる。 リコンストラクション品質を維持しつつアングル数を削減し、インライン品質制御に適したctを実現する。 スパースアングルトモグラフィーは限られたデータから3次元再構成を得るための一般的な手法である。 その性能を最適化するために、スキャンされた各オブジェクトに対して最も有益な角度を選択するために、スキャン角度を順次適応することができる。 数学的には、これは解法と最適実験設計(oed)問題に対応する。 OED問題は、高次元、非凸、双レベル最適化の問題であり、オンラインでは解決できない。 これらの課題に対処するために,我々は,ベイズフレームワークにおける部分可観測マルコフ決定プロセスとしてoed問題を提案し,深層強化学習によって解決する。 このアプローチは、与えられた oed 問題を数値最適化によって直接解くのではなく、広範囲なオフライントレーニングを通じて所定の oed 問題のクラスを解決するための効率的な非欲なポリシーを学習する。 したがって、訓練されたポリシーは、最も有益なスキャンアングルをオンラインで見つけることができる。 Actor-Criticアプローチに基づくポリシートレーニング手法を用いて,合成データを用いた2次元トモグラフィーの性能評価を行う。

In X-ray Computed Tomography (CT), projections from many angles are acquired and used for 3D reconstruction. To make CT suitable for in-line quality control, reducing the number of angles while maintaining reconstruction quality is necessary. Sparse-angle tomography is a popular approach for obtaining 3D reconstructions from limited data. To optimize its performance, one can adapt scan angles sequentially to select the most informative angles for each scanned object. Mathematically, this corresponds to solving and optimal experimental design (OED) problem. OED problems are high-dimensional, non-convex, bi-level optimization problems that cannot be solved online, i.e., during the scan. To address these challenges, we pose the OED problem as a partially observable Markov decision process in a Bayesian framework, and solve it through deep reinforcement learning. The approach learns efficient non-greedy policies to solve a given class of OED problems through extensive offline training rather than solving a given OED problem directly via numerical optimization. As such, the trained policy can successfully find the most informative scan angles online. We use a policy training method based on the Actor-Critic approach and evaluate its performance on 2D tomography with synthetic data.
翻訳日:2023-07-14 16:56:42 公開日:2023-07-12
# ConvNeXt-ChARM: 効率的なニューラルネットワーク圧縮のためのConvNeXtベースの変換

ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image Compression ( http://arxiv.org/abs/2307.06342v1 )

ライセンス: Link先を確認
Ahmed Ghorbel, Wassim Hamidouche and Luce Morin(参考訳) ここ数年、ニューラル画像圧縮は研究や産業から広く注目を集め、将来性のあるエンドツーエンドのディープ・ニューラル・コーデックが従来の速度歪曲性能よりも優れていた。 大幅な進歩にもかかわらず、特に非均一なテクスチャ画像領域において、アテンションベースの変換符号化を含む現在の手法は、再構成忠実性を維持しながら符号化率を低下させる必要がある。 これらのモデルはより多くのパラメータと高い復号時間を必要とする。 このような課題に対処するため,我々は,ハイパーおよび量子化された潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャする前に,計算効率のよいチャネルワイド自動回帰と組み合わせた効率的なConvNeXt-ChARMを提案する。 提案アーキテクチャは、コンテキスト情報を完全に活用し、高品質な画像を再構成しながらコンパクトな潜在表現を抽出するために、エンドツーエンドに最適化することができる。 広く使われている4つのデータセットの実験結果から、ConvNeXt-ChARMは平均で5.24%と1.22%と、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法SwinT-ChARMに対して、一貫性と有意なBDレート(PSNR)の低下をもたらすことが示された。 さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,次世代ConvNet,すなわちConvNeXtとSwin Transformerのパフォーマンスギャップを先導するために,いくつかの客観的および主観的分析を行う。

Over the last few years, neural image compression has gained wide attention from research and industry, yielding promising end-to-end deep neural codecs outperforming their conventional counterparts in rate-distortion performance. Despite significant advancement, current methods, including attention-based transform coding, still need to be improved in reducing the coding rate while preserving the reconstruction fidelity, especially in non-homogeneous textured image areas. Those models also require more parameters and a higher decoding time. To tackle the above challenges, we propose ConvNeXt-ChARM, an efficient ConvNeXt-based transform coding framework, paired with a compute-efficient channel-wise auto-regressive prior to capturing both global and local contexts from the hyper and quantized latent representations. The proposed architecture can be optimized end-to-end to fully exploit the context information and extract compact latent representation while reconstructing higher-quality images. Experimental results on four widely-used datasets showed that ConvNeXt-ChARM brings consistent and significant BD-rate (PSNR) reductions estimated on average to 5.24% and 1.22% over the versatile video coding (VVC) reference encoder (VTM-18.0) and the state-of-the-art learned image compression method SwinT-ChARM, respectively. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the next generation ConvNet, namely ConvNeXt, and Swin Transformer.
翻訳日:2023-07-14 16:56:22 公開日:2023-07-12
# 下水道管のCCTV検査計画における劣化モデルの適用性評価

Assessment of the suitability of degradation models for the planning of CCTV inspections of sewer pipes ( http://arxiv.org/abs/2307.06341v1 )

ライセンス: Link先を確認
Fidae El Morer, Stefan Wittek, Andreas Rausch(参考訳) 下水道管の劣化は、経済的、環境的、健康的な問題を引き起こす。 これらの資産の維持には、事前の検査報告の結果とともに構造的・環境的特徴を考慮した場合、より効率的な検査を行うための構造的計画が必要となる。 このような計画の開発には、統計的および機械学習手法に基づく分解モデルが必要である。 本研究は, 精度指標, 長期劣化曲線の生成能力, 説明可能性の3次元を考慮した検査計画に適した手法を提案する。 その結果、アンサンブルモデルが最も精度が高いが、管の長期劣化を推測できないのに対し、ロジスティック回帰法は、一貫した分解曲線を高い説明性で生成できるわずかに精度の低いモデルを提供する。 この方法論とモデルベース計画の効率を,現在の検査計画と比較して実証するためのユースケースを提示する。

The degradation of sewer pipes poses significant economical, environmental and health concerns. The maintenance of such assets requires structured plans to perform inspections, which are more efficient when structural and environmental features are considered along with the results of previous inspection reports. The development of such plans requires degradation models that can be based on statistical and machine learning methods. This work proposes a methodology to assess their suitability to plan inspections considering three dimensions: accuracy metrics, ability to produce long-term degradation curves and explainability. Results suggest that although ensemble models yield the highest accuracy, they are unable to infer the long-term degradation of the pipes, whereas the Logistic Regression offers a slightly less accurate model that is able to produce consistent degradation curves with a high explainability. A use case is presented to demonstrate this methodology and the efficiency of model-based planning compared to the current inspection plan.
翻訳日:2023-07-14 16:55:47 公開日:2023-07-12
# Denoising Autoencoders (DAE) と Cycle-Consistent Generative Adversarial Networks (Cycle-GAN) を用いたシミュレーション低磁場MRI (70mT)

Denoising Simulated Low-Field MRI (70mT) using Denoising Autoencoders (DAE) and Cycle-Consistent Generative Adversarial Networks (Cycle-GAN) ( http://arxiv.org/abs/2307.06338v1 )

ライセンス: Link先を確認
Fernando Vega, Abdoljalil Addeh, M. Ethan MacDonald(参考訳) 本研究では,低磁場,低分解能,低SNRMRI画像から高磁場,高分解能,高信号-雑音比(SNR)磁気共鳴イメージング(MRI)画像を得るために,デノイングサイクルGAN(Cycle Consistent Generative Adversarial Network)を実装した。 低磁場MRIの再現にはリシアンノイズとリシアンノイズが用いられた。 denoising autoencoder (dae) と cycle-gan をペアケースとペアケースで訓練するために,画像を用いた。 両ネットワークをSSIMおよびPSNR画像品質指標を用いて評価した。 この研究は、古典的DAEを上回り、低磁場MRI画像を改善することができ、画像ペアを必要としない生成的ディープラーニングモデルの使用を実証する。

In this work, a denoising Cycle-GAN (Cycle Consistent Generative Adversarial Network) is implemented to yield high-field, high resolution, high signal-to-noise ratio (SNR) Magnetic Resonance Imaging (MRI) images from simulated low-field, low resolution, low SNR MRI images. Resampling and additive Rician noise were used to simulate low-field MRI. Images were utilized to train a Denoising Autoencoder (DAE) and a Cycle-GAN, with paired and unpaired cases. Both networks were evaluated using SSIM and PSNR image quality metrics. This work demonstrates the use of a generative deep learning model that can outperform classical DAEs to improve low-field MRI images and does not require image pairs.
翻訳日:2023-07-14 16:55:32 公開日:2023-07-12
# 単語間の意味的関係の獲得

The Acquisition of Semantic Relationships between words ( http://arxiv.org/abs/2307.06419v1 )

ライセンス: Link先を確認
Mohamed Naamane(参考訳) 意味的関係の研究は、これらの関係と言語の形態的特徴との密接な関係を明らかにしている。 言語学のサブフィールドとしての形態学は、単語の内部構造と形成を研究する。 意味的関係と言語形態学の関係を掘り下げることで、単語の基盤構造が言語の解釈と理解にどのように貢献するかについての深い洞察を得ることができる。 本稿では, 意味的関係と異なる言語の形態的側面とのダイナミックな相互作用について検討し, 言語形態と意味的関係の関係を考察することにより, 単語の構造が言語理解にどのように影響するかを考察する。

The study of semantic relationships has revealed a close connection between these relationships and the morphological characteristics of a language. Morphology, as a subfield of linguistics, investigates the internal structure and formation of words. By delving into the relationship between semantic relationships and language morphology, we can gain deeper insights into how the underlying structure of words contributes to the interpretation and comprehension of language. This paper explores the dynamic interplay between semantic relationships and the morphological aspects of different languages, by examining the intricate relationship between language morphology and semantic relationships, valuable insights can be gained regarding how the structure of words influences language comprehension.
翻訳日:2023-07-14 16:49:57 公開日:2023-07-12
# ベイジアンネットワークにおける空間推定のテスト

Testing Sparsity Assumptions in Bayesian Networks ( http://arxiv.org/abs/2307.06406v1 )

ライセンス: Link先を確認
Luke Duttweiler, Sally W. Thurston, and Anthony Almudevar(参考訳) ベイズネットワーク (BN) 構造探索アルゴリズムは通常、真の基盤ネットワークの空間性について仮定するか、少数の変数を持つネットワークに対する計算制約によって制限される。 これらのスパース性仮定は様々な形式をとることができるが、仮定はしばしば、基礎となるグラフ $\nabla_G$ の最大 in-次における上限に焦点をあてる。 Theorem 2 in Duttweiler et。 al. (2023) は、線型BN の正規化逆共分散行列 (\Omega$) の最大の固有値は$\nabla_G$ の下界であることを示した。 この結果に基づいて, bn が 1 以上の最大次数を持つかどうかを判定するための仮説検定を行うために, サンプル固有値 $\omega$ の漸近的性質, 偏微分手順を提供する。 線形bn構造発見ワークフローでは、研究者がこの仮説テストを用いて適切な構造発見アルゴリズムを選択することを支援する。 仮説テスト性能をシミュレーションにより評価し,ヒト乾息研究のデータに基づいてワークフローを実演する。

Bayesian network (BN) structure discovery algorithms typically either make assumptions about the sparsity of the true underlying network, or are limited by computational constraints to networks with a small number of variables. While these sparsity assumptions can take various forms, frequently the assumptions focus on an upper bound for the maximum in-degree of the underlying graph $\nabla_G$. Theorem 2 in Duttweiler et. al. (2023) demonstrates that the largest eigenvalue of the normalized inverse covariance matrix ($\Omega$) of a linear BN is a lower bound for $\nabla_G$. Building on this result, this paper provides the asymptotic properties of, and a debiasing procedure for, the sample eigenvalues of $\Omega$, leading to a hypothesis test that may be used to determine if the BN has max in-degree greater than 1. A linear BN structure discovery workflow is suggested in which the investigator uses this hypothesis test to aid in selecting an appropriate structure discovery algorithm. The hypothesis test performance is evaluated through simulations and the workflow is demonstrated on data from a human psoriasis study.
翻訳日:2023-07-14 16:49:46 公開日:2023-07-12
# 目標指向ltlf公式による行動木の設計

Designing Behavior Trees from Goal-Oriented LTLf Formulas ( http://arxiv.org/abs/2307.06399v1 )

ライセンス: Link先を確認
Aadesh Neupane, Michael A. Goodrich(参考訳) 時間論理は、自律エージェントの目標を正式に指定するために用いられるが、目標満足度を保証するプランナーの合成は、計算的に禁止される。 本稿では,有限トレース線形時相論理(ltl)のサブセットを動作木(bt)とし,成功トレースがltl目標を満たすことを保証する。 達成目標のための有用なltl公式は、達成指向のタスクミッション文法を用いて導き出され、ltlオペレータを使ってタスクを組み合わせることで成るミッションへと繋がる。 LTL式からBTを構築することで、広範囲のプランナーがBT内のアクションノードを実装することができる緩和された振る舞い合成問題が発生する。 重要なことに、プランナーによって誘導される任意の成功トレースは対応するTLL式を満たす。 アプローチの有用性は2つの方法で示されています。 a)2つのプランナーとltl目標の調整を検討すること,及び b)フェッチロボットのシーケンシャルキードア問題を解決すること。

Temporal logic can be used to formally specify autonomous agent goals, but synthesizing planners that guarantee goal satisfaction can be computationally prohibitive. This paper shows how to turn goals specified using a subset of finite trace Linear Temporal Logic (LTL) into a behavior tree (BT) that guarantees that successful traces satisfy the LTL goal. Useful LTL formulas for achievement goals can be derived using achievement-oriented task mission grammars, leading to missions made up of tasks combined using LTL operators. Constructing BTs from LTL formulas leads to a relaxed behavior synthesis problem in which a wide range of planners can implement the action nodes in the BT. Importantly, any successful trace induced by the planners satisfies the corresponding LTL formula. The usefulness of the approach is demonstrated in two ways: a) exploring the alignment between two planners and LTL goals, and b) solving a sequential key-door problem for a Fetch robot.
翻訳日:2023-07-14 16:49:26 公開日:2023-07-12
# ゲート型ニューラルネットワークの訓練性, 表現性, 解釈性

Trainability, Expressivity and Interpretability in Gated Neural ODEs ( http://arxiv.org/abs/2307.06398v1 )

ライセンス: Link先を確認
Timothy Doyeon Kim, Tankut Can, Kamesh Krishnamurthy(参考訳) 生物学的および人工的なニューラルネットワークのダイナミクスがどのようにタスクに必要な計算を実行するかを理解することは、機械学習と神経科学において明らかな疑問である。 特に、複雑なメモリストレージと検索を必要とする計算は、これらのネットワークの実装や学習にとって大きな課題となる。 近年、神経常微分方程式(nODE)によって記述されるモデル群は、複雑な力学を捉えることができる強力な動的ニューラルネットワークモデルとして出現している。 ここでは、ゲーティング相互作用を用いて、適応的な時間スケールを付与することで、nODEを拡張します。 我々はこれらをゲートニューラルODE(gnODE)と呼ぶ。 連続量の記憶を必要とするタスクを用いて、gnODEの帰納バイアスを学習(近似)する(近似)連続的誘引子を示す。 さらに、低次元のgnODEがモデリング能力を保ちながら、解釈可能性を大幅に向上し、学習対象の構造をはっきりと可視化できることを示す。 本稿では,複雑な軌道を生成するニューラルネットワークのキャパシティを探索する新しい表現性尺度を提案する。 この測度を用いて,NODEの位相空間次元とフロー場をモデル化する関数の複雑さが表現性にどのように寄与するかを考察する。 流れ場をモデル化するより複雑な関数により、低次元のヌードが与えられた対象の動力学を捉えることができる。 最後に,複数の実世界のタスクにおいて,NODEにおけるゲーティングの利点を示す。

Understanding how the dynamics in biological and artificial neural networks implement the computations required for a task is a salient open question in machine learning and neuroscience. In particular, computations requiring complex memory storage and retrieval pose a significant challenge for these networks to implement or learn. Recently, a family of models described by neural ordinary differential equations (nODEs) has emerged as powerful dynamical neural network models capable of capturing complex dynamics. Here, we extend nODEs by endowing them with adaptive timescales using gating interactions. We refer to these as gated neural ODEs (gnODEs). Using a task that requires memory of continuous quantities, we demonstrate the inductive bias of the gnODEs to learn (approximate) continuous attractors. We further show how reduced-dimensional gnODEs retain their modeling power while greatly improving interpretability, even allowing explicit visualization of the structure of learned attractors. We introduce a novel measure of expressivity which probes the capacity of a neural network to generate complex trajectories. Using this measure, we explore how the phase-space dimension of the nODEs and the complexity of the function modeling the flow field contribute to expressivity. We see that a more complex function for modeling the flow field allows a lower-dimensional nODE to capture a given target dynamics. Finally, we demonstrate the benefit of gating in nODEs on several real-world tasks.
翻訳日:2023-07-14 16:49:11 公開日:2023-07-12
# 弱教師付き視聴覚イベント定位のための時間的ラベル再構成法

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization ( http://arxiv.org/abs/2307.06385v1 )

ライセンス: Link先を確認
Kalyan Ramakrishnan(参考訳) オーディオ・ビジュアル・イベント・ローカライゼーション (AVEL) は、ビデオで同時に見えるイベントや可聴なイベントを時間的に局所化し、分類するタスクである。 本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用する,弱教師付き環境でAVELを解決する。 私たちのアイデアは、トレーニングデータのラベルをビデオレベルよりも細かい時間分解能で推定し、これらのラベルでモデルを再トレーニングするためにベースモデルを使用することです。 すなわち、トレーニングビデオにおけるフレームの各 \emph{slice} のラベルのサブセットを決定する。 (i)スライスの外側のフレームを、ビデオレベルのラベルに重複しない2番目のビデオのフレームに置き換える。 (2)この合成ビデオをベースモデルに入力して、問題のスライスのみのラベルを抽出する。 合成ビデオのアウト・オブ・ディストリビューション性に対処するため,我々は,より信頼性の高いイベントラベルの予測を所望するベースモデルの補助的目的を提案する。 私たちの3段階パイプラインは、アーキテクチャ上の変更のない既存のAVELメソッドよりも優れており、関連する弱教師付きタスクのパフォーマンスも向上しています。

Audio-Visual Event Localization (AVEL) is the task of temporally localizing and classifying \emph{audio-visual events}, i.e., events simultaneously visible and audible in a video. In this paper, we solve AVEL in a weakly-supervised setting, where only video-level event labels (their presence/absence, but not their locations in time) are available as supervision for training. Our idea is to use a base model to estimate labels on the training data at a finer temporal resolution than at the video level and re-train the model with these labels. I.e., we determine the subset of labels for each \emph{slice} of frames in a training video by (i) replacing the frames outside the slice with those from a second video having no overlap in video-level labels, and (ii) feeding this synthetic video into the base model to extract labels for just the slice in question. To handle the out-of-distribution nature of our synthetic videos, we propose an auxiliary objective for the base model that induces more reliable predictions of the localized event labels as desired. Our three-stage pipeline outperforms several existing AVEL methods with no architectural changes and improves performance on a related weakly-supervised task as well.
翻訳日:2023-07-14 16:48:52 公開日:2023-07-12
# 高インピーダンスマルチモード共振器に結合したジョセフソン接合の創発的量子相転移

Emergent quantum phase transition of a Josephson junction coupled to a high-impedance multimode resonator ( http://arxiv.org/abs/2307.06383v1 )

ライセンス: Link先を確認
Luca Giacomelli and Cristiano Ciuti(参考訳) 貯留層に非摂動結合した量子系の相転移を理解することは困難である。 特に、抵抗環境に結合したジョセフソン接合の物理学は、高インピーダンス多モード共振器による超伝導プラットフォームの出現によって強く復活した激しい議論の中心における長年の根本的な問題である。 ここでは,モード数が増加すると,多モード共振器に結合した接合の創発的臨界度について検討する。 多モード環境が接合のジョセフソンと容量エネルギーを再正規化する方法を解析的に示す:等質伝送線の場合、非正規化ジョセフソンと容量エネルギーの比は、インピーダンスが抵抗量子よりも小さいときに分岐し、それ以外は消滅する。 臨界挙動はジョセフソン接合相の拡張的あるいはコンパクトな性質に依存しないことが示されている。 正確な対角化によって、遷移は基底状態ではなく、エネルギーギャップが熱力学的極限で消滅する最初の励起状態を含む準反交差によって驚くほど生じることが分かる。 遷移点において、スペクトルは低周波だけでなく普遍性を示す。 最近の実験と一致して、相転移の顕著なスペクトルシグネチャが明らかにされる。

Understanding phase transitions of quantum systems non-perturbatively coupled to reservoirs is challenging. In particular, the physics of a single Josephson junction coupled to a resistive environment is a long-standing fundamental problem at the center of an intense debate, strongly revived by the advent of superconducting platforms with high-impedance multi-mode resonators. Here we investigate the emergent criticality of a junction coupled to a multimode resonator when the number of modes is increased. We demonstrate analytically how the multi-mode environment renormalizes the Josephson and capacitive energies of the junction: for a homogeneous transmission line, in the thermodynamic limit the ratio between the renormalized Josephson and capacitive energies diverges when the impedance is smaller than the resistance quantum and vanishes otherwise. The critical behavior is shown not to depend on the extended or compact nature of the Josephson junction phase. Via exact diagonalization, we find that the transition surprisingly stems from a level anticrossing involving not the ground state, but the first excited state, whose energy gap vanishes in the thermodynamic limit. We show that at the transition point the spectrum displays universality not only at low frequencies. In agreement with recent experiments, we reveal striking spectral signatures of the phase transition.
翻訳日:2023-07-14 16:48:32 公開日:2023-07-12
# 回答セットプログラミングテンプレートの再考

Rethinking Answer Set Programming Templates ( http://arxiv.org/abs/2307.06382v1 )

ライセンス: Link先を確認
Mario Alviano, Giovambattista Ianni, Francesco Pacenza and Jessica Zangari(参考訳) 命令型プログラミングでは、ドメイン駆動設計(Domain-Driven Design)方法論は、関心のある領域の不変性をコードで実現することによって、ソフトウェア開発の複雑さに対処するのに役立つ。 暗黙の仮定は不変性に優先して取り除かれるため、コードはよりクリーンで安全であるため、失敗の速いマインドセットと予期しない条件の即時報告が可能になる。 この記事では、答集合プログラミングのテンプレートの概念を紹介します。don't repeat yourselfの原則に加えて、単純な命名規約によっていくつかの述語を局所的に強制します。 ローカル述語は、メインストリームエンジンが採用する通常のグローバルネームスペースにマッピングされ、名前の衝突を避けるために普遍的にユニークな識別子を使用する。 このようにして、ローカル述語は、そのようなコンテキストに追加できる他のルールとは独立して、おそらく空のアプリケーションコンテキストにおけるテンプレートの期待結果の不変性を強制することができる。 このようにトランスパイアされたテンプレートアプリケーションは、主流のエンジンによって処理され、テンプレートに関する知識がなくても、他の知識デザイナーと安全に共有することができる。

In imperative programming, the Domain-Driven Design methodology helps in coping with the complexity of software development by materializing in code the invariants of a domain of interest. Code is cleaner and more secure because any implicit assumption is removed in favor of invariants, thus enabling a fail fast mindset and the immediate reporting of unexpected conditions. This article introduces a notion of template for Answer Set Programming that, in addition to the don't repeat yourself principle, enforces locality of some predicates by means of a simple naming convention. Local predicates are mapped to the usual global namespace adopted by mainstream engines, using universally unique identifiers to avoid name clashes. This way, local predicates can be used to enforce invariants on the expected outcome of a template in a possibly empty context of application, independently by other rules that can be added to such a context. Template applications transpiled this way can be processed by mainstream engines and safely shared with other knowledge designers, even when they have zero knowledge of templates.
翻訳日:2023-07-14 16:48:10 公開日:2023-07-12
# 表現学習と生体認証を用いたPSGデータの個人化異常検出

Personalized Anomaly Detection in PPG Data using Representation Learning and Biometric Identification ( http://arxiv.org/abs/2307.06380v1 )

ライセンス: Link先を確認
Ramin Ghorbani, Marcel J.T. Reinders, and David M.J. Tax(参考訳) Photoplethysmography (PPG)信号は、一般的にウェアラブルデバイスから取得され、継続的なフィットネスと健康のモニタリングに重要な可能性を秘めている。 特に、稀で微妙な心のパターンに現れる心臓の状態は興味深い。 しかしながら、ラベル付きデータの不足とサブジェクト間の変動が大きいため、これらのデータ内のロバストで信頼性の高い異常検出は依然として課題である。 本稿では,ppgデータの異常検出性能を向上させるために,表現学習とパーソナライゼーションを利用した2段階フレームワークを提案する。 提案フレームワークはまず表現学習を用いて、元のPSG信号をより識別的でコンパクトな表現に変換する。 次に、動作検出と生体認証のための3つの異なる教師なし異常検出手法を適用した。 一般的なシナリオとパーソナライズされたシナリオの両方において、2つの異なるデータセットを使用してアプローチを検証する。 その結果,表現学習は物体間変動を低減しつつ,異常検出性能を著しく向上させることがわかった。 パーソナライズされたモデルはさらに異常検出性能を高め、ppgベースのフィットネスヘルスモニタリングシステムにおけるパーソナライズの役割を強調する。 生体認証の結果は、新しいユーザを意図した認証されたユーザと、ユーザグループと区別するのが簡単であることを示している。 本研究は, PPGデータの異常検出における表現学習とパーソナライズの有効性を示すものである。

Photoplethysmography (PPG) signals, typically acquired from wearable devices, hold significant potential for continuous fitness-health monitoring. In particular, heart conditions that manifest in rare and subtle deviating heart patterns may be interesting. However, robust and reliable anomaly detection within these data remains a challenge due to the scarcity of labeled data and high inter-subject variability. This paper introduces a two-stage framework leveraging representation learning and personalization to improve anomaly detection performance in PPG data. The proposed framework first employs representation learning to transform the original PPG signals into a more discriminative and compact representation. We then apply three different unsupervised anomaly detection methods for movement detection and biometric identification. We validate our approach using two different datasets in both generalized and personalized scenarios. The results show that representation learning significantly improves anomaly detection performance while reducing the high inter-subject variability. Personalized models further enhance anomaly detection performance, underscoring the role of personalization in PPG-based fitness-health monitoring systems. The results from biometric identification show that it's easier to distinguish a new user from one intended authorized user than from a group of users. Overall, this study provides evidence of the effectiveness of representation learning and personalization for anomaly detection in PPG data.
翻訳日:2023-07-14 16:47:52 公開日:2023-07-12
# 有限サンプルレジームにおける量子計測

Quantum metrology in the finite-sample regime ( http://arxiv.org/abs/2307.06370v1 )

ライセンス: Link先を確認
Johannes Jakob Meyer, Sumeet Khatri, Daniel Stilck Fran\c{c}a, Jens Eisert and Philippe Faist(参考訳) 量子計測学において、量子技術の主要な応用の一つとして、未知のパラメータを推定する究極の精度は、しばしばクレーア・ラオ境界によって記述される。 しかし、後者は、測定サンプルがほとんど得られない体制において、操作的な意味を持つことが保証されなくなり、簡単な例で示される。 そこで我々は,所定の精度で推定値を得る確率によって,気象プロトコルの品質を定量化する手法を提案する。 このアプローチは、おそらくほぼ正しい(pac)メトロロジーと呼ばれ、有限サンプルレジームにおける操作的重要性を保証する。 精度は未知のパラメータの任意の値の保持を保証するが、Clam\'er-Rao 境界はそれがほぼ知られていると仮定している。 量子状態による多仮説テストとの強い関係を確立し、有限サンプル状態に関連する明示的な補正を含むクラム・ラーオ境界の類似を導出することができる。 さらに、状態の多くのコピーに対する推定手順の成功確率の漸近的挙動を考察し、スピン-1/2粒子のアンサンブルを用いた位相推定の例にフレームワークを適用した。 全体として、我々の運用アプローチは、有限サンプル状態における量子メトロジーの研究を可能にし、量子情報理論と量子メトロジーのインターフェースで研究するための多くの新しい道を開く。

In quantum metrology, one of the major applications of quantum technologies, the ultimate precision of estimating an unknown parameter is often stated in terms of the Cram\'er-Rao bound. Yet, the latter is no longer guaranteed to carry an operational meaning in the regime where few measurement samples are obtained, which we illustrate through a simple example. We instead propose to quantify the quality of a metrology protocol by the probability of obtaining an estimate with a given accuracy. This approach, which we refer to as probably approximately correct (PAC) metrology, ensures operational significance in the finite-sample regime. The accuracy guarantees hold for any value of the unknown parameter, unlike the Cram\'er-Rao bound which assumes it is approximately known. We establish a strong connection to multi-hypothesis testing with quantum states, which allows us to derive an analogue of the Cram\'er-Rao bound which contains explicit corrections relevant to the finite-sample regime. We further study the asymptotic behavior of the success probability of the estimation procedure for many copies of the state and apply our framework to the example task of phase estimation with an ensemble of spin-1/2 particles. Overall, our operational approach allows the study of quantum metrology in the finite-sample regime and opens up a plethora of new avenues for research at the interface of quantum information theory and quantum metrology.
翻訳日:2023-07-14 16:47:14 公開日:2023-07-12
# 物理インフォームドニューラルネットワークにおけるスペクトルバイアスとカーネルタスクアライメント

Spectral-Bias and Kernel-Task Alignment in Physically Informed Neural Networks ( http://arxiv.org/abs/2307.06362v1 )

ライセンス: Link先を確認
Inbar Seroussi, Asaf Miron and Zohar Ringel(参考訳) 物理情報ニューラルネットワーク(PINN)は微分方程式の解法として有望である。 他の多くのディープラーニングアプローチと同様に、pinn設計とトレーニングプロトコルの選択には慎重なクラフトマンシップが必要です。 ここでは,この課題を浮き彫りにする包括的理論的枠組みを提案する。 無限に過度にパラメータ化されたニューラルネットワークとガウス過程回帰(GPR)の等価性を利用することで、大きなデータセットの限界であるニューラル・インフォームド方程式(NIE)でPINN予測を管理する積分微分方程式を導出する。 この方程式は、アーキテクチャの選択を反映するカーネル項によって元の項を拡大し、元の微分方程式の原項のスペクトル分解を通じてネットワークによって誘導される暗黙のバイアスを定量化する。

Physically informed neural networks (PINNs) are a promising emerging method for solving differential equations. As in many other deep learning approaches, the choice of PINN design and training protocol requires careful craftsmanship. Here, we suggest a comprehensive theoretical framework that sheds light on this important problem. Leveraging an equivalence between infinitely over-parameterized neural networks and Gaussian process regression (GPR), we derive an integro-differential equation that governs PINN prediction in the large data-set limit -- the Neurally-Informed Equation (NIE). This equation augments the original one by a kernel term reflecting architecture choices and allows quantifying implicit bias induced by the network via a spectral decomposition of the source term in the original differential equation.
翻訳日:2023-07-14 16:46:11 公開日:2023-07-12
# ファンデルワールス材料におけるスピン欠陥の同位体工学

Isotope engineering for spin defects in van der Waals materials ( http://arxiv.org/abs/2307.06441v1 )

ライセンス: Link先を確認
Ruotian Gong, Xinyi Du, Eli Janzen, Vincent Liu, Zhongyuan Liu, Guanghui He, Bingtian Ye, Tongcang Li, Norman Y. Yao, James H. Edgar, Erik A. Henriksen, Chong Zu(参考訳) ファンデルワールス材料のスピン欠陥は量子技術の発展に有望なプラットフォームを提供する。 本稿では, 埋込スピン欠陥のコヒーレンス特性を著しく向上させるため, ホスト材料の同位体工学に基づく強力な技術を提案する。 六方晶窒化ホウ素 (hBN) における最近発見された負電荷のホウ素空孔中心 (\mathrm{V}_{\mathrm{B}}^-$) に着目して, イソトピー的に精製された $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$ 結晶を初めて育成する。 同位体の自然分布と hbn における $\mathrm{v}_{\mathrm{b}}^-$ と比較して、より狭く、より混み合っている $\mathrm{v}_{\mathrm{b}}^-$ スピン遷移や拡張コヒーレンス時間 $t_2$ と緩和時間 $t_1$ が観測される。 量子センシングでは、$\mathrm{v}_{\mathrm{b}}^-$ centers in our $\mathrm{h}{}^{10}\mathrm{b}{}^{15}\mathrm{n}$例では、dc(ac)磁場の感度が4ドル (2$)向上している。 量子レジスタでは、$\mathrm{V}_{\mathrm{B}}^-$超微粒子レベルの個々のアドレナビリティは、3つの隣接する${}^{15}\mathrm{N}$核スピンの動的偏極とコヒーレント制御を可能にする。 本研究は,hbn中の量子スピン欠陥の特性を向上させるための同位体工学の力を示し,ファンデルワールス物質の幅広い族におけるスピン量子ビットの改善に容易に拡張できることを示す。

Spin defects in van der Waals materials offer a promising platform for advancing quantum technologies. Here, we propose and demonstrate a powerful technique based on isotope engineering of host materials to significantly enhance the coherence properties of embedded spin defects. Focusing on the recently-discovered negatively charged boron vacancy center ($\mathrm{V}_{\mathrm{B}}^-$) in hexagonal boron nitride (hBN), we grow isotopically purified $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$ crystals for the first time. Compared to $\mathrm{V}_{\mathrm{B}}^-$ in hBN with the natural distribution of isotopes, we observe substantially narrower and less crowded $\mathrm{V}_{\mathrm{B}}^-$ spin transitions as well as extended coherence time $T_2$ and relaxation time $T_1$. For quantum sensing, $\mathrm{V}_{\mathrm{B}}^-$ centers in our $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$ samples exhibit a factor of $4$ ($2$) enhancement in DC (AC) magnetic field sensitivity. For quantum registers, the individual addressability of the $\mathrm{V}_{\mathrm{B}}^-$ hyperfine levels enables the dynamical polarization and coherent control of the three nearest-neighbor ${}^{15}\mathrm{N}$ nuclear spins. Our results demonstrate the power of isotope engineering for enhancing the properties of quantum spin defects in hBN, and can be readily extended to improving spin qubits in a broad family of van der Waals materials.
翻訳日:2023-07-14 16:38:32 公開日:2023-07-12
# no train no gain: トランスフォーマーベースの言語モデルのための効率的なトレーニングアルゴリズムの再検討

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models ( http://arxiv.org/abs/2307.06440v1 )

ライセンス: Link先を確認
Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner(参考訳) トランスフォーマーベースの言語モデルのトレーニングに必要な計算量は近年急増している。 この傾向は、トレーニング、バリデーション、下流のパフォーマンスを標準トレーニングよりも高速に向上するために設計された効率的なトレーニングアルゴリズムの研究を動機付けている。 本研究では,動的アーキテクチャ (レイヤスタック,レイヤドロップ),バッチ選択 (選択バックプロップ,rho損失),効率的な最適化 (lion,sophia) という3つのカテゴリを再検討する。 このような手法を用いて, BERT と T5 を固定計算予算で事前学習すると, トレーニング, 検証, ダウンストリームのゲインが, 完全に遅延した学習率のベースラインに比べて消失することがわかった。 我々は,すべての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることにより,任意のマシン上での計算を可能にする評価プロトコルを定義する。 我々は提案するプロトコルの限界について議論し、効率的なトレーニング手順における厳密な研究を促進するためにコードをリリースした。

The computation necessary for training Transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work, we revisit three categories of such algorithms: dynamic architectures (layer stacking, layer dropping), batch selection (selective backprop, RHO loss), and efficient optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed computation budget using such methods, we find that their training, validation, and downstream gains vanish compared to a baseline with a fully-decayed learning rate. We define an evaluation protocol that enables computation to be done on arbitrary machines by mapping all computation time to a reference machine which we call reference system time. We discuss the limitations of our proposed protocol and release our code to encourage rigorous research in efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain.
翻訳日:2023-07-14 16:37:55 公開日:2023-07-12
# 生体医学的知識抽出のための大規模言語モデルの蒸留--有害薬物事象の事例研究

Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events ( http://arxiv.org/abs/2307.06439v1 )

ライセンス: Link先を確認
Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon(参考訳) gpt-4のような大規模言語モデル(llm)は、健康アプリケーションを含む幅広いタスクにわたって顕著な能力を示している。 本稿では, LLMをバイオメディカル知識キュレーションのスケールアップに利用する方法について検討する。 バイオメディカルテキスト構築において LLM は, 自己指導学習によるタスク固有の学生モデルへの蒸留により, すでに十分な能力を有している一方で, コスト, 効率, ホワイトボックスモデルアクセスといった付加的な利点により, アウト・オブ・ボックス LLM 上で実質的な利得が得られることがわかった。 我々は,医療改善の重要領域である有害薬物イベント(ADE)抽出の事例研究を行う。 GPT-3.5蒸留PubMedBERTは,標準ADE抽出評価において,ラベル付きデータを用いることなく,教師付き最先端モデルと同等の精度を実現した。 1000倍以上小さいにもかかわらず、蒸留されたモデルは教師の GPT-3.5 を F1 と GPT-4 の 6 以上の絶対点で上回った。 蒸留モデル選択(例:PubMedBERT vs BioGPT)とADE抽出アーキテクチャのアブレーション研究は、生物医学的知識抽出のベストプラクティスに光を当てた。 同様の利益は、他の標準バイオメディカル知識抽出タスク、例えば、遺伝子消失協会や保護された健康情報に対する蒸留によって達成され、このアプローチの約束をさらに具現化した。

Large language models (LLMs), such as GPT-4, have demonstrated remarkable capabilities across a wide range of tasks, including health applications. In this paper, we study how LLMs can be used to scale biomedical knowledge curation. We find that while LLMs already possess decent competency in structuring biomedical text, by distillation into a task-specific student model through self-supervised learning, substantial gains can be attained over out-of-box LLMs, with additional advantages such as cost, efficiency, and white-box model access. We conduct a case study on adverse drug event (ADE) extraction, which is an important area for improving care. On standard ADE extraction evaluation, a GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised state-of-the-art models without using any labeled data. Despite being over 1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by over 6 absolute points in F1 and GPT-4 by over 5 absolute points. Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT) and ADE extraction architecture shed light on best practice for biomedical knowledge extraction. Similar gains were attained by distillation for other standard biomedical knowledge extraction tasks such as gene-disease associations and protected health information, further illustrating the promise of this approach.
翻訳日:2023-07-14 16:37:35 公開日:2023-07-12
# 多成分絡み合い群

Multipartite entanglement groups ( http://arxiv.org/abs/2307.06437v1 )

ライセンス: Link先を確認
Xiaole Jiang, Daniel Kabat, Gilad Lifschytz, Aakash Marthandan(参考訳) 本稿では,システムの一部に作用する変換を,他の部分に作用する変換によって解き放たれる変換として,純粋状態の多部交絡を定義することを提案する。 このことは、群、すなわち安定化群とその部分群のある種の商という観点からの多部交絡の定義につながる。 これらの絡み合い群の性質を解析し, 絡み合いの単元性に正確な意味を与える制約をもたらすことを示した。 我々はこれらの群を用いて、多部量子系における絡みの有限な分類を提案し、この絡みの特徴づけがいくつかのよく知られた量子タスクの下にあることを示す。

We propose to define multipartite entanglement of pure states as transformations acting on some parts of a system that can be undone by transformations acting on other parts. This leads to a definition of multipartite entanglement in terms of groups, namely certain quotients of the stabilizer group and its subgroups. We analyze properties of these entanglement groups and show that they lead to restrictions which give a precise meaning to monogamy of entanglement. We use these groups to propose a finite classification of entanglement types in multi-partite quantum systems and we show that this characterization of entanglement underlies several well-known quantum tasks.
翻訳日:2023-07-14 16:37:11 公開日:2023-07-12
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v1 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、多数のモデルの開発に繋がる優れた一般化能力を示している。 これらのモデルは、様々な新しいアーキテクチャを提案し、洗練されたトレーニング戦略で既存のアーキテクチャを微調整し、コンテキストの長さを長くし、高品質なトレーニングデータを使用し、ベースラインを上回るトレーニング時間を増やす。 学習の安定性を高め、LLMの一般化を改善する変化を特定するためには、新しい開発分析が不可欠である。 本稿では,llmsアーキテクチャとその分類,トレーニング戦略,トレーニングデータセット,パフォーマンス評価を包括的に分析し,今後の研究動向について考察する。 さらに,LLMの背後にある基本的な構成要素や概念についても論じるとともに,その重要な特徴や機能を含むLLMの概要を概観する。 最後に,LLM 研究から得られた重要な知見を要約し,高度 LLM 開発に不可欠なアーキテクチャとトレーニング戦略を統合する。 LLMの継続的な進歩を踏まえ、我々は新しいセクションを取り入れ、最新のLLMモデルを特徴付けることで定期的に更新する。

Large Language Models (LLMs) have shown excellent generalization capabilities that have led to the development of numerous models. These models propose various new architectures, tweaking existing architectures with refined training strategies, increasing context length, using high-quality training data, and increasing training time to outperform baselines. Analyzing new developments is crucial for identifying changes that enhance training stability and improve generalization in LLMs. This survey paper comprehensively analyses the LLMs architectures and their categorization, training strategies, training datasets, and performance evaluations and discusses future research directions. Moreover, the paper also discusses the basic building blocks and concepts behind LLMs, followed by a complete overview of LLMs, including their important features and functions. Finally, the paper summarizes significant findings from LLM research and consolidates essential architectural and training strategies for developing advanced LLMs. Given the continuous advancements in LLMs, we intend to regularly update this paper by incorporating new sections and featuring the latest LLM models.
翻訳日:2023-07-14 16:37:00 公開日:2023-07-12
# グラフアテンションネットワークと重み付きイベントを用いたベルIIにおける選択的背景モンテカルロシミュレーションの改善

Improved selective background Monte Carlo simulation at Belle II with graph attention networks and weighted events ( http://arxiv.org/abs/2307.06434v1 )

ライセンス: Link先を確認
Boyang Yu, Nikolai Hartmann, Luca Schinnerl, Thomas Kuhr(参考訳) ベルIIで希少な過程を測定する際には、大きな光度が必要であり、信号効率と背景貢献を決定するために大量のシミュレーションが必要である。 しかし、このプロセスでは高い計算コストが要求され、シミュレーションされたデータ、特に背景データの多くはイベントセレクションによって破棄される。 これにより、グラフニューラルネットワークを用いたフィルタが早期に導入され、分析レベルで廃棄された事象の検出器シミュレーションや再構成のためのリソースが節約される。 本研究では,グラフアテンションを用いてフィルタの性能を改善し,サンプリングや再重み付けなどの統計的手法を用いてフィルタのバイアスに対処する。

When measuring rare processes at Belle II, a huge luminosity is required, which means a large number of simulations are necessary to determine signal efficiencies and background contributions. However, this process demands high computation costs while most of the simulated data, in particular in case of background, are discarded by the event selection. Thus, filters using graph neural networks are introduced at an early stage to save the resources for the detector simulation and reconstruction of events discarded at analysis level. In our work, we improved the performance of the filters using graph attention and investigated statistical methods including sampling and reweighting to deal with the biases introduced by the filtering.
翻訳日:2023-07-14 16:36:43 公開日:2023-07-12
# エネルギー格差:エネルギーモデルにおけるスコア非依存損失

Energy Discrepancies: A Score-Independent Loss for Energy-Based Models ( http://arxiv.org/abs/2307.06431v1 )

ライセンス: Link先を確認
Tobias Schr\"oder, Zijing Ou, Jen Ning Lim, Yingzhen Li, Sebastian J. Vollmer, Andrew B. Duncan(参考訳) エネルギーベースモデルは単純だが強力な確率モデルであるが、それらの普及は訓練の計算負担によって制限されている。 本稿では,スコアや高価なマルコフ連鎖モンテカルロの計算に依存しないエネルギー離散性(ED)と呼ばれる新しい損失関数を提案する。 EDは明示的なスコアマッチングと負のログ類似損失に異なる限界でアプローチし,両者を効果的に補間することを示した。 したがって、最小ed推定はスコアベース推定法で発生する近視性の問題を克服し、理論的な保証を享受する。 数値実験により、EDは明示的なスコアマッチングや対照的な分散よりも、低次元のデータ分布を高速かつ正確に学習することを示した。 高次元画像データでは、多様体仮説が我々のアプローチに制限を与える方法を説明し、エネルギーベースモデルを変分デコーダモデルの先行として訓練することによりエネルギー差分効果を実証する。

Energy-based models are a simple yet powerful class of probabilistic models, but their widespread adoption has been limited by the computational burden of training them. We propose a novel loss function called Energy Discrepancy (ED) which does not rely on the computation of scores or expensive Markov chain Monte Carlo. We show that ED approaches the explicit score matching and negative log-likelihood loss under different limits, effectively interpolating between both. Consequently, minimum ED estimation overcomes the problem of nearsightedness encountered in score-based estimation methods, while also enjoying theoretical guarantees. Through numerical experiments, we demonstrate that ED learns low-dimensional data distributions faster and more accurately than explicit score matching or contrastive divergence. For high-dimensional image data, we describe how the manifold hypothesis puts limitations on our approach and demonstrate the effectiveness of energy discrepancy by training the energy-based model as a prior of a variational decoder model.
翻訳日:2023-07-14 16:36:31 公開日:2023-07-12
# マルチモーダルラプラス近似を用いたベイズ変分推論のためのロバストな初期化

Robust scalable initialization for Bayesian variational inference with multi-modal Laplace approximations ( http://arxiv.org/abs/2307.06424v1 )

ライセンス: Link先を確認
Wyatt Bridgman, Reese Jones, Mohammad Khalil(参考訳) ベイズ反転、完全独立、あるいは「平均場」に依存する予測モデルでは、変分パラメータの数は未知のモデルパラメータの2倍であるため、ガウス分布は変分推論における近似確率密度関数としてよく用いられる。 結果として生じる対角共分散構造は、多様性を含む非常に非ガウシアンな振る舞いを扱う場合、あまりにも制限的になる。 ガウス混合の形での高忠実なサロゲート後部は、分析的トラクタビリティを維持しながら任意の精度で分布を捉えることができる。 フル共分散構造を持つガウス混合の変分推論は、モデルパラメータの数の変分パラメータの二次成長に苦しむ。 損失関数の非凸傾向による複数の局所ミニマの存在と相まって、これらの課題は、混合モデルによる変動推論の性能と拡張性を改善するための堅牢な初期化手順の必要性を動機付けている。 本研究では,変分推論のための反復解法を温めるために,初期ガウス混合モデル近似を構築する手法を提案する。 この手順はモデルパラメータ空間における最適化段階から始まり、局所勾配に基づく最適化はマルチスタートを通じてグローバル化され、混合成分中心を近似するために要する局所最大値の集合を決定する。 各モードの周囲に局所ガウス近似がラプラス法によって構成される。 最後に、混合重量は最小二乗回帰によって決定される。 堅牢性とスケーラビリティは、合成テストを使って実証される。 この手法は未知の粘性減衰係数を含む構造力学の逆問題に適用される。

For predictive modeling relying on Bayesian inversion, fully independent, or ``mean-field'', Gaussian distributions are often used as approximate probability density functions in variational inference since the number of variational parameters is twice the number of unknown model parameters. The resulting diagonal covariance structure coupled with unimodal behavior can be too restrictive when dealing with highly non-Gaussian behavior, including multimodality. High-fidelity surrogate posteriors in the form of Gaussian mixtures can capture any distribution to an arbitrary degree of accuracy while maintaining some analytical tractability. Variational inference with Gaussian mixtures with full-covariance structures suffers from a quadratic growth in variational parameters with the number of model parameters. Coupled with the existence of multiple local minima due to nonconvex trends in the loss functions often associated with variational inference, these challenges motivate the need for robust initialization procedures to improve the performance and scalability of variational inference with mixture models. In this work, we propose a method for constructing an initial Gaussian mixture model approximation that can be used to warm-start the iterative solvers for variational inference. The procedure begins with an optimization stage in model parameter space in which local gradient-based optimization, globalized through multistart, is used to determine a set of local maxima, which we take to approximate the mixture component centers. Around each mode, a local Gaussian approximation is constructed via the Laplace method. Finally, the mixture weights are determined through constrained least squares regression. Robustness and scalability are demonstrated using synthetic tests. The methodology is applied to an inversion problem in structural dynamics involving unknown viscous damping coefficients.
翻訳日:2023-07-14 16:36:14 公開日:2023-07-12
# 多粒性トポロジー保護のための差分分離グラフ畳み込み

Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection ( http://arxiv.org/abs/2307.06422v1 )

ライセンス: Link先を確認
Eli Chien, Wei-Ning Chen, Chao Pan, Pan Li, Ayfer \"Ozg\"ur, Olgica Milenkovic(参考訳) グラフ畳み込みに基づくグラフニューラルネットワーク(GNN)のようなグラフ学習手法は、グラフ構造化データを含む現実的な学習問題の解決に成功している。 しかし、グラフ学習手法は、モデルパラメータだけでなく、モデル予測を通じて、センシティブなユーザ情報やインタラクションを公開する。 したがって、モデルウェイトプライバシを提供するだけの標準微分プライバシ(DP)技術は不十分である。 これは特に、隣接するノード属性を直接グラフ畳み込みを通じて活用し、プライバシー漏洩のリスクを生じさせるノード予測のケースである。 この問題に対処するために、グラフ微分プライバシー(GDP)を導入し、グラフ学習設定に適した新しい形式DPフレームワークを導入し、実証可能なプライベートモデルパラメータと予測の両方を保証する。 さらに,ノード属性とグラフ構造には異なるプライバシ要件が存在する可能性があるため,ノードレベルのデータ隣接度を緩和する新たな概念を導入する。 この緩和は、ノード属性のプライバシを維持しながら、さまざまなグラフトポロジのプライバシの保証を確立するために使用できる。 この緩和は、グラフ学習手法におけるユーティリティとトポロジのプライバシーのトレードオフとして有用である。 さらに,既存のDP-GNNは,標準グラフ畳み込み設計におけるグラフトポロジと属性データとの複雑な相互作用のため,このトレードオフを活用できないことが明らかとなった。 この問題を軽減するために, gdp保証を提供しながら, 分離グラフ畳み込みの利点を享受する微分プライベートグラフ畳み込み(dpdgc)モデルを導入する。 7つのノード分類ベンチマークデータセットに対する大規模な実験は、標準グラフ畳み込み設計に基づく既存のDP-GNNよりも、PDGCのプライバシーとユーティリティのトレードオフが優れていることを示している。

Graph learning methods, such as Graph Neural Networks (GNNs) based on graph convolutions, are highly successful in solving real-world learning problems involving graph-structured data. However, graph learning methods expose sensitive user information and interactions not only through their model parameters but also through their model predictions. Consequently, standard Differential Privacy (DP) techniques that merely offer model weight privacy are inadequate. This is especially the case for node predictions that leverage neighboring node attributes directly via graph convolutions that create additional risks of privacy leakage. To address this problem, we introduce Graph Differential Privacy (GDP), a new formal DP framework tailored to graph learning settings that ensures both provably private model parameters and predictions. Furthermore, since there may be different privacy requirements for the node attributes and graph structure, we introduce a novel notion of relaxed node-level data adjacency. This relaxation can be used for establishing guarantees for different degrees of graph topology privacy while maintaining node attribute privacy. Importantly, this relaxation reveals a useful trade-off between utility and topology privacy for graph learning methods. In addition, our analysis of GDP reveals that existing DP-GNNs fail to exploit this trade-off due to the complex interplay between graph topology and attribute data in standard graph convolution designs. To mitigate this problem, we introduce the Differentially Private Decoupled Graph Convolution (DPDGC) model, which benefits from decoupled graph convolution while providing GDP guarantees. Extensive experiments on seven node classification benchmarking datasets demonstrate the superior privacy-utility trade-off of DPDGC over existing DP-GNNs based on standard graph convolution design.
翻訳日:2023-07-14 16:35:47 公開日:2023-07-12
# rabit:コロンポリープセグメンテーションのための双方向特徴ピラミッドネットワークを用いた効率的なトランスフォーマー

RaBiT: An Efficient Transformer using Bidirectional Feature Pyramid Network with Reverse Attention for Colon Polyp Segmentation ( http://arxiv.org/abs/2307.06420v1 )

ライセンス: Link先を確認
Nguyen Hoang Thuan, Nguyen Thi Oanh, Nguyen Thi Thuy, Stuart Perry, Dinh Viet Sang(参考訳) 大腸癌の早期診断には大腸ポリープの自動的・高精度分割が不可欠である。 高度なディープラーニングモデルは、Polypセグメンテーションにおいて有望な結果を示している。 しかし、これらには、マルチスケールの機能と一般化能力の制限がある。 これらの問題に対処するために,本研究では,マルチレベルなグローバルな意味関係をモデル化するために,トランスフォーマーベースの軽量アーキテクチャをエンコーダに組み込んだエンコーダデコーダモデルであるRaBiTを紹介する。 デコーダは複数の双方向の特徴ピラミッド層から構成されており、様々なレベルの特徴写像を融合させ、ポリプ境界を漸進的に洗練する。 また,リバースアテンションモジュールを軽量化し,マルチクラスセグメンテーションに適合させるアイデアを提案する。 いくつかのベンチマークデータセットでの広範囲な実験により、計算の複雑さを低く保ちつつ、すべてのデータセットで既存のメソッドを上回っていることが判明した。 さらに,トレーニングとテストセットが異なる特性を持つ場合においても,クロスデータセット実験において高い一般化能力を示す。

Automatic and accurate segmentation of colon polyps is essential for early diagnosis of colorectal cancer. Advanced deep learning models have shown promising results in polyp segmentation. However, they still have limitations in representing multi-scale features and generalization capability. To address these issues, this paper introduces RaBiT, an encoder-decoder model that incorporates a lightweight Transformer-based architecture in the encoder to model multiple-level global semantic relationships. The decoder consists of several bidirectional feature pyramid layers with reverse attention modules to better fuse feature maps at various levels and incrementally refine polyp boundaries. We also propose ideas to lighten the reverse attention module and make it more suitable for multi-class segmentation. Extensive experiments on several benchmark datasets show that our method outperforms existing methods across all datasets while maintaining low computational complexity. Moreover, our method demonstrates high generalization capability in cross-dataset experiments, even when the training and test sets have different characteristics.
翻訳日:2023-07-14 16:35:20 公開日:2023-07-12
# パスシグネチャとsiamese unsupervised feature compressorを用いた早期自閉症診断

Early Autism Diagnosis based on Path Signature and Siamese Unsupervised Feature Compressor ( http://arxiv.org/abs/2307.06472v1 )

ライセンス: Link先を確認
Zhuowen Yin, Xinyao Ding, Xin Zhang, Zhengwang Wu, Li Wang and Gang Li(参考訳) 自閉症スペクトラム障害(asd)は、公衆衛生の脅威になりつつある。 ASDの早期診断は、タイムリーで効果的な介入と治療に不可欠である。 しかし, コミュニケーションや行動パターンに基づく従来の診断法は, 2歳未満の子どもには信頼性が低い。 ASD乳児の神経発達異常の証拠を考慮し, 早期自閉症診断のために, 自然欠失, クラス不均衡, 異種構造MR画像から重要な特徴を抽出する, 深層学習に基づく新しい手法を考案した。 具体的には,不足データ拡張のためのsiamese検証フレームワークと,キー特徴抽出によるデータ不均衡緩和のための教師なし圧縮器を提案する。 また,バリデーション中に異なるサンプルの投票重みを与えることにより,サンプルの不均一性に対処するための重み制約を提案し,二点データから有意義な発達特性を明らかにするためにパスシグネチャを用いた。 広範な実験により,既存の機械学習手法を超越した実用シナリオでは,本手法が良好に動作することが示された。

Autism Spectrum Disorder (ASD) has been emerging as a growing public health threat. Early diagnosis of ASD is crucial for timely, effective intervention and treatment. However, conventional diagnosis methods based on communications and behavioral patterns are unreliable for children younger than 2 years of age. Given evidences of neurodevelopmental abnormalities in ASD infants, we resort to a novel deep learning-based method to extract key features from the inherently scarce, class-imbalanced, and heterogeneous structural MR images for early autism diagnosis. Specifically, we propose a Siamese verification framework to extend the scarce data, and an unsupervised compressor to alleviate data imbalance by extracting key features. We also proposed weight constraints to cope with sample heterogeneity by giving different samples different voting weights during validation, and we used Path Signature to unravel meaningful developmental features from the two-time point data longitudinally. Extensive experiments have shown that our method performed well under practical scenarios, transcending existing machine learning methods.
翻訳日:2023-07-14 16:29:11 公開日:2023-07-12
# chatgptによるシステムレビュー記事の表示能力の評価

Assessing the Ability of ChatGPT to Screen Articles for Systematic Reviews ( http://arxiv.org/abs/2307.06464v1 )

ライセンス: Link先を確認
Eugene Syriani, Istvan David, Gauransh Kumar(参考訳) 研究分野内の知識を整理することで、システマティック・レビュー(sr)は研究に有用な手がかりを提供する。 エビデンスによれば、SRはソフトウェア工学の第一級のアーティファクトになっている。 しかし、SRのスクリーニングフェーズにまつわる面倒な手作業は、これらの研究をコストが高く、エラーを起こしやすいものにしている。 従来、スクリーニングは自動化には適さないと考えられてきたが、生成可能なAI駆動型チャットボットの出現は、大きな言語モデルで支えられている。 本稿では,SRのスクリーニングの自動化にこれらの新しい技術開発を活用するためのアプローチを提案する。 SRの検定項目におけるChatGPTの整合性,分類性能,一般化性を評価し,これらの数値をSR自動化における従来の分類器と比較した。 この結果から,ChatGPT は SR プロセスを自動化する上で有効な選択肢であるが,ChatGPT を SR ツールに統合するには,開発者から慎重に検討する必要があることが示唆された。

By organizing knowledge within a research field, Systematic Reviews (SR) provide valuable leads to steer research. Evidence suggests that SRs have become first-class artifacts in software engineering. However, the tedious manual effort associated with the screening phase of SRs renders these studies a costly and error-prone endeavor. While screening has traditionally been considered not amenable to automation, the advent of generative AI-driven chatbots, backed with large language models is set to disrupt the field. In this report, we propose an approach to leverage these novel technological developments for automating the screening of SRs. We assess the consistency, classification performance, and generalizability of ChatGPT in screening articles for SRs and compare these figures with those of traditional classifiers used in SR automation. Our results indicate that ChatGPT is a viable option to automate the SR processes, but requires careful considerations from developers when integrating ChatGPT into their SR tools.
翻訳日:2023-07-14 16:28:52 公開日:2023-07-12
# 効率よく検証可能な強い一様解像と行列乗算

Efficiently-Verifiable Strong Uniquely Solvable Puzzles and Matrix Multiplication ( http://arxiv.org/abs/2307.06463v1 )

ライセンス: Link先を確認
Matthew Anderson, Vu Le(参考訳) 我々は高速行列乗算アルゴリズムを開発するための Cohn-Umans フレームワークを前進させる。 我々は,Simplified SUSP(simplified SUSP)と呼ばれる,一意に解けるパズル(SUSP)のサブクラスを新たに導入し,解析し,探索する。 これらのパズルは効率よく検証可能であることを示すが、これは一般のSUSPにとって未解決の問題である。 また、個々の単純化可能なsuspは、無限のsusp族ができる行列乗算指数$\omega$ 上の境界の強さが同じであることも示している。 コンピュータサーチにより、従来は小幅で知られていたより大きなSUSPの構築について報告する。 これは我々のより厳密な分析と相まって、この計算手法によって得られる行列乗法指数の上限を2.66ドルから2.505ドルに強化し、コーンらによる手作り構成の結果に近づいた。

We advance the Cohn-Umans framework for developing fast matrix multiplication algorithms. We introduce, analyze, and search for a new subclass of strong uniquely solvable puzzles (SUSP), which we call simplifiable SUSPs. We show that these puzzles are efficiently verifiable, which remains an open question for general SUSPs. We also show that individual simplifiable SUSPs can achieve the same strength of bounds on the matrix multiplication exponent $\omega$ that infinite families of SUSPs can. We report on the construction, by computer search, of larger SUSPs than previously known for small width. This, combined with our tighter analysis, strengthens the upper bound on the matrix multiplication exponent from $2.66$ to $2.505$ obtainable via this computational approach, and nears the results of the handcrafted constructions of Cohn et al.
翻訳日:2023-07-14 16:28:35 公開日:2023-07-12
# 古典的確率力学によるシュル=オディンガー方程式の導出

Derivation of the Schr\"odinger equation from classical stochastic dynamics ( http://arxiv.org/abs/2307.06461v1 )

ライセンス: Link先を確認
M\'ario J. de Oliveira(参考訳) 古典的な運動の確率方程式から、量子Schr\"odinger方程式を導出する。 この導出は、波動関数 $\phi$ の実部と虚部が、基礎となる古典系の自由度に関連する座標とモーメントに比例することを仮定して行われる。 波動関数 $\phi$ は、複素時間依存確率変数であり、$\phi$ のノルムを保存する確率方程式に従うと仮定される。 量子リウヴィル方程式は、運動方程式の確率的な部分が$\phi$の位相を変えるが絶対値ではないことを考慮して得られる。 Schr\"odinger 方程式は、リウヴィル方程式から従う。 シュリンガー方程式に従う波動関数 $\psi$ は $|\psi|^2=\langle|\phi|^2\rangle$ による確率波動関数と関連している。

From classical stochastic equations of motion we derive the quantum Schr\"odinger equation. The derivation is carried out by assuming that the real and imaginary parts of the wave function $\phi$ are proportional to the coordinates and momenta associated to the degrees of freedom of an underlying classical system. The wave function $\phi$ is assumed to be a complex time dependent random variable that obeys a stochastic equation of motion that preserves the norm of $\phi$. The quantum Liouville equation is obtained by considering that the stochastic part of the equation of motion changes the phase of $\phi$ but not its absolute value. The Schr\"odinger equation follows from the Liouville equation. The wave function $\psi$ obeying the Schr\"odinger equation is related to the stochastic wave function by $|\psi|^2=\langle|\phi|^2\rangle$.
翻訳日:2023-07-14 16:28:20 公開日:2023-07-12
# オンライン画像利用の発見--Flatten the Curveによるケーススタディ

Discovering Image Usage Online: A Case Study With "Flatten the Curve'' ( http://arxiv.org/abs/2307.06458v1 )

ライセンス: Link先を確認
Shawn M. Jones and Diane Oyen(参考訳) Web上の画像の拡散を理解することは、科学的な視覚化の再利用と、一般の人々との関係を理解するのに役立つ。 新型コロナウイルス(COVID-19)のパンデミックで、複雑な概念を単純な形で伝達するために「Flatten the Curve」という図が多用された。 厚生労働省は、新型コロナウイルスの感染拡大に伴う医療施設のケース負荷への影響を比較する曲線を2つ示した。 画像の拡散をオンラインで見るためのケーススタディとして,5種類の「Flatten the Curve」画像を用いている。 拡散を評価するために,リバース画像検索エンジン,ソーシャルメディア,ウェブアーカイブの3つの情報チャネルを利用する。 リバースイメージ検索は、画像再利用の現在のビューを提供する。 ソーシャルメディアは、変種の人気を時間とともに理解するのに役立ちます。 Webアーカイブは、いつ保存されたかを確認するのに役立つ。 本ケーススタディでは,オンライン画像の拡散を調べる際に,文書urlを画像のプロキシとして活用する。

Understanding the spread of images across the web helps us understand the reuse of scientific visualizations and their relationship with the public. The "Flatten the Curve" graphic was heavily used during the COVID-19 pandemic to convey a complex concept in a simple form. It displays two curves comparing the impact on case loads for medical facilities if the populace either adopts or fails to adopt protective measures during a pandemic. We use five variants of the "Flatten the Curve" image as a case study for viewing the spread of an image online. To evaluate its spread, we leverage three information channels: reverse image search engines, social media, and web archives. Reverse image searches give us a current view into image reuse. Social media helps us understand a variant's popularity over time. Web archives help us see when it was preserved, highlighting a view of popularity for future researchers. Our case study leverages document URLs can be used as a proxy for images when studying the spread of images online.
翻訳日:2023-07-14 16:28:06 公開日:2023-07-12
# 組合せ分布シフトに取り組む:行列完全性の観点から

Tackling Combinatorial Distribution Shift: A Matrix Completion Perspective ( http://arxiv.org/abs/2307.06457v1 )

ライセンス: Link先を確認
Max Simchowitz and Kaiqing Zhang and Abhishek Gupta(参考訳) 分布シフト下での一般化のための厳密な統計的保証を得ることは、オープンかつアクティブな研究領域である。 私たちはコンビネート的分布シフトという設定を研究し (a) テストおよびトレーニング配信の下では、ラベル$z$ は機能対 $(x,y)$ によって決定される。 b) トレーニング分布は、x$ と y$ を別にして、一定の限界分布をカバーするが、 (c) テスト分布は、トレーニング分布でカバーされている {not} である $(x,y)$ 以上の製品分布からの例を含む。 ラベルが双線型埋め込みによってヒルベルト空間 $H$: $\mathbb{E}[z \mid x,y]=\langle f_{\star} に与えられる特別な場合に着目して x,g_{\star (複数形 x,g_{\stars) (y)\rangle_{{H}}$、トレーニングでカバーされる$not$のテスト分布領域、すなわち双線形組合せ外挿を達成することを目指している。 本設定では,非ランダムデータから行列完備化の特別な事例を一般化し,既存の結果のすべてにおいて,地上構造行列を正確に低ランクにするか,あるいは非常にシャープなスペクトルカットオフを示す必要がある。 本研究では, 新アルゴリズム, 一般化保証, 線形代数的結果など, 典型的な高次元データに見られるような, 漸進的スペクトル崩壊下での双線形組合せ外挿を可能にする一連の理論的結果を開発する。 鍵となるツールは、絶対スペクトルギャップよりも相対スペクトルギャップに依存する2つの行列の間のランク-$k$ 特異値分解近似に対して束縛された新しい摂動である。

Obtaining rigorous statistical guarantees for generalization under distribution shift remains an open and active research area. We study a setting we call combinatorial distribution shift, where (a) under the test- and training-distributions, the labels $z$ are determined by pairs of features $(x,y)$, (b) the training distribution has coverage of certain marginal distributions over $x$ and $y$ separately, but (c) the test distribution involves examples from a product distribution over $(x,y)$ that is {not} covered by the training distribution. Focusing on the special case where the labels are given by bilinear embeddings into a Hilbert space $H$: $\mathbb{E}[z \mid x,y ]=\langle f_{\star}(x),g_{\star}(y)\rangle_{{H}}$, we aim to extrapolate to a test distribution domain that is $not$ covered in training, i.e., achieving bilinear combinatorial extrapolation. Our setting generalizes a special case of matrix completion from missing-not-at-random data, for which all existing results require the ground-truth matrices to be either exactly low-rank, or to exhibit very sharp spectral cutoffs. In this work, we develop a series of theoretical results that enable bilinear combinatorial extrapolation under gradual spectral decay as observed in typical high-dimensional data, including novel algorithms, generalization guarantees, and linear-algebraic results. A key tool is a novel perturbation bound for the rank-$k$ singular value decomposition approximations between two matrices that depends on the relative spectral gap rather than the absolute spectral gap, a result that may be of broader independent interest.
翻訳日:2023-07-14 16:27:51 公開日:2023-07-12
# 超次元システムにおける閉じ込め誘起非局所性とカシミール力

Confinement-Induced Nonlocality and Casimir Force in Transdimensional Systems ( http://arxiv.org/abs/2307.06452v1 )

ライセンス: Link先を確認
Igor V. Bondarev, Michael D. Pugh, Pablo Rodriguez-Lopez, Lilia M. Woods, and Mauro Antezza(参考訳) リフシッツ理論の枠組みの中で, 面内等方性および異方性自由立方性を有する材料スラブの長距離カシミール力について検討した。 前者の場合、閉じ込めによって引き起こされる非局所性は超薄板の魅力を弱めるだけでなく、物質依存補正の距離依存性をカシミール力に変化させ、$\sim\! 1/\! sqrt{l}$ は$\sim\! 1/l$の局所リフシッツ力依存性を示した。 後者の場合,有限厚の誘電体層に並列に配列した単層カーボンナノチューブを密集させて,スラブ厚さを小さくすることで,スラブ間引力の強い配向異方性とクロスオーバー挙動を示す。 このような超薄型のスラブが、従来のように平行な相対方向ではなく、垂直方向の方法で固まるのを好む理由について、物理的な洞察を与えます。

We study within the framework of the Lifshitz theory the long-range Casimir force for in-plane isotropic and anisotropic free-standing transdimensional material slabs. In the former case, we show that the confinement-induced nonlocality not only weakens the attraction of ultrathin slabs but also changes the distance dependence of the material-dependent correction to the Casimir force to go as $\sim\!1/\!\sqrt{l}$ contrary to the $\sim\!1/l$ dependence of that of the local Lifshitz force. In the latter case, we use closely packed array of parallel aligned single-wall carbon nanotubes in a dielectric layer of finite thickness to demonstrate strong orientational anisotropy and crossover behavior for the inter-slab attractive force in addition to its reduction with decreasing slab thickness. We give physical insight as to why such a pair of ultrathin slabs prefers to stick together in the perpendicularly oriented manner, rather than in the parallel relative orientation as one would customarily expect.
翻訳日:2023-07-14 16:27:20 公開日:2023-07-12
# 確率的遅延微分ゲーム:金融モデリングと機械学習アルゴリズム

Stochastic Delay Differential Games: Financial Modeling and Machine Learning Algorithms ( http://arxiv.org/abs/2307.06450v1 )

ライセンス: Link先を確認
Robert Balkin and Hector D. Ceniceros and Ruimeng Hu(参考訳) 本稿では,ディープラーニングによる確率遅延差分ゲームにおける閉ループナッシュ平衡を求める数値手法を提案する。 これらのゲームは金融や経済学において一般的であり、マルチエージェント相互作用や遅延効果はモデルにおいてしばしば望ましい特徴であるが、問題の次元性の向上を犠牲にして導入される。 この次元の増大は、プレイヤー数から生じる次元が遅延によって引き起こされる潜在的無限次元と結合されることで特に重要である。 我々のアプローチは、異なるリカレントニューラルネットワークを使用して各プレイヤーの制御をパラメータ化する。 これらの繰り返しニューラルネットワークベースの制御は、深層学習技術を取り入れたブラウンの架空の遊びの修正版を使用して訓練される。 提案手法の有効性を評価するため,既知解を用いた金融関連問題に対して検証を行った。 さらに,新しい問題を開発し,その解析的nash平衡解を導出し,提案する深層学習手法の性能評価のための追加ベンチマークを行う。

In this paper, we propose a numerical methodology for finding the closed-loop Nash equilibrium of stochastic delay differential games through deep learning. These games are prevalent in finance and economics where multi-agent interaction and delayed effects are often desired features in a model, but are introduced at the expense of increased dimensionality of the problem. This increased dimensionality is especially significant as that arising from the number of players is coupled with the potential infinite dimensionality caused by the delay. Our approach involves parameterizing the controls of each player using distinct recurrent neural networks. These recurrent neural network-based controls are then trained using a modified version of Brown's fictitious play, incorporating deep learning techniques. To evaluate the effectiveness of our methodology, we test it on finance-related problems with known solutions. Furthermore, we also develop new problems and derive their analytical Nash equilibrium solutions, which serve as additional benchmarks for assessing the performance of our proposed deep learning approach.
翻訳日:2023-07-14 16:27:03 公開日:2023-07-12
# ビデオフレーム補間のための効率的な畳み込みおよびトランスベースネットワーク

Efficient Convolution and Transformer-Based Network for Video Frame Interpolation ( http://arxiv.org/abs/2307.06443v1 )

ライセンス: Link先を確認
Issa Khalifeh, Luka Murn, Marta Mrak and Ebroul Izquierdo(参考訳) ビデオフレーム補間は、ビデオコーディング、放送、および生産分野におけるいくつかの重要な産業的応用において、ますます重要な研究課題となっている。 近年,変圧器が現場に導入され,性能が大幅に向上した。 しかし、これはメモリ使用量、トレーニング、推論時間を大幅に増加させるコストが伴う。 本稿では、トランスエンコーダと畳み込み特徴を統合する新しい手法を提案する。 このネットワークは、既存のトランスフォーマーベースの補間法と比較して、50%近いメモリ負荷を削減し、推論時間で最大4倍高速に動作させる。 局所相関のモデル化における畳み込みの強みと長距離依存のトランスフォーマの強みを組み合わせたデュアルエンコーダアーキテクチャが導入された。 提案手法のロバスト性を示すために, 複雑な動作を持つ様々なベンチマークを用いて定量的評価を行い, 現状の補間ネットワークと比較して, 競争性能が向上した。

Video frame interpolation is an increasingly important research task with several key industrial applications in the video coding, broadcast and production sectors. Recently, transformers have been introduced to the field resulting in substantial performance gains. However, this comes at a cost of greatly increased memory usage, training and inference time. In this paper, a novel method integrating a transformer encoder and convolutional features is proposed. This network reduces the memory burden by close to 50% and runs up to four times faster during inference time compared to existing transformer-based interpolation methods. A dual-encoder architecture is introduced which combines the strength of convolutions in modelling local correlations with those of the transformer for long-range dependencies. Quantitative evaluations are conducted on various benchmarks with complex motion to showcase the robustness of the proposed method, achieving competitive performance compared to state-of-the-art interpolation networks.
翻訳日:2023-07-14 16:26:46 公開日:2023-07-12
# 資源制約を考慮した分散パラメータ推定における協調について

On Collaboration in Distributed Parameter Estimation with Resource Constraints ( http://arxiv.org/abs/2307.06442v1 )

ライセンス: Link先を確認
Yu-Zhen Janice Chen, Daniel S. Menasch\'e, and Don Towsley(参考訳) 本研究では,センサ/エージェント間のパラメータ推定,資源制約の計算,センサ/エージェント間の相関について検討した。 具体的には,多変量ガウス分布の異なる変数から抽出されたセンサ・エージェント群をそれぞれ異なる推定目標を持ち,センサ・エージェントのデータ収集と協調政策設計問題をフィッシャー情報最大化(あるいはクレーマー・ラオ境界最小化)問題として定式化する。 When the knowledge of correlation between variables is available, we analytically identify two particular scenarios: (1) where the knowledge of the correlation between samples cannot be leveraged for collaborative estimation purposes and (2) where the optimal data collection policy involves investing scarce resources to collaboratively sample and transfer information that is not of immediate interest and whose statistics are already known, with the sole goal of increasing the confidence on the estimate of the parameter of interest. 本研究では,分散パラメータ推定問題における最適データ収集と協調政策を学習するために,多腕バンディットアルゴリズムを適用する新しい手法を提案し,提案手法であるdouble-f,double-z,ucb-f,ucb-zがシミュレーションにより有効であることを示す。

We study sensor/agent data collection and collaboration policies for parameter estimation, accounting for resource constraints and correlation between observations collected by distinct sensors/agents. Specifically, we consider a group of sensors/agents each samples from different variables of a multivariate Gaussian distribution and has different estimation objectives, and we formulate a sensor/agent's data collection and collaboration policy design problem as a Fisher information maximization (or Cramer-Rao bound minimization) problem. When the knowledge of correlation between variables is available, we analytically identify two particular scenarios: (1) where the knowledge of the correlation between samples cannot be leveraged for collaborative estimation purposes and (2) where the optimal data collection policy involves investing scarce resources to collaboratively sample and transfer information that is not of immediate interest and whose statistics are already known, with the sole goal of increasing the confidence on the estimate of the parameter of interest. When the knowledge of certain correlation is unavailable but collaboration may still be worthwhile, we propose novel ways to apply multi-armed bandit algorithms to learn the optimal data collection and collaboration policy in our distributed parameter estimation problem and demonstrate that the proposed algorithms, DOUBLE-F, DOUBLE-Z, UCB-F, UCB-Z, are effective through simulations.
翻訳日:2023-07-14 16:26:31 公開日:2023-07-12
# 量子ネットワークのためのユニバーサル量子ウォーク制御プレーン

Universal Quantum Walk Control Plane for Quantum Networks ( http://arxiv.org/abs/2307.06492v1 )

ライセンス: Link先を確認
Matheus Guedes de Andrade, Nitish K. Panigrahy, Wenhan Dai, Saikat Guha, and Don Towsley(参考訳) 量子ネットワークは、量子チャネルを介して量子プロセッサ間の相互作用によって形成される複雑なシステムである。 古典的なコンピュータネットワークと同様、量子ネットワークは量子プロセッサ間の量子演算の分配を可能にする。 本稿では,量子ネットワーク上で分散量子演算を行う量子ウォーク制御プロトコル(QWCP)について述べる。 本稿では,ネットワークグラフ内の量子ウォークとネットワークノード内の量子レジスタとの相互作用を考慮した離散時間生成量子ウォークモデルの一般化を検討する。 QWCPは、分散量子コンピューティングや絡み合い分布、ハードウェア実装の抽象化、チャネルを介した量子情報の伝送といった、ネットワーク化された量子サービスの実装を可能にする。 複数の相互作用する量子ウォークは、交絡した制御信号を並列に伝播するために使用することができる。 分散量子コンピューティングのためのプロトコルの普遍性を示す、分散マルチ量子ビット制御ゲートの実行にqwcpを使用する方法を示す。 さらに,量子ネットワークにおける絡み合い分布のタスクにQWCPを適用した。

Quantum networks are complex systems formed by the interaction among quantum processors through quantum channels. Analogous to classical computer networks, quantum networks allow for the distribution of quantum operations among quantum processors. In this work, we describe a Quantum Walk Control Protocol (QWCP) to perform distributed quantum operations in a quantum network. We consider a generalization of the discrete-time coined quantum walk model that accounts for the interaction between quantum walks in the network graph with quantum registers inside the network nodes. QWCP allows for the implementation of networked quantum services, such as distributed quantum computing and entanglement distribution, abstracting hardware implementation and the transmission of quantum information through channels. Multiple interacting quantum walks can be used to propagate entangled control signals across the network in parallel. We demonstrate how to use QWCP to perform distributed multi-qubit controlled gates, which shows the universality of the protocol for distributed quantum computing. Furthermore, we apply the QWCP to the task of entanglement distribution in a quantum network.
翻訳日:2023-07-14 16:17:37 公開日:2023-07-12
# ワイルフェルミオンに基づく情報の流れ制御装置とワイル粒子の空間分布制御方法

A novel device for controlling the flow of information based on Weyl fermions and a method for manipulating the spatial distribution of Weyl particles ( http://arxiv.org/abs/2307.06489v1 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 本研究では,ワイルフェルミオンを用いて情報の流れを制御する新しい装置を提案する。 より詳しくは、我々のグループの以前の研究に基づいて、各チャネル上の粒子の運動方向に対して垂直な電場を適用することで、異なるチャネルの列上のワイルフェルミオンの流れを完全に制御できることを示します。 このようにして、各チャネル上のワイル電流の存在の有無に応じて、情報や論理ビットを送信できる。 また,この装置の応答時間は非常に低く,パラメータの典型的な値として1ps未満であり,100pbpsという非常に高い速度で情報の流れを制御することができることを示した。 このデバイスはまた、電力消費量の低さや電磁摂動に対する堅牢性など、新たな利点を提供しており、電気通信、信号処理、古典的量子コンピューティングなど、いくつかの分野で重要な応用が期待されている。 最後に,ワイルフェルミオンを適切な磁場を用いて効率的に導出可能であることを示す。

In this work we propose a novel device for controlling the flow of information using Weyl fermions. In more detail, based on a previous work of our group, we show that it is possible to fully control the flow of Weyl fermions on a sequence of different channels, by applying an electric field perpendicular to the direction of motion of the particles on each channel. In this way, we can transmit information, logical bits, depending on the existence or not of a Weyl current on each channel. We also show that the response time of this device is exceptionally low, less than 1 ps, for typical values of the parameters, providing the opportunity to control the flow of information at extremely high rates, of the order of 100 Pbps. This device also offers additional advantages, as low power consumption and robustness against electromagnetic perturbations, and is expected to find important applications in several fields, as telecommunications, signal processing, classical and quantum computing, etc. Finally, we demonstrate that Weyl fermions can be efficiently guided through the proposed device using appropriate magnetic fields.
翻訳日:2023-07-14 16:17:22 公開日:2023-07-12
# 解釈可能なディープラーニングシステムに対する単一クラスターゲット特異的攻撃

Single-Class Target-Specific Attack against Interpretable Deep Learning Systems ( http://arxiv.org/abs/2307.06484v1 )

ライセンス: Link先を確認
Eldor Abdukhamidov, Mohammed Abuhamad, George K. Thiruvathukal, Hyoungshick Kim, Tamer Abuhmed(参考訳) 本稿では,SingleADVと呼ばれる,単一クラス固有の敵攻撃について述べる。 singleadvの目標は、ターゲットモデルを欺き、ターゲットカテゴリを持つオブジェクトの特定のカテゴリを混乱させ、高度に適切で正確な解釈を保証する普遍的な摂動を生成することである。 普遍摂動は、ターゲットと非ターゲットのカテゴリにおける分類器とインタプリタの両方のコストを考慮した逆損失を最小限に抑え、確率的に反復的に最適化される。 この最適化フレームワークは、第1および第2モーメント推定によって制御され、所望の損失面は、敵のサンプルの高い信頼度と解釈スコアを促進する。 他のカテゴリからのサンプルの意図しない誤分類を避けることで、SingleADVはホワイトボックスとブラックボックスの両方のシナリオにおいて、解釈可能なディープラーニングシステムに対するより効果的なターゲット攻撃を可能にする。 singleadvの有効性を評価するために,4つの異なるモデルアーキテクチャ (resnet-50, vgg-16, densenet-169, inception-v3) と3つの解釈モデル (cam, grad, mask) を用いた実験を行った。 広範な経験的評価を通じて,singleadvは,様々な条件や設定において,対象のディープラーニングモデルとその関連するインタプリタを効果的に欺くことを実証する。 以上の結果から,singleadvの性能は,平均的な騙し率0.74,敵意信頼度0.78で効果的であることがわかった。 さらに、トランスファーベース学習アプローチや既存の前処理防御など、SingleADVに対するいくつかの対策についても論じる。

In this paper, we present a novel Single-class target-specific Adversarial attack called SingleADV. The goal of SingleADV is to generate a universal perturbation that deceives the target model into confusing a specific category of objects with a target category while ensuring highly relevant and accurate interpretations. The universal perturbation is stochastically and iteratively optimized by minimizing the adversarial loss that is designed to consider both the classifier and interpreter costs in targeted and non-targeted categories. In this optimization framework, ruled by the first- and second-moment estimations, the desired loss surface promotes high confidence and interpretation score of adversarial samples. By avoiding unintended misclassification of samples from other categories, SingleADV enables more effective targeted attacks on interpretable deep learning systems in both white-box and black-box scenarios. To evaluate the effectiveness of SingleADV, we conduct experiments using four different model architectures (ResNet-50, VGG-16, DenseNet-169, and Inception-V3) coupled with three interpretation models (CAM, Grad, and MASK). Through extensive empirical evaluation, we demonstrate that SingleADV effectively deceives the target deep learning models and their associated interpreters under various conditions and settings. Our experimental results show that the performance of SingleADV is effective, with an average fooling ratio of 0.74 and an adversarial confidence level of 0.78 in generating deceptive adversarial samples. Furthermore, we discuss several countermeasures against SingleADV, including a transfer-based learning approach and existing preprocessing defenses.
翻訳日:2023-07-14 16:17:04 公開日:2023-07-12
# 自動コンテンツ分析における誤分類は回帰バイアスを引き起こす。 修正できますか? はい できます!

Misclassification in Automated Content Analysis Causes Bias in Regression. Can We Fix It? Yes We Can! ( http://arxiv.org/abs/2307.06483v1 )

ライセンス: Link先を確認
Nathan TeBlunthuis, Valerie Hase, Chung-Hong Chan(参考訳) 教師付き機械学習(sml)によって構築される自動分類器(acs)は、テキストから画像やビデオまで、大規模で統計的に強力なデータのサンプルを分類することができ、通信科学や関連分野において広く普及している。 この人気にもかかわらず、高精度な分類器でさえ誤分類バイアスや誤解を招くようなエラーを発生させ、下流解析の結果を誤解させる。 SML応用の体系的な文献レビューで示すように、コミュニケーション研究者は誤分類バイアスをほとんど無視する。 原則として、既存の統計手法は、人間の注釈者によって作成されたような「金標準」検証データを使用して、誤分類バイアスを正し、一貫した見積もりを生成することができる。 我々は,Rパッケージの誤分類モデルの設計と実装を含む新しい手法をモンテカルロシミュレーションを用いて導入し,その手法の限界を明らかにする。 提案手法は汎用性と効率性を有するため,新しい誤り訂正手法を推奨する。 まとめると、自動分類器(共通精度基準以下のものや体系的な誤分類)は、注意深い研究設計と適切な誤り訂正方法を用いて測定するのに有用である。

Automated classifiers (ACs), often built via supervised machine learning (SML), can categorize large, statistically powerful samples of data ranging from text to images and video, and have become widely popular measurement devices in communication science and related fields. Despite this popularity, even highly accurate classifiers make errors that cause misclassification bias and misleading results in downstream analyses-unless such analyses account for these errors. As we show in a systematic literature review of SML applications, communication scholars largely ignore misclassification bias. In principle, existing statistical methods can use "gold standard" validation data, such as that created by human annotators, to correct misclassification bias and produce consistent estimates. We introduce and test such methods, including a new method we design and implement in the R package misclassificationmodels, via Monte Carlo simulations designed to reveal each method's limitations, which we also release. Based on our results, we recommend our new error correction method as it is versatile and efficient. In sum, automated classifiers, even those below common accuracy standards or making systematic misclassifications, can be useful for measurement with careful study design and appropriate error correction methods.
翻訳日:2023-07-14 16:16:33 公開日:2023-07-12
# 量子鍵分布のための半導体量子ドットからのフォトニックベル状態の振動

Oscillating photonic Bell state from a semiconductor quantum dot for quantum key distribution ( http://arxiv.org/abs/2307.06473v1 )

ライセンス: Link先を確認
Matteo Pennacchietti, Brady Cunard, Shlok Nahar, Mohd Zeeshan, Sayan Gangopadhyay, Philip J. Poole, Dan Dalacu, Andreas Fognini, Klaus D. J\"ons, Val Zwiller, Thomas Jennewein, Norbert L\"utkenhaus, and Michael E. Reimer(参考訳) 明るい光子対のオンデマンドソースは量子鍵分布(QKD)と量子リピータに望ましい。 絡み合った光子対を生成する主要な候補は、非線形結晶中の自然パラメトリックダウンコンバージョン(SPDC)に基づいている。 しかし、高輝度での多光子放出によるSPDC源の絡み合いの忠実度と効率の間には基本的なトレードオフがあり、ほぼ均一の忠実度で操作する場合の対抽出効率は0.1%に制限される。 フォトニックナノ構造の量子ドットは、原則としてこのトレードオフを克服することができるが、spdc源(99%)と同等の絡み合い性を達成した量子ドットは、ペア抽出効率が0.01%低い。 本稿では,フォトニックナノワイヤ導波路中の非asp量子ドットから同等のピーク忠実度を持つ量子ドットと比較して,ペア抽出効率が65倍向上することを示す。 我々はそれぞれ95.3%$\pm$ 0.5%と97.5%$\pm$ 0.8%の生のピーク一致と忠実度を測定する。 最後に、半導体量子ドットが生成する振動する2光子ベル状態を利用してQKDの安全な鍵を確立することを示し、バイエキシトン・エキシトンカスケードにおける中間励起子状態の量子ドットエネルギー分割を取り除く必要性を緩和する。

An on-demand source of bright entangled photon pairs is desirable for quantum key distribution (QKD) and quantum repeaters. The leading candidate to generate entangled photon pairs is based on spontaneous parametric down-conversion (SPDC) in a non-linear crystal. However, there exists a fundamental trade-off between entanglement fidelity and efficiency in SPDC sources due to multiphoton emission at high brightness, which limits the pair extraction efficiency to 0.1% when operating at near-unity fidelity. Quantum dots in photonic nanostructures can in principle overcome this trade-off; however, the quantum dots that have achieved entanglement fidelities on par with SPDC sources (99%) have poor pair extraction efficiencies of 0.01%. Here, we demonstrate a 65-fold increase in the pair extraction efficiency compared to quantum dots with equivalent peak fidelity from an InAsP quantum dot in a photonic nanowire waveguide. We measure a raw peak concurrence and fidelity of 95.3% $\pm$ 0.5% and 97.5% $\pm$ 0.8%, respectively. Finally, we show that an oscillating two-photon Bell state generated by a semiconductor quantum dot can be utilized to establish a secure key for QKD, alleviating the need to remove the quantum dot energy splitting of the intermediate exciton states in the biexciton-exciton cascade.
翻訳日:2023-07-14 16:16:11 公開日:2023-07-12
# claimed -- 科学における発見を加速するための粗粒演算子構築のためのオープンソースフレームワーク

CLAIMED -- the open source framework for building coarse-grained operators for accelerated discovery in science ( http://arxiv.org/abs/2307.06824v1 )

ライセンス: Link先を確認
Romeo Kienzler, Rafflesia Khan, Jerome Nilmeier, Ivan Nesic, Ibrahim Haddad(参考訳) 現代のデータ駆動科学では、再現性と再利用性が重要な課題である。 科学者はデータから出版までのプロセスに精通している。 一部の出版チャネルはソースコードとデータにアクセスできるようにする必要があるが、実験の再実行と検証は通常、標準の欠如のために難しい。 したがって、最先端の研究から既存の科学データ処理コードを再利用することも困難である。 CLAIMEDは、現代のデータ駆動科学における再現性と再利用性の問題に対処するために、科学研究において実績がある。 claimedは、再利用可能な演算子とスケーラブルな科学ワークフローを構築するためのフレームワークで、粗粒の科学演算子の既存のライブラリからワークフローを再構成することで、科学者が以前の作業から引き出すことができる。 様々な実装が存在するが、CLAIMEDはプログラミング言語、科学ライブラリ、実行環境に依存しない。

In modern data-driven science, reproducibility and reusability are key challenges. Scientists are well skilled in the process from data to publication. Although some publication channels require source code and data to be made accessible, rerunning and verifying experiments is usually hard due to a lack of standards. Therefore, reusing existing scientific data processing code from state-of-the-art research is hard as well. This is why we introduce CLAIMED, which has a proven track record in scientific research for addressing the repeatability and reusability issues in modern data-driven science. CLAIMED is a framework to build reusable operators and scalable scientific workflows by supporting the scientist to draw from previous work by re-composing workflows from existing libraries of coarse-grained scientific operators. Although various implementations exist, CLAIMED is programming language, scientific library, and execution environment agnostic.
翻訳日:2023-07-14 14:20:10 公開日:2023-07-12
# CNN訓練におけるデータ拡張:画像にノイズを注入する

Data Augmentation in Training CNNs: Injecting Noise to Images ( http://arxiv.org/abs/2307.06855v1 )

ライセンス: Link先を確認
M. Eren Akbiyik(参考訳) ノイズ注入はデータ拡張の基本的なツールであるが、学習フレームワークに組み込む手順は広く受け入れられていない。 本研究は、畳み込みニューラルネットワーク(cnn)アーキテクチャに様々な大きさの異なるノイズモデルを追加または適用することの効果を分析する。 異なる密度関数で分布するノイズモデルは、比較のための適切な基盤を作るために、構造類似度(SSIM)メトリックを介して共通等級を与えられる。 基本的な結果は、機械学習の一般的な概念の多くと一致しており、ノイズインジェクションに関する新しいヒューリスティックや推奨も導入している。 新しいアプローチは、画像分類のための最適な学習手順をよりよく理解する。

Noise injection is a fundamental tool for data augmentation, and yet there is no widely accepted procedure to incorporate it with learning frameworks. This study analyzes the effects of adding or applying different noise models of varying magnitudes to Convolutional Neural Network (CNN) architectures. Noise models that are distributed with different density functions are given common magnitude levels via Structural Similarity (SSIM) metric in order to create an appropriate ground for comparison. The basic results are conforming with the most of the common notions in machine learning, and also introduce some novel heuristics and recommendations on noise injection. The new approaches will provide better understanding on optimal learning procedures for image classification.
翻訳日:2023-07-14 14:09:46 公開日:2023-07-12
# FDAPT: 言語モデルのためのドメイン適応型事前トレーニング

FDAPT: Federated Domain-adaptive Pre-training for Language Models ( http://arxiv.org/abs/2307.06933v1 )

ライセンス: Link先を確認
Lekang Jiang, Filip Svoboda, Nicholas D. Lane(参考訳) ドメイン適応型事前トレーニング(DAPT)とフェデレートラーニング(FL)を組み合わせることで、データプライバシを保護しながら、より機密性の高い分散データを活用することにより、モデル適応性を高めることができる。 しかし、この方法に焦点をあてた研究は少ない。 そこで本研究では,fdapt(federated domain-adaptive pre-training)の性能を評価するため,最初の総合実験を行った。 FDAPT は,ID と非IID の両状況において,集中型ベースラインへの競争力を維持することができることを示した。 さらに,FFDAPT(Frozen Federated Domain-Adaptive Pre-training)という新しいアルゴリズムを提案する。 FFDAPTは計算効率を平均で12.1%改善し、標準的なFDAPTと同様のダウンストリームタスク性能を示し、一般的なパフォーマンス変動は1%未満である。 最後に,本研究の批判的評価を通じて,本研究分野の今後の展望を明らかにする。

Combining Domain-adaptive Pre-training (DAPT) with Federated Learning (FL) can enhance model adaptation by leveraging more sensitive and distributed data while preserving data privacy. However, few studies have focused on this method. Therefore, we conduct the first comprehensive empirical study to evaluate the performance of Federated Domain-adaptive Pre-training (FDAPT). We demonstrate that FDAPT can maintain competitive downstream task performance to the centralized baseline in both IID and non-IID situations. Furthermore, we propose a novel algorithm, Frozen Federated Domain-adaptive Pre-training (FFDAPT). FFDAPT improves the computational efficiency by 12.1% on average and exhibits similar downstream task performance to standard FDAPT, with general performance fluctuations remaining less than 1%. Finally, through a critical evaluation of our work, we identify promising future research directions for this new research area.
翻訳日:2023-07-14 13:50:35 公開日:2023-07-12
# 量子コンピュータにおける識別性尺度の推定

Estimating distinguishability measures on quantum computers ( http://arxiv.org/abs/2108.08406v4 )

ライセンス: Link先を確認
Soorya Rethinasamy, Rochisha Agarwal, Kunal Sharma, Mark M. Wilde(参考訳) 量子情報処理プロトコルの性能は最終的に、プロトコルの実際の結果が理想の場合とどの程度区別できるかを定量化する識別可能性尺度によって判断される。 最も顕著な識別性尺度は、物理的解釈のために忠実さとトレース距離に基づくものである。 本稿では,トレース距離と忠実度に基づいて識別性尺度を推定するアルゴリズムをいくつか提案・検討する。 このアルゴリズムは量子状態、チャネル、戦略を区別するために用いられる(文献では「量子コム」としても知られている)。 忠実度に基づくアルゴリズムは、一つの証明者(または競合する証明者)が検証者に対して、関連する計算結果を受け入れるように説得できる最大確率の観点から、これらの区別可能性尺度の新たな物理的解釈を提供する。 パラメータ化量子回路を用いた変分法を用いて,これらのアルゴリズムの多くをシミュレートする。 シミュレーションはノイズのないシナリオとノイズの多いシナリオの両方によく収束する。 さらに,ノイズシミュレーションはパラメータ雑音のレジリエンスを示す。 最後に、様々な量子計算複雑性クラスと距離推定問題の強い関係を確立する。

The performance of a quantum information processing protocol is ultimately judged by distinguishability measures that quantify how distinguishable the actual result of the protocol is from the ideal case. The most prominent distinguishability measures are those based on the fidelity and trace distance, due to their physical interpretations. In this paper, we propose and review several algorithms for estimating distinguishability measures based on trace distance and fidelity. The algorithms can be used for distinguishing quantum states, channels, and strategies (the last also known in the literature as "quantum combs"). The fidelity-based algorithms offer novel physical interpretations of these distinguishability measures in terms of the maximum probability with which a single prover (or competing provers) can convince a verifier to accept the outcome of an associated computation. We simulate many of these algorithms by using a variational approach with parameterized quantum circuits. We find that the simulations converge well in both the noiseless and noisy scenarios, for all examples considered. Furthermore, the noisy simulations exhibit a parameter noise resilience. Finally, we establish a strong relationship between various quantum computational complexity classes and distance estimation problems.
翻訳日:2023-07-13 20:57:36 公開日:2023-07-12
# 最大混合初期量子ビット状態のみを用いた関係量子コンピューティング

Relational quantum computing using only maximally mixed initial qubit states ( http://arxiv.org/abs/2107.03239v2 )

ライセンス: Link先を確認
Terry Rudolph, Shashank Soyuz Virmani(参考訳) すなわち、線形独立なブロッホベクトルが3つ未満の初期の単一量子ビット状態のアンサンブルが与えられたとき、より賢い著者が2量子ビットのシングルレット/トリップレットの測定を量子的に普遍的にする方法を見つける必要がある。 実際、最大混合単一量子ビットの最初のアンサンブルが十分であることを示す。

We disprove the conjecture of [1], namely that it would require smarter authors to find a way of making the two-qubit singlet/triplet measurement quantum computationally universal given an ensemble of initial single qubit states with less than three linearly independent Bloch vectors. We show, in fact, that an initial ensemble of maximally mixed single qubits suffices.
翻訳日:2023-07-13 20:57:09 公開日:2023-07-12
# Recurrent Equilibrium Networks: 安定性とロバストさを保証したフレキシブルな動的モデル

Recurrent Equilibrium Networks: Flexible Dynamic Models with Guaranteed Stability and Robustness ( http://arxiv.org/abs/2104.05942v3 )

ライセンス: Link先を確認
Max Revay, Ruigang Wang, Ian R. Manchester(参考訳) 本稿では,リカレント平衡ネットワーク(REN)を機械学習,システム識別,制御に適用するための新しい非線形力学モデルとして紹介する。 新しいモデルクラスは、安定性と堅牢性の‘build in’の振る舞いを保証する。 提案されたクラス内の全てのモデルは、強い非線形安定性の収縮であり、リプシッツ境界や漸進的摂動性を含む、所定の増分積分二次制約 (iqc) を満たすことができる。 renは、すべての安定線形システム、すべての既知の収縮型ニューラルネットワークとエコー状態ネットワーク、すべてのディープフィードフォワードニューラルネットワーク、およびすべての安定型ウィーナー/ハンマースタインモデルを表現することができ、全てのフェーディングメモリおよび収縮型非線形システムを近似することができる。 ren は r^n のベクトルによって直接パラメータ化され、すなわち、確率的勾配降下やその変種のような非拘束的最適化のための \hl{generic method であるため、パラメータ制約なしに安定性とロバスト性が保証される。 ベンチマーク非線形システム同定問題に対して,新しいモデルセットの性能と堅牢性を評価し,データ駆動型非線形オブザーバの設計と安定性を保証する制御への応用について述べる。

This paper introduces recurrent equilibrium networks (RENs), a new class of nonlinear dynamical models} for applications in machine learning, system identification and control. The new model class admits ``built in'' behavioural guarantees of stability and robustness. All models in the proposed class are contracting -- a strong form of nonlinear stability -- and models can satisfy prescribed incremental integral quadratic constraints (IQC), including Lipschitz bounds and incremental passivity. RENs are otherwise very flexible: they can represent all stable linear systems, all previously-known sets of contracting recurrent neural networks and echo state networks, all deep feedforward neural networks, and all stable Wiener/Hammerstein models, and can approximate all fading-memory and contracting nonlinear systems. RENs are parameterized directly by a vector in R^N, i.e. stability and robustness are ensured without parameter constraints, which simplifies learning since \HL{generic methods for unconstrained optimization such as stochastic gradient descent and its variants can be used}. The performance and robustness of the new model set is evaluated on benchmark nonlinear system identification problems, and the paper also presents applications in data-driven nonlinear observer design and control with stability guarantees.
翻訳日:2023-07-13 20:56:21 公開日:2023-07-12
# B-HAR:人間の活動認識データセットとワークフローを深く研究するためのオープンソースのベースラインフレームワーク

B-HAR: an open-source baseline framework for in depth study of human activity recognition datasets and workflows ( http://arxiv.org/abs/2101.10870v2 )

ライセンス: Link先を確認
Florenc Demrozi, Cristian Turetta, Graziano Pravadelli(参考訳) 機械学習アルゴリズムに基づくヒューマンアクティビティ認識(HAR)は、様々なカテゴリーの人々(例えば、アスリート、高齢者、子供、雇用主)の職業的および日常生活活動を監視する最も有望な技術の一つと考えられており、福祉、技術的パフォーマンスの強化、リスク状況の防止、教育目的など、様々なサービスを提供している。 しかし,HAR手法の有効性と効率性の分析は,パターン認識モデルの品質評価の基準となる標準ワークフローの欠如に悩まされている。 これにより、異なるアプローチの比較が困難なタスクになる。 さらに、研究者は、検出されない場合、達成した結果に確実に影響を及ぼす間違いを犯すことができる。 そこで本稿では,HAR手法の評価と比較を目的としたベースラインフレームワークの定義,標準化,開発のための,B-HARというオープンソースの自動・高構成可能なフレームワークを提案する。 データ準備のための最も一般的なデータ処理方法と、最も一般的な機械学習およびディープラーニングパターン認識モデルを実装している。

Human Activity Recognition (HAR), based on machine and deep learning algorithms is considered one of the most promising technologies to monitor professional and daily life activities for different categories of people (e.g., athletes, elderly, kids, employers) in order to provide a variety of services related, for example to well-being, empowering of technical performances, prevention of risky situation, and educational purposes. However, the analysis of the effectiveness and the efficiency of HAR methodologies suffers from the lack of a standard workflow, which might represent the baseline for the estimation of the quality of the developed pattern recognition models. This makes the comparison among different approaches a challenging task. In addition, researchers can make mistakes that, when not detected, definitely affect the achieved results. To mitigate such issues, this paper proposes an open-source automatic and highly configurable framework, named B-HAR, for the definition, standardization, and development of a baseline framework in order to evaluate and compare HAR methodologies. It implements the most popular data processing methods for data preparation and the most commonly used machine and deep learning pattern recognition models.
翻訳日:2023-07-13 20:55:58 公開日:2023-07-12
# リアルタイム制御のためのディープラーニングに基づく不確かさ分解

Deep Learning based Uncertainty Decomposition for Real-time Control ( http://arxiv.org/abs/2010.02613v3 )

ライセンス: Link先を確認
Neha Das, Jonas Umlauft, Armin Lederer, Thomas Beckers, Sandra Hirche(参考訳) 未知環境におけるデータ駆動制御は、安全と効率的な探索を確保するために、関連する不確実性を明確に理解する必要がある。 測定ノイズから生じるアレエータ的不確かさは、パラメトリックな記述から明示的にモデル化されることが多いが、訓練データの有無を記述する認識的不確かさをモデル化することは困難である。 後者は、システムのダイナミクスが未知である場合の探索的制御戦略の実装に特に有用である。 深層学習を用いた学習データの欠如を検出する新しい手法を提案し,0$ (低不確実性を示す) から1$ (高不確実性を示す) までの連続値のスカラー出力を与える。 この検出器を疫学的不確実性のプロキシとして利用し、合成および実世界のデータセットに対する既存のアプローチに対する利点を示す。 提案手法はアレータティックな不確実性推定と直接結合することができ, 既存の不確実性モデリング手法と異なり, 実時間での不確実性推定が可能となる。 さらに,不確かさ推定の実用性を実証し,未知の外乱モデルによる模擬クワッドコプターへのオンラインデータ効率制御の展開について述べる。

Data-driven control in unknown environments requires a clear understanding of the involved uncertainties for ensuring safety and efficient exploration. While aleatoric uncertainty that arises from measurement noise can often be explicitly modeled given a parametric description, it can be harder to model epistemic uncertainty, which describes the presence or absence of training data. The latter can be particularly useful for implementing exploratory control strategies when system dynamics are unknown. We propose a novel method for detecting the absence of training data using deep learning, which gives a continuous valued scalar output between $0$ (indicating low uncertainty) and $1$ (indicating high uncertainty). We utilize this detector as a proxy for epistemic uncertainty and show its advantages over existing approaches on synthetic and real-world datasets. Our approach can be directly combined with aleatoric uncertainty estimates and allows for uncertainty estimation in real-time as the inference is sample-free unlike existing approaches for uncertainty modeling. We further demonstrate the practicality of this uncertainty estimate in deploying online data-efficient control on a simulated quadcopter acted upon by an unknown disturbance model.
翻訳日:2023-07-13 20:55:36 公開日:2023-07-12
# VAE-Loco:不整合歩行表現学習による四足歩行

VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait Representation ( http://arxiv.org/abs/2205.01179v2 )

ライセンス: Link先を確認
Alexander L. Mitchell, Wolfgang Merkt, Mathieu Geisert, Siddhant Gangapurwala, Martin Engelcke, Oiwi Parker Jones, Ioannis Havoutis and Ingmar Posner(参考訳) 四足歩行は、ロボットが非常にダイナミックな操作を実現できる程度に急速に成熟している。 しかし、現在のプランナーは空中に投射する足の歩行パラメータを変更できない。 本研究では,この制限に対処し,特定の歩行を構成する主要な姿勢相を捉える潜在空間を学習することにより,コントローラのロバスト性を高めることが重要であることを示す。 これは、単一のトロットスタイルで訓練された生成モデルによって達成され、駆動信号の潜伏状態の1次元への適用が連続的なトロットスタイルを合成する全体計画を引き起こすような非絡み合いを促進する。 運転信号の特定の特性は,歩調,歩幅,姿勢持続時間などの歩行パラメータに直接マップできることを実証する。 ロボット操作中,これらの合成歩行はオンラインで連続的に変動する。 生成モデルを使用することで、外乱の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークが提供される。 実ANYmal四足歩行ロボットの2つのバージョンに対するアプローチを評価し, 動的トロットスタイルの連続的なブレンドを実現するとともに, 外部摂動に対して頑健かつ反応性を示す。

Quadruped locomotion is rapidly maturing to a degree where robots are able to realise highly dynamic manoeuvres. However, current planners are unable to vary key gait parameters of the in-swing feet midair. In this work we address this limitation and show that it is pivotal in increasing controller robustness by learning a latent space capturing the key stance phases constituting a particular gait. This is achieved via a generative model trained on a single trot style, which encourages disentanglement such that application of a drive signal to a single dimension of the latent state induces holistic plans synthesising a continuous variety of trot styles. We demonstrate that specific properties of the drive signal map directly to gait parameters such as cadence, footstep height and full stance duration. Due to the nature of our approach these synthesised gaits are continuously variable online during robot operation. The use of a generative model facilitates the detection and mitigation of disturbances to provide a versatile and robust planning framework. We evaluate our approach on two versions of the real ANYmal quadruped robots and demonstrate that our method achieves a continuous blend of dynamic trot styles whilst being robust and reactive to external perturbations.
翻訳日:2023-07-13 20:47:46 公開日:2023-07-12
# モノトン関数上の(1, \lambda)$-EAに対する自己調整型人口サイズ

Self-adjusting Population Sizes for the $(1, \lambda)$-EA on Monotone Functions ( http://arxiv.org/abs/2204.00531v2 )

ライセンス: Link先を確認
Marc Kaufmann, Maxime Larcher, Johannes Lengler, Xun Zou(参考訳) 我々は、$(1:s+1)$-successルールに従って人口サイズが適応的に制御される$(1,\lambda)$-eaを$c/n$ for $c\le 1$で研究する。 最近、hevia fajardo と sudholt は、$c=1$ のこの設定は、$s<1$ で \onemax で効率的であるが、$s \ge 18$ では非効率であることを示した。 驚くべきことに、最も硬い部分は最適に近いのではなく、むしろ直線距離にある。 この挙動が \onemax に特有でないことを示す。 もし$s$が小さいなら、アルゴリズムはすべての単調関数で効率的であり、もし$s$が大きいなら、すべての単調関数で超多項式時間を必要とする。 前者の場合、$c<1$に対して、世代数に対して$o(n)$上限を示し、関数評価数に対して$o(n\log n)$を示し、$c=1$に対して$o(n\log n)$世代と$o(n^2\log n)$評価を示す。 また、アルゴリズムが最適値に近づいた場合、$s$にかかわらず、最適化は常に高速であることを示す。 すべての結果は、各世代で適合関数が変化する動的環境にも保持される。

We study the $(1,\lambda)$-EA with mutation rate $c/n$ for $c\le 1$, where the population size is adaptively controlled with the $(1:s+1)$-success rule. Recently, Hevia Fajardo and Sudholt have shown that this setup with $c=1$ is efficient on \onemax for $s<1$, but inefficient if $s \ge 18$. Surprisingly, the hardest part is not close to the optimum, but rather at linear distance. We show that this behavior is not specific to \onemax. If $s$ is small, then the algorithm is efficient on all monotone functions, and if $s$ is large, then it needs superpolynomial time on all monotone functions. In the former case, for $c<1$ we show a $O(n)$ upper bound for the number of generations and $O(n\log n)$ for the number of function evaluations, and for $c=1$ we show $O(n\log n)$ generations and $O(n^2\log\log n)$ evaluations. We also show formally that optimization is always fast, regardless of $s$, if the algorithm starts in proximity of the optimum. All results also hold in a dynamic environment where the fitness function changes in each generation.
翻訳日:2023-07-13 20:46:54 公開日:2023-07-12
# センサベースロボット制御の基本限界

Fundamental Limits for Sensor-Based Robot Control ( http://arxiv.org/abs/2202.00129v5 )

ライセンス: Link先を確認
Anirudha Majumdar, Zhiting Mei, and Vincent Pacelli(参考訳) 我々の目標は、ロボットのセンサーが与えられたタスクに課す性能の基本的な限界を確立するための理論とアルゴリズムを開発することである。 これを実現するために、センサによって提供されるタスク関連情報の量をキャプチャする量を定義する。 情報理論から一般化されたファノ不等式の新しいバージョンを用いて,一段階の意思決定タスクに対して,この量が達成可能な最高の期待報酬の上限となることを実証する。 次に、動的プログラミングアプローチにより、この境界をマルチステップ問題に拡張します。 結果境界を数値計算するアルゴリズムを提示し,その手法を3つの例に示す。 i) 部分的に観測可能なマルコフ決定過程に関する文献からの溶岩問題 二 自由落下物体を捕獲するロボットに対応する連続状態及び観測空間のある例 (iii)非ガウス雑音の深さセンサによる障害物回避 我々は,これらの問題に対して,上界と達成可能な下界(具体的制御ポリシの合成や学習)を比較して,達成可能な性能の強い限界を確立するためのアプローチの能力を実証する。

Our goal is to develop theory and algorithms for establishing fundamental limits on performance imposed by a robot's sensors for a given task. In order to achieve this, we define a quantity that captures the amount of task-relevant information provided by a sensor. Using a novel version of the generalized Fano inequality from information theory, we demonstrate that this quantity provides an upper bound on the highest achievable expected reward for one-step decision making tasks. We then extend this bound to multi-step problems via a dynamic programming approach. We present algorithms for numerically computing the resulting bounds, and demonstrate our approach on three examples: (i) the lava problem from the literature on partially observable Markov decision processes, (ii) an example with continuous state and observation spaces corresponding to a robot catching a freely-falling object, and (iii) obstacle avoidance using a depth sensor with non-Gaussian noise. We demonstrate the ability of our approach to establish strong limits on achievable performance for these problems by comparing our upper bounds with achievable lower bounds (computed by synthesizing or learning concrete control policies).
翻訳日:2023-07-13 20:46:16 公開日:2023-07-12
# フルライフサイクル行動モデリングによる汎用ユーザ表現の強化

Empowering General-purpose User Representation with Full-life Cycle Behavior Modeling ( http://arxiv.org/abs/2110.11337v4 )

ライセンス: Link先を確認
Bei Yang, Jie Gu, Ke Liu, Xiaoxiao Xu, Renjun Xu, Qinghui Sun, Hong Liu(参考訳) ユーザモデリングは業界において重要な役割を担います。 この分野では、多様な下流ユーザ認知タスクに適用可能な汎用表現を生成するタスク非依存アプローチが、タスク固有の表現学習よりも有益で経済的であることを示す。 インターネットサービスプラットフォームの急速な発展に伴い、ユーザ行動は継続的に蓄積されてきた。 しかし、既存の汎用ユーザ表現研究は、ユーザ登録以来、非常に長い行動系列をフルライフサイクルでモデル化する能力はほとんどない。 本研究では,この課題に対処するために,フルライフサイクルユーザ表現モデル(LURM)と呼ばれる新しいフレームワークを提案する。 特に、lurmは2つのカスケードされたサブモデルで構成されている: (i)bag-of-interests (boi) 任意の期間におけるユーザの振る舞いを超高次元(例えば10^5)のスパースベクトルに符号化する; (ii) 自己教師付きマルチアンカーエンコーダネットワーク (smen) boiの特徴のシーケンスを複数の低次元ユーザ表現にマッピングする。 特にSMENは、ユーザ興味の異なる側面を学習できる新しいマルチアンカーモジュールの恩恵を受けながら、ほぼ損失のない次元削減を実現している。 いくつかのベンチマークデータセットの実験により、我々の手法は最先端の汎用表現法よりも優れていることが示された。

User Modeling plays an essential role in industry. In this field, task-agnostic approaches, which generate general-purpose representation applicable to diverse downstream user cognition tasks, is a promising direction being more valuable and economical than task-specific representation learning. With the rapid development of Internet service platforms, user behaviors have been accumulated continuously. However, existing general-purpose user representation researches have little ability for full-life cycle modeling on extremely long behavior sequences since user registration. In this study, we propose a novel framework called full- Life cycle User Representation Model (LURM) to tackle this challenge. Specifically, LURM consists of two cascaded sub-models: (I) Bag-of-Interests (BoI) encodes user behaviors in any time period into a sparse vector with super-high dimension (e.g., 10^5); (II) Self-supervised Multi-anchor Encoder Network (SMEN) maps sequences of BoI features to multiple low-dimensional user representations. Specially, SMEN achieves almost lossless dimensionality reduction, benefiting from a novel multi-anchor module which can learn different aspects of user interests. Experiments on several benchmark datasets show that our approach outperforms state-of-the-art general-purpose representation methods.
翻訳日:2023-07-13 20:45:26 公開日:2023-07-12
# 分割・結合融合

Divide-and-Conquer Fusion ( http://arxiv.org/abs/2110.07265v2 )

ライセンス: Link先を確認
Ryan S.Y. Chan, Murray Pollock, Adam M. Johansen and Gareth O. Roberts(参考訳) いくつかの(サンプル近似の)分布を積に比例した単一分布に組み合わせることは、よくある問題である。 例えば、分散'ビッグデータ'問題や、複数パーティのプライバシ制約の下で作業する場合に発生する。 既存のアプローチの多くは、実用的必要性のために個々のサブポストレータを近似し、分析的近似または結果の(製品プールの)後方のサンプル近似を求める。 これらのアプローチに対する後部近似の質は、概してガウス的であるような分布の幅の狭い部分ポストが外へ落ちるときに劣る。 近年,後方のモンテカルロ近似を正確に検出し,近似アプローチの欠点を回避したフュージョン法が提案されている。 残念なことに、既存のFusionアプローチには、特に多数のサブポインターを統一する場合に、多くの計算制限がある。 本稿では,既存の融合アプローチを基盤とする理論を一般化し,帰納的分割・包括的モンテカルロパラダイムにその方法論を組み込む。 これは最終的に、競争力のあるフュージョンアプローチにつながり、サブポストの数が増加するのに堅牢である。

Combining several (sample approximations of) distributions, which we term sub-posteriors, into a single distribution proportional to their product, is a common challenge. Occurring, for instance, in distributed 'big data' problems, or when working under multi-party privacy constraints. Many existing approaches resort to approximating the individual sub-posteriors for practical necessity, then find either an analytical approximation or sample approximation of the resulting (product-pooled) posterior. The quality of the posterior approximation for these approaches is poor when the sub-posteriors fall out-with a narrow range of distributional form, such as being approximately Gaussian. Recently, a Fusion approach has been proposed which finds an exact Monte Carlo approximation of the posterior, circumventing the drawbacks of approximate approaches. Unfortunately, existing Fusion approaches have a number of computational limitations, particularly when unifying a large number of sub-posteriors. In this paper, we generalise the theory underpinning existing Fusion approaches, and embed the resulting methodology within a recursive divide-and-conquer sequential Monte Carlo paradigm. This ultimately leads to a competitive Fusion approach, which is robust to increasing numbers of sub-posteriors.
翻訳日:2023-07-13 20:45:00 公開日:2023-07-12
# Deep Generative Decoder:MAPによる表現推定はシングルセルRNAデータのモデリングを改善する

The Deep Generative Decoder: MAP estimation of representations improves modeling of single-cell RNA data ( http://arxiv.org/abs/2110.06672v3 )

ライセンス: Link先を確認
Viktoria Schuster and Anders Krogh(参考訳) 単細胞転写学の低次元表現を学習することは下流解析に役立っている。 現状は変分オートエンコーダ(VAE)のようなニューラルネットワークモデルで表現されており、推論の確率の変動近似を用いている。 本稿では、モデルパラメータと表現を直接最大値(MAP)推定を介して計算する単純な生成モデルであるDeep Generative Decoder(DGD)を提案する。 DGDは、通常固定ガウス分布を使用するVAEとは異なり、複雑なパラメータ化された潜在分布を自然に扱う。 まず,一般的なベンチマークセットである fashion-mnist にその汎用機能を示します。 次に、このモデルを複数のシングルセルデータセットに適用する。 ここでDGDは、提供されたラベルを超えるサブクラスタリングを伴う低次元、有意義、そして十分に構造化された潜在表現を学ぶ。 このアプローチの利点は、その単純さと、同等のvaeよりもずっと小さな次元の表現を提供する能力である。

Learning low-dimensional representations of single-cell transcriptomics has become instrumental to its downstream analysis. The state of the art is currently represented by neural network models such as variational autoencoders (VAEs) which use a variational approximation of the likelihood for inference. We here present the Deep Generative Decoder (DGD), a simple generative model that computes model parameters and representations directly via maximum a posteriori (MAP) estimation. The DGD handles complex parameterized latent distributions naturally unlike VAEs which typically use a fixed Gaussian distribution, because of the complexity of adding other types. We first show its general functionality on a commonly used benchmark set, Fashion-MNIST. Secondly, we apply the model to multiple single-cell data sets. Here the DGD learns low-dimensional, meaningful and well-structured latent representations with sub-clustering beyond the provided labels. The advantages of this approach are its simplicity and its capability to provide representations of much smaller dimensionality than a comparable VAE.
翻訳日:2023-07-13 20:44:38 公開日:2023-07-12
# BTLモデルによる動的ランク付け:最も近い隣のランク中心性法

Dynamic Ranking with the BTL Model: A Nearest Neighbor based Rank Centrality Method ( http://arxiv.org/abs/2109.13743v2 )

ライセンス: Link先を確認
Eglantine Karl\'e and Hemant Tyagi(参考訳) レコメンデーションシステムやスポーツトーナメントのような多くのアプリケーションは、n$アイテムのコレクション内でペアで比較を行い、そのゴールは、アイテムの潜在強度および/またはグローバルなランキングを回復するために比較の2値の結果を集約することである。 近年、この問題は、適切な生成モデルの仮定の下で関連する統計的保証とともに、多くの方法が提案されている理論的な観点から大きな関心を集めている。 これらの結果は通常、1つの比較グラフ$G$としてペア比較を収集するが、トーナメント中のサッカーの試合の結果のような多くのアプリケーションでは、ペア比較の結果の性質は時間とともに進化する。 このような動的設定の理論的結果は、上記の静的設定と比較して相対的に制限される。 本稿では、時間領域$[0,1]$でペアワイズ結果の確率が円滑に変化するという仮定の下で、静的設定から動的設定への古典的BTL(Bradley-Terry-Luce)モデルの拡張について検討する。 G_{t'})_{t' \in \mathcal{T}}$ on a regular grid $\mathcal{T} \subset [0,1]$ の一連の比較グラフが与えられたとき、我々は、アイテム $w_t^* \in \mathbb{R}^n$ の潜在強度をいつでも $t \in [0,1]$ で回復することを目指している。 この目的のために、静的ケースにおけるランク付けのための一般的なスペクトルアプローチであるランク中央化法を、適当な$t$の近傍で利用できるデータを局所的に平均化することで適用する。 G_{t'})_{t' \in \mathcal{T}}$ が Erd\"os-Renyi グラフの列であるとき、$w_t^*$ を推定するための非漸近的な $\ell_2$ と $\ell_{\infty}$ エラー境界を与える。 また、実データおよび合成データに関する実験で理論解析を補完する。

Many applications such as recommendation systems or sports tournaments involve pairwise comparisons within a collection of $n$ items, the goal being to aggregate the binary outcomes of the comparisons in order to recover the latent strength and/or global ranking of the items. In recent years, this problem has received significant interest from a theoretical perspective with a number of methods being proposed, along with associated statistical guarantees under the assumption of a suitable generative model. While these results typically collect the pairwise comparisons as one comparison graph $G$, however in many applications - such as the outcomes of soccer matches during a tournament - the nature of pairwise outcomes can evolve with time. Theoretical results for such a dynamic setting are relatively limited compared to the aforementioned static setting. We study in this paper an extension of the classic BTL (Bradley-Terry-Luce) model for the static setting to our dynamic setup under the assumption that the probabilities of the pairwise outcomes evolve smoothly over the time domain $[0,1]$. Given a sequence of comparison graphs $(G_{t'})_{t' \in \mathcal{T}}$ on a regular grid $\mathcal{T} \subset [0,1]$, we aim at recovering the latent strengths of the items $w_t^* \in \mathbb{R}^n$ at any time $t \in [0,1]$. To this end, we adapt the Rank Centrality method - a popular spectral approach for ranking in the static case - by locally averaging the available data on a suitable neighborhood of $t$. When $(G_{t'})_{t' \in \mathcal{T}}$ is a sequence of Erd\"os-Renyi graphs, we provide non-asymptotic $\ell_2$ and $\ell_{\infty}$ error bounds for estimating $w_t^*$ which in particular establishes the consistency of this method in terms of $n$, and the grid size $\lvert\mathcal{T}\rvert$. We also complement our theoretical analysis with experiments on real and synthetic data.
翻訳日:2023-07-13 20:44:21 公開日:2023-07-12
# BrainCog:脳にインスパイアされたAIと脳シミュレーションのためのスパイクニューラルネットワークベースの認知人工知能エンジン

BrainCog: A Spiking Neural Network based Brain-inspired Cognitive Intelligence Engine for Brain-inspired AI and Brain Simulation ( http://arxiv.org/abs/2207.08533v2 )

ライセンス: Link先を確認
Yi Zeng, Dongcheng Zhao, Feifei Zhao, Guobin Shen, Yiting Dong, Enmeng Lu, Qian Zhang, Yinqian Sun, Qian Liang, Yuxuan Zhao, Zhuoya Zhao, Hongjian Fang, Yuwei Wang, Yang Li, Xin Liu, Chengcheng Du, Qingqun Kong, Zizhe Ruan, Weida Bi(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされた人工知能と計算神経科学に広く注目を集めている。 それらは、複数のスケールで脳内の生物学的情報処理をシミュレートするために使用できる。 さらに重要なのは、SNNが脳や認知から人工知能へのインスピレーションをもたらすための適切な抽象化レベルとして機能することです。 本稿では、脳にインスパイアされたAIと脳シミュレーションモデルを作成するために、脳にインスパイアされた認知知エンジン(BrainCog)を提案する。 BrainCogは、さまざまな種類のスパイキングニューロンモデル、学習規則、脳領域などをプラットフォームが提供する必須モジュールとして組み込んでいる。 こうした使い易いモジュールに基づいて、BrainCogは知覚と学習、意思決定、知識表現と推論、モーターコントロール、社会認知など、脳にインスパイアされた様々な認知機能をサポートしている。 これらの脳にインスパイアされたAIモデルは、様々な教師付き、教師なし、強化学習タスクで効果的に検証されており、複数の脳にインスパイアされた認知機能を持つAIモデルを可能にするために使用できる。 脳シミュレーションのためにBrainCogは、意思決定、ワーキングメモリ、ニューラルサーキットの構造シミュレーション、マウス脳、マカク脳、およびヒト脳の全脳構造シミュレーションの関数シミュレーションを実現する。 BORNという名のAIエンジンがBrainCogに基づいて開発されており、BrainCogのコンポーネントをどのように統合してAIモデルやアプリケーションを構築するかを示している。 BrainCogは、生物学的インテリジェンスの性質を解読し、AIを作成するための科学的な探求を可能にするため、脳にインスパイアされたスパイクニューラルネットワークベースのAIを開発し、認知脳を複数のスケールでシミュレートすることを目的としている。 braincogのオンラインリポジトリはhttps://github.com/braincog-xにある。

Spiking neural networks (SNNs) have attracted extensive attentions in Brain-inspired Artificial Intelligence and computational neuroscience. They can be used to simulate biological information processing in the brain at multiple scales. More importantly, SNNs serve as an appropriate level of abstraction to bring inspirations from brain and cognition to Artificial Intelligence. In this paper, we present the Brain-inspired Cognitive Intelligence Engine (BrainCog) for creating brain-inspired AI and brain simulation models. BrainCog incorporates different types of spiking neuron models, learning rules, brain areas, etc., as essential modules provided by the platform. Based on these easy-to-use modules, BrainCog supports various brain-inspired cognitive functions, including Perception and Learning, Decision Making, Knowledge Representation and Reasoning, Motor Control, and Social Cognition. These brain-inspired AI models have been effectively validated on various supervised, unsupervised, and reinforcement learning tasks, and they can be used to enable AI models to be with multiple brain-inspired cognitive functions. For brain simulation, BrainCog realizes the function simulation of decision-making, working memory, the structure simulation of the Neural Circuit, and whole brain structure simulation of Mouse brain, Macaque brain, and Human brain. An AI engine named BORN is developed based on BrainCog, and it demonstrates how the components of BrainCog can be integrated and used to build AI models and applications. To enable the scientific quest to decode the nature of biological intelligence and create AI, BrainCog aims to provide essential and easy-to-use building blocks, and infrastructural support to develop brain-inspired spiking neural network based AI, and to simulate the cognitive brains at multiple scales. The online repository of BrainCog can be found at https://github.com/braincog-x.
翻訳日:2023-07-13 20:37:00 公開日:2023-07-12
# 画像分類モデルにおける盲点発見のより厳密な科学に向けて

Towards a More Rigorous Science of Blindspot Discovery in Image Classification Models ( http://arxiv.org/abs/2207.04104v3 )

ライセンス: Link先を確認
Gregory Plumb, Nari Johnson, \'Angel Alexander Cabrera, Ameet Talwalkar(参考訳) 目隠し点発見法(bdm)とは、画像分類器の動作が著しく悪化するデータのサブセットを、意味的に有意義な部分集合(つまり、人間の理解可能な概念によって結合される)を見つけるために画像埋め込みを使用する手法である。 先行作業で観測されたギャップに触発され、2次元画像表現を使用する新しいBDMであるPlaneSpotと、既知の盲点を持つモデルのトレーニングに合成画像データセットを使用するSpotCheckという、BDMを評価する新しいフレームワークを導入する。 私たちはSpotCheckを使用して、BDMのパフォーマンスに影響を与える要因(例えば、モデル内の盲点の数や、盲点を定義するのに使用される機能)を識別する制御された実験を行い、PlaneSpotが既存のBDMと競合し、多くの場合、性能が優れていることを示す。 重要なことは、大規模な画像ベンチマークデータセットであるMS-COCOの実際の画像データを用いた追加実験を設計し、これらの結果を検証することである。 以上の結果から,BDM設計と評価の今後の取り組みに期待できる方向がいくつか示唆された。 全体として、この研究で提示された方法論と分析が、より厳密な盲点発見の科学を促進することを願っている。

A growing body of work studies Blindspot Discovery Methods ("BDM"s): methods that use an image embedding to find semantically meaningful (i.e., united by a human-understandable concept) subsets of the data where an image classifier performs significantly worse. Motivated by observed gaps in prior work, we introduce a new framework for evaluating BDMs, SpotCheck, that uses synthetic image datasets to train models with known blindspots and a new BDM, PlaneSpot, that uses a 2D image representation. We use SpotCheck to run controlled experiments that identify factors that influence BDM performance (e.g., the number of blindspots in a model, or features used to define the blindspot) and show that PlaneSpot is competitive with and in many cases outperforms existing BDMs. Importantly, we validate these findings by designing additional experiments that use real image data from MS-COCO, a large image benchmark dataset. Our findings suggest several promising directions for future work on BDM design and evaluation. Overall, we hope that the methodology and analyses presented in this work will help facilitate a more rigorous science of blindspot discovery.
翻訳日:2023-07-13 20:36:26 公開日:2023-07-12
# 置換不変量子多体系の熱力学:群論的枠組み

Thermodynamics of Permutation-Invariant Quantum Many-Body Systems: A Group-Theoretical Framework ( http://arxiv.org/abs/2206.12639v2 )

ライセンス: Link先を確認
Benjamin Yadin, Benjamin Morris, Kay Brandner(参考訳) 区別不能な粒子の量子系は、任意の許容可能な量子状態が粒子置換の下で対称または反対称でなければならないという仮定に依存する第二量子化の形式主義を用いて一般的に記述される。 しかし、超放射能のようなコヒーレンスによって引き起こされる多体効果は、すべての関連する動的可観測物が置換不変である限り、成分が根本的に区別できないシステムでも生じる。 このような系は対称状態や反対称状態に限らず、異なる理論的なアプローチを必要とする。 非相互作用系に着目して、表現論と熱力学的に一貫したマスター方程式のツールを組み合わせてそのようなフレームワークを開発する。 熱環境に弱結合した任意の多値系の置換不変アンサンブルに現れる定常状態の構造と性質を特徴付ける。 一般理論の応用として、これらの状態が原理的に量子熱機械の性能を高めるためにどのように使用できるかをさらに探求する。 グループ理論の枠組みにより、他の方法ではアクセスできない様々な制限ケースを分析できる。 さらに、これは、標準クレブシュ・ゴルダン理論を用いて以前に研究されたスピンアンサンブルと多段アンサンブルの性質が質的に異なることを示すことができる。 本研究は, 量子熱力学における置換不変性から生じる集団効果を体系的に研究する方法である。

Quantum systems of indistinguishable particles are commonly described using the formalism of second quantisation, which relies on the assumption that any admissible quantum state must be either symmetric or anti-symmetric under particle permutations. Coherence-induced many-body effects such as superradiance, however, can arise even in systems whose constituents are not fundamentally indistinguishable as long as all relevant dynamical observables are permutation-invariant. Such systems are not confined to symmetric or anti-symmetric states and therefore require a different theoretical approach. Focusing on non-interacting systems, here we combine tools from representation theory and thermodynamically consistent master equations to develop such a framework. We characterise the structure and properties of the steady states emerging in permutation-invariant ensembles of arbitrary multi-level systems that are collectively weakly coupled to a thermal environment. As an application of our general theory, we further explore how these states can in principle be used to enhance the performance of quantum thermal machines. Our group-theoretical framework thereby makes it possible to analyse various limiting cases that would not be accessible otherwise. In addition, it allows us to show that the properties of multi-level ensembles differ qualitatively from those of spin ensembles, which have been investigated earlier using the standard Clebsch-Gordan theory. Our results have a large scope for future generalisations and pave the way for systematic investigations of collective effects arising from permutation-invariance in quantum thermodynamics.
翻訳日:2023-07-13 20:36:05 公開日:2023-07-12
# 極端に壊れた一般化 $\mathcal{PT}$対称性

Extremely broken generalized $\mathcal{PT}$ symmetry ( http://arxiv.org/abs/2206.11859v3 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 我々は、一般化された$\mathcal{PT}$(パリティ変換と時間反転)対称性を含む反ユニタリ対称性を持つ非エルミート作用素の単純H\'uckel様行列表現について議論する。 そのうちの1つは、エルミート極限における作用素の縮退のため、非常に壊れた反ユニタリ対称性(モデルパラメータのすべての非自明な値の複素固有値)を示す。 これらの例は、非エルミート作用素のスペクトルに対する点群対称性の影響を示している。 非エルミート作用素の簡単な図式表現を用いて、必要なユニタリ行列を構築する。

We discuss some simple H\"uckel-like matrix representations of non-Hermitian operators with antiunitary symmetries that include generalized $\mathcal{PT}$ (parity transformation followed by time-reversal) symmetry. One of them exhibits extremely broken antiunitary symmetry (complex eigenvalues for all nontrivial values of the model parameter) because of the degeneracy of the operator in the Hermitian limit. These examples illustrate the effect of point-group symmetry on the spectrum of the non-Hermitian operators. We construct the necessary unitary matrices by means of simple graphical representations of the non-Hermitian operators.
翻訳日:2023-07-13 20:35:43 公開日:2023-07-12
# 動的平均場プログラミング

Dynamic mean field programming ( http://arxiv.org/abs/2206.05200v2 )

ライセンス: Link先を確認
George Stamatescu(参考訳) 有限状態と作用ベイズ強化学習のための動的平均場理論は、大きな状態空間の限界で開発されている。 統計物理学の類似では、ベルマン方程式は乱れた力学系として研究され、マルコフ決定過程の遷移確率はカップリングとして解釈され、値関数は動的に進化する決定論的スピンとして解釈される。 したがって、平均逆数と遷移確率は確率変数であると考えられる。 この理論は、ある仮定の下で、状態-作用値は漸近状態空間極限における状態-作用対間で統計的に独立であり、分布の形式を正確に提供することを明らかにしている。 結果は、値反復とポリシー評価の両方において、有限かつディスカウントされた無限地平線設定を持つ。 状態-作用値統計は、動的平均場プログラミング(DMFP)と呼ばれる平均場方程式の集合から計算することができる。 政策評価では、方程式は正確である。 値反復の場合、近似方程式は極値理論や境界に訴えることで得られる。 その結果、例えば、強化学習が独立したマルチアーム付きバンディット問題と等価な条件を明らかにするなど、表型強化学習の統計的構造に関する分析的洞察が得られる。

A dynamic mean field theory is developed for finite state and action Bayesian reinforcement learning in the large state space limit. In an analogy with statistical physics, the Bellman equation is studied as a disordered dynamical system; the Markov decision process transition probabilities are interpreted as couplings and the value functions as deterministic spins that evolve dynamically. Thus, the mean-rewards and transition probabilities are considered to be quenched random variables. The theory reveals that, under certain assumptions, the state-action values are statistically independent across state-action pairs in the asymptotic state space limit, and provides the form of the distribution exactly. The results hold in the finite and discounted infinite horizon settings, for both value iteration and policy evaluation. The state-action value statistics can be computed from a set of mean field equations, which we call dynamic mean field programming (DMFP). For policy evaluation the equations are exact. For value iteration, approximate equations are obtained by appealing to extreme value theory or bounds. The result provides analytic insight into the statistical structure of tabular reinforcement learning, for example revealing the conditions under which reinforcement learning is equivalent to a set of independent multi-armed bandit problems.
翻訳日:2023-07-13 20:35:33 公開日:2023-07-12
# 量子コンピューティングプラットフォーム上での最適絡み合い集団計測へのアプローチ

Approaching optimal entangling collective measurements on quantum computing platforms ( http://arxiv.org/abs/2205.15358v2 )

ライセンス: Link先を確認
Lorcan O. Conlon, Tobias Vogl, Christian D. Marciniak, Ivan Pogorelov, Simon K. Yung, Falk Eilenberger, Dominic W. Berry, Fabiana S. Santana, Rainer Blatt, Thomas Monz, Ping Koy Lam, Syed M. Assad(参考訳) 絡み合いは量子力学の基本的特徴であり、気象学と通信の強化を大いに約束する。 これまでの量子力学の焦点は、古典的に達成できるものよりも、リソースごとの感度の高い、非常に絡み合った量子状態を生成することであった。 しかし、マルチパラメータ量子気象学と量子情報処理タスクの究極の限界に達するためには、量子状態の複数のコピー間の絡み合いを生成する集合計測が必要である。 本稿では,2つの非可換キュービット回転を同時に推定するために,理論的に最適な一対二コピー集団計測を実験的に示す。 これにより、高いデコヒーレンスレベルにおいてメトロジカルゲインが持続する量子強化センシングを実装し、不確実性原理の解釈に関する基本的な洞察を引き出すことができる。 我々は、超伝導、トラップイオン、フォトニック系の最適測定を実装し、将来の量子強化センシングネットワークがどのように見えるかを示す。

Entanglement is a fundamental feature of quantum mechanics and holds great promise for enhancing metrology and communications. Much of the focus of quantum metrology so far has been on generating highly entangled quantum states that offer better sensitivity, per resource, than what can be achieved classically. However, to reach the ultimate limits in multi-parameter quantum metrology and quantum information processing tasks, collective measurements, which generate entanglement between multiple copies of the quantum state, are necessary. Here, we experimentally demonstrate theoretically optimal single- and two-copy collective measurements for simultaneously estimating two non-commuting qubit rotations. This allows us to implement quantum-enhanced sensing, for which the metrological gain persists for high levels of decoherence, and to draw fundamental insights about the interpretation of the uncertainty principle. We implement our optimal measurements on superconducting, trapped-ion and photonic systems, providing an indication of how future quantum-enhanced sensing networks may look.
翻訳日:2023-07-13 20:34:58 公開日:2023-07-12
# フラクソニウムクォート中の連続体における境界状態

Bound states in the continuum in a fluxonium qutrit ( http://arxiv.org/abs/2205.07757v3 )

ライセンス: Link先を確認
Mar\'ia Hita-P\'erez, Pedro Orellana, Juan Jos\'e Garc\'ia-Ripoll, Manuel Pino(参考訳) 外部フラックスゼロの重いフラックスニウムは、他の系と容量的に結合すると長寿命の状態となる。 この長寿命構成は第2の励起フラクソニウムレベルに対応するため、全てのフラクソニウム関連作用素をクォート部分空間に射影して解析する。 この状態は連続体(BIC)において、モードの連続体をサポートする拡張系に結合が発生したときに境界状態となる。 ノイズのない場合、フラキソニウムが超伝導導波路に結合された場合、BIC寿命は1秒あたり$T_1\gg {\rm s}$よりずっと大きいが、典型的なデバイス周波数は${\rm GHz}$である。 我々は, 導波路の有限温度による上昇遷移と1/f$-fluxノイズによる減衰が最も危険であることを示すために, 異なるデコヒーレンス源に関する詳細な実験を行った。 それらの存在下でも、bicsの崩壊時間は${t_1\sim \rm 10^{-1} ms}の範囲に達するが、準備時間は$10^{2}$nである。

The heavy fluxonium at zero external flux has a long-lived state when coupled capacitively to any other system. We analyze it by projecting all the fluxonium relevant operators into the qutrit subspace, as this long-lived configuration corresponds to the second excited fluxonium level. This state becomes a bound-state in the continuum (BIC) when the coupling occurs to an extended system supporting a continuum of modes. In the case without noise, we find BIC lifetimes that can be much larger than seconds $T_1\gg {\rm s}$ when the fluxonium is coupled to a superconducting waveguide, while typical device frequencies are in the order of ${\rm GHz}$. We have performed a detailed study of the different sources of decoherence in a realistic experiment, obtaining that upward transitions caused by a finite temperature in the waveguide and decay induced by $1/f$-flux noise are the most dangerous ones. Even in their presence, BICs decay times could reach the range of ${T_1\sim \rm 10^{-1} ms},$ while preparation times are of the order of $10^{2}$ns.
翻訳日:2023-07-13 20:34:42 公開日:2023-07-12
# 2次元ドープ三角格子フェルミ・ハバード模型におけるキラル超伝導

Chiral superconductivity in the doped triangular-lattice Fermi-Hubbard model in two dimensions ( http://arxiv.org/abs/2210.13551v2 )

ライセンス: Link先を確認
Vinicius Zampronio and Tommaso Macr\`i(参考訳) 三角格子フェルミ-ハッバード模型は、キラルスピン状態と非古典的超伝導の関係から、文献で広く研究されている。 ドープ系の基底状態の以前のシミュレーションは、真の長距離秩序が禁止される準一次元格子に依存する。 ここでは,最先端の補助場量子モンテカルロを用いて,二次元および準1次元三角形格子をシミュレートする。 非磁性キラルスピン状態のドーピング時に、クーパー対相関における長距離秩序とキラル秩序パラメータの有限値で支持されるキラル超伝導の証拠を観察する。 この目的により、まず金属から非磁性絶縁相への遷移と磁気秩序の開始を同定する。 この結果は,強相関格子系と磁気フラストレーションのより深い理解への道を開いた。

The triangular-lattice Fermi-Hubbard model has been extensively investigated in the literature due to its connection to chiral spin states and unconventional superconductivity. Previous simulations of the ground state of the doped system rely on quasi-one-dimensional lattices where true long-range order is forbidden. Here we simulate two-dimensional and quasi-one-dimensional triangular lattices using state-of-the-art Auxiliary-Field Quantum Monte Carlo. Upon doping a non-magnetic chiral spin state, we observe evidence of chiral superconductivity supported by long-range order in Cooper-pair correlation and a finite value of the chiral order parameter. With this aim, we first locate the transition from the metallic to the non-magnetic insulating phase and the onset of magnetic order. Our results pave the way towards a better understanding of strongly correlated lattice systems with magnetic frustration.
翻訳日:2023-07-13 20:26:27 公開日:2023-07-12
# 新規環境における不確実性を考慮したライダー位置認識

Uncertainty-Aware Lidar Place Recognition in Novel Environments ( http://arxiv.org/abs/2210.01361v3 )

ライセンス: Link先を確認
Keita Mason, Joshua Knights, Milad Ramezani, Peyman Moghadam and Dimity Miller(参考訳) 最先端のライダー位置認識モデルは、トレーニングデータセットとは異なる環境でテストした場合、信頼性の低いパフォーマンスを示し、複雑で進化する環境での使用を制限する。 そこで本研究では,不確実性を考慮したライダー位置認識の課題について検討する。 本稿では,新たな評価プロトコルを導入し,5つの不確実性推定手法と3つの大規模データセットを対象とした,最初の総合ベンチマークを提案する。 以上の結果から,アンサンブル手法は高い性能を持つ手法であり,新しい環境におけるライダー位置認識と不確実性推定の性能を一貫して向上させるが,計算コストはかかる。 コードはhttps://github.com/csiro-robotics/Uncertainty-LPRで公開されている。

State-of-the-art lidar place recognition models exhibit unreliable performance when tested on environments different from their training dataset, which limits their use in complex and evolving environments. To address this issue, we investigate the task of uncertainty-aware lidar place recognition, where each predicted place must have an associated uncertainty that can be used to identify and reject incorrect predictions. We introduce a novel evaluation protocol and present the first comprehensive benchmark for this task, testing across five uncertainty estimation techniques and three large-scale datasets. Our results show that an Ensembles approach is the highest performing technique, consistently improving the performance of lidar place recognition and uncertainty estimation in novel environments, though it incurs a computational cost. Code is publicly available at https://github.com/csiro-robotics/Uncertainty-LPR.
翻訳日:2023-07-13 20:25:41 公開日:2023-07-12
# 無限小勾配促進のための大きなサンプル理論

A large sample theory for infinitesimal gradient boosting ( http://arxiv.org/abs/2210.00736v2 )

ライセンス: Link先を確認
Clement Dombry and Jean-Jil Duchamps(参考訳) Infinitesimal gradient boosting (Dombry and Duchamps, 2021) は、機械学習から人気のツリーベース勾配向上アルゴリズムの消滅学習率制限として定義される。 力学を駆動する無限小ブースティング作用素がトレーニングサンプルに依存する無限次元関数空間における非線形常微分方程式の解として特徴づけられる。 我々は,モデルの漸近的挙動を大きなサンプル限界において考慮し,その収束性を決定論的プロセスに証明する。 この人口制限は、人口分布に依存する微分方程式によって再び特徴づけられる。 我々は,この分布限界の特性を探究する:動力学がテスト誤差を減少させることを証明し,その長期的挙動を考察する。

Infinitesimal gradient boosting (Dombry and Duchamps, 2021) is defined as the vanishing-learning-rate limit of the popular tree-based gradient boosting algorithm from machine learning. It is characterized as the solution of a nonlinear ordinary differential equation in a infinite-dimensional function space where the infinitesimal boosting operator driving the dynamics depends on the training sample. We consider the asymptotic behavior of the model in the large sample limit and prove its convergence to a deterministic process. This population limit is again characterized by a differential equation that depends on the population distribution. We explore some properties of this population limit: we prove that the dynamics makes the test error decrease and we consider its long time behavior.
翻訳日:2023-07-13 20:25:02 公開日:2023-07-12
# 局所文法に基づく符号化再訪

Local Grammar-Based Coding Revisited ( http://arxiv.org/abs/2209.13636v2 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 局所文法に基づくコーディングの最小化の問題を再検討する。 この設定では、局所文法エンコーダは文法記号をシンボルでエンコードするが、最小文法変換は、局所文法エンコードの長さによって与えられる、事前設定された文法クラスにおける文法長を最小化する。 このような極小符号は厳密な正のエントロピー率に対して強く普遍的であることが知られているが、極小文法における規則の数はソースの相互情報に対する上限を構成する。 完全に最小限のコードは難易度が高いが、制約のある最小のブロックコードは効率的に計算できる。 本稿では、エントロピー率に関係なく、最小ブロック符号の強い普遍性の新たな、より単純で、より一般的な証明を示す。 この証明は、ランク付けされた確率に対する単純なZipfian境界に基づいている。 ちなみに、最小ブロック符号におけるルールの数は、英語のテキストや文字のランダムな置換など、長期記憶源と無記憶源とを明確に区別できないことも実証的に示している。 これは我々の以前の期待と矛盾する。

We revisit the problem of minimal local grammar-based coding. In this setting, the local grammar encoder encodes grammars symbol by symbol, whereas the minimal grammar transform minimizes the grammar length in a preset class of grammars as given by the length of local grammar encoding. It has been known that such minimal codes are strongly universal for a strictly positive entropy rate, whereas the number of rules in the minimal grammar constitutes an upper bound for the mutual information of the source. Whereas the fully minimal code is likely intractable, the constrained minimal block code can be efficiently computed. In this article, we present a new, simpler, and more general proof of strong universality of the minimal block code, regardless of the entropy rate. The proof is based on a simple Zipfian bound for ranked probabilities. By the way, we also show empirically that the number of rules in the minimal block code cannot clearly discriminate between long-memory and memoryless sources, such as a text in English and a random permutation of its characters. This contradicts our previous expectations.
翻訳日:2023-07-13 20:24:51 公開日:2023-07-12
# 一次元格子上の長距離クーロン相互作用を持つスピンレスフェルミオンの遅い輸送と結合状態

Slow transport and bound states for spinless fermions with long-range Coulomb interactions on one-dimensional lattices ( http://arxiv.org/abs/2209.12183v2 )

ライセンス: Link先を確認
Zhi-hua Li(参考訳) スピンレスフェルミオンと長距離クーロン相互作用の高温における輸送と緩和について,非平衡力学の数値シミュレーションにより検討した。 輸送と緩和はカップリング$V$の増加のために連続的に減速しており、輸送のタイプが変化していることが分かる。 中間結合の場合、システムは通常の拡散輸送を示すが、その開始の時間スケールは長い。 大きなカップリングでは、サブ拡散輸送を示すと同時に、緩和時間は系長と指数関数的に分岐し、MBLのような相を持つ。 速度の遅い輸送は、緩やかな境界状態と安定な粒子クラスターの形成に起因している。 少数の粒子系では、存在を証明し、スローネスを可視化し、境界状態の衝突特性を分析する。 高密度の多くの粒子には、様々な長さスケールの粒子のクラスターの階層が存在するべきである。 大規模な結合では、安定クラスタの平均最大サイズは格子の長さと線形にスケールすべきであり、これはMBLのような挙動に則っている。

We study transport and relaxation of spinless fermions with long-range Coulomb interactions at high temperatures through numerical simulations of out-of-equilibrium dynamics. We find that the transport and relaxation are continuously slowing down for increasing coupling $V$, and that there is a transition in the type of transport. For intermediate couplings, the system exhibits normal diffusive transport but the time scale for the onset of that is long. For large couplings, it exhibits subdiffusive transport, while at the same time the relaxation time diverges exponentially with system lengths, featuring an MBL-like phase. We attribute the slow transport to formation of slow bound states and stable clusters of particles. For few-particle systems we prove existence, visualize the slowness and analyze collision properties of the bound states. For many particles at high densities there should be a hierarchy of clusters of particles on many different length scales. We argue that at large couplings the average maximal size of the stable clusters should scale linearly with the length of the lattice, which is in accordance with the MBL-like behavior.
翻訳日:2023-07-13 20:24:33 公開日:2023-07-12
# Qafny: タイプ誘導古典分離論理による量子プログラム検証

Qafny: Quantum Program Verification Through Type-guided Classical Separation Logic ( http://arxiv.org/abs/2211.06411v2 )

ライセンス: Link先を確認
Liyi Li, Mingwei Zhu, Rance Cleaveland, Yi Lee, Le Chang, Xiaodi Wu(参考訳) 形式的検証は、量子プログラムが仕様を実装していることを保証するのに役立っているが、しばしば時間と労力のかなりの投資を必要とする。 この課題に対処するために,量子プログラムの検証用に設計された自動証明システムであるqafnyを提案する。 Qafnyの核心は、量子演算を古典的な配列演算に変換する型誘導量子証明システムである。 これらの操作を古典的な分離論理フレームワーク内の証明ルールとしてモデル化することで、qafnyは退屈で時間のかかる推論プロセスに対する自動サポートを提供する。 我々は証明システムの健全性と完全性を証明し、qafnyプログラムをdafnyプログラミング言語と実行可能な量子回路に変換するプロトタイプコンパイラを実装した。 qafnyを用いて、量子ウォークアルゴリズム、グローバー探索アルゴリズム、ショアのファクタリングアルゴリズムなど、著名な量子アルゴリズムを効率的に検証する方法を実証し、人間の労力を大幅に削減する。

Formal verification has been proven instrumental to ensure that quantum programs implement their specifications but often requires a significant investment of time and labor. To address this challenge, we present Qafny, an automated proof system designed for verifying quantum programs. At its core, Qafny uses a type-guided quantum proof system that translates quantum operations to classical array operations. By modeling these operations as proof rules within a classical separation logic framework, Qafny provides automated support for the reasoning process that would otherwise be tedious and time-consuming. We prove the soundness and completeness of our proof system and implement a prototype compiler that transforms Qafny programs both into the Dafny programming language and into executable quantum circuits. Using Qafny, we demonstrate how to efficiently verify prominent quantum algorithms, including quantum-walk algorithms, Grover's search algorithm, and Shor's factoring algorithm, with significantly reduced human efforts.
翻訳日:2023-07-13 20:17:47 公開日:2023-07-12
# スピン不純物存在下でのダイヤモンド中の量子レジスタの性能

Performance of quantum registers in diamond in the presence of spin impurities ( http://arxiv.org/abs/2211.06234v3 )

ライセンス: Link先を確認
Dominik Maile and Joachim Ankerhold(参考訳) ダイヤモンド中の窒素Vacancy Centerは、将来の量子技術のための汎用的なビルディングブロックを形成している。 これまでのアクティビティでは、単一のスピンかごく少数のスピンのみを検知することに集中していたが、近年、量子情報処理のためにマルチキュービットレジスタがうまく実装されている。 さらなる進歩には、連続ゲート演算のための量子プロトコルの性能の詳細な理解が必要であり、緩和と強調のための確立された処理以上のものが必要となる。 ここでは、NVと環境成分から構成される最大4つのスピンを持つ小さなスピンレジスタに対して、相互作用する不純物スピンのアンサンブルが存在する場合の理論的解析を行う。 クラスタ相関の展開に適応し, パルスのデカップリングの存在下でのGHZ-およびベルゲート演算のコヒーレンス特性および忠実度を予測する。 また、置換窒素または$^{13}c$原子からなるスピンバスの体積密度と形状の影響も考慮される。

The Nitrogen Vacancy Center in diamond coupled to addressable surrounding nuclear spins forms a versatile building block for future quantum technologies. While previous activities focused on sensing with only a single or very few spins in operation, recently multi-qubit registers have been successfully implemented for quantum information processing. Further progress requires a detailed understanding of the performance of quantum protocols for consecutive gate operations and thus, beyond established treatments for relaxation and dephasing. Here, we provide such a theoretical analysis for a small spin registers with up to four spins built out of NV and environmental constituents in presence of ensembles of interacting impurity spins. Adapting a cluster correlation expansion, we predict coherence properties as well as fidelities for GHZ- and Bell-gate operations also in presence of decoupling pulses. The influence of the volume density and the geometry of the spin-bath consisting of the substitutional nitrogen- or $^{13}C$ atoms are also taken into account.
翻訳日:2023-07-13 20:17:31 公開日:2023-07-12
# マトリックス生成物状態を持つ量子多体固有状態の抽出

Extracting Quantum Many-Body Scarred Eigenstates with Matrix Product States ( http://arxiv.org/abs/2211.05140v3 )

ライセンス: Link先を確認
Shun-Yao Zhang, Dong Yuan, Thomas Iadecola, Shenglong Xu and Dong-Ling Deng(参考訳) 量子多体散乱系は、熱の海に浸漬された非熱的励起固有状態を持つ。 これらの特別な固有状態の正確な表現が知られていない場合、指数関数的に多くの熱近傍と区別することが計算上要求される。 本稿では,DMRG-Sと呼ばれる行列生成物状態(MPS)アルゴリズムを提案する。 この手法を用いて,80地点までのrydberg-blockaded chainのscarred eigenstatesを求め,熱力学的極限におけるn-eel状態の安定性に関する長引く問題に対処するための有限スケール研究を行う。 また,本手法は,事前知識を必要とせず,目標エネルギー近傍の散乱固有状態に対して,正確なMPS表現を得るための体系的な方法も提供する。 特に、速度論的に制約されたスピンおよびクロックモデルにおいて、正確なMPS表現を持つ新しいスカーレッド固有状態がいくつか見つかる。 本研究における数値的および分析的調査の組み合わせは、量子多体傷の研究に新たな方法論を提供する。

Quantum many-body scarred systems host nonthermal excited eigenstates immersed in a sea of thermal ones. In cases where exact expressions for these special eigenstates are not known, it is computationally demanding to distinguish them from their exponentially many thermal neighbors. We propose a matrix-product-state (MPS) algorithm, dubbed DMRG-S, to extract such states at system sizes far beyond the scope of exact diagonalization. Using this technique, we obtain scarred eigenstates in Rydberg-blockaded chains of up to 80 sites and perform a finite-size scaling study to address the lingering question of the stability for the N\'eel state revivals in the thermodynamic limit. Our method also provides a systematic way to obtain exact MPS representations for scarred eigenstates near the target energy without a priori knowledge. In particular, we find several new scarred eigenstates with exact MPS representations in kinetically constrained spin and clock models. The combination of numerical and analytical investigations in our work provides a new methodology for future studies of quantum many-body scars.
翻訳日:2023-07-13 20:17:18 公開日:2023-07-12
# speechblender:誤用データ生成のための音声拡張フレームワーク

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation ( http://arxiv.org/abs/2211.00923v3 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali, Hamdy Mubarak, and Shazia Afzal(参考訳) ラベル付き第二言語(L2)音声データの欠如は、誤発音検出モデルの設計において大きな課題である。 SpeechBlender - このようなデータ不足を克服するために、誤発音エラーを生成するためのきめ細かいデータ拡張パイプライン。 様々なマスクを用いて音素単位の異なる領域を対象とし、混合因子を用いて発音を増強しながら生の音声信号を線形補間する。 マスクは信号をスムーズにブレンドし、 'cut/paste' 法よりも効果的なサンプルを生成する。 提案手法は,ASRによる音素レベルの誤発音検出モデルに対して,Speechocean762を用いて,先行技術に比べてピアソン相関係数 (PCC) が2.0%向上した。 さらに、ベースラインと比較してphonemeレベルで5.0%改善しています。 またアラビアAraVoiceL2テストセットではF1スコアが4.6%増加した。

The lack of labeled second language (L2) speech data is a major challenge in designing mispronunciation detection models. We introduce SpeechBlender - a fine-grained data augmentation pipeline for generating mispronunciation errors to overcome such data scarcity. The SpeechBlender utilizes varieties of masks to target different regions of phonetic units, and use the mixing factors to linearly interpolate raw speech signals while augmenting pronunciation. The masks facilitate smooth blending of the signals, generating more effective samples than the `Cut/Paste' method. Our proposed technique achieves state-of-the-art results, with Speechocean762, on ASR dependent mispronunciation detection models at phoneme level, with a 2.0% gain in Pearson Correlation Coefficient (PCC) compared to the previous state-of-the-art [1]. Additionally, we demonstrate a 5.0% improvement at the phoneme level compared to our baseline. We also observed a 4.6% increase in F1-score with Arabic AraVoiceL2 testset.
翻訳日:2023-07-13 20:15:28 公開日:2023-07-12
# InAs/InGaAsヘテロ構造を用いた超伝導量子ビット用可変キャパシタ

Tunable Capacitor For Superconducting Qubits Using an InAs/InGaAs Heterostructure ( http://arxiv.org/abs/2212.04598v2 )

ライセンス: Link先を確認
Nicholas Materise, Matthieu C. Dartiailh, William M. Strickland, Javad Shabani, Eliot Kapit(参考訳) 高速パラメトリック結合素子の採用により超伝導量子ビットの性能が向上し、ランダム化サンプリング問題における量子優位性の最近の実証が可能となった。 低損失高コントラストカプラの開発は、これらのシステムのスケールアップに不可欠である。 InAs/InGaAsヘテロ構造における2次元電子ガスで実現したゲート可変カプラの青写真を示す。 半導体の厳密な数値シミュレーションとカプラとマイクロ波回路の高周波電磁特性により、1桁以上のオン/オフ比が得られる。 2量子ビット系におけるカプラーの包含から誘電体制限損失を推定し、カプラーコヒーレンスを数マイクロ秒から数十マイクロ秒に設定した。

Adoption of fast, parametric coupling elements has improved the performance of superconducting qubits, enabling recent demonstrations of quantum advantage in randomized sampling problems. The development of low loss, high contrast couplers is critical for scaling up these systems. We present a blueprint for a gate-tunable coupler realized with a two-dimensional electron gas in an InAs/InGaAs heterostructure. Rigorous numerical simulations of the semiconductor and high frequency electromagnetic behavior of the coupler and microwave circuitry yield an on/off ratio of more than one order of magnitude. We give an estimate of the dielectric-limited loss from the inclusion of the coupler in a two qubit system, with coupler coherences ranging from a few to tens of microseconds.
翻訳日:2023-07-13 20:06:57 公開日:2023-07-12
# プライバシ保護フェデレーション学習による風車条件情報のフリートワイド共有に向けて

Towards Fleet-wide Sharing of Wind Turbine Condition Information through Privacy-preserving Federated Learning ( http://arxiv.org/abs/2212.03529v3 )

ライセンス: Link先を確認
Lorin Jenkel, Stefan Jonas, Angela Meyer(参考訳) テラバイトのデータは、風力タービンメーカーが毎日艦隊から収集する。 しかし、データアクセスと共有の欠如は、データの潜在能力を最大限に活用することを妨げる。 我々は、風力タービンにデータを残しながら、そのローカルデータに対する艦隊規模の学習を可能にする分散機械学習アプローチを提案する。 フェデレートされた艦隊規模の学習を通して、代表的トレーニングデータをほとんど、あるいは全く持たないタービンは、より正確な正常な行動モデルから恩恵を受けることを示す。 グローバルフェデレーションモデルを個々のタービンにカスタマイズすると、監視対象変数が不均一に艦隊に分散している場合に最も高い故障検出精度が得られる。 本実験では, 軸受温度について, 通常の挙動がタービンによって大きく変化する対象変数について示す。 本研究は,連合学習プロセスに参加することでモデル性能を損なうタービンが存在しないことを示し,その結果,連合学習戦略の優れた性能が得られることを示した。 分散学習は,通信オーバーヘッドの増加とモデル収束の遅さにより,通常の行動モデルトレーニング時間を約10倍に向上させる。

Terabytes of data are collected by wind turbine manufacturers from their fleets every day. And yet, a lack of data access and sharing impedes exploiting the full potential of the data. We present a distributed machine learning approach that preserves the data privacy by leaving the data on the wind turbines while still enabling fleet-wide learning on those local data. We show that through federated fleet-wide learning, turbines with little or no representative training data can benefit from more accurate normal behavior models. Customizing the global federated model to individual turbines yields the highest fault detection accuracy in cases where the monitored target variable is distributed heterogeneously across the fleet. We demonstrate this for bearing temperatures, a target variable whose normal behavior can vary widely depending on the turbine. We show that no turbine experiences a loss in model performance from participating in the federated learning process, resulting in superior performance of the federated learning strategy in our case studies. The distributed learning increases the normal behavior model training times by about a factor of ten due to increased communication overhead and slower model convergence.
翻訳日:2023-07-13 20:06:47 公開日:2023-07-12
# パリティを持つ量子ビット状態間の量子仮説試験

Quantum hypothesis testing between qubit states with parity ( http://arxiv.org/abs/2212.01766v3 )

ライセンス: Link先を確認
Yi Shen and Carlo Maria Scandolo and Lin Chen(参考訳) 量子仮説テスト(QHT)は、2つの量子状態を2つの正の演算子値測度(POVM)を用いて識別する有効な方法を提供する。 QHTにおける2種類の決定エラーが発生する。 本稿では,カイラリティの基準フレームの欠如から生じる運用上の制約を考慮して,2種類の決定誤差を不等に扱うQHTの非対称設定に着目した。 この参照フレームは、恒等変換とパリティ変換からなる群 $\bbZ_2$ に関連付けられている。 したがって、$\bbZ_2$-invariant POVMsのみを実行することで、2つの量子状態の区別を行う必要がある。 私たちは2つの純粋状態の区別から始めます。 特定の最適化問題を解くことで、偽の場合にヌル仮説が受け入れられたときに発生するタイプIIエラーの最小確率の漸近挙動を完全に特徴づける。 我々の結果は、そのような2つの純粋な状態の$\bbZ_2$-twirlingsが異なる場合、最小確率が有限個のコピーでゼロに減少することを示した。 さらに、最小確率がゼロとなるようなコピーの臨界数を導出する。 最後に、2つの純状態のうちの1つを最大混合状態に置き換え、同様にタイプII誤差の最小確率の漸近挙動を特徴づける。

Quantum hypothesis testing (QHT) provides an effective method to discriminate between two quantum states using a two-outcome positive operator-valued measure (POVM). Two types of decision errors in a QHT can occur. In this paper we focus on the asymmetric setting of QHT, where the two types of decision errors are treated unequally, considering the operational limitations arising from the lack of a reference frame for chirality. This reference frame is associated with the group $\bbZ_2$ consisting of the identity transformation and the parity transformation. Thus, we have to discriminate between two qubit states by performing the $\bbZ_2$-invariant POVMs only. We start from the discrimination between two pure states. By solving the specific optimization problem we completely characterize the asymptotic behavior of the minimal probability of type-II error which occurs when the null hypothesis is accepted when it is false. Our results reveal that the minimal probability reduces to zero in a finite number of copies, if the $\bbZ_2$-twirlings of such two pure states are different. We further derive the critical number of copies such that the minimal probability reduces to zero. Finally, we replace one of the two pure states with a maximally mixed state, and similarly characterize the asymptotic behavior of the minimal probability of type-II error.
翻訳日:2023-07-13 20:06:22 公開日:2023-07-12
# 勾配分割によるSVRGとTD-SVRGのギャップの解消

Closing the gap between SVRG and TD-SVRG with Gradient Splitting ( http://arxiv.org/abs/2211.16237v2 )

ライセンス: Link先を確認
Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis(参考訳) 時間差(TD)学習は、分散還元技術により性能を向上させることができる強化学習における政策評価である。 近年,SVRGによるTD学習を融合させ,幾何学的収束率を持つ政策評価手法の確立が試みられている。 しかし、収束速度は凸最適化の設定においてSVRGが達成したものよりも著しく弱い。 本研究では,TD-ラーニングの最近の解釈を,適切に選択された関数の勾配の分割として利用し,アルゴリズムの簡素化とSVRGとの融合を図る。 本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。 我々の理論的発見は一連の実験によって裏付けられている。

Temporal difference (TD) learning is a policy evaluation in reinforcement learning whose performance can be enhanced by variance reduction techniques. Recently, multiple works have sought to fuse TD learning with SVRG to obtain a policy evaluation method with a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. Our main result is a geometric convergence bound with predetermined learning rate of $1/8$, which is identical to the convergence bound available for SVRG in the convex setting. Our theoretical findings are supported by a set of experiments.
翻訳日:2023-07-13 20:06:00 公開日:2023-07-12
# STGlow: 歩行者軌道予測のためのデュアルグラフマーを備えたフローベース生成フレームワーク

STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2211.11220v3 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, and Xia Li(参考訳) 歩行者軌道予測タスクはインテリジェントシステムの不可欠な構成要素である。 その用途には、自動運転、ロボットナビゲーション、監視システムの異常検出などに限定されない。 歩行者の行動行動の多様性と複雑な社会的相互作用のため、将来の軌跡を正確に予測することは困難である。 既存のアプローチでは、様々な軌道を生成するためにGANまたはCVAEを採用するのが一般的である。 しかし、GANベースの手法は遅延空間におけるデータを直接モデル化しないため、基礎となるデータ分布に対する完全なサポートが得られず、CVAEベースの手法は、ログのような観測範囲の低い境界を最適化し、学習した分布が基礎となる分布から逸脱する可能性がある。 上記の制限により、既存のアプローチは、しばしば高いバイアスや不正確な軌道を生成する。 本稿では,歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。 従来の手法と異なり,動作動作の正確なログ様相を最適化することで,より正確にデータ分布をモデル化できる。 また,人間の動作行動の進化をシミュレートするための物理的意義も明らかにした。 流れの進行過程は、複雑な動きの挙動を徐々に単純な振る舞いに分解し、逆の過程は複雑な動きの振る舞いへの単純な動きの進化を表す。 さらに,時間依存性と相互空間相互作用をより適切にモデル化するために,グラフ構造と組み合わせた双対グラフマーを導入する。 いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。

The pedestrian trajectory prediction task is an essential component of intelligent systems. Its applications include but are not limited to autonomous driving, robot navigation, and anomaly detection of monitoring systems. Due to the diversity of motion behaviors and the complex social interactions among pedestrians, accurately forecasting their future trajectory is challenging. Existing approaches commonly adopt GANs or CVAEs to generate diverse trajectories. However, GAN-based methods do not directly model data in a latent space, which may make them fail to have full support over the underlying data distribution; CVAE-based methods optimize a lower bound on the log-likelihood of observations, which may cause the learned distribution to deviate from the underlying distribution. The above limitations make existing approaches often generate highly biased or inaccurate trajectories. In this paper, we propose a novel generative flow based framework with dual graphormer for pedestrian trajectory prediction (STGlow). Different from previous approaches, our method can more precisely model the underlying data distribution by optimizing the exact log-likelihood of motion behaviors. Besides, our method has clear physical meanings for simulating the evolution of human motion behaviors. The forward process of the flow gradually degrades complex motion behavior into simple behavior, while its reverse process represents the evolution of simple behavior into complex motion behavior. Further, we introduce a dual graphormer combining with the graph structure to more adequately model the temporal dependencies and the mutual spatial interactions. Experimental results on several benchmarks demonstrate that our method achieves much better performance compared to previous state-of-the-art approaches.
翻訳日:2023-07-13 20:05:22 公開日:2023-07-12
# 単一分子基盤モデルによる構造と物性の双方向生成

Bidirectional Generation of Structure and Properties Through a Single Molecular Foundation Model ( http://arxiv.org/abs/2211.10590v4 )

ライセンス: Link先を確認
Jinho Chang and Jong Chul Ye(参考訳) 最近の人工知能における大規模基礎モデルの成功は、化学前訓練モデルの出現を促した。 下流タスクに情報表現を提供する大規模な分子事前学習モデルへの関心が高まったが、分子領域におけるマルチモーダル事前学習アプローチの試みは制限された。 そこで本研究では, 構造と生化学的性質のモダリティを組み込んだマルチモーダル分子事前学習モデルを提案し, マルチモーダル学習技術の最近の進歩から着想を得た。 提案するデータハンドリングおよびトレーニング目的のモデルパイプラインは、共通埋め込み空間における構造/プロパティの特徴を整合させ、分子の構造と性質の間の双方向情報をモデルが考慮できるようにする。 これらのコントリビューションは相乗的知識を生み出し、単一のモデルでマルチモーダルと非モーダルの両方の下流タスクに取り組むことができる。 実験により, 条件付き分子生成, 特性予測, 分子分類, 反応予測など, 種々の有意義な化学的課題を解く上で, 本モデルが有益であることを示す。

The recent success of large foundation models in artificial intelligence has prompted the emergence of chemical pre-trained models. Despite the growing interest in large molecular pre-trained models that provide informative representations for downstream tasks, attempts for multimodal pre-training approaches on the molecule domain were limited. To address this, we present a novel multimodal molecular pre-trained model that incorporates the modalities of structure and biochemical properties, drawing inspiration from recent advances in multimodal learning techniques. Our proposed model pipeline of data handling and training objectives aligns the structure/property features in a common embedding space, which enables the model to regard bidirectional information between the molecules' structure and properties. These contributions emerge synergistic knowledge, allowing us to tackle both multimodal and unimodal downstream tasks through a single model. Through extensive experiments, we demonstrate that our model shows remarkable capabilities in solving various meaningful chemical challenges, including conditional molecule generation, property prediction, molecule classification, and reaction prediction.
翻訳日:2023-07-13 20:04:58 公開日:2023-07-12
# ベイズ階層モデルの比較のための深層学習法

A Deep Learning Method for Comparing Bayesian Hierarchical Models ( http://arxiv.org/abs/2301.11873v2 )

ライセンス: Link先を確認
Lasse Elsem\"uller, Martin Schnuerch, Paul-Christian B\"urkner, Stefan T. Radev(参考訳) ベイズモデル比較(BMC)は、競合する計算モデルの相対的な利点を評価し、不確実性をモデル選択決定に伝播する原理的なアプローチを提供する。 しかし、BMCは高次元ネストパラメータ構造のため、一般的な階層モデルのクラスにとってしばしば難解である。 この難易度に対処するために,確率的プログラムとしてインスタンス化可能な階層モデルの集合上でBMCを実行する深層学習手法を提案する。 そこで本手法では,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。 そこで本研究では, 提案手法の性能を最先端の橋梁サンプリング法と比較し, 全てのBMC設定において優れた償却推論を示す。 次に,従来bmcでは難解であった4つの階層的エビデンス蓄積モデルを比較し,その手法を示す。 本稿では,最近提案されたL'evy飛行モデルによる意思決定の実証と,伝達学習の活用による学習効率の向上を実証する。 すべての解析に再現可能なコードを提供し,オープンソースで実装する。

Bayesian model comparison (BMC) offers a principled approach for assessing the relative merits of competing computational models and propagating uncertainty into model selection decisions. However, BMC is often intractable for the popular class of hierarchical models due to their high-dimensional nested parameter structure. To address this intractability, we propose a deep learning method for performing BMC on any set of hierarchical models which can be instantiated as probabilistic programs. Since our method enables amortized inference, it allows efficient re-estimation of posterior model probabilities and fast performance validation prior to any real-data application. In a series of extensive validation studies, we benchmark the performance of our method against the state-of-the-art bridge sampling method and demonstrate excellent amortized inference across all BMC settings. We then showcase our method by comparing four hierarchical evidence accumulation models that have previously been deemed intractable for BMC due to partly implicit likelihoods. In this application, we corroborate evidence for the recently proposed L\'evy flight model of decision-making and show how transfer learning can be leveraged to enhance training efficiency. We provide reproducible code for all analyses and an open-source implementation of our method.
翻訳日:2023-07-13 19:58:01 公開日:2023-07-12
# 行列代数上の$k$-(Super)正の写像に対するシェーンベルク対応

Schoenberg Correspondence for $k$-(Super)Positive Maps on Matrix Algebras ( http://arxiv.org/abs/2301.10679v3 )

ライセンス: Link先を確認
B. V. Rajarama Bhat and Purbayan Chakraborty and Uwe Franz(参考訳) michael sch\"urmann によって証明されたユニタリ半群の類似の結果を一般化する非ユニタリ半群に対するシェーンベルク型対応を証明する。 線型写像の半群の生成元を $m_n(c)$ で特徴づけるが、これらは $k$-positive, $k$-superpositive, $k$-entanglement breaking である。 仲間として、lindblad氏、gorini氏、kossakowski氏、sudarshan氏の定理を再証明します。 作用素の半群の具体例を示し、その正の性質が時間とともにどのように改善するかを研究する。

We prove a Schoenberg-type correspondence for non-unital semigroups which generalizes an analogous result for unital semigroup proved by Michael Sch\"urmann. It characterizes the generators of semigroups of linear maps on $M_n(C)$ which are $k$-positive, $k$-superpositive, or $k$-entanglement breaking. As a corollary we reprove Lindblad, Gorini, Kossakowski, Sudarshan's theorem. We present some concrete examples of semigroups of operators and study how their positivity properties can improve with time.
翻訳日:2023-07-13 19:57:42 公開日:2023-07-12
# リング状rydberg原子網における励起の制御

Controlled flow of excitations in a ring-shaped network of Rydberg atoms ( http://arxiv.org/abs/2212.12490v2 )

ライセンス: Link先を確認
Francesco Perciavalle, Davide Rossini, Tobias Haug, Oliver Morsch, Luigi Amico(参考訳) 高励起リドバーグ原子は量子シミュレーションと情報処理のための強力なプラットフォームである。 ここでは、Rydberg励起のキラル電流を研究するための原子環ネットワークを提案する。 電流はラマンスキームによってインプリントされた位相パターンによって制御され、デファージングが存在する場合でも持続することができる。 ライドバーグ状態のラビカップリングと双極子-双極子相互作用の相互作用によって、電流は著しく異なる特徴を示す。 励起は時間内に特性ピークを示す速度で伝播し、電流のキラルな性質を反映する。 クエンチの時間平均電流は基底電流と同様の挙動を示す。 この分析は、原子ネットワークにおける情報伝達のための新しい方法の開発方法である。

Highly excited Rydberg atoms are a powerful platform for quantum simulation and information processing. Here, we propose atomic ring networks to study chiral currents of Rydberg excitations. The currents are controlled by a phase pattern imprinted via a Raman scheme and can persist even in the presence of dephasing. Depending on the interplay between the Rabi coupling of Rydberg states and the dipole-dipole atom interaction, the current shows markedly different features. The excitations propagate with a velocity displaying a characteristic peak in time, reflecting the chiral nature of the current. We find that the time-averaged current in a quench behaves similarly to the ground-state current. This analysis paves the way for the development of new methods to transport information in atomic networks.
翻訳日:2023-07-13 19:56:27 公開日:2023-07-12
# 磁場をもつ二層グラフェンの連続スペクトルにおける安定欠陥状態

Stable defect states in the continuous spectrum of bilayer graphene with magnetic field ( http://arxiv.org/abs/2212.12125v2 )

ライセンス: Link先を確認
Stephen P. Shipman and Jorge Villalobos(参考訳) aa積層二層グラフェンの密結合モデルにおいて, 垂直磁場の強さの変動に関して, 連続スペクトル領域内の拘束欠陥状態が安定に存在できることが示されている。 これは、層間カップリングと互換性のある欠陥を作成し、ホフシュタッター・バタフライとして知られるパターンで不規則に変化する連続スペクトルの影響から境界状態を保護することによって達成される。

In a tight-binding model of AA-stacked bilayer graphene, it is demonstrated that a bound defect state within the region of continuous spectrum can exist stably with respect to variations in the strength of a perpendicular magnetic field. This is accomplished by creating a defect that is compatible with the interlayer coupling, thereby shielding the bound state from the effects of the continuous spectrum, which varies erratically in a pattern known as the Hofstadter butterfly.
翻訳日:2023-07-13 19:56:16 公開日:2023-07-12
# CoNLL-2003 は 2023 年に Entity Taggers と命名されるか?

Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023? ( http://arxiv.org/abs/2212.09747v2 )

ライセンス: Link先を確認
Shuheng Liu, Alan Ritter(参考訳) CoNLL-2003 英語のエンティティ認識(NER)データセットは、ほぼ20年間、NERモデルのトレーニングと評価に広く使われている。 しかし、この20年前のデータに基づいてトレーニングされ、同じテストセットを使用して数十年にわたって開発されたモデルが、現代のデータに適用された場合、どの程度うまく機能するかは不明だ。 本稿では,CoNLL-2003で訓練された20以上のモデルの一般化を評価し,NERモデルが全く異なる一般化を持つことを示す。 驚くことに、何十年も前のデータを使って微調整しても、RoBERTaやT5のような事前訓練されたトランスフォーマーのパフォーマンス劣化の証拠は見つからない。 そこで本研究では,新しいデータによく当てはまるモデルもあれば,テスト再利用による時間的ドリフトやオーバーフィッティングの影響を解消しようとするモデルもある。 分析の結果,ほとんどの劣化は,事前学習コーパスと下流テストセットの時間的ミスマッチによるものであることが示唆された。 モデルアーキテクチャ,パラメータ数,事前学習コーパスの期間,微調整データの量という4つの要因が,優れた一般化に重要であることがわかった。 我々は,現在の評価手法が,従来のCoNLL-2003テストセットでNERモデルを改良しただけでなく,最新のデータでさらに改良したことから,過去20年間のNERの進歩を過小評価していることを示唆している。 データセットはhttps://github.com/ShuhengL/acl2023_conllpp.comで参照できます。

The CoNLL-2003 English named entity recognition (NER) dataset has been widely used to train and evaluate NER models for almost 20 years. However, it is unclear how well models that are trained on this 20-year-old data and developed over a period of decades using the same test set will perform when applied on modern data. In this paper, we evaluate the generalization of over 20 different models trained on CoNLL-2003, and show that NER models have very different generalization. Surprisingly, we find no evidence of performance degradation in pre-trained Transformers, such as RoBERTa and T5, even when fine-tuned using decades-old data. We investigate why some models generalize well to new data while others do not, and attempt to disentangle the effects of temporal drift and overfitting due to test reuse. Our analysis suggests that most deterioration is due to temporal mismatch between the pre-training corpora and the downstream test sets. We found that four factors are important for good generalization: model architecture, number of parameters, time period of the pre-training corpus, in addition to the amount of fine-tuning data. We suggest current evaluation methods have, in some sense, underestimated progress on NER over the past 20 years, as NER models have not only improved on the original CoNLL-2003 test set, but improved even more on modern data. Our datasets can be found at https://github.com/ShuhengL/acl2023_conllpp.
翻訳日:2023-07-13 19:55:50 公開日:2023-07-12
# 言語モデル間インタラクションの評価

Evaluating Human-Language Model Interaction ( http://arxiv.org/abs/2212.09746v3 )

ライセンス: Link先を確認
Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus, Ashwin Paranjape, Ines Gerard-Ursin, Xiang Lisa Li, Faisal Ladhak, Frieda Rong, Rose E. Wang, Minae Kwon, Joon Sung Park, Hancheng Cao, Tony Lee, Rishi Bommasani, Michael Bernstein, Percy Liang(参考訳) 言語モデル(LM)の現実的な応用は、筆記補助やコードオートコンプリートなど、人間とLMの相互作用を含む。 しかしながら、ほとんどのベンチマークは、モデルが人間の関与なしに出力を生成するという点で非インタラクティブである。 HALIE(Human-AI Language-based Interaction Evaluation)と呼ばれる,対話型システムのコンポーネントと,評価指標を設計する際に考慮すべき次元を定義するフレームワークを開発した。 HALIE の標準的非対話的評価との比較 (i)最終的な出力だけでなく、対話的なプロセス (ii)第三者のアセスメントに限らず、一人称主観的な経験 (iii)品質を超えた選好の概念(楽しさ及び所有権など) 次に,ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,インタラクションのさまざまな形式をカバーする5つのタスクを設計した。 最先端の4つのLM(OpenAIのGPT-3とAI21 LabsのJurassic-1の3つの変種)では、より優れた非インタラクティブ性能は、必ずしもより良い人間とLMの相互作用に変換されない。 特に,非対話的,インタラクティブな指標から得られた結果が,LM評価における人間とLMの相互作用の重要性を浮き彫りにした3つの事例を強調した。

Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.
翻訳日:2023-07-13 19:55:23 公開日:2023-07-12
# ベイズラスト層を用いたニューラルネットワークの不確実性定量化

Improved uncertainty quantification for neural networks with Bayesian last layer ( http://arxiv.org/abs/2302.10975v2 )

ライセンス: Link先を確認
Felix Fiedler and Sergio Lucia(参考訳) 不確かさの定量化は機械学習において必須のタスクであり、ニューラルネットワーク(NN)が伝統的に優れていないタスクである。 これは、ガウス過程やベイズ線形回帰のような不確実性を認識した手法が好まれる安全クリティカルな応用の制限となる。 ベイズニューラルネットワークは、この制限に対処するアプローチである。 すべてのパラメータの確率分布を仮定し、分散予測を生成する。 しかし、トレーニングと推論は通常難解であり、近似を使わなければならない。 有望な近似は nns with bayesian last layer (bll) である。 彼らは分布重みを最後の線形層でのみ仮定し、正規分布予測をもたらす。 bll を持つ nn は、学習された非線形特徴を持つベイズ線形回帰モデルと見なすことができる。 難解なベイズニューラルネットワークを近似するために、最終層以外の分散重みの点推定は、限界確率を最大化して得られるべきである。 この設定では限界可能性の評価は高価であり、バックプロパゲーションによる直接トレーニングは禁止されている。 本稿では,BLL を用いた NN の対数乗算可能性の再構成を行い,バックプロパゲーションを用いた効率的なトレーニングを実現する。 さらに,外挿点の不確かさの定量化という課題に対処する。 我々は外挿の度合いを定量化し、これらの点の不確かさの定量化を改善する方法を導出する計量を提供する。 提案手法は多変量の場合に対して導出され,シミュレーションにより,前訓練したニューラルネットワークに適用したベイズ線形回帰と提案アルゴリズムとの比較を行った。

Uncertainty quantification is an essential task in machine learning - a task in which neural networks (NNs) have traditionally not excelled. This can be a limitation for safety-critical applications, where uncertainty-aware methods like Gaussian processes or Bayesian linear regression are often preferred. Bayesian neural networks are an approach to address this limitation. They assume probability distributions for all parameters and yield distributed predictions. However, training and inference are typically intractable and approximations must be employed. A promising approximation is NNs with Bayesian last layer (BLL). They assume distributed weights only in the last linear layer and yield a normally distributed prediction. NNs with BLL can be seen as a Bayesian linear regression model with learned nonlinear features. To approximate the intractable Bayesian neural network, point estimates of the distributed weights in all but the last layer should be obtained by maximizing the marginal likelihood. This has previously been challenging, as the marginal likelihood is expensive to evaluate in this setting and prohibits direct training through backpropagation. We present a reformulation of the log-marginal likelihood of a NN with BLL which allows for efficient training using backpropagation. Furthermore, we address the challenge of quantifying uncertainty for extrapolation points. We provide a metric to quantify the degree of extrapolation and derive a method to improve the uncertainty quantification for these points. Our methods are derived for the multivariate case and demonstrated in a simulation study, where we compare Bayesian linear regression applied to a previously trained neural network with our proposed algorithm
翻訳日:2023-07-13 19:47:53 公開日:2023-07-12
# 全時系列用1変圧器:時間依存不均一表データによる表現とトレーニング

One Transformer for All Time Series: Representing and Training with Time-Dependent Heterogeneous Tabular Data ( http://arxiv.org/abs/2302.06375v2 )

ライセンス: Link先を確認
Simone Luetto, Fabrizio Garuti, Enver Sangineto, Lorenzo Forni, Rita Cucchiara(参考訳) 近年,この構造化領域における他の人工知能領域の成功を再現するために,グラフデータにディープラーニング技術を適用することへの関心が高まっている。 特に興味深いのは、例えば金融取引など、表データに時間依存がある場合である。 しかし、分類的要素と数値的要素を混合した表値の不均一性は、この適応を困難にしている。 本稿では,周波数関数の集合を用いて数値的な特徴を表現し,ネットワーク全体を一意な損失関数で一様に訓練する,不均質な時間依存表データを表すトランスフォーマアーキテクチャを提案する。

There is a recent growing interest in applying Deep Learning techniques to tabular data, in order to replicate the success of other Artificial Intelligence areas in this structured domain. Specifically interesting is the case in which tabular data have a time dependence, such as, for instance financial transactions. However, the heterogeneity of the tabular values, in which categorical elements are mixed with numerical items, makes this adaptation difficult. In this paper we propose a Transformer architecture to represent heterogeneous time-dependent tabular data, in which numerical features are represented using a set of frequency functions and the whole network is uniformly trained with a unique loss function.
翻訳日:2023-07-13 19:47:13 公開日:2023-07-12
# 量子軌道に対する極限定理

Limit theorems for Quantum Trajectories ( http://arxiv.org/abs/2302.06191v2 )

ライセンス: Link先を確認
Tristan Benoist, Jan-Luka Fatras, Cl\'ement Pellegrini(参考訳) 量子軌道 (quantum trajectories) は、繰り返し独立した測定を受ける量子系の進化をモデル化するマルコフ過程である。 精製と既約性の仮定の下で、これらのマルコフ過程は独自の不変測度を持つ。 プロバブ 理論関連。 2019年。 本稿では、大数法則(LLN)、関数中心極限定理、反復対数法則、偏微分原理などのより細かい極限定理を証明する。 LLNの証明はバーコフのエルゴード定理と調和函数の解析に基づいている。 他の定理は経験的和のマルティンゲール近似を用いて証明される。

Quantum trajectories are Markov processes modeling the evolution of a quantum system subjected to repeated independent measurements. Under purification and irreducibility assumptions, these Markov processes admit a unique invariant measure - see Benoist et al. Probab. Theory Relat. Fields 2019. In this article we prove, finer limit theorems such as Law of Large Numbers (LLN), Functional Central Limit Theorem, Law of Iterated Logarithm and Moderate Deviation Principle. The proof of the LLN is based on Birkhoff's ergodic theorem and an analysis of harmonic functions. The other theorems are proved using martingale approximation of empirical sums.
翻訳日:2023-07-13 19:47:01 公開日:2023-07-12
# 可変境界を持つ漸近的最適固定ベストアーム同定

Asymptotically Optimal Fixed-Budget Best Arm Identification with Variance-Dependent Bounds ( http://arxiv.org/abs/2302.02988v2 )

ライセンス: Link先を確認
Masahiro Kato, Masaaki Imaizumi, Takuya Ishihara, Toru Kitagawa(参考訳) 単純後悔を最小化するための固定予算ベストアーム識別(BAI)の問題について検討する。 適応的な実験において、意思決定者は過去の観察に基づいて複数の治療アームの1つを描画し、描画された腕の結果を観察する。 実験後、意思決定者は最も期待された結果で治療腕を推奨する。 この決定は,最善腕と推奨腕の期待結果との違いである,期待された単純後悔に基づいて評価する。 内因性不確実性のため,ミニマックス基準を用いて後悔を評価する。 まず, 潜在的な結果のばらつき(リード要因)を特徴とする, 最悪の場合の単純な後悔に対する漸近的下限を導出する。 下界に基づいて,HIR推定器(ヒラノら,2003年)を用いて最適な腕を推奨する2段式(TS)-ヒラノ・イブンゼンス・ライダー(HIR)戦略を提案する。 我々の理論的分析は、TS-HIR戦略は漸近的に最小限の最適化であり、最悪の場合予測される単純な後悔の要因は、得られた最悪のケースの低い境界と一致していることを示している。 さらに,本手法の拡張,例えば誤認の確率に対する漸近的最適性について検討する。 最後に,提案手法の有効性をシミュレーションにより検証する。

We investigate the problem of fixed-budget best arm identification (BAI) for minimizing expected simple regret. In an adaptive experiment, a decision maker draws one of multiple treatment arms based on past observations and observes the outcome of the drawn arm. After the experiment, the decision maker recommends the treatment arm with the highest expected outcome. We evaluate the decision based on the expected simple regret, which is the difference between the expected outcomes of the best arm and the recommended arm. Due to inherent uncertainty, we evaluate the regret using the minimax criterion. First, we derive asymptotic lower bounds for the worst-case expected simple regret, which are characterized by the variances of potential outcomes (leading factor). Based on the lower bounds, we propose the Two-Stage (TS)-Hirano-Imbens-Ridder (HIR) strategy, which utilizes the HIR estimator (Hirano et al., 2003) in recommending the best arm. Our theoretical analysis shows that the TS-HIR strategy is asymptotically minimax optimal, meaning that the leading factor of its worst-case expected simple regret matches our derived worst-case lower bound. Additionally, we consider extensions of our method, such as the asymptotic optimality for the probability of misidentification. Finally, we validate the proposed method's effectiveness through simulations.
翻訳日:2023-07-13 19:46:48 公開日:2023-07-12
# ダイアグラム化:仮説の帰納的推論のための図式AI説明による合理化

Diagrammatization: Rationalizing with diagrammatic AI explanations for abductive-deductive reasoning on hypotheses ( http://arxiv.org/abs/2302.01241v2 )

ライセンス: Link先を確認
Brian Y. Lim, Joseph P. Cahaly, Chester Y. F. Sng, Adam Chew(参考訳) 説明可能なAI(XAI)のために多くの視覚化が開発されているが、ユーザーによるさらなる推論を必要とすることが多い。 我々は、AIが解釈可能性ギャップを減らすために仮説生成と評価を行うために、XAIは図式的および帰納的推論をサポートするべきであると論じる。 ダイアグラム化の提案 一 パーシーの誘引的誘因的推論を行うこと 二 ドメイン規約に従うこと、及び 三 図面を視覚的又は口頭で説明すること。 DiagramNet は心臓の聴力から心臓の診断を予測するための臨床応用であり, 形状に基づく大腿骨郭清図を用いて説明する。 モデリング研究において、ダイアグラムネットは忠実なマームラー形状の説明を提供するだけでなく、ベースラインモデルよりも優れた予測性能を持つことがわかった。 さらに,医学生との質的ユーザスタディにおいて,図形説明の解釈可能性と信頼性を実証し,臨床的に関連性のある図形説明が技術的サリエンシマップの説明よりも好ましいことを示した。 この研究は、ユーザ中心のXAIに対して、ドメイン駆動の帰納的説明を提供するための洞察に貢献する。

Many visualizations have been developed for explainable AI (XAI), but they often require further reasoning by users to interpret. We argue that XAI should support diagrammatic and abductive reasoning for the AI to perform hypothesis generation and evaluation to reduce the interpretability gap. We propose Diagrammatization to i) perform Peircean abductive-deductive reasoning, ii) follow domain conventions, and iii) explain with diagrams visually or verbally. We implemented DiagramNet for a clinical application to predict cardiac diagnoses from heart auscultation, and explain with shape-based murmur diagrams. In modeling studies, we found that DiagramNet not only provides faithful murmur shape explanations, but also has better prediction performance than baseline models. We further demonstrate the interpretability and trustworthiness of diagrammatic explanations in a qualitative user study with medical students, showing that clinically-relevant, diagrammatic explanations are preferred over technical saliency map explanations. This work contributes insights into providing domain-conventional abductive explanations for user-centric XAI.
翻訳日:2023-07-13 19:46:26 公開日:2023-07-12
# 進化論に触発された構造的変異は個体群のパフォーマンスと多様性を高める

Structured mutation inspired by evolutionary theory enriches population performance and diversity ( http://arxiv.org/abs/2302.00559v2 )

ライセンス: Link先を確認
Stefano Tiso, Pedro Carvalho, Nuno Louren\c{c}o, Penousal Machado(参考訳) グラマー誘導遺伝的プログラミング(GGGP)は、進化論から与えられたタスクに対して自律的に解決策を設計するまで、様々な知見を取り入れている。 進化生物学の最近の知見は、GGGPアルゴリズムのさらなる改良につながる可能性がある。 本稿では,不均一変異率および変異効果に関する簡便な変異と知識の理論を応用し,変異操作性を改善する。 我々は、この新しい変分ファシリテート変異法(FM)と呼ぶ。 我々は、画像分類のためのニューラルネットワークオプティマイザの進化に関するFM性能をテストする。 FMとFMをクロスオーバー(FMX)と組み合わせて比較し,本手法の利点を評価する。 特にFMXは重要な指標を統計的に改善し、全体として優れたオプティマイザ(平均テスト精度+0.48\%)を作成し、ソリューションの平均品質(平均集団適合度+50\%)を改善し、より多様な高品質な振る舞い(平均で400の高品質なソリューション)を発見した。 さらに、FMとFMXは、進化的な実行における適合度評価の回数を減らすことができ、いくつかのシナリオにおける計算コストを低減することができる。

Grammar-Guided Genetic Programming (GGGP) employs a variety of insights from evolutionary theory to autonomously design solutions for a given task. Recent insights from evolutionary biology can lead to further improvements in GGGP algorithms. In this paper, we apply principles from the theory of Facilitated Variation and knowledge about heterogeneous mutation rates and mutation effects to improve the variation operators. We term this new method of variation Facilitated Mutation (FM). We test FM performance on the evolution of neural network optimizers for image classification, a relevant task in evolutionary computation, with important implications for the field of machine learning. We compare FM and FM combined with crossover (FMX) against a typical mutation regime to assess the benefits of the approach. We find that FMX in particular provides statistical improvements in key metrics, creating a superior optimizer overall (+0.48\% average test accuracy), improving the average quality of solutions (+50\% average population fitness), and discovering more diverse high-quality behaviors (+400 high-quality solutions discovered per run on average). Additionally, FM and FMX can reduce the number of fitness evaluations in an evolutionary run, reducing computational costs in some scenarios.
翻訳日:2023-07-13 19:45:21 公開日:2023-07-12
# nv中心における散逸誘起エンタングルメントの動的核分極

Dynamical nuclear polarization for dissipation-induced entanglement in NV centers ( http://arxiv.org/abs/2301.13085v2 )

ライセンス: Link先を確認
Shishir Khandelwal, Shashwat Kumar, Nicolas Palazzo, G\'eraldine Haack, Mayeul Chipaux(参考訳) 本稿では,純粋散逸過程を通じて量子相関を生成するスキームを表す2量子エンタングルメントエンジンの実装を提案する。 ダイヤモンドプラットフォームでは、2つの窒素-原子価(NV)中心の電子スピン遷移が人工原子(量子ビット)の役割を担い、双極子-双極子ハミルトニアンを介して相互作用する。 周囲の炭素13核スピンは、よく定義された温度で熱貯水池の役割を担い、NV中心量子ビットを通して熱を交換するスピン浴として機能する。 そこで本手法では, 各NV中心を囲む2つのスピン浴の間に温度勾配を生じさせることで, 動的核分極の最近の進展と顕微鏡超解像法を併用する手法を提案する。 これらの手法が, 長い平衡偏極状態の初期化を可能にし, 効果的に絡み合いエンジンの動作に適する条件を導出する。 量子マスター方程式のアプローチでは、実験パラメータの最先端値を用いて理論的予測を行う。 我々は、共起の有望な値を得て、理論上の最大値に達する。

We propose a practical implementation of a two-qubit entanglement engine which denotes a scheme to generate quantum correlations through purely dissipative processes. On a diamond platform, the electron spin transitions of two Nitrogen-Vacancy (NV) centers play the role of artificial atoms (qubits), interacting through a dipole-dipole Hamiltonian. The surrounding Carbon-13 nuclear spins act as spin baths playing the role of thermal reservoirs at well-defined temperatures and exchanging heat through the NV center qubits. In our scheme, a key challenge is therefore to create a temperature gradient between two spin baths surrounding each NV center, for which we propose the exploit the recent progresses in dynamical nuclear polarization, combined with microscopy superresolution methods. We discuss how these techniques should allow us to initialize such a long lasting out-of-equilibrium polarization situation between them, effectively leading to suitable conditions to run the entanglement engine successfully. Within a quantum master equation approach, we make theoretical predictions using state-of-the-art values for experimental parameters. We obtain promising values for the concurrence, reaching theoretical maxima.
翻訳日:2023-07-13 19:44:57 公開日:2023-07-12
# 動的クエリ拡張検出トランスを用いたロバストテーブル構造認識

Robust Table Structure Recognition with Dynamic Queries Enhanced Detection Transformer ( http://arxiv.org/abs/2303.11615v2 )

ライセンス: Link先を確認
Jiawei Wang, Weihong Lin, Chixiang Ma, Mingze Li, Zheng Sun, Lei Sun, Qiang Huo(参考訳) 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。 従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,dq-detrと呼ばれる新しい2段階動的クエリ拡張detr法を提案し,テーブル画像からの分離線を直接予測する。 Vallina DETRと比較して、DQ-DETRの3つの改良点を提案し、2段階のDETRフレームワークを効率的に効率的に動作させる。 1) リグレッションタスクの局所化精度を直感的に向上させるため,単一行クエリを分離可能なポイントクエリに分離するdynamic queryという新しいクエリ設計。 2) 動的クエリに基づく進行線回帰法による線上の点の漸進回帰アプローチは,歪んだ表の局所化精度をさらに向上させる。 3) detrの遅い収束問題を解決するための事前のマッチング戦略。 分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。 これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。 さらに, 複雑な構造, 境界のない細胞, 大きな空白空間, 空白セル, あるいは分散セル, および, より困難な実世界の実世界のデータセット上での歪みや湾曲形状のテーブルに対する, アプローチの堅牢性と高い局所化精度を検証した。

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage dynamic queries enhanced DETR based separation line regression approach, named DQ-DETR, to predict separation lines from table images directly. Compared to Vallina DETR, we propose three improvements in DQ-DETR to make the two-stage DETR framework work efficiently and effectively for the separation line prediction task: 1) A new query design, named Dynamic Query, to decouple single line query into separable point queries which could intuitively improve the localization accuracy for regression tasks; 2) A dynamic queries based progressive line regression approach to progressively regressing points on the line which further enhances localization accuracy for distorted tables; 3) A prior-enhanced matching strategy to solve the slow convergence issue of DETR. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet, WTW and FinTabNet. Furthermore, we have validated the robustness and high localization accuracy of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.
翻訳日:2023-07-13 19:39:19 公開日:2023-07-12
# シリコンのホールスピン量子ビットを用いた量子推定とリモート電荷検出

Quantum estimation and remote charge sensing with a hole-spin qubit in silicon ( http://arxiv.org/abs/2303.07161v2 )

ライセンス: Link先を確認
Gaia Forghieri, Andrea Secchi, Andrea Bertoni, Paolo Bordone, and Filippo Troiani(参考訳) 半導体中のホールスピン量子ビットは、量子技術応用のための成熟したプラットフォームである。 ここでは、量子センサーとしての利用、特にリモート電荷の量子ビットからの距離を推定するための利用について考察する。 単一または二重量子ドット、基底および外平衡状態、RabiとRamseyの測定に基づいて異なるアプローチが検討され、古典的および量子的フィッシャー情報の識別確率によって相対的に解析される。 詳細な量的側面は、ルッティンガー・コーン・ハミルトニアン(Luttinger-Kohn Hamiltonian)によって説明される孔状態の多重バンド特性から生じる。 さらに、上記の選択肢の相対的効率性について一般的な結論を導き、rabiおよびramseyスキーム内の一般的なキュービットのフィッシャー情報に対して解析式を導出する。

Hole-spin qubits in semiconductors represent a mature platform for quantum technological applications. Here we consider their use as quantum sensors, and specifically for inferring the presence and estimating the distance from the qubit of a remote charge. Different approaches are considered - based on the use of single or double quantum dots, ground and out-of-equilibrium states, Rabi and Ramsey measurements - and comparatively analyzed by means of the discrimination probability, of the classical and quantum Fisher information. Detailed quantitative aspects result from the multiband character of the hole states, which we account for by means of the Luttinger-Kohn Hamiltonian. Furthermore, general conclusions can be drawn on the relative efficiency of the above options, and analytical expressions are derived for the Fisher information of a generic qubit within the Rabi and Ramsey schemes.
翻訳日:2023-07-13 19:38:23 公開日:2023-07-12
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v2 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
翻訳日:2023-07-13 19:38:07 公開日:2023-07-12
# SYK可解モデルにおける強相互作用性フェルミオン超流体の減衰ダイナミクス

Attenuating Dynamics of Strongly Interacting Fermionic Superfluids in SYK Solvable Models ( http://arxiv.org/abs/2303.02422v2 )

ライセンス: Link先を確認
Tian-Gang Zhou and Pengfei Zhang(参考訳) フェルミイオン超流動体のクエンチダイナミクスは実験的にも理論的にも活発な話題である。 BCS理論を用いて、そのような非平衡問題は時間依存平均場ペアリング項でのみ、ほぼ独立したスピンダイナミクスに還元できる。 これにより、あるパラメーター状態におけるペアリング強度の持続的な振動が生じる。 しかし、実験では、相互作用が強くなると振動は急速に崩壊し、例えばユニタリフェルミガスのような現象が観察されている。 この件に関する理論的分析はまだ行われていない。 本研究では,一次元BCSシステムにおける強い相互作用の効果を解析するためのSYK様モデルを構築する。 我々は、平衡問題の解法とクエンチダイナミクスを解くために、大額のN$近似とグリーン関数に基づく手法を用いる。 その結果,強いSYK相互作用はペアリング順序を抑制することがわかった。 さらに,本システムはSYK相互作用によって,本質的なペアリング順序や近接効果を伴っても急速に熱分解し,振動強度が急速に低下することを確認した。 崩壊速度はSYK相互作用に対する異なるスケーリング則を示し、ボルツマン方程式で理解することができる。 この研究は強相互作用するフェルミオン超流体の減衰力学を理解するための第一歩である。

Quench dynamics of fermionic superfluids are an active topic both experimentally and theoretically. Using the BCS theory, such non-equilibrium problems can be reduced to nearly independent spin dynamics, only with a time-dependent mean-field pairing term. This results in persisting oscillations of the pairing strength in certain parameter regimes. However, experiments have observed that the oscillations decay rapidly when the interaction becomes strong, such as in the unitary Fermi gas. Theoretical analysis on this matter is still absent. In this work, we construct an SYK-like model to analyze the effect of strong interactions in a one-dimensional BCS system. We employ the large-$N$ approximation and a Green's function-based technique to solve the equilibrium problem and quench dynamics. Our findings reveal that a strong SYK interaction suppresses the pairing order. Additionally, we verify that the system quickly thermalizes with SYK interactions, whether it involves intrinsic pairing order or proximity effect, resulting in a rapid decay of the oscillation strength. The decay rates exhibit different scaling laws against SYK interaction, which can be understood in terms of the Boltzmann equation. This work represents a first step towards understanding the attenuating dynamics of strongly interacting fermionic superfluids.
翻訳日:2023-07-13 19:37:39 公開日:2023-07-12
# 強化ラベル:ポイント特徴ラベル配置のためのマルチエージェント深層強化学習

Reinforced Labels: Multi-Agent Deep Reinforcement Learning for Point-Feature Label Placement ( http://arxiv.org/abs/2303.01388v2 )

ライセンス: Link先を確認
Petr Bob\'ak, Ladislav \v{C}mol\'ik, Martin \v{C}ad\'ik(参考訳) 近年、強化学習とディープラーニング技術が組み合わさって、ロボット工学、自動運転車、金融など、さまざまな分野の複雑な問題を解決することに成功した。 本稿では,ラベルの重なりを回避し,信頼性を確保するために,ラベルの最適な位置決めを求めるデータ可視化における複雑なタスクであるラベル配置に強化学習(rl)を導入する。 提案手法は,人手による既存の手作りアルゴリズムとは対照的な,機械学習によるラベル付け手法であるマルチエージェントディープ強化学習(MADRL)を用いてラベルの配置戦略を学習する。 RL学習を容易にするために,エージェントがラベルのプロキシとして機能する環境を開発した。 以上の結果から,本手法によって訓練された戦略は,未訓練エージェントのランダム戦略を著しく上回り,完全性(すなわちラベル数)の観点から人間専門家が設計した手法と比較した。 トレードオフは計算時間の増加であり、提案手法は比較法よりも遅い。 しかし,本手法は事前にラベル付けを計算できるシナリオに最適であり,地図地図,技術図面,医療アトラスなどの完全性は不可欠である。 また,性能評価のためのユーザ調査を行った。 その結果,提案手法は他の検査方法よりも有意に優れていると考えられた。 この結果から,完全性の向上は定量的指標だけでなく,主観的評価にも反映されることが示唆された。

Over recent years, Reinforcement Learning combined with Deep Learning techniques has successfully proven to solve complex problems in various domains, including robotics, self-driving cars, and finance. In this paper, we are introducing Reinforcement Learning (RL) to label placement, a complex task in data visualization that seeks optimal positioning for labels to avoid overlap and ensure legibility. Our novel point-feature label placement method utilizes Multi-Agent Deep Reinforcement Learning (MADRL) to learn the label placement strategy, which is the first machine-learning-driven labeling method in contrast to existing hand-crafted algorithms designed by human experts. To facilitate RL learning, we developed an environment where an agent acts as a proxy for a label, a short textual annotation that augments visualization. Our results show that the strategy trained by our method significantly outperforms the random strategy of an untrained agent and compared methods designed by human experts in terms of completeness (i.e., the number of placed labels). The trade-off is increased computation time, making the proposed method slower than compared methods. Nevertheless, our method is ideal for scenarios where the labeling can be computed in advance, and completeness is essential, such as cartographic maps, technical drawings, and medical atlases. Additionally, we conducted a user study to assess the perceived performance. The outcomes revealed that the participants considered the proposed method to be significantly better than the other examined methods. This indicates that the improved completeness is not just reflected in the quantitative metrics but also in the subjective evaluation of the participants.
翻訳日:2023-07-13 19:37:20 公開日:2023-07-12
# MALDI質量分析法のトポロジカルデータ解析への応用

Supervised topological data analysis for MALDI mass spectrometry imaging applications ( http://arxiv.org/abs/2302.13948v2 )

ライセンス: Link先を確認
Gideon Klaila, Vladimir Vutov, Anastasios Stefanou(参考訳) 背景: マトリックス支援レーザー脱離イオン化質量分析法(MALDI MSI)は、がん研究、特に腫瘍のタイプやサブタイピングにおいて重要な可能性を示す。 肺癌は腫瘍死の主要な原因であり、最も致死的な物質は腺癌(ADC)と扁平上皮癌(SqCC)である。 これら2つのサブタイプを区別することは治療決定と患者管理の成功に不可欠である。 結果: MALDIデータから固有情報を取得し,それをトポロジ的永続性を反映した新しい代数的トポロジカルフレームワークを提案する。 私たちのフレームワークには2つの大きな利点があります。 まず、トポロジカル永続性は信号とノイズを区別するのに役立つ。 次に、MALDIデータを圧縮し、ストレージスペースを節約し、その後の分類タスクの計算時間を最適化する。 単一のチューニングパラメータに依存するトポロジカルフレームワークを効率的に実装するアルゴリズムを提案する。 その後、抽出された持続特性にロジスティック回帰とランダム森林分類器を用い、自動化された腫瘍(サブ)タイピングプロセスを実現する。 提案フレームワークの競争性を実証するため,クロスバリデーションを用いた実世界のMALDIデータセットの実験を行った。 さらに, ノイズレベルの異なる合成MALDI画像に対して, その性能を評価することで, 単一雑音パラメータの有効性を示す。 結論: 提案した代数的トポロジカル・フレームワークは, MALDIデータから固有のスペクトル情報を捕捉し, 利用し, 肺がんの亜型分類における競合的な結果をもたらすことを示した。 さらに、denoisingのために微調整されるフレームワークは、maldiアプリケーションでデータ分析を強化するための汎用性と可能性を強調している。

Background: Matrix-assisted laser desorption/ionization mass spectrometry imaging (MALDI MSI) displays significant potential for applications in cancer research, especially in tumor typing and subtyping. Lung cancer is the primary cause of tumor-related deaths, where the most lethal entities are adenocarcinoma (ADC) and squamous cell carcinoma (SqCC). Distinguishing between these two common subtypes is crucial for therapy decisions and successful patient management. Results: We propose a new algebraic topological framework, which obtains intrinsic information from MALDI data and transforms it to reflect topological persistence. Our framework offers two main advantages. Firstly, topological persistence aids in distinguishing the signal from noise. Secondly, it compresses the MALDI data, saving storage space and optimizes computational time for subsequent classification tasks. We present an algorithm that efficiently implements our topological framework, relying on a single tuning parameter. Afterwards, logistic regression and random forest classifiers are employed on the extracted persistence features, thereby accomplishing an automated tumor (sub-)typing process. To demonstrate the competitiveness of our proposed framework, we conduct experiments on a real-world MALDI dataset using cross-validation. Furthermore, we showcase the effectiveness of the single denoising parameter by evaluating its performance on synthetic MALDI images with varying levels of noise. Conclusion: Our empirical experiments demonstrate that the proposed algebraic topological framework successfully captures and leverages the intrinsic spectral information from MALDI data, leading to competitive results in classifying lung cancer subtypes. Moreover, the frameworks ability to be fine-tuned for denoising highlights its versatility and potential for enhancing data analysis in MALDI applications.
翻訳日:2023-07-13 19:36:54 公開日:2023-07-12
# 安全制約マルコフ決定過程に対するベルマンの最適性と強化学習原理について

On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process ( http://arxiv.org/abs/2302.13152v3 )

ライセンス: Link先を確認
Rahul Misra, Rafa{\l} Wisniewski and Carsten Skovmose Kalles{\o}e(参考訳) 安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。 具体的には、(有限状態と有限動作を持つ)マルコフ決定過程において、決定者のゴールは、ある確率的保証のある安全でない集合を避けながら、目標集合に到達することである。 したがって、任意の制御ポリシーに対するマルコフ連鎖は、定義によってターゲット集合と安全でない集合が存在するため、多重鎖となる。 意思決定者は、目標セットにナビゲートしながら(コスト関数に関して)最適である必要がある。 これは多目的最適化の問題を引き起こす。 ベルマンの最適性原理は、(ハビブによる反例で示されるように)下層の多重鎖構造を持つマルコフ決定問題に制約を負わないという事実を強調した。 上記の多目的最適化問題をゼロサムゲームとして定式化し、その後ラグランジアンに対する非同期値反復スキームを構築する(シェープリーのアルゴリズムと同様)。 最後に,強化学習問題についても検討し,データからラグランジアンを学習するための修正された$q$-learningアルゴリズムを構築した。 また、ラグランジアンとそれに対応する誤差境界の学習に必要な反復数にもより低い境界を与える。

We study optimality for the safety-constrained Markov decision process which is the underlying framework for safe reinforcement learning. Specifically, we consider a constrained Markov decision process (with finite states and finite actions) where the goal of the decision maker is to reach a target set while avoiding an unsafe set(s) with certain probabilistic guarantees. Therefore the underlying Markov chain for any control policy will be multichain since by definition there exists a target set and an unsafe set. The decision maker also has to be optimal (with respect to a cost function) while navigating to the target set. This gives rise to a multi-objective optimization problem. We highlight the fact that Bellman's principle of optimality may not hold for constrained Markov decision problems with an underlying multichain structure (as shown by the counterexample due to Haviv. We resolve the counterexample by formulating the aforementioned multi-objective optimization problem as a zero-sum game and thereafter construct an asynchronous value iteration scheme for the Lagrangian (similar to Shapley's algorithm). Finally, we consider the reinforcement learning problem for the same and construct a modified $Q$-learning algorithm for learning the Lagrangian from data. We also provide a lower bound on the number of iterations required for learning the Lagrangian and corresponding error bounds.
翻訳日:2023-07-13 19:36:22 公開日:2023-07-12
# 完全合成最適化のための線形化アルゴリズム

Linearization Algorithms for Fully Composite Optimization ( http://arxiv.org/abs/2302.12808v2 )

ライセンス: Link先を確認
Maria-Luiza Vladarean, Nikita Doikov, Martin Jaggi, Nicolas Flammarion(参考訳) 本稿では,凸集合およびコンパクト集合上の完全合成最適化問題の1次解法について検討する。 我々は,その微分可能成分と非微分可能成分を別々に扱い,滑らかな部分のみを線形化することにより,目的の構造を活用する。 これにより、古典的フランク・ウルフ法と条件付き勾配スライディングアルゴリズムの新しい一般化が得られ、非微分可能問題のサブクラスに対応する。 我々のアルゴリズムは線形最小化オラクルのより強力なバージョンに依存しており、いくつかの実用的な応用で効率的に実装できる。 本研究では,アフィン不変解析を用いて,凸および非凸の両目的に対して大域収束率を示す。 さらに,凸の場合,複雑度が向上した高速化手法を提案する。 最後に,理論的結果を支援するための実証実験を行った。

This paper studies first-order algorithms for solving fully composite optimization problems over convex and compact sets. We leverage the structure of the objective by handling its differentiable and non-differentiable components separately, linearizing only the smooth parts. This provides us with new generalizations of the classical Frank-Wolfe method and the Conditional Gradient Sliding algorithm, that cater to a subclass of non-differentiable problems. Our algorithms rely on a stronger version of the linear minimization oracle, which can be efficiently implemented in several practical applications. We provide the basic version of our method with an affine-invariant analysis and prove global convergence rates for both convex and non-convex objectives. Furthermore, in the convex case, we propose an accelerated method with correspondingly improved complexity. Finally, we provide illustrative experiments to support our theoretical results.
翻訳日:2023-07-13 19:36:01 公開日:2023-07-12
# 雑音の固定点反復から集中学習のためのプライベートADMMへ

From Noisy Fixed-Point Iterations to Private ADMM for Centralized and Federated Learning ( http://arxiv.org/abs/2302.12559v3 )

ライセンス: Link先を確認
Edwige Cyffers, Aur\'elien Bellet, Debabrota Basu(参考訳) 我々は、このよく研究されたフレームワークからプライバシーとユーティリティー結果を引き出すために、ノイズの多い固定点反復の例として、差分プライベート(DP)機械学習アルゴリズムについて研究する。 本稿では,DP-SGDのようなプライベート勾配に基づく手法を復元し,フレキシブルな方法で新しいプライベート最適化アルゴリズムの設計と解析を行う方法を提案する。 広範に用いられている乗算器の交互方向法(admm)に着目し,本手法の汎用的枠組みを用いて,集中型,フェデレーション型,完全分散型学習のための新しいプライベートadmmアルゴリズムを導出する。 これら3つのアルゴリズムに対して、繰り返しおよびサブサンプリングによるプライバシー増幅を活用する強力なプライバシー保証を確立する。 最後に、雑音の多い固定点反復に対する最近の線形収束結果を利用する統一解析を用いてユーティリティ保証を提供する。

We study differentially private (DP) machine learning algorithms as instances of noisy fixed-point iterations, in order to derive privacy and utility results from this well-studied framework. We show that this new perspective recovers popular private gradient-based methods like DP-SGD and provides a principled way to design and analyze new private optimization algorithms in a flexible manner. Focusing on the widely-used Alternating Directions Method of Multipliers (ADMM) method, we use our general framework to derive novel private ADMM algorithms for centralized, federated and fully decentralized learning. For these three algorithms, we establish strong privacy guarantees leveraging privacy amplification by iteration and by subsampling. Finally, we provide utility guarantees using a unified analysis that exploits a recent linear convergence result for noisy fixed-point iterations.
翻訳日:2023-07-13 19:35:48 公開日:2023-07-12
# 生成モデルに対するマッチングに基づくデータ評価

Matching-based Data Valuation for Generative Model ( http://arxiv.org/abs/2304.10701v4 )

ライセンス: Link先を確認
Jiaxi Yang and Wenglong Deng and Benlin Liu and Yangsibo Huang and Xiaoxiao Li(参考訳) データバリュエーションは、モデルの透明性を高め、データプロパティを保護するため、機械学習において重要である。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている深層生成モデルを無視している。 識別モデルと同様に、深層生成モデルにおけるデータ寄与度の評価も緊急に必要である。 しかし、従来のデータ評価アプローチは、主に差別的なモデルパフォーマンスメトリクスと必要なモデル再トレーニングに依存していた。 その結果, 直接的かつ効率的に, 生成的対向ネットワークや拡散モデルといった最近の深層生成モデルに適用することはできない。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成モデルに対する最初のモデルに依存しないアプローチである生成モデル評価器(GMValuator)を紹介する。 提案手法の有効性を実証するための広範な実験を行った。 彼らの知る限り、gmvaluatorは、深層生成モデルにトレーニングフリーでポストホックなデータバリュエーション戦略を提供する最初の作品だ。

Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.
翻訳日:2023-07-13 19:29:06 公開日:2023-07-12
# 疎深層ニューラルネットワークにおける勾配降下の点収束定理

Pointwise convergence theorem of gradient descent in sparse deep neural network ( http://arxiv.org/abs/2304.08172v2 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) ディープニューラルネットワーク(DNN)の理論構造は徐々に解明されてきた。 今泉福水(2019)と鈴木(2019)は、DNNの学習能力は、対象関数が非滑らかな関数である場合、従来の理論よりも優れていることを示した。 しかし、著者が知る限り、これまでの多くの研究は、どの種類のDNNアーキテクチャが実際に(統計的議論なしに)勾配勾配の点収束を誘導するかを数学的に検討することは試みられず、この試みは実際的なDNNに近づいたようである。 本稿では、ターゲット関数を非滑らかな指示関数に制限し、ReLU-DNNにおける勾配降下過程によって得られる点収束を誘導するディープニューラルネットワークを構築する。 DNNはスパースと特別な形状を持ち、特定の可変変換を持つ。

The theoretical structure of deep neural network (DNN) has been clarified gradually. Imaizumi-Fukumizu (2019) and Suzuki (2019) clarified that the learning ability of DNN is superior to the previous theories when the target function is non-smooth functions. However, as far as the author is aware, none of the numerous works to date attempted to mathematically investigate what kind of DNN architectures really induce pointwise convergence of gradient descent (without any statistical argument), and this attempt seems to be closer to the practical DNNs. In this paper we restrict target functions to non-smooth indicator functions, and construct a deep neural network inducing pointwise convergence provided by gradient descent process in ReLU-DNN. The DNN has a sparse and a special shape, with certain variable transformations.
翻訳日:2023-07-13 19:28:14 公開日:2023-07-12
# CAR-DESPOT:共生環境におけるロボットのための因果形オンラインPOMDP計画

CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in Confounded Environments ( http://arxiv.org/abs/2304.06848v2 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Lars Kunze(参考訳) 現実の環境で動くロボットは、確率的な行動の結果を推論し、真の世界状態の部分的な観察に基づく決定をしなければならない。 正確でロバストな行動予測を行う上での大きな課題は、統合の問題であり、もし未処理のままにしておくと予測エラーにつながる可能性がある。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらの確率的かつ部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。 しかしながら、明示的な因果意味論の欠如により、pomdpの計画手法はバイアスを和らげる傾向にあり、従って、観察されていない共同創設者の存在下では、低パフォーマンスなポリシーを生み出す可能性がある。 本稿では,現代オンラインPOMDPプランナであるAR-DESPOTの因果的インフォームド拡張について,因果的モデリングと推論を用いて,不測の共起変数によるエラーを除去する手法を提案する。 さらに,提案手法は,基礎的真理モデルデータから因果モデルの部分パラメータ化をオフラインで学習する手法を提案する。 我々は,未観測の共同創設者による玩具問題に対する手法の評価を行い,学習した因果モデルが非常に正確であることを示し,また,提案手法はAR-DESPOTよりも総合的に高い性能の政策を立案し,より堅牢であることを示す。

Robots operating in real-world environments must reason about possible outcomes of stochastic actions and make decisions based on partial observations of the true world state. A major challenge for making accurate and robust action predictions is the problem of confounding, which if left untreated can lead to prediction errors. The partially observable Markov decision process (POMDP) is a widely-used framework to model these stochastic and partially-observable decision-making problems. However, due to a lack of explicit causal semantics, POMDP planning methods are prone to confounding bias and thus in the presence of unobserved confounders may produce underperforming policies. This paper presents a novel causally-informed extension of "anytime regularized determinized sparse partially observable tree" (AR-DESPOT), a modern anytime online POMDP planner, using causal modelling and inference to eliminate errors caused by unmeasured confounder variables. We further propose a method to learn offline the partial parameterisation of the causal model for planning, from ground truth model data. We evaluate our methods on a toy problem with an unobserved confounder and show that the learned causal model is highly accurate, while our planning method is more robust to confounding and produces overall higher performing policies than AR-DESPOT.
翻訳日:2023-07-13 19:28:01 公開日:2023-07-12
# リアルタイムフィードバックによるマルチトンマイクロ波ロック

Multi-Tone Microwave Locking via Real-Time Feedback ( http://arxiv.org/abs/2304.06296v2 )

ライセンス: Link先を確認
J.P. van Soest, C.A. Potts, S. Peiter, A. Sanz Mora, G.A. Steele(参考訳) 機械実験への環境ノイズカップリングは、しばしば低周波変動を導入し、測定にノイズを加え、ノイズに信号を減らす。 これらのゆらぎに対処するために,マイクロ波駆動を雑音共振器にロックすることで実装した動的フィードバックシステムを示す。 ホモダイン干渉計は、マイクロ波発生器の周波数変調(FM)により緩和される低周波雑音による共振変動を監視する。 フィードバックの帯域幅は400ドル Hz で、キャビティ変動を 84 % 削減し、帯域幅は 2 ドル kHz になる。 さらに、空洞共振周波数変動を7,3\%$に低減する。 このスキームは、同じフィードバック信号にロックされたマルチトーン実験を可能にするためにスケールできる。 実演として,オプトメカニカル実験にフィードバックを適用し,キャビティロック,マルチトンメカニカル測定を実装した。 多くの実験において、低周波共振器周波数ノイズが制限要因となりうるため、ここで紹介したマルチトンマイクロ波ロック技術は幅広い研究分野に関係することが期待される。

Environmental noise coupling to mechanical experiments often introduces low-frequency fluctuations to the resonators, adding noise to measurements and reducing signal to noise. To counter these fluctuations, we demonstrate a dynamic feedback system implemented by the locking of a microwave drive to the noisy cavity. A homodyne interferometer scheme monitors the cavity resonance fluctuations due to low-frequency noise, which is mitigated by frequency-modulating (FM) the microwave generator. The feedback has a bandwidth of $400$ Hz, with a reduction of cavity fluctuations by $84\%$ integrating up to a bandwidth of $2$ kHz. Moreover, the cavity resonance frequency fluctuations are reduced by $73\%$. This scheme can be scaled to enable multi-tone experiments locked to the same feedback signal. As a demonstration, we apply the feedback to an optomechanical experiment and implement a cavity-locked, multi-tone mechanical measurement. As low-frequency cavity frequency noise can be a limiting factor in many experiments, the multi-tone microwave locking technique presented here is expected to be relevant for a wide range of fields of research.
翻訳日:2023-07-13 19:26:47 公開日:2023-07-12
# 結合共振器導波路における巨大原子による量子干渉と制御可能な魔法空洞QED

Quantum interference and controllable magic cavity QED via a giant atom in coupled resonator waveguide ( http://arxiv.org/abs/2303.16480v2 )

ライセンス: Link先を確認
Xiaojun Zhang, Chengge Liu, Zhirui Gong, and Zhihai Wang(参考訳) 共振器導波路(CRW)と結合する巨大原子系におけるマルコフ力学と非マルコフ力学を遠方2箇所で検討する。 特定の条件下では、巨大原子の集団は振動する挙動を示し、光子は巨大原子系に閉じ込められる。 これらの現象は、連続体内および外部の境界状態間の干渉効果によって引き起こされる。 光子トラップの応用として、理論上は、結合部位間の距離によって、巨大原子が完全または漏れやすいキャビティとして機能する魔法のキャビティモデルを提案する。 従来のキャビティや回路QED設定では、マジックキャビティの完全から漏れへの制御性は実現できない。 予測された効果は最先端の導波路qed実験で調べることができ、異なる種類の境界状態が構造化された環境における量子オープンシステムのダイナミクスをどのように変化させるかを示す顕著な例を提供する。

We study the Markovian and Non-Markovian dynamics in a giant atom system which couples to a coupled resonator waveguide (CRW) via two distant sites. Under certain conditions, we find that the giant atom population can exhibit an oscillating behavior and the photon can be trapped in the giant atom regime. These phenomena are induced by the interference effect among the bound states both in and outside the continuum. As an application of the photon trapping, we theoretically propose a magic cavity model where the giant atom serve as either a perfect or leaky cavity, depending on the distance between the coupling sites. The controllability of the magic cavity from perfect to leaky one can not be realized in the traditional cavity or circuit QED setup. The predicted effects can be probed in state-of-the-art waveguide QED experiments and provide a striking example of how the different kinds of bound states modify the dynamics of quantum open system in a structured environment.
翻訳日:2023-07-13 19:26:12 公開日:2023-07-12
# BoxVIS: Boxアノテーションによるビデオインスタンスのセグメンテーション

BoxVIS: Video Instance Segmentation with Box Annotations ( http://arxiv.org/abs/2303.14618v2 )

ライセンス: Link先を確認
Minghan Li and Lei Zhang(参考訳) ピクセル単位でオブジェクトマスクをビデオにラベル付けするのは高価で労力がかかる。 その結果、既存のビデオインスタンスセグメンテーション(VIS)データセットにおけるピクセルワイズアノテーションの量は少なく、訓練されたVISモデルの一般化能力を制限している。 代替案として、バウンディングボックスを使ってビデオにインスタンスをラベル付ける方法がある。 近年のボックス型イメージインスタンスセグメンテーションの成功に触発されて,最先端の画素型VISモデルをボックス型VIS(BoxVIS)ベースラインに適応し,若干の性能劣化を観測した。 そこで我々は,BoxVISの性能を2つの側面から改善することを提案する。 まず, 空間的・時間的整合性を改善するために, 箱型ガイド付き時空間対親和性(STPA)損失を提案する。 第2に、現在のVISベンチマークからビデオを統合し、COCOデータセットから短い擬似ビデオクリップに変換することにより、大規模ボックス付きVISデータセット(BVISD)を収集する。 提案したBVISDとSTPAの損失により、トレーニングされたBoxVISモデルは、YouTube-VIS 2021とOVISの有効セット上でそれぞれ43.2\%と29.0\%のマスクAPを達成する。 アノテーションの時間とコストの16倍しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。 コードとデータは \url{https://github.com/MinghanLi/BoxVIS} で見ることができる。

It is expensive and labour-extensive to label the pixel-wise object masks in a video. As a result, the amount of pixel-wise annotations in existing video instance segmentation (VIS) datasets is small, limiting the generalization capability of trained VIS models. An alternative but much cheaper solution is to use bounding boxes to label instances in videos. Inspired by the recent success of box-supervised image instance segmentation, we adapt the state-of-the-art pixel-supervised VIS models to a box-supervised VIS (BoxVIS) baseline, and observe slight performance degradation. We consequently propose to improve the BoxVIS performance from two aspects. First, we propose a box-center guided spatial-temporal pairwise affinity (STPA) loss to predict instance masks for better spatial and temporal consistency. Second, we collect a larger scale box-annotated VIS dataset (BVISD) by consolidating the videos from current VIS benchmarks and converting images from the COCO dataset to short pseudo video clips. With the proposed BVISD and the STPA loss, our trained BoxVIS model achieves 43.2\% and 29.0\% mask AP on the YouTube-VIS 2021 and OVIS valid sets, respectively. It exhibits comparable instance mask prediction performance and better generalization ability than state-of-the-art pixel-supervised VIS models by using only 16\% of their annotation time and cost. Codes and data can be found at \url{https://github.com/MinghanLi/BoxVIS}.
翻訳日:2023-07-13 19:25:54 公開日:2023-07-12
# DreamWaltz:複雑な3Dアニマタブルアバターでシーンを作る

DreamWaltz: Make a Scene with Complex 3D Animatable Avatars ( http://arxiv.org/abs/2305.12529v2 )

ライセンス: Link先を確認
Yukun Huang, Jianan Wang, Ailing Zeng, He Cao, Xianbiao Qi, Yukai Shi, Zheng-Jun Zha, Lei Zhang(参考訳) 本稿では,テキストガイダンスとパラメトリック人体を用いた複雑な3Dアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。 最近の方法では、テキストから3次元の共通オブジェクトの生成が奨励されているが、高品質でアニマタブルな3Dアバターを作成することは依然として困難である。 高品質な3Dアバターを作成するためにDreamWaltz氏は、標準ポーズによる暗黙的な神経表現を最適化するために、3D一貫性のオクルージョン対応スコア蒸留(SDS)を提案する。 3D対応スケルトンコンディショニングによるビューアラインの監視が可能で、アーティファクトや複数の顔なしで複雑なアバター生成が可能になる。 アニメーションでは、任意のポーズを正規のポーズ表現にマッピングできるアニマタブルで一般化可能なアバター表現を学習する。 幅広い評価から、ドリームワルツは複雑な形や外観、そしてアニメーションのための新しいポーズを取ることができる3dアバターを作成するための効果的でロバストなアプローチであることが示されている。 提案手法により,アバター・アバター,アバター・オブジェクト,アバター・シーン相互作用などの多種多様な構成の複雑なシーンの創出が可能となった。 より鮮明な3dアバターとアニメーションの結果については、https://dreamwaltz3d.github.io/を参照。

We present DreamWaltz, a novel framework for generating and animating complex 3D avatars given text guidance and parametric human body prior. While recent methods have shown encouraging results for text-to-3D generation of common objects, creating high-quality and animatable 3D avatars remains challenging. To create high-quality 3D avatars, DreamWaltz proposes 3D-consistent occlusion-aware Score Distillation Sampling (SDS) to optimize implicit neural representations with canonical poses. It provides view-aligned supervision via 3D-aware skeleton conditioning which enables complex avatar generation without artifacts and multiple faces. For animation, our method learns an animatable and generalizable avatar representation which could map arbitrary poses to the canonical pose representation. Extensive evaluations demonstrate that DreamWaltz is an effective and robust approach for creating 3D avatars that can take on complex shapes and appearances as well as novel poses for animation. The proposed framework further enables the creation of complex scenes with diverse compositions, including avatar-avatar, avatar-object and avatar-scene interactions. See https://dreamwaltz3d.github.io/ for more vivid 3D avatar and animation results.
翻訳日:2023-07-13 19:20:05 公開日:2023-07-12
# 文脈的フレーズ予測ネットワークを用いた文脈的エンドツーエンド音声認識

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network ( http://arxiv.org/abs/2305.12493v5 )

ライセンス: Link先を確認
Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie(参考訳) 近年,音声認識技術において文脈情報が重要な役割を担い,エンドツーエンド音声認識モデルに組み込むことが注目されている。 しかし、従来のディープバイアス法はバイアスタスクの明示的な監督を欠いていた。 本研究では,注意に基づくディープバイアス手法のための文脈句予測ネットワークを提案する。 このネットワークは文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算して文脈モデルのトレーニングを支援する。 提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。 librispeechコーパスの実験では,提案モデルがベースラインモデルよりも12.1%向上し,文脈句のwerは相対的に40.5%減少することが示された。 さらに,コンテキスト句フィルタリング戦略を適用することで,バイアスリストが大きい場合に,war劣化を効果的に排除する。

Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.
翻訳日:2023-07-13 19:19:39 公開日:2023-07-12
# 衛星画像を用いた深部畳み込みネットワークを用いた低地衛星軌道決定

Low-Earth Satellite Orbit Determination Using Deep Convolutional Networks with Satellite Imagery ( http://arxiv.org/abs/2305.12286v2 )

ライセンス: Link先を確認
Rohit Khorana(参考訳) 衛星は、地球の電離層や磁気圏からの信号の遮断により、通信する地上ステーションとの接続を失うことがますます一般的になっている。 国防、公共安全、世界的な通信において衛星が果たす重要な役割を考えると、このような状況で衛星軌道を決定する方法を見つけることは極めて重要な課題である。 本稿では、衛星が地上局との接触を失った衛星の軌道を決定するために、衛星自体が撮影した地球画像に依存する新しいコンピュータビジョンに基づく手法の有効性を実証する。 我々は,アートアプローチの現状,すなわち,カルマンフィルタを用いた初期軌道推定のためのgibbs法を用いて,差分誤差補正を行う場合において,1桁以上の大幅な改善を実証的に観察する。 さらに、ResNet50、ResNet101、VGG19、VGG16、AlexNet、CoAtNet4といった様々なニューラルネットワークを比較して、このアプローチの性能について検討する。

It is increasingly common for satellites to lose connection with the ground stations on Earth with which they communicate, due to signal interruptions from the Earth's ionosphere and magnetosphere. Given the important roles that satellites play in national defense, public safety, and worldwide communications, finding ways to determine satellite trajectories in such situations is a crucially important task. In this paper, we demonstrate the efficacy of a novel computer vision based approach, which relies on earth imagery taken by the satellite itself, to determine the orbit of a satellite that has lost contact with its ground stations. We empirically observe significant improvements by more than an order of magnitude, over the present state of the art approach, namely, the Gibbs method for an initial orbit estimate with the Kalman filter for differential error correction. We further investigate the performance of the approach by comparing various neural networks, namely, ResNet50, ResNet101, VGG19, VGG16, AlexNet, and CoAtNet4.
翻訳日:2023-07-13 19:19:26 公開日:2023-07-12
# 物理インフォームドニューラルネットワークによる障害メディア中の局所固有状態の探索

Physics-Informed Neural Networks for Discovering Localised Eigenstates in Disordered Media ( http://arxiv.org/abs/2305.06802v2 )

ライセンス: Link先を確認
Liam Harcombe and Quanling Deng(参考訳) ランダムポテンシャルを持つschr\"{o}dinger方程式は、乱れた系における粒子の挙動を理解するための基本的なモデルである。 障害のある媒体は、アンダーソン局在と呼ばれる波動関数の局所化につながる複雑なポテンシャルによって特徴づけられる。 これらの波動関数は、発見に困難をもたらす固有エネルギーの同様のスケールを持つ可能性がある。 Schr\"{o}dinger 方程式を解くのに高い計算コストと複雑さがあるため、これは長年の課題であった。 近年,これらの課題に対処するための機械学習ツールが採用されている。 本稿では、近年の機械学習の進歩を踏まえ、物理インフォームドニューラルネットワーク(PINN)を用いて、乱れたメディアの局所的な固有状態を発見する新しいアプローチを提案する。 我々は、ベルヌーイ分布、正規分布、均一分布に応じてランダムに生成されるポテンシャルを持つ1次元のハミルトニアンのスペクトル近似に焦点を当てる。 本研究では,これらの領域で発生した既知の物理現象を利用して領域をスキャンし,固有状態の発見に成功した損失関数に新しい特徴を導入する。 本稿では,提案手法の性能を示す様々な例を示し,等測的解析と比較する。

The Schr\"{o}dinger equation with random potentials is a fundamental model for understanding the behaviour of particles in disordered systems. Disordered media are characterised by complex potentials that lead to the localisation of wavefunctions, also called Anderson localisation. These wavefunctions may have similar scales of eigenenergies which poses difficulty in their discovery. It has been a longstanding challenge due to the high computational cost and complexity of solving the Schr\"{o}dinger equation. Recently, machine-learning tools have been adopted to tackle these challenges. In this paper, based upon recent advances in machine learning, we present a novel approach for discovering localised eigenstates in disordered media using physics-informed neural networks (PINNs). We focus on the spectral approximation of Hamiltonians in one dimension with potentials that are randomly generated according to the Bernoulli, normal, and uniform distributions. We introduce a novel feature to the loss function that exploits known physical phenomena occurring in these regions to scan across the domain and successfully discover these eigenstates, regardless of the similarity of their eigenenergies. We present various examples to demonstrate the performance of the proposed approach and compare it with isogeometric analysis.
翻訳日:2023-07-13 19:18:45 公開日:2023-07-12
# 異方性コントラストコラボレーティブフィルタ

Disentangled Contrastive Collaborative Filtering ( http://arxiv.org/abs/2305.02759v3 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Jiashu Zhao, Dawei Yin and Chao Huang(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)が協調フィルタリング(CF)の高次関係のモデル化に有効であることが示されている。 この研究ラインに向けて,グラフコントラスト学習(GCL)は,拡張ユーザとアイテム表現を学習することで,監督ラベル不足問題に対処する上で,強力な性能を示した。 多くは有効性を示しているが、2つの重要な疑問はまだ未解決のままである。 i) 既存のgclベースのcfモデルは,ユーザとコンテンツの相互作用行動が多種多様な潜在意図要因(例えば,家族に対する買い物,好みの色,商品のブランドなど)によって引き起こされるという事実を無視して,いまだに制限されている。 二 導入した非適応増強技術は、ノイズ情報に弱いため、モデルの堅牢性及び誤った自己管理信号の導入リスクへの懸念を生じさせる。 これらの制約を考慮して,自己監督型拡張による意図的絡み合いを実現するためのDCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。 学習された異角形表現と大域的文脈により,dccfは,絡み合った自己スーパービジョン信号からきめ細かな潜伏因子を抽出できるだけでなく,拡張によるノイズを軽減することができる。 最後に、パラメータ化された相互作用マスク生成器による適応的な拡張を実現するために、クロスビューコントラスト学習タスクを導入した。 各種公開データセットを用いた実験により,提案手法が既存ソリューションよりも優れていることを示す。 私たちのモデル実装はリンクhttps://github.com/hkuds/dccfでリリースしています。

Recent studies show that graph neural networks (GNNs) are prevalent to model high-order relationships for collaborative filtering (CF). Towards this research line, graph contrastive learning (GCL) has exhibited powerful performance in addressing the supervision label shortage issue by learning augmented user and item representations. While many of them show their effectiveness, two key questions still remain unexplored: i) Most existing GCL-based CF models are still limited by ignoring the fact that user-item interaction behaviors are often driven by diverse latent intent factors (e.g., shopping for family party, preferred color or brand of products); ii) Their introduced non-adaptive augmentation techniques are vulnerable to noisy information, which raises concerns about the model's robustness and the risk of incorporating misleading self-supervised signals. In light of these limitations, we propose a Disentangled Contrastive Collaborative Filtering framework (DCCF) to realize intent disentanglement with self-supervised augmentation in an adaptive fashion. With the learned disentangled representations with global context, our DCCF is able to not only distill finer-grained latent factors from the entangled self-supervision signals but also alleviate the augmentation-induced noise. Finally, the cross-view contrastive learning task is introduced to enable adaptive augmentation with our parameterized interaction mask generator. Experiments on various public datasets demonstrate the superiority of our method compared to existing solutions. Our model implementation is released at the link https://github.com/HKUDS/DCCF.
翻訳日:2023-07-13 19:18:27 公開日:2023-07-12
# テンソルネットワークに基づく量子スピン系の還元基底サロゲート

Reduced basis surrogates for quantum spin systems based on tensor networks ( http://arxiv.org/abs/2304.13587v3 )

ライセンス: Link先を確認
Paul Brehmer, Michael F. Herbst, Stefan Wessel, Matteo Rizzi, Benjamin Stamm(参考訳) 還元基底法アプローチでは、例えば基底状態の位相図を調べるために、量子多体ヒルベルト空間の有効な低次元部分空間を構築する。 この部分空間の基盤はスナップショットの解、すなわち、特定のパラメータ値と well-chosen パラメータ値に対応する基底状態から成り立っている。 本稿では, 行列積状態(MPS)計算に基づいて, 還元基底を組み立て, パラメータ点を選択するための欲求戦略について述べる。 減少基底が得られれば、位相図の計算に必要な可観測性は任意のパラメータ値のヒルベルト空間とは無関係な計算複雑性で計算することができる。 本稿では、異方性および双曲面交換相互作用を含む、異なる1次元量子スピン-1モデルに対するこのアプローチの効率と精度を示し、リッチ量子位相図を導出する。

Within the reduced basis methods approach, an effective low-dimensional subspace of a quantum many-body Hilbert space is constructed in order to investigate, e.g., the ground-state phase diagram. The basis of this subspace is built from solutions of snapshots, i.e., ground states corresponding to particular and well-chosen parameter values. Here, we show how a greedy strategy to assemble the reduced basis and thus to select the parameter points can be implemented based on matrix-product-states (MPS) calculations. Once the reduced basis has been obtained, observables required for the computation of phase diagrams can be computed with a computational complexity independent of the underlying Hilbert space for any parameter value. We illustrate the efficiency and accuracy of this approach for different one-dimensional quantum spin-1 models, including anisotropic as well as biquadratic exchange interactions, leading to rich quantum phase diagrams.
翻訳日:2023-07-13 19:17:38 公開日:2023-07-12
# メタマルチグラフ検索:異種情報ネットワークにおけるメタ構造再考

Meta-multigraph Search: Rethinking Meta-structure on Heterogeneous Information Networks ( http://arxiv.org/abs/2304.11574v2 )

ライセンス: Link先を確認
Chao Li, Hao Xu, Kun He(参考訳) メタ構造は、ヘテロジニアス情報ネットワーク(hins)に情報を集約する隣のサブセットを定義するために広く使われている。 本研究では,メタパスやメタグラフなどの既存のメタ構造について検討し,当初は手動で固定パターンで設計されているため,多様なHINの多様なリッチなセマンティック情報をエンコードするには不十分であることを示す。 その制限を反映して,メタマルチグラフという新しい概念をメタグラフの表現的かつ柔軟な一般化として定義し,特定のHINやタスクに対して自動的にメタマルチグラフを最適化する安定な微分可能探索法を提案する。 メタマルチグラフの柔軟性は冗長メッセージを伝播する可能性があるため,さらに,複素対簡潔(C2C)メタマルチグラフを導入する。 さらに, 微分可能な探索は通常, 不安定な探索と, 探索と評価におけるメタ構造間の大きなギャップに苦しむ。 そこで本研究では,探索空間を暗黙的に狭め,探索安定性を向上し,一貫性を低下させるプログレッシブ検索アルゴリズムを提案する。 6つの中規模ベンチマークデータセットと、1つの大規模ベンチマークデータセットで、2つの代表的なタスク、すなわちノード分類とレコメンデーションに関する広範な実験が行われている。 実験の結果,提案手法は表現力に富むメタマルチグラフやc2cメタマルチグラフを自動的に発見できることがわかった。

Meta-structures are widely used to define which subset of neighbors to aggregate information in heterogeneous information networks (HINs). In this work, we investigate existing meta-structures, including meta-path and meta-graph, and observe that they are initially designed manually with fixed patterns and hence are insufficient to encode various rich semantic information on diverse HINs. Through reflection on their limitation, we define a new concept called meta-multigraph as a more expressive and flexible generalization of meta-graph, and propose a stable differentiable search method to automatically optimize the meta-multigraph for specific HINs and tasks. As the flexibility of meta-multigraphs may propagate redundant messages, we further introduce a complex-to-concise (C2C) meta-multigraph that propagates messages from complex to concise along the depth of meta-multigraph. Moreover, we observe that the differentiable search typically suffers from unstable search and a significant gap between the meta-structures in search and evaluation. To this end, we propose a progressive search algorithm by implicitly narrowing the search space to improve search stability and reduce inconsistency. Extensive experiments are conducted on six medium-scale benchmark datasets and one large-scale benchmark dataset over two representative tasks, i.e., node classification and recommendation. Empirical results demonstrate that our search methods can automatically find expressive meta-multigraphs and C2C meta-multigraphs, enabling our model to outperform state-of-the-art heterogeneous graph neural networks.
翻訳日:2023-07-13 19:17:24 公開日:2023-07-12
# 価値関数は制御障壁関数である:制御理論を用いた安全ポリシーの検証

Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory ( http://arxiv.org/abs/2306.04026v3 )

ライセンス: Link先を確認
Daniel C.H. Tan and Fernando Acero and Robert McCarthy and Dimitrios Kanoulas and Zhibin Li(参考訳) 強化学習(RL)ポリシーの安全性を確保することは、RLの汎用性とスケーラビリティにもかかわらず、安全クリティカルなアプリケーションにとって大きな課題となる。 そこで本研究では,制御理論から学習値関数へ検証手法を適用する新しい手法を提案する。 安全維持のためのタスク構造を分析することで、価値関数と制御障壁関数のリンクを確立する元の定理を定式化する。 さらに,安全制御タスクにおける価値関数の検証のための新しい指標と,学習を改善するための実践的実装詳細を提案する。 本研究は,RLポリシの制御理論から検証手法の多様性を解放し,RLベースの制御システムの汎用的かつスケーラブルかつ検証可能な設計のための形式的枠組みに向けた重要な一歩となる証明書学習手法を提案する。 コードとビデオはこの https url: https://rl-cbf.github.io/

Guaranteeing safe behaviour of reinforcement learning (RL) policies poses significant challenges for safety-critical applications, despite RL's generality and scalability. To address this, we propose a new approach to apply verification methods from control theory to learned value functions. By analyzing task structures for safety preservation, we formalize original theorems that establish links between value functions and control barrier functions. Further, we propose novel metrics for verifying value functions in safe control tasks and practical implementation details to improve learning. Our work presents a novel method for certificate learning, which unlocks a diversity of verification techniques from control theory for RL policies, and marks a significant step towards a formal framework for the general, scalable, and verifiable design of RL-based control systems. Code and videos are available at this https url: https://rl-cbf.github.io/
翻訳日:2023-07-13 19:09:41 公開日:2023-07-12
# 抽象と洗練を伴う記述論理

Description Logics with Abstraction and Refinement ( http://arxiv.org/abs/2306.03717v2 )

ライセンス: Link先を確認
Carsten Lutz, Lukas Schulze(参考訳) オントロジは複数の抽象化レベルに関する知識表現を必要とすることが多いが、記述ロジック(DL)はそれをサポートするには不十分である。 本稿では,抽象レベルが第一級市民であり,複数の抽象レベルにまたがる概念や役割の抽象化と洗練のための明示的な演算子を提供するDLの拡張を提案する。 結果として生じるDLの系統の推論は決定可能であり、一見無害ないくつかのバリエーションは決定不可能であることが証明された。 また、論理の正確な複雑さといくつかの関連する断片を指摘します。

Ontologies often require knowledge representation on multiple levels of abstraction, but description logics (DLs) are not well-equipped for supporting this. We propose an extension of DLs in which abstraction levels are first-class citizens and which provides explicit operators for the abstraction and refinement of concepts and roles across multiple abstraction levels, based on conjunctive queries. We prove that reasoning in the resulting family of DLs is decidable while several seemingly harmless variations turn out to be undecidable. We also pinpoint the precise complexity of our logics and several relevant fragments.
翻訳日:2023-07-13 19:09:24 公開日:2023-07-12
# 局所SYKモデルとその三重スケーリング限界

The local SYK model and its triple scaling limit ( http://arxiv.org/abs/2306.01285v2 )

ライセンス: Link先を確認
Takanori Anegawa, Norihiro Iizuka, Sunil Kumar Sake(参考訳) 従来のSYKに類似したランダムカップリングを持つフェルミオンのモデルと、フェルミオンのフレーバー数$N$、大まかに$N$について検討する。 オール・ツー・オール・カップリングを持つ従来のsykモデルとは異なり、我々が研究しているモデルは、ローカルsykと呼ばれ、非常に少ない数のランダムカップリングを持ち、わずか$n$であり、局所的な相互作用しか持たない。 従来のSYKの倍スケール限界に類似したコードダイアグラム手法を用いて局所的なSYKモデルを解くことができる限界が存在することを示す。 この制限は、フェルミオンカップリング項である$q$のサイズを、直線的に$n$でスケールすることに対応する。 さらに3倍のスケーリング限界を用いて低エネルギー限界を解析し, OTOCがカオス境界を飽和させ, 従来のSYKを並列に解析することを示した。

We study a model of fermions with random couplings similar to conventional SYK with $N$ number of flavours of fermions, at large $N$. Unlike the conventional SYK model, which has all-to-all couplings, the model we study, which we call local SYK, has a much less number of random couplings, just $N$ in number and with only local interactions. It is shown that there exists a limit in which the local SYK model can be solved using the chord diagram techniques, analogous to the double-scaled limit of conventional SYK. This limit corresponds to taking the size of the fermion coupling terms, $q$, to scale linearly with $N$. A further triple scaling limit is taken to analyze the low energy limit and it is shown that the OTOCs saturate the chaos bound, paralleling the analysis in the conventional SYK.
翻訳日:2023-07-13 19:08:29 公開日:2023-07-12
# TinyissimoYOLO:低消費電力マイクロコントローラ用量子化低メモリフットプリントTinyMLオブジェクト検出ネットワーク

TinyissimoYOLO: A Quantized, Low-Memory Footprint, TinyML Object Detection Network for Low Power Microcontrollers ( http://arxiv.org/abs/2306.00001v2 )

ライセンス: Link先を確認
Julian Moosmann, Marco Giordano, Christian Vogt, Michele Magno(参考訳) 本稿では,高柔軟性,量子化,メモリ効率,超軽量物体検出ネットワークであるtinyissimoyoloについて述べる。 コンボリューショナルニューラルネットワーク(CNN)重みを格納するための0.5MB未満のメモリで、ミリワットの電力領域におけるマイクロコントローラのオブジェクト検出を可能にすることを目的としている。 提案した422kパラメータの量子化ネットワークアーキテクチャにより,組込みマイクロコントローラ上でのリアルタイムオブジェクト検出が可能となり,CNNアクセラレータの活用が評価されている。 特に、提案したネットワークはMAX78000マイクロコントローラ上に展開され、最大180fpsのフレームレートを実現し、106MAC/Cycleの推論効率を持つ推論当たり196{\mu}Jの超低消費電力を実現している。 TinyissimoYOLOは、任意のマルチオブジェクト検出のためにトレーニングすることができる。 しかし,ネットワークサイズが小さくなると,オブジェクト検出クラスを追加することでネットワークのサイズとメモリ消費が増加し,最大3クラスまでのオブジェクト検出が可能となる。 さらに、ネットワークは量子化学習を用いて訓練され、STM32H7A3、STM32L4R9、Apollo4b、MAX78000のCNNアクセラレータなど、様々なマイクロコントローラに8ビット量子化を施した。 本稿では,性能評価について述べる。

This paper introduces a highly flexible, quantized, memory-efficient, and ultra-lightweight object detection network, called TinyissimoYOLO. It aims to enable object detection on microcontrollers in the power domain of milliwatts, with less than 0.5MB memory available for storing convolutional neural network (CNN) weights. The proposed quantized network architecture with 422k parameters, enables real-time object detection on embedded microcontrollers, and it has been evaluated to exploit CNN accelerators. In particular, the proposed network has been deployed on the MAX78000 microcontroller achieving high frame-rate of up to 180fps and an ultra-low energy consumption of only 196{\mu}J per inference with an inference efficiency of more than 106 MAC/Cycle. TinyissimoYOLO can be trained for any multi-object detection. However, considering the small network size, adding object detection classes will increase the size and memory consumption of the network, thus object detection with up to 3 classes is demonstrated. Furthermore, the network is trained using quantization-aware training and deployed with 8-bit quantization on different microcontrollers, such as STM32H7A3, STM32L4R9, Apollo4b and on the MAX78000's CNN accelerator. Performance evaluations are presented in this paper.
翻訳日:2023-07-13 19:08:11 公開日:2023-07-12
# aggVAEを用いた深層学習とMCMCによる行政境界の変化--ケニアにおけるマラリア流行のマッピング

Deep learning and MCMC with aggVAE for shifting administrative boundaries: mapping malaria prevalence in Kenya ( http://arxiv.org/abs/2305.19779v2 )

ライセンス: Link先を確認
Elizaveta Semenova, Swapnil Mishra, Samir Bhatt, Seth Flaxman, H Juliette T Unwin(参考訳) モデルに基づく疾病マッピングは、公衆衛生と疾病監視における基本的なポリシー形成ツールである。 階層ベイズモデルは、データの構造を捉え、不確実性を特徴づけることができ、病気マッピングの最先端のアプローチとなっている。 地域や州などの行政単位レベルでアラルデータを扱う場合、日常的に使用されるモデルは、空間的相関を考慮するためにアラル単位の隣接構造に依存している。 疾病監視システムの目標は、経時的に病気の結果を追跡することである。 このタスクは、政治的変化のような危機の状況において困難をもたらし、行政の境界の変更につながる。 ケニアは2010年に国境変更が行われた国の一例である。 さらに、隣接性に基づくアプローチは空間過程の連続的な性質を無視し、管理境界が変更された場合や、異なる行政レベルで見積もりが作成されなければならない場合など、支持の変化を解決できない。 提案手法は,ケニアのマラリア有病率を地図化するために,多変量オートエンコーダを持つ小領域の空間的先行情報をエンコードできるPreferVAE法を最近提案した。

Model-based disease mapping remains a fundamental policy-informing tool in public health and disease surveillance. Hierarchical Bayesian models have become the state-of-the-art approach for disease mapping since they are able to capture structure in the data, as well as to characterise uncertainty. When working with areal data, e.g.~aggregates at the administrative unit level such as district or province, routinely used models rely on the adjacency structure of areal units to account for spatial correlations. The goal of disease surveillance systems is to track disease outcomes over time. This task provides challenging in situations of crises, such as political changes, leading to changes of administrative boundaries. Kenya is an example of a country where change of boundaries took place in 2010. Moreover, the adjacency-based approach ignores the continuous nature of spatial processes and cannot solve the change-of-support problem, i.e.~when administrative boundaries change or when estimates must be produced at a different administrative level. We present a novel, practical, and easy to implement solution relying on a methodology combining deep generative modelling and fully Bayesian inference: we build on the recently proposed PriorVAE method able to encode spatial priors over small areas with variational autoencoders, to map malaria prevalence in Kenya.
翻訳日:2023-07-13 19:07:43 公開日:2023-07-12
# 大規模視野下でのフルスキャン多重音源変換トモグラフィーの解析的再構成

Analytical reconstructions of full-scan multiple source-translation computed tomography under large field of views ( http://arxiv.org/abs/2305.19767v3 )

ライセンス: Link先を確認
Zhisheng Wang, Yue Liu, Shunli Wang, Xingyuan Bian, Zongfeng Li and Junning Cui(参考訳) 本稿では,複数音源変換トモグラフィ(mSTCT)を拡張視野(FOV)下での高品質な解析的再構成について検討する。 より大規模なFOVでは、D-BPFとS-BPFを含むmSTCTのバックプロジェクションフィルタリング(BPF)アルゴリズムが提案され(これらの差はそれぞれ検出器とソースに沿って異なる方向から導かれる)、後方プロジェクション重み係数と半スキャンモードによる再構成画像のエラーやアーティファクトが、mSTCTイメージングの意図から逸脱している。 本稿では、極端に拡張されたFOVの下で可能な限り誤差の少ない再構成を実現するため、F-mSTCTのフルスキャンmSTCT(F-mSTCT)幾何と従来のBPFアルゴリズムを組み合わせることにより、F-mSTCTに適する冗長性重み付き関数を導出する。 実験の結果、FS-BPFはFD-BPFよりも多くの投影を必要とするが、大きな物体を撮像する極端に拡張されたFOVの下で高品質で安定した画像が得られることが示された。 最後に,fovイメージングの拡張に関する様々な実践的要求に対して,アルゴリズム選択の提案を行う。

This paper is to investigate the high-quality analytical reconstructions of multiple source-translation computed tomography (mSTCT) under an extended field of view (FOV). Under the larger FOVs, the previously proposed backprojection filtration (BPF) algorithms for mSTCT, including D-BPF and S-BPF (their differences are different derivate directions along the detector and source, respectively), make some errors and artifacts in the reconstructed images due to a backprojection weighting factor and the half-scan mode, which deviates from the intention of mSTCT imaging. In this paper, to achieve reconstruction with as little error as possible under the extremely extended FOV, we combine the full-scan mSTCT (F-mSTCT) geometry with the previous BPF algorithms to study the performance and derive a suitable redundancy-weighted function for F-mSTCT. The experimental results indicate FS-BPF can get high-quality, stable images under the extremely extended FOV of imaging a large object, though it requires more projections than FD-BPF. Finally, for different practical requirements in extending FOV imaging, we give suggestions on algorithm selection.
翻訳日:2023-07-13 19:07:21 公開日:2023-07-12
# 生存分析のためのディープラーニング: レビュー

Deep Learning for Survival Analysis: A Review ( http://arxiv.org/abs/2305.14961v2 )

ライセンス: Link先を確認
Simon Wiegrebe, Philipp Kopper, Raphael Sonabend, Bernd Bischl, and Andreas Bender(参考訳) 近年の深層学習(DL)技術の生存分析分野への流入は、例えば、画像、テキスト、オミクスデータなどの非構造化データや高次元データから学ぶなど、大きな方法論的進歩をもたらした。 本研究は, DL関連属性と生存関連属性の両方に基づいて, DL-based method for time-to-event analysisを包括的に検討する。 まとめると、レビューされたメソッドは、時間から時間までのデータに関連するタスクの小さなサブセットにのみ対処する。 シングルリスクの右チャージされたデータで、より複雑な設定を組み込むことを無視する。 我々の発見は編集可能でオープンソースでインタラクティブなテーブルで要約されている。 この研究領域は急速に進歩しているので、このデータベースを最新に保つため、コミュニティの貢献を奨励します。

The influx of deep learning (DL) techniques into the field of survival analysis in recent years has led to substantial methodological progress; for instance, learning from unstructured or high-dimensional data such as images, text or omics data. In this work, we conduct a comprehensive systematic review of DL-based methods for time-to-event analysis, characterizing them according to both survival- and DL-related attributes. In summary, the reviewed methods often address only a small subset of tasks relevant to time-to-event data - e.g., single-risk right-censored data - and neglect to incorporate more complex settings. Our findings are summarized in an editable, open-source, interactive table: https://survival-org.github.io/DL4Survival. As this research area is advancing rapidly, we encourage community contribution in order to keep this database up to date.
翻訳日:2023-07-13 19:06:18 公開日:2023-07-12
# 深部強化学習に基づく地上車両のオフロード環境における多目的経路計画

Deep Reinforcement Learning-based Multi-objective Path Planning on the Off-road Terrain Environment for Ground Vehicles ( http://arxiv.org/abs/2305.13783v2 )

ライセンス: Link先を確認
Shuqiao Huang, Xiru Wu, Guoming Huang(参考訳) アップスロープとダウンスロープのエネルギー消費が大きく異なるため、複雑なオフロード地形環境(2.5dマップ)で最も短い経路は、常にエネルギー消費量の少ない経路であるとは限らない。 エネルギーに敏感な車両の場合、2.5D経路計画において距離とエネルギー消費の良好なトレードオフを実現することは有意義である。 本稿では,深い強化学習に基づく2.5D多目的経路計画法(DMOP)を提案する。 dmopは、(1)高分解能2.5dマップを小型マップに変換する3つのステップで、望ましいパスを効率的に見つけることができる。 2) 訓練された深度Qネットワーク(DQN)を用いて,小型地図上で所望の経路を求める。 3)path-enhanced 法を用いたオリジナルの高分解能マップへの計画パスの構築。 加えて、dqnの訓練にはハイブリッド探索戦略と報酬形成理論が適用されている。 報酬関数は、地形、距離、国境に関する情報で構築される。 シミュレーションの結果,提案手法は多目的2.5D経路計画タスクを極めて高い効率で完了できることがわかった。 同様の経路が計画されている場合,提案手法の速度はa*法より100倍以上高速であり,h3dm法より30倍高速である。 また、シミュレーションにより、任意の未学習の計画タスクを実行できる強力な推論能力があることが証明された。

Due to the vastly different energy consumption between up-slope and down-slope, a path with the shortest length on a complex off-road terrain environment (2.5D map) is not always the path with the least energy consumption. For any energy-sensitive vehicle, realizing a good trade-off between distance and energy consumption in 2.5D path planning is significantly meaningful. In this paper, we propose a deep reinforcement learning-based 2.5D multi-objective path planning method (DMOP). The DMOP can efficiently find the desired path in three steps: (1) Transform the high-resolution 2.5D map into a small-size map. (2) Use a trained deep Q network (DQN) to find the desired path on the small-size map. (3) Build the planned path to the original high-resolution map using a path-enhanced method. In addition, the hybrid exploration strategy and reward shaping theory are applied to train the DQN. The reward function is constructed with the information of terrain, distance, and border. Simulation results show that the proposed method can finish the multi-objective 2.5D path planning task with significantly high efficiency. With similar planned paths, the speed of the proposed method is more than 100 times faster than that of the A* method and 30 times faster than that of H3DM method. Also, simulation proves that the method has powerful reasoning capability that enables it to perform arbitrary untrained planning tasks.
翻訳日:2023-07-13 19:06:04 公開日:2023-07-12
# MARBLE:ユニバーサル評価のための音楽オーディオ表現ベンチマーク

MARBLE: Music Audio Representation Benchmark for Universal Evaluation ( http://arxiv.org/abs/2306.10548v3 )

ライセンス: Link先を確認
Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu(参考訳) 画像生成やフィクションの共創など、芸術と人工知能(AI)の広範な交差の時代において、音楽のためのAIは、特に音楽の理解において比較的初期段階にある。 これは、深い音楽表現に関する限られた作業、大規模データセットの不足、普遍的でコミュニティ主導のベンチマークの欠如によって明らかである。 この問題に対処するため,MARBLEと呼ばれるUniversaL評価のためのMusic Audio Representation Benchmarkを導入する。 音響、パフォーマンス、スコア、ハイレベル記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供する。 次に,8つの公開データセット上で14のタスクに基づく統一プロトコルを構築し,音楽録音をベースラインとして開発したオープンソース事前学習モデルの表現を公平かつ標準的に評価する。 さらに、MARBLEは、データセットの著作権問題に関する明確な声明とともに、使いやすく、拡張可能で、再現可能なスイートをコミュニティに提供する。 その結果、近年提案されている大規模事前学習型言語モデルは、多くのタスクにおいて最善を尽くし、さらなる改善の余地があることがわかった。 leaderboardと toolkitリポジトリは、将来の音楽ai研究を促進するためにhttps://marble-bm.shef.ac.ukで公開されている。

In the era of extensive intersection between art and Artificial Intelligence (AI), such as image generation and fiction co-creation, AI for music remains relatively nascent, particularly in music understanding. This is evident in the limited work on deep music representations, the scarcity of large-scale datasets, and the absence of a universal and community-driven benchmark. To address this issue, we introduce the Music Audio Representation Benchmark for universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy with four hierarchy levels, including acoustic, performance, score, and high-level description. We then establish a unified protocol based on 14 tasks on 8 public-available datasets, providing a fair and standard assessment of representations of all open-sourced pre-trained models developed on music recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and reproducible suite for the community, with a clear statement on copyright issues on datasets. Results suggest recently proposed large-scale pre-trained musical language models perform the best in most tasks, with room for further improvement. The leaderboard and toolkit repository are published at https://marble-bm.shef.ac.uk to promote future music AI research.
翻訳日:2023-07-13 19:00:06 公開日:2023-07-12
# 高等教育における音楽知識基盤の充実のためのクラウドソーシング

Employing Crowdsourcing for Enriching a Music Knowledge Base in Higher Education ( http://arxiv.org/abs/2306.07310v2 )

ライセンス: Link先を確認
Vassilis Lyberatos, Spyridon Kantarelis, Eirini Kaldeli, Spyros Bekiaris, Panagiotis Tzortzis, Orfeas Menis - Mastromichalakis and Giorgos Stamou(参考訳) 本稿では,コンピュータサイエンスの高等教育生を対象とした宿題課題の一環として,クラウドソーシング技術を用いた手法と教訓について述べる。 文化遺産におけるクラウドソーシングを支援するプラットフォームを利用することで、学生は音楽トラックの選択に伴うメタデータを充実させようとした。 このキャンペーンの成果はさらに分析され、学生がセマンティックウェブ技術を用いて活用した。 このキャンペーンには98人の学生が参加し、854トラックに関する6400以上の注釈を提出した。 このプロセスは、また、音楽タグ付けのための機械学習モデルに有用な、公開可能な注釈付きデータセットの作成にも繋がった。 このキャンペーンの結果とオンライン調査を通じて集めたコメントは、コンピュータサイエンスのカリキュラムにクラウドソーシングを統合することのメリットと課題、そしてこれが学習プロセスへの学生の関与をいかに高めるかに関する有益な洞察を導きだすことができる。

This paper describes the methodology followed and the lessons learned from employing crowdsourcing techniques as part of a homework assignment involving higher education students of computer science. Making use of a platform that supports crowdsourcing in the cultural heritage domain students were solicited to enrich the metadata associated with a selection of music tracks. The results of the campaign were further analyzed and exploited by students through the use of semantic web technologies. In total, 98 students participated in the campaign, contributing more than 6400 annotations concerning 854 tracks. The process also led to the creation of an openly available annotated dataset, which can be useful for machine learning models for music tagging. The campaign's results and the comments gathered through an online survey enable us to draw some useful insights about the benefits and challenges of integrating crowdsourcing into computer science curricula and how this can enhance students' engagement in the learning process.
翻訳日:2023-07-13 18:59:11 公開日:2023-07-12
# 軌道誘導と針先力フィードバックを用いた協調型ロボット生検

Collaborative Robotic Biopsy with Trajectory Guidance and Needle Tip Force Feedback ( http://arxiv.org/abs/2306.07129v2 )

ライセンス: Link先を確認
Robin Mieling, Maximilian Neidhardt, Sarah Latus, Carolin Stapper, Stefan Gerlach, Inga Kniep, Axel Heinemann, Benjamin Ondruschka and Alexander Schlaefer(参考訳) 生検の診断的価値は針の位置に大きく依存する。 針の位置決めを改善するために,ロボット軌道誘導法が提案されているが,リアルタイムナビゲーションのフィードバックは限られている。 針先端力の触覚表示は、挿入経路に沿って組織構造を局在させることにより、針ナビゲーションに豊富なフィードバックを与えることができる。 本報告では, トラジェクトリーガイダンスと審美フィードバックを組み合わせて, 針の配置を補助するロボットバイオプシーシステムを提案する。 ロボットは針を整列させ、挿入は現場で針の位置を制御する医療専門家と協調して行われる。 実時間データ処理のための光コヒーレンストモグラフィーと機械学習に基づいて針先端の力を検出する針設計を提案する。 我々のロボット装置は、摩擦力とは無関係に深部組織界面を感知し、所望の標的構造に対して針の配置を改善する。 まず,前生体組織の針先端力センシングをファントム実験で評価した。 本研究では, 挿入時の先端力を一定速度で特徴付けるとともに, 組織界面の検出能力を示す。 参加者は針先からのフィードバックだけで、元の生体組織インターフェースの91%を検出できる。 最後に,膵臓のin situ生検を行ない,より小さい,より深いターゲット構造を正確にサンプリングできることを実証した。

The diagnostic value of biopsies is highly dependent on the placement of needles. Robotic trajectory guidance has been shown to improve needle positioning, but feedback for real-time navigation is limited. Haptic display of needle tip forces can provide rich feedback for needle navigation by enabling localization of tissue structures along the insertion path. We present a collaborative robotic biopsy system that combines trajectory guidance with kinesthetic feedback to assist the physician in needle placement. The robot aligns the needle while the insertion is performed in collaboration with a medical expert who controls the needle position on site. We present a needle design that senses forces at the needle tip based on optical coherence tomography and machine learning for real-time data processing. Our robotic setup allows operators to sense deep tissue interfaces independent of frictional forces to improve needle placement relative to a desired target structure. We first evaluate needle tip force sensing in ex-vivo tissue in a phantom study. We characterize the tip forces during insertions with constant velocity and demonstrate the ability to detect tissue interfaces in a collaborative user study. Participants are able to detect 91% of ex-vivo tissue interfaces based on needle tip force feedback alone. Finally, we demonstrate that even smaller, deep target structures can be accurately sampled by performing post-mortem in situ biopsies of the pancreas.
翻訳日:2023-07-13 18:58:55 公開日:2023-07-12
# 共振強結合による空洞誘起分子偏極機構の解明

Unraveling a cavity induced molecular polarization mechanism from collective vibrational strong coupling ( http://arxiv.org/abs/2306.06004v3 )

ライセンス: Link先を確認
Dominik Sidler, Thomas Schnappinger, Anatoly Obzhirov, Michael Ruggenthaler, Markus Kowalewski, Angel Rubio(参考訳) 熱平衡における分子の集合振動強い結合は、熱力学の限界において大きな局所的な電子分極を引き起こすことを実証する。 希薄ガス限界における強結合分子のアンサンブルの完全非相対論的パウリ・フィエルツ問題(英語版)は、キャビティ-ハートリー方程式へのボルン・オッペンハイマー近似において減少することを示した。 その結果、各分子は他の全ての分子の双極子と自己整合結合を経験する。 ここで導かれたキャビティ-ハートリー方程式は、ab-initio分子動力学設定における計算効率の高い実装を可能にする。 緩やかに回転するモデル分子のランダムに配向したアンサンブルでは、実験と一致した偏光場によるキャビティ共鳴の赤方シフトを観測する。 次に、局所偏光に対するバックアクションは熱力学的極限において無視できない値となり、従って集団振動の強いカップリングは個々の分子を分極できることを示した。 観測された局所偏光パターンは、スピンガラス(またはより良い偏光ガラス)相の連続形に似ている。 連続分極分布は分子アンサンブル内のホットスポットの存在を暗示し、集団結合は局所的な分子特性を強く変化させることができる。 しかし、原子アンサンブルでは、室温が希薄限界の障害を引き起こすことができないため、これらの局所偏光機構が欠如している。 総じて, 化学反応の修飾など, 偏光化学の徹底的な理解にはキャビティ誘起偏光に対する自己整合的な処理が必要であり, 変位場効果に対する通常適用される制限は不十分であることが示唆された。

We demonstrate that collective vibrational strong coupling of molecules in thermal equilibrium can give rise to significant local electronic polarizations in the thermodynamic limit. We do so by first showing that the full non-relativistic Pauli-Fierz problem of an ensemble of strongly-coupled molecules in the dilute-gas limit reduces in the cavity Born-Oppenheimer approximation to a cavity-Hartree equation. Consequently, each molecule experiences a self-consistent coupling to the dipoles of all other molecules. The here derived cavity-Hartree equations allow for a computationally efficient implementation in an ab-initio molecular dynamics setting. For a randomly oriented ensemble of slowly rotating model molecules, we observe a red shift of the cavity resonance due to the polarization field, which is in agreement with experiments. We then demonstrate that the back-action on the local polarization takes a non-negligible value in the thermodynamic limit and hence the collective vibrational strong coupling can polarize individual molecules. The observed local polarization pattern with zero net polarization resembles a continuous form of a spin-glass (or better polarization-glass) phase. The continuous polarization distribution implies the existence of hotspots within the molecular ensemble, where the collective coupling can strongly alter local molecular properties. For atomic ensembles, however, these local polarization mechanism is absent, since room temperature cannot induce any disorder in the dilute limit. Overall, our findings suggest that the thorough understanding of polaritonic chemistry, such as the modification of chemical reactions, requires a self-consistent treatment of the cavity induced polarization and the usually applied restrictions to the displacement field effects are insufficient.
翻訳日:2023-07-13 18:58:22 公開日:2023-07-12
# IWSLT 2023におけるKITの多言語音声翻訳システム

KIT's Multilingual Speech Translation System for IWSLT 2023 ( http://arxiv.org/abs/2306.05320v3 )

ライセンス: Link先を確認
Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues(参考訳) 多くの既存の音声翻訳ベンチマークは、高品質な録音条件におけるネイティブ英語の音声に焦点を当てている。 本稿では,IWSLT 2023の多言語トラックにおける音声翻訳システムについて述べる。 テスト条件は、アクセント付き入力音声と用語読解内容を特徴とする。 このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。 対象ドメインからのトレーニングデータがない場合、音声翻訳に+0.8BLEUを有効適応するために検索ベースアプローチ(kNN-MT)を用いる。 また、データ拡張からインクリメンタルなトレーニングデータを簡単に統合するためにアダプタを使用し、再トレーニングのパフォーマンスにマッチしていることを示します。 ケースドシステムは、異なるモジュールによって特定のターゲットドメインに対してより容易に適応可能であることを観察する。 提案手法は, TEDトークとよく似ているが, 科学的な音声翻訳において, エンドツーエンドの音声システムよりもかなり優れている。

Many existing speech translation benchmarks focus on native-English speech in high-quality recording conditions, which often do not match the conditions in real-life use-cases. In this paper, we describe our speech translation system for the multilingual track of IWSLT 2023, which evaluates translation quality on scientific conference talks. The test condition features accented input speech and terminology-dense contents. The task requires translation into 10 languages of varying amounts of resources. In absence of training data from the target domain, we use a retrieval-based approach (kNN-MT) for effective adaptation (+0.8 BLEU for speech translation). We also use adapters to easily integrate incremental training data from data augmentation, and show that it matches the performance of re-training. We observe that cascaded systems are more easily adaptable towards specific target domains, due to their separate modules. Our cascaded speech system substantially outperforms its end-to-end counterpart on scientific talk translation, although their performance remains similar on TED talks.
翻訳日:2023-07-13 18:57:56 公開日:2023-07-12
# 自己教師付きロングテール学習におけるアウトオブディストリビューションデータの有効性について

On the Effectiveness of Out-of-Distribution Data in Self-Supervised Long-Tail Learning ( http://arxiv.org/abs/2306.04934v2 )

ライセンス: Link先を確認
Jianhong Bai, Zuozhu Liu, Hualiang Wang, Jin Hao, Yang Feng, Huanpeng Chu, Haoji Hu(参考訳) 自己教師付き学習(SSL)は表現学習の有望なテクニックとして広く研究されているが、多くのクラスが特徴空間を支配しているため、長い尾のデータセットではうまく一般化されていない。 近年の研究では、自己教師型トレーニングのためのドメイン内データ(ID)をサンプリングすることで、長期学習性能を高めることができるが、マイノリティクラスの再バランスが可能な大規模IDデータ収集は高価である。 本稿では,OODデータを効果的に活用し,特徴空間を動的に再バランスさせる,COLT(Contrastive with Out-of-Distribution (OOD) Data for Long-Tail Learning)を提案する。 SSL長鎖学習におけるOODサンプルの対直感的有用性を実証的に同定し,新しいSSL手法を設計する。 具体的には,まず,特徴空間内の周辺領域に基づいて,各OODサンプルにテールネススコアを割り当て,'head' と 'tail' のサンプルをローカライズする。 そこで我々は,機能空間を動的に再バランスさせるオンラインOODサンプリング戦略を提案する。 最後に,IDとOODのサンプルを分布レベルの教師付きコントラスト損失で識別できるモデルを適用した。 提案手法の有効性を検証するため,様々なデータセットと最先端SSLフレームワークを用いて大規模な実験を行った。 以上の結果から,提案手法は長期化データセットにおけるSSLの性能を大幅に向上させ,外部IDデータを用いた従来の処理よりも優れていた。 私たちのコードはhttps://github.com/jianhongbai/coltで利用可能です。

Though Self-supervised learning (SSL) has been widely studied as a promising technique for representation learning, it doesn't generalize well on long-tailed datasets due to the majority classes dominating the feature space. Recent work shows that the long-tailed learning performance could be boosted by sampling extra in-domain (ID) data for self-supervised training, however, large-scale ID data which can rebalance the minority classes are expensive to collect. In this paper, we propose an alternative but easy-to-use and effective solution, Contrastive with Out-of-distribution (OOD) data for Long-Tail learning (COLT), which can effectively exploit OOD data to dynamically re-balance the feature space. We empirically identify the counter-intuitive usefulness of OOD samples in SSL long-tailed learning and principally design a novel SSL method. Concretely, we first localize the `head' and `tail' samples by assigning a tailness score to each OOD sample based on its neighborhoods in the feature space. Then, we propose an online OOD sampling strategy to dynamically re-balance the feature space. Finally, we enforce the model to be capable of distinguishing ID and OOD samples by a distribution-level supervised contrastive loss. Extensive experiments are conducted on various datasets and several state-of-the-art SSL frameworks to verify the effectiveness of the proposed method. The results show that our method significantly improves the performance of SSL on long-tailed datasets by a large margin, and even outperforms previous work which uses external ID data. Our code is available at https://github.com/JianhongBai/COLT.
翻訳日:2023-07-13 18:57:40 公開日:2023-07-12
# ESGCN: トラフィックフロー予測のためのエッジスクイーズ注意グラフ畳み込みネットワーク

ESGCN: Edge Squeeze Attention Graph Convolutional Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2307.01227v2 )

ライセンス: Link先を確認
Sangrok Lee, Ha Young Kim(参考訳) トラヒックフローの動的時空間依存性のため,トラヒック予測は非常に難しい課題である。 そこで我々は,時空間力学をモデル化することに集中し,複数の領域におけるトラフィックフローを予測するためのエッジスクイーズグラフ畳み込みネットワーク (ESGCN) を提案する。 ESGCN は W-module と ES module の2つのモジュールから構成される。 W-moduleは完全にノードワイドの畳み込みネットワークである。 各トラフィック領域の時系列を別々にエンコードし、様々なスケールで時系列を分解して、細かで粗い特徴を捉える。 ESモジュールは、グラフ畳み込みネットワーク(GCN)を使用して時空間ダイナミクスをモデル化し、時間的特徴を持つ適応的適応行列(AAM)を生成する。 AAMの精度を向上させるために,3つの重要な概念を紹介した。 1) 領域間の時空間流の表現を直接捉えるためにエッジ特徴を用いる。 2)GCNにエッジアテンション機構を適用してエッジ特徴からAAMを抽出する。 ここでは、注意機構が重要な時空間隣接関係を効果的に決定できる。 3)妨害接続を抑制し,関連接続を強調するために,新しいノードのコントラスト損失を提案する。 実験結果から,ESGCNは4つの実世界のデータセット(PEMS03,04,07,08)に対して,計算コストを低くすることで,最先端の性能を達成することが示された。

Traffic forecasting is a highly challenging task owing to the dynamical spatio-temporal dependencies of traffic flows. To handle this, we focus on modeling the spatio-temporal dynamics and propose a network termed Edge Squeeze Graph Convolutional Network (ESGCN) to forecast traffic flow in multiple regions. ESGCN consists of two modules: W-module and ES module. W-module is a fully node-wise convolutional network. It encodes the time-series of each traffic region separately and decomposes the time-series at various scales to capture fine and coarse features. The ES module models the spatio-temporal dynamics using Graph Convolutional Network (GCN) and generates an Adaptive Adjacency Matrix (AAM) with temporal features. To improve the accuracy of AAM, we introduce three key concepts. 1) Using edge features to directly capture the spatiotemporal flow representation among regions. 2) Applying an edge attention mechanism to GCN to extract the AAM from the edge features. Here, the attention mechanism can effectively determine important spatio-temporal adjacency relations. 3) Proposing a novel node contrastive loss to suppress obstructed connections and emphasize related connections. Experimental results show that ESGCN achieves state-of-the-art performance by a large margin on four real-world datasets (PEMS03, 04, 07, and 08) with a low computational cost.
翻訳日:2023-07-13 18:49:29 公開日:2023-07-12
# 零点スキップによる畳み込み層の計算複雑性の低減

Reduce Computational Complexity for Convolutional Layers by Skipping Zeros ( http://arxiv.org/abs/2306.15951v2 )

ライセンス: Link先を確認
Zhiyi Zhang, Pengfei Zhang, Zhuopin Xu, Qi Wang(参考訳) ディープニューラルネットワークはアクセラレーションのために並列プロセッサに依存している。 オペレータを設計するには、複雑さを減らすための優れたアルゴリズムだけでなく、ハードウェアの十分な利用が必要である。 畳み込み層は主に3種類の演算子を含む:前方伝播における畳み込み、逆伝播における畳み込み、拡張畳み込み。 これらの演算子を実行するとき、0は常にテンソルに追加され、冗長な計算を引き起こす。 本稿では, c-k-sアルゴリズム(convv2, ks-deconv, sk-dilated)について述べる。フィルタを分割してパッド付き0を除外し, 疎テンソルを密度テンソルに変換する。 通常の畳み込みとは対照的に、畳み込みは複雑さのため加速しにくい。 本稿では,C-K-Sの高性能GPU実装について述べるとともに,PyTorchとの比較による検証を行った。 実験によると、C-K-SはPyTorchよりも利点があり、特に小さな特徴写像のデコンボリューションにおいて有利である。 C-K-Sのさらなる強化は、特定のGPUアーキテクチャで完全な最適化を行うことによって達成できる。

Deep neural networks rely on parallel processors for acceleration. To design operators for them, it requires not only good algorithm to reduce complexity, but also sufficient utilization of hardwares. Convolutional layers mainly contain 3 kinds of operators: convolution in forward propagation, deconvolution and dilated-convolution in backward propagation. When executing these operators, 0s are always added to tensors, causing redundant calculations. This paper gives C-K-S algorithm (ConvV2, KS-deconv, Sk-dilated), which skips these 0s in two ways: trim the filters to exclude padded 0s; transform sparse tensors to dense tensors, to avoid inserted 0s in deconvolution and dilated-convolution. In contrast to regular convolution, deconvolution is hard to accelerate due to its complicacy. This paper provides high-performance GPU implementations of C-K-S, and verifies their effectiveness with comparison to PyTorch. According to the experiments, C-K-S has advantages over PyTorch in certain cases, especially in deconvolution on small feature-maps. Further enhancement of C-K-S can be done by making full optimizations oriented at specific GPU architectures.
翻訳日:2023-07-13 18:48:17 公開日:2023-07-12
# REFLECT:失敗説明と訂正のためのロボット体験の要約

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction ( http://arxiv.org/abs/2306.15724v2 )

ライセンス: Link先を確認
Zeyi Liu, Arpit Bahety, Shuran Song(参考訳) 故障した実行を自動的に検出し分析する能力は、説明可能で堅牢なロボットシステムにとって不可欠である。 近年,Large Language Models (LLM) はテキスト入力に対して強い推論能力を示している。 ロボット故障の説明にLLMの力を利用するために,多感覚データから生成されたロボット過去の経験を階層的に要約した上で,LEFLECTというフレームワークを導入する。 説明に基づいて、タスクプランナーは、障害を修正しタスクを完了するためのロボットの実行可能な計画を生成する。 フレームワークを体系的に評価するために、さまざまなタスクと障害シナリオを備えたRoboFailデータセットを作成します。 LLMをベースとしたフレームワークは,修正計画の成功を支援する情報的障害説明を生成可能であることを実証する。 https://roboreflect.github.io/。

The ability to detect and analyze failed executions automatically is crucial for an explainable and robust robotic system. Recently, Large Language Models (LLMs) have demonstrated strong reasoning abilities on textual inputs. To leverage the power of LLM for robot failure explanation, we introduce a framework REFLECT, which queries LLM to identify and explain robot failures given a hierarchical summary of robot past experiences generated from multi-sensory data. Conditioned on the explanation, a task planner will generate an executable plan for the robot to correct the failure and complete the task. To systematically evaluate the framework, we create the RoboFail dataset with a variety of tasks and failure scenarios. We demonstrate that the LLM-based framework is able to generate informative failure explanations that assist successful correction planning. Videos and code available at: https://roboreflect.github.io/.
翻訳日:2023-07-13 18:47:43 公開日:2023-07-12
# GINGERプロジェクトの現状

Status of the GINGER project ( http://arxiv.org/abs/2306.15603v2 )

ライセンス: Link先を確認
Carlo Altucci, Francesco Bajardi, Andrea Basti, Nicol\`o Beverini, Giorgio Carelli, Salvatore Capozziello, Simone Castellano, Donatella Ciampini, Fabrizio Dav\`i, Francesco dell'Isola, Gaetano De Luca, Roberto Devoti, Giuseppe Di Somma, Angela D.V. Di Virgilio, Francesco Fuso, Ivan Giorgio, Aladino Govoni, Enrico Maccioni, Paolo Marsili, Antonello Ortolan, Alberto Porzio, Matteo Luca Ruggiero, Raffaele Velotta(参考訳) サニャック効果に基づく大きなフレームリングレーザージャイロスコープは、固定された恒星に対して角速度を測定するための最高感度計である。 GINGER (Gyroscopes IN GEneral Relativity) プロジェクトは、地球に固く接続された3つの大次元リング型レーザージャイロスコープのアレイの構築を予見する。 GINGERは、重力セクターにおける一般相対性効果とローレンツ振動を測定する可能性を持ち、一度地球回転率の10-9$以上の感度が得られる。 地殻に付着しているこのアレイは、地球物理学の調査に有用なデータを提供する。 この目的のために、現在はグランサッソ(英語版)(UGSS)の地下地球物理学と呼ばれる多成分天文台の一部として建設中である。 感度は、基礎科学におけるこの楽器の関連性を決定する重要なポイントである。 GINGERINOと呼ばれるリングレーザーのプロトタイプで得られた感度測定の最新の進歩は、GINGERが地球回転率の10–11}$で1のレベルに達することを示唆している。

Large frame Ring laser gyroscopes, based on the Sagnac effect, are top sensitivity instrumentation to measure angular velocity with respect to the fixed stars. GINGER (Gyroscopes IN GEneral Relativity) project foresees the construction of an array of three large dimension ring laser gyroscopes, rigidly connected to the Earth. GINGER has the potentiality to measure general relativity effects and Lorentz Violation in the gravity sector, once a sensitivity of $10^{-9}$, or better, of the Earth rotation rate is obtained. Being attached to the Earth crust, the array will also provide useful data for geophysical investigation. For this purpose, it is at present under construction as part of the multi-components observatory called Underground Geophysics at Gran Sasso (UGSS). Sensitivity is the key point to determine the relevance of this instrument for fundamental science. The most recent progress in the sensitivity measurement, obtained on a ring laser prototype called GINGERINO, indicates that GINGER should reach the level of 1 part in $10^{11}$ of the Earth rotation rate.
翻訳日:2023-07-13 18:47:31 公開日:2023-07-12
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v2 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh(参考訳) 量子力学における基礎的な結果の1つはkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が存在することが知られているが、最小のKSベクトル系を見つけるという問題は、先進的な科学者や数学者による大きな試みにもかかわらず、55年以上も頑固に開かれている。 本稿では,SATソルバと計算機代数システム(CAS)を組み合わせた新しい手法を提案する。 提案手法では, ks システムは少なくとも 24 個のベクトルを含む必要があり, 従来の cas ベースの計算手法に比べて約 35,000 倍の効率が期待できる。 さらに,結果の独立した検証を行う証明書も生成する。 効率の向上は、SATソルバの強力な組合せ探索と学習能力と、CASの等方性のない排他的生成手法を併用できるという事実から導かれる。 最小KSベクトルシステムの探求は、文脈性の実験的なテスト、ゼロエラー古典通信、次元目撃、特定の量子暗号プロトコルのセキュリティなど、無数の応用によって動機付けられている。 我々の知る限りでは、これは量子基底の領域における問題に対する新しいSAT+CASシステムの最初の応用であり、最小コチェン=スペクター問題の最初の検証された下界である。

One of the foundational results in quantum mechanics is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known to exist, the problem of finding the minimum KS vector system has remained stubbornly open for over 55 years, despite significant attempts by leading scientists and mathematicians. In this paper, we present a new method based on a combination of a SAT solver and a computer algebra system (CAS) to address this problem. Our approach shows that a KS system must contain at least 24 vectors and is about 35,000 times more efficient compared to the previous best CAS-based computational methods. Moreover, we generate certificates that provide an independent verification of the results. The increase in efficiency derives from the fact we are able to exploit the powerful combinatorial search-with-learning capabilities of a SAT solver together with the isomorph-free exhaustive generation methods of a CAS. The quest for the minimum KS vector system is motivated by myriad applications such as simplifying experimental tests of contextuality, zero-error classical communication, dimension witnessing, and the security of certain quantum cryptographic protocols. To the best of our knowledge, this is the first application of a novel SAT+CAS system to a problem in the realm of quantum foundations, and the first verified lower bound of the minimum Kochen-Specker problem.
翻訳日:2023-07-13 18:47:09 公開日:2023-07-12
# クープマン理論を用いた対話環境における効率的なダイナミクスモデリング

Efficient Dynamics Modeling in Interactive Environments with Koopman Theory ( http://arxiv.org/abs/2306.11941v2 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Siba Smarak Panigrahi, Sai Rajeswar, Kaleem Siddiqi, Siamak Ravanbakhsh(参考訳) 対話環境におけるダイナミクスの正確なモデリングは、長距離予測の成功に不可欠である。 このような能力は強化学習(RL)と計画アルゴリズムを前進させるが、達成は困難である。 モデル推定の不正確さは複雑になり、長い水平線上の誤差が増加する。 我々は、環境の非線形ダイナミクスを高次元潜在空間で線形化することができるクープマン理論のレンズからこの問題にアプローチする。 これにより,畳み込みを用いた長距離予測の逐次問題を,時間ステップ毎にエージェントの動作を考慮しつつ効率的に並列化することができる。 提案手法は安定性解析と時間経過による勾配制御も可能とした。 これらの利点は、拡張水平線上のモデリング力学の効率と精度の両方において、既存のアプローチよりも大幅に改善される。 また、モデルベース計画とモデルフリーRLの両方のシナリオに対する動的モデリングの有望な実験結果を報告する。

The accurate modeling of dynamics in interactive environments is critical for successful long-range prediction. Such a capability could advance Reinforcement Learning (RL) and Planning algorithms, but achieving it is challenging. Inaccuracies in model estimates can compound, resulting in increased errors over long horizons. We approach this problem from the lens of Koopman theory, where the nonlinear dynamics of the environment can be linearized in a high-dimensional latent space. This allows us to efficiently parallelize the sequential problem of long-range prediction using convolution, while accounting for the agent's action at every time step. Our approach also enables stability analysis and better control over gradients through time. Taken together, these advantages result in significant improvement over the existing approaches, both in the efficiency and the accuracy of modeling dynamics over extended horizons. We also report promising experimental results in dynamics modeling for the scenarios of both model-based planning and model-free RL.
翻訳日:2023-07-13 18:46:42 公開日:2023-07-12
# ガウス過程ネットワークに対するベイズ的アプローチ

A Bayesian Take on Gaussian Process Networks ( http://arxiv.org/abs/2306.11380v3 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers, Giusi Moffa(参考訳) ガウス過程ネットワーク(英: gaussian process network、gpns)は、ネットワーク内の各変数の条件付き期待値の事前としてガウス過程を用いる有向グラフィカルモデルのクラスである。 このモデルは、変数間の依存関係に関する最小限のパラメトリック仮定で、コンパクトで柔軟な方法で連続的なジョイント分布を記述することができる。 GPNのベイズ構造学習は、ネットワークのグラフの後方を計算し、低次元でも計算不可能である。 この研究はモンテカルロとマルコフ連鎖モンテカルロ法を実装し、ネットワーク構造の後方分布からサンプルを得る。 このように、このアプローチはベイズパラダイムに従い、その限界確率によるモデルの比較とGPN特徴の後方確率の計算を行う。 シミュレーションにより,本手法はネットワークのグラフィカルな構造の復元において最先端のアルゴリズムよりも優れており,その後方分布を精度良く近似できることを示した。

Gaussian Process Networks (GPNs) are a class of directed graphical models which employ Gaussian processes as priors for the conditional expectation of each variable given its parents in the network. The model allows describing continuous joint distributions in a compact but flexible manner with minimal parametric assumptions on the dependencies between variables. Bayesian structure learning of GPNs requires computing the posterior over graphs of the network and is computationally infeasible even in low dimensions. This work implements Monte Carlo and Markov Chain Monte Carlo methods to sample from the posterior distribution of network structures. As such, the approach follows the Bayesian paradigm, comparing models via their marginal likelihood and computing the posterior probability of the GPN features. Simulation studies show that our method outperforms state-of-the-art algorithms in recovering the graphical structure of the network and provides an accurate approximation of its posterior distribution.
翻訳日:2023-07-13 18:46:28 公開日:2023-07-12
# Solvent: タンパク質のフォールディングのためのフレームワーク

Solvent: A Framework for Protein Folding ( http://arxiv.org/abs/2307.04603v2 )

ライセンス: Link先を確認
Jaemyung Lee, Kyeongtak Han, Jaehoon Kim, Hasun Yu, Youhan Lee(参考訳) ai研究を行うには一貫性と信頼性が不可欠である。 オブジェクト検出のような多くの有名な研究分野は、堅固なベンチマークフレームワークで比較、検証されている。 AlphaFold2の後、タンパク質の折り畳みタスクは新しい段階に入り、AlphaFold2の構成要素に基づいて多くの方法が提案されている。 タンパク質折り畳みにおける統一的な研究フレームワークの重要性は、様々なアプローチを一貫して比較するための実装とベンチマークを含んでいる。 これを実現するために、Solventは、既製のインターフェイスのように最先端のモデルの重要なコンポーネントをサポートするタンパク質折り畳みフレームワークである。Solventは、統一コードベースに実装された異なるモデルを含み、同じデータセット上で定義されたモデルのトレーニングと評価をサポートする。 我々は、よく知られたアルゴリズムとそのコンポーネントをベンチマークし、タンパク質構造モデリング分野に関する有益な洞察を与える実験を提供する。 我々はSolventが提案したモデルの信頼性と一貫性を高め、速度とコストの両面で効率を向上し、タンパク質の折り畳みモデル研究の加速を期待する。 コードはhttps://github.com/kakaobrain/solventで入手できる。

Consistency and reliability are crucial for conducting AI research. Many famous research fields, such as object detection, have been compared and validated with solid benchmark frameworks. After AlphaFold2, the protein folding task has entered a new phase, and many methods are proposed based on the component of AlphaFold2. The importance of a unified research framework in protein folding contains implementations and benchmarks to consistently and fairly compare various approaches. To achieve this, we present Solvent, an protein folding framework that supports significant components of state-of-th-arts models in the manner of off-the-shelf interface Solvent contains different models implemented in a unified codebase and supports training and evaluation for defined models on the same dataset. We benchmark well-known algorithms and their components and provide experiments that give helpful insights into the protein structure modeling field. We hope that Solvent will increase the reliability and consistency of proposed models and gives efficiency in both speed and costs, resulting in acceleration on protein folding modeling research. The code is available at https://github.com/kakaobrain/solvent, and the project will continue to be developed.
翻訳日:2023-07-13 18:40:11 公開日:2023-07-12
# グラフニューラルネットワークを用いたローマ数字解析:音符特徴からのオンセット予測

Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features ( http://arxiv.org/abs/2307.03544v2 )

ライセンス: Link先を確認
Emmanouil Karystinaios and Gerhard Widmer(参考訳) ローマ数字解析は、和音とその機能的文脈を声調音楽で識別する重要なタスクである。 本稿では,シンボリック音楽におけるローマ数字の自動解析手法を提案する。 既存の手法ではスコアの中間的損失表現に依存しているが,各音符の直接記述と処理を可能にするグラフニューラルネットワーク(gnns)に基づく新しい手法を提案する。 提案アーキテクチャでは,新たなエッジ縮合アルゴリズムを用いて,音符間の相互依存性と特徴量を利用することができる。 以上の結果から,ChordGNNは既存の最先端モデルよりも優れており,参照データセット上でのローマ数解析において高い精度を実現していることがわかった。 さらに,NADEなどの提案手法とコード予測の処理後処理を用いて,本モデルの変種について検討する。 この作業の完全なソースコードはhttps://github.com/manoskary/chordgnnで入手できる。

Roman Numeral analysis is the important task of identifying chords and their functional context in pieces of tonal music. This paper presents a new approach to automatic Roman Numeral analysis in symbolic music. While existing techniques rely on an intermediate lossy representation of the score, we propose a new method based on Graph Neural Networks (GNNs) that enable the direct description and processing of each individual note in the score. The proposed architecture can leverage notewise features and interdependencies between notes but yield onset-wise representation by virtue of our novel edge contraction algorithm. Our results demonstrate that ChordGNN outperforms existing state-of-the-art models, achieving higher accuracy in Roman Numeral analysis on the reference datasets. In addition, we investigate variants of our model using proposed techniques such as NADE, and post-processing of the chord predictions. The full source code for this work is available at https://github.com/manoskary/chordgnn
翻訳日:2023-07-13 18:39:26 公開日:2023-07-12
# テキストからのアートシネマグラフの合成

Synthesizing Artistic Cinemagraphs from Text ( http://arxiv.org/abs/2307.03190v2 )

ライセンス: Link先を確認
Aniruddha Mahapatra, Aliaksandr Siarohin, Hsin-Ying Lee, Sergey Tulyakov, Jun-Yan Zhu(参考訳) テキスト記述からシネマグラフを作成するための完全自動化手法であるtext2cinemagraphを紹介する。これらの画像の意味や動作の解釈が複雑であることから、想像上の要素や芸術的スタイルをプロンプトする場合、特に難しい課題である。 既存の単一画像アニメーション手法は芸術的な入力に不足しており、最近のテキストベースのビデオ手法は時間的不整合をしばしば導入し、特定の領域を静的に保つのに苦労している。 これらの課題に対処するために,1つのテキストプロンプトから画像双生児を合成する手法を提案する。 芸術的なイメージはテキストに詳述されたスタイルや外観を描写するが、リアルなイメージはレイアウトや動きの分析を大幅に単純化する。 既存の自然画像と映像データセットを利用して、現実のイメージを正確に分割し、その意味情報に基づいて、妥当な動きを予測できる。 予測された動きは芸術的イメージに転送され、最終的なシネマグラフが作成される。 本手法は,自然景観のシネマグラフ作成における既存の手法と,自動計測とユーザ研究によって検証された芸術的・異世界的なシーンに匹敵する手法である。 最後に,既存の絵画のアニメーション化と,テキストによる動き方向制御の2つの拡張を示す。

We introduce Text2Cinemagraph, a fully automated method for creating cinemagraphs from text descriptions - an especially challenging task when prompts feature imaginary elements and artistic styles, given the complexity of interpreting the semantics and motions of these images. Existing single-image animation methods fall short on artistic inputs, and recent text-based video methods frequently introduce temporal inconsistencies, struggling to keep certain regions static. To address these challenges, we propose an idea of synthesizing image twins from a single text prompt - a pair of an artistic image and its pixel-aligned corresponding natural-looking twin. While the artistic image depicts the style and appearance detailed in our text prompt, the realistic counterpart greatly simplifies layout and motion analysis. Leveraging existing natural image and video datasets, we can accurately segment the realistic image and predict plausible motion given the semantic information. The predicted motion can then be transferred to the artistic image to create the final cinemagraph. Our method outperforms existing approaches in creating cinemagraphs for natural landscapes as well as artistic and other-worldly scenes, as validated by automated metrics and user studies. Finally, we demonstrate two extensions: animating existing paintings and controlling motion directions using text.
翻訳日:2023-07-13 18:38:46 公開日:2023-07-12
# 効率的なニューラル画像圧縮のための階層的先行と適応的空間分解能

Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression ( http://arxiv.org/abs/2307.02273v2 )

ライセンス: Link先を確認
Ahmed Ghorbel, Wassim Hamidouche and Luce Morin(参考訳) 近年,従来のコーデックに到達したり,性能を向上したりすることで,ニューラルイメージ圧縮(NIC)の性能は着実に向上している。 大幅な進歩にもかかわらず、現在のNICメソッドは依然としてConvNetベースのエントロピー符号化に依存しており、ローカル接続性やアーキテクチャ上のバイアスや事前の増大による長距離依存性のモデリングに制限されている。 swint-charm と呼ばれる tranformer-based transform coding framework の効率性の検討に動機づけられ,まず,より単純かつ効果的なtranformer-based channel-wise auto-regressive prior モデルにより,絶対画像圧縮トランスフォーマ (ict) を実現することを提案する。 提案したICTにより、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。 さらに,サンドイッチconvnextベースのプリ/ポストプロセッサを用いた学習可能なスケーリングモジュールを用いて,よりコンパクトな潜在コードを高精度に抽出し,高品質な画像を再構成する。 ベンチマークデータセットの広範な実験結果から,vvc基準エンコーダ(vtm-18.0)とニューラルコーデックswint-charmよりも,符号化効率とデコーダ複雑性のトレードオフを大幅に改善した。 さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,適応型画像圧縮変換器(aict)とニューラルネットワークコーデックswint-charmの性能差を予見するために,目的的および主観的な分析を行った。

Recently, the performance of neural image compression (NIC) has steadily improved thanks to the last line of study, reaching or outperforming state-of-the-art conventional codecs. Despite significant progress, current NIC methods still rely on ConvNet-based entropy coding, limited in modeling long-range dependencies due to their local connectivity and the increasing number of architectural biases and priors, resulting in complex underperforming models with high decoding latency. Motivated by the efficiency investigation of the Tranformer-based transform coding framework, namely SwinT-ChARM, we propose to enhance the latter, as first, with a more straightforward yet effective Tranformer-based channel-wise auto-regressive prior model, resulting in an absolute image compression transformer (ICT). Through the proposed ICT, we can capture both global and local contexts from the latent representations and better parameterize the distribution of the quantized latents. Further, we leverage a learnable scaling module with a sandwich ConvNeXt-based pre-/post-processor to accurately extract more compact latent codes while reconstructing higher-quality images. Extensive experimental results on benchmark datasets showed that the proposed framework significantly improves the trade-off between coding efficiency and decoder complexity over the versatile video coding (VVC) reference encoder (VTM-18.0) and the neural codec SwinT-ChARM. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the adaptive image compression transformer (AICT) and the neural codec SwinT-ChARM.
翻訳日:2023-07-13 18:38:01 公開日:2023-07-12
# 混合量子状態に対する強い量子速度制限

Stronger Quantum Speed Limit For Mixed Quantum States ( http://arxiv.org/abs/2307.02215v3 )

ライセンス: Link先を確認
Shrobona Bagchi, Dimpi Thakuria, Arun Kumar Pati(参考訳) 混合量子状態とユニタリ進化の強い不確実性関係を用いて、混合量子状態に対する量子速度制限を導出する。 また、この境界は、より良い境界を得るための演算子の異なる選択に対して最適化可能であることも示している。 このバウンダリをいくつかの例で説明し、以前のバウンダリよりも優れたパフォーマンスを示します。

We derive a quantum speed limit for mixed quantum states using the stronger uncertainty relation for mixed quantum states and unitary evolution. We also show that this bound can be optimized over different choices of operators for obtaining a better bound. We illustrate this bound with some examples and show its better performance with respect to some earlier bounds.
翻訳日:2023-07-13 18:37:25 公開日:2023-07-12
# MOPO-LSI: ユーザガイド

MOPO-LSI: A User Guide ( http://arxiv.org/abs/2307.01719v2 )

ライセンス: Link先を確認
Yong Zheng, Kumar Neelotpal Shukla, Jasmine Xu, David (Xuejun) Wang, Michael O'Leary(参考訳) MOPO-LSIは、持続可能な投資のためのオープンソースの多目的ポートフォリオ最適化ライブラリである。 この文書はMOPO-LSIバージョン1.0のユーザガイドを提供し、問題設定、ワークフロー、設定のハイパーパラメータを含む。

MOPO-LSI is an open-source Multi-Objective Portfolio Optimization Library for Sustainable Investments. This document provides a user guide for MOPO-LSI version 1.0, including problem setup, workflow and the hyper-parameters in configurations.
翻訳日:2023-07-13 18:37:18 公開日:2023-07-12
# ニューラルネットワークの多次元性とキャパシティ

Polysemanticity and Capacity in Neural Networks ( http://arxiv.org/abs/2210.01892v3 )

ライセンス: Link先を確認
Adam Scherlis, Kshitij Sachan, Adam S. Jermyn, Joe Benton, Buck Shlegeris(参考訳) ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。 この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈をより困難にするので、その原因を理解することを目指している。 我々は、各特徴が埋め込み空間で消費する分数次元である特徴 \emph{capacity} のレンズを通して行うことを提案する。 玩具モデルにおいて, 最適キャパシティ割り当ては, モノセマンティカルに最も重要な特徴を表現しがちであり, ポリセマンティカルは(損失に対する影響に比例して)重要でない特徴を表現し, 最重要でない特徴を完全に無視する。 多意味性(Polysemanticity)は、入力がより高いクルトーシスまたは疎度を持ち、他のアーキテクチャよりもより一般的な場合である。 容量の最適割り当てが与えられた後、埋め込み空間の幾何学を研究する。 ブロック-半直交構造は、異なるモデルにおけるブロックサイズが異なり、モデルアーキテクチャがニューロンの解釈可能性に与える影響を強調している。

Individual neurons in neural networks often represent a mixture of unrelated features. This phenomenon, called polysemanticity, can make interpreting neural networks more difficult and so we aim to understand its causes. We propose doing so through the lens of feature \emph{capacity}, which is the fractional dimension each feature consumes in the embedding space. We show that in a toy model the optimal capacity allocation tends to monosemantically represent the most important features, polysemantically represent less important features (in proportion to their impact on the loss), and entirely ignore the least important features. Polysemanticity is more prevalent when the inputs have higher kurtosis or sparsity and more prevalent in some architectures than others. Given an optimal allocation of capacity, we go on to study the geometry of the embedding space. We find a block-semi-orthogonal structure, with differing block sizes in different models, highlighting the impact of model architecture on the interpretability of its neurons.
翻訳日:2023-07-13 16:54:08 公開日:2023-07-12
# SGDで$L_1の罰金を科す

spred: Solving $L_1$ Penalty with SGD ( http://arxiv.org/abs/2210.01212v5 )

ライセンス: Link先を確認
Liu Ziyin, Zihao Wang(参考訳) 簡単な再パラメータ化と簡単な確率勾配勾配を用いて,$L_1$制約で一般化可能な目的を最小化することを提案する。 我々の提案は、l_1$ペナルティが、重量減衰を伴う微分可能再パラメータ化と同値になるかもしれないという以前のアイデアの直接の一般化である。 提案手法である \textit{spred} が $l_1$ の完全微分可能解法であること、および再パラメータ化トリックが一般の非凸関数に対して完全に ``benign" であることを証明する。 本手法は,(1)高次元空間における関連特徴の探索を含む遺伝子選択タスクを行うためにスパースニューラルネットワークを訓練すること,(2)従来の$l_1$-penalty適用の試みが失敗しているニューラルネットワーク圧縮タスクにおいて有用であることを示す。 概念的には,深層学習と従来の統計学習とのギャップを橋渡しする。

We propose to minimize a generic differentiable objective with $L_1$ constraint using a simple reparametrization and straightforward stochastic gradient descent. Our proposal is the direct generalization of previous ideas that the $L_1$ penalty may be equivalent to a differentiable reparametrization with weight decay. We prove that the proposed method, \textit{spred}, is an exact differentiable solver of $L_1$ and that the reparametrization trick is completely ``benign" for a generic nonconvex function. Practically, we demonstrate the usefulness of the method in (1) training sparse neural networks to perform gene selection tasks, which involves finding relevant features in a very high dimensional space, and (2) neural network compression task, to which previous attempts at applying the $L_1$-penalty have been unsuccessful. Conceptually, our result bridges the gap between the sparsity in deep learning and conventional statistical learning.
翻訳日:2023-07-13 16:53:29 公開日:2023-07-12
# オフライン強化学習における後悔の速さ

Fast Rates for the Regret of Offline Reinforcement Learning ( http://arxiv.org/abs/2102.00479v2 )

ライセンス: Link先を確認
Yichun Hu, Nathan Kallus, Masatoshi Uehara(参考訳) 本研究では,無限水平割引マルコフ決定過程(MDP)において,固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。 適合$Q$-iteration (FQI) のような一般的なアプローチの既存の分析では、後悔に対する$O(1/\sqrt{n})$収束が提案されているが、経験的行動はより速い収束を示す。 本稿では,後悔の収束速度を速くすることで,この現象を正確に特徴づける,より細かい後悔の分析を行う。 まず、最適品質関数 $Q^*$ に対する任意の推定が与えられたとき、その定義するポリシーの後悔は、$Q^*$-estimate の点収束率の指数によって与えられる速度で収束し、それを高速化する。 指数のレベルは、推定問題ではなく、\emph{decision-making}問題におけるノイズのレベルに依存する。 このようなノイズレベルを線形および表型mdpの例として定めている。 第二に、FQIとベルマン残差最小化の新しい分析を行い、正しい点収束保証を確立する。 具体例では,線形症例では$O(1/n)=後悔率,表例では$\exp(-\Omega(n))$後悔率を示す。 我々は,非パラメトリックな$q^*$推定に対する$l_2$保証が穏やかな条件下で保証できる点において,ポイントワイズレートよりも$q^*$を推定するための$l_p$-convergence rateに基づく保証を後悔するように,一般関数近似に拡張した。

We study the regret of reinforcement learning from offline data generated by a fixed behavior policy in an infinite-horizon discounted Markov decision process (MDP). While existing analyses of common approaches, such as fitted $Q$-iteration (FQI), suggest a $O(1/\sqrt{n})$ convergence for regret, empirical behavior exhibits \emph{much} faster convergence. In this paper, we present a finer regret analysis that exactly characterizes this phenomenon by providing fast rates for the regret convergence. First, we show that given any estimate for the optimal quality function $Q^*$, the regret of the policy it defines converges at a rate given by the exponentiation of the $Q^*$-estimate's pointwise convergence rate, thus speeding it up. The level of exponentiation depends on the level of noise in the \emph{decision-making} problem, rather than the estimation problem. We establish such noise levels for linear and tabular MDPs as examples. Second, we provide new analyses of FQI and Bellman residual minimization to establish the correct pointwise convergence guarantees. As specific cases, our results imply $O(1/n)$ regret rates in linear cases and $\exp(-\Omega(n))$ regret rates in tabular cases. We extend our findings to general function approximation by extending our results to regret guarantees based on $L_p$-convergence rates for estimating $Q^*$ rather than pointwise rates, where $L_2$ guarantees for nonparametric $Q^*$-estimation can be ensured under mild conditions.
翻訳日:2023-07-13 16:53:04 公開日:2023-07-12
# MT-BenchとChatbot Arenaを用いたLCM-as-a-judgeの判定

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena ( http://arxiv.org/abs/2306.05685v2 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica(参考訳) 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。 これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。 本研究では, LLM-as-a-judgeの使用と限界について検討し, 位置, 冗長性, 自己啓発バイアス, 推論能力の制限などを検討した。 次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。 その結果, GPT-4 のような強い LLM 審査員は, コントロールとクラウドソースの双方によく適合し, 80 % 以上の合意を達成できることがわかった。 したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。 さらに,我々のベンチマークと従来のベンチマークは,llama と vicuna のいくつかの変種を評価し,相互補完関係にあることを示す。 MT-benchの質問、3Kのエキスパート投票、Chatbot Arenaからの人間の好みによる30Kの会話を公開します。

Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, including position, verbosity, and self-enhancement biases, as well as limited reasoning ability, and propose solutions to mitigate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80\% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA and Vicuna. We will publicly release MT-bench questions, 3K expert votes, and 30K conversations with human preferences from Chatbot Arena.
翻訳日:2023-07-13 16:48:27 公開日:2023-07-12
# RAMiT:軽量画像復元用相互注意混合変換器

RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image Restoration ( http://arxiv.org/abs/2305.11474v3 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang(参考訳) 近年の多くの作品は画像復元(ir)の分野で進歩を遂げているが、パラメータの多さに苦しむことが多い。 もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。 そこで本稿では,軽量irネットワークであるreciprocal attention mixed transformer (ramit)を提案する。 提案する次元相互注意混合トランス(d-ramit)ブロックを用いて,複数ヘッドの異なる数に並列に2次元(空間的およびチャネル的)自己アテンションを計算する。 二次元の注意は互いの欠点を補うのに役立ち、その後混合される。 さらに,画素レベルの情報損失を補償し,効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(h-rami)層を導入する。 さらに,提案するコンポーネントに効率的な畳み込みをアタッチするためにmobilenet v1とv2を再検討し,修正する。 実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおいて最先端性能を実現することが示された。 コードはhttps://github.com/rami0205/RAMiTで入手できる。

Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes are available at https://github.com/rami0205/RAMiT.
翻訳日:2023-07-13 16:47:39 公開日:2023-07-12
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator Based Rationalization ( http://arxiv.org/abs/2305.04492v7 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-07-13 16:47:13 公開日:2023-07-12
# ANTONIO:検証のためのNLPベンチマーク生成方式

ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for Verification ( http://arxiv.org/abs/2305.04003v2 )

ライセンス: Link先を確認
Marco Casadio, Luca Arnaboldi, Matthew L. Daggitt, Omri Isac, Tanvi Dinkar, Daniel Kienitz, Verena Rieser, Ekaterina Komendantskaya(参考訳) 自然言語処理(NLP)で使用される機械学習モデルの検証は難しい問題であることが知られている。 特に、コンピュータビジョンや他の数値データセットで機能する多くの既知のニューラルネットワーク検証方法は、NLPでは機能しない。 ここでは,この問題を裏付ける技術的理由について検討する。 そこで本研究では,NLPデータセットとモデルを作成するための実践的手法とヒューリスティックスを提案する。 我々はこれらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。 我々は,NLP データセット R-U-A-Robot を法的に重要な NLP アプリケーションを検証するためのベンチマークとして提案したツールの評価を行う。 一般的な適用性のおかげで、この研究がニューラルネットワーク検証コンテストにNLP検証問題を含める新たな可能性を開き、コミュニティ内でNLP問題の普及を期待する。

Verification of machine learning models used in Natural Language Processing (NLP) is known to be a hard problem. In particular, many known neural network verification methods that work for computer vision and other numeric datasets do not work for NLP. Here, we study technical reasons that underlie this problem. Based on this analysis, we propose practical methods and heuristics for preparing NLP datasets and models in a way that renders them amenable to known verification methods based on abstract interpretation. We implement these methods as a Python library called ANTONIO that links to the neural network verifiers ERAN and Marabou. We perform evaluation of the tool using an NLP dataset R-U-A-Robot suggested as a benchmark for verifying legally critical NLP applications. We hope that, thanks to its general applicability, this work will open novel possibilities for including NLP verification problems into neural network verification competitions, and will popularise NLP problems within this community.
翻訳日:2023-07-13 16:46:53 公開日:2023-07-12
# 仮説的振り返りを用いた不確かな機械倫理決定

Uncertain Machine Ethical Decisions Using Hypothetical Retrospection ( http://arxiv.org/abs/2305.01424v2 )

ライセンス: Link先を確認
Simon Kolker, Louise Dennis, Ramon Fraga Pereira, and Mengwei Xu(参考訳) 本研究では,Sven Ove Hansson氏が提唱した仮説的ふりかえり議論手法を用いて,人間と調和する哲学的立場から,確率と不確実性を考慮し,機械倫理的推論に対する既存のアプローチを改善することを提案する。 アクションは潜在的な結果の分岐セットで表現され、それぞれが状態、ユーティリティを持ち、数値または詩的な確率の推定値を持つ。 アクションは、そのブランチの観点からアクションを好む引数のセットと、望ましくない結果をもたらす枝の比較に基づいて選択される。 この議論の使用により、倫理的推論のための様々な哲学理論が利用され、潜在的に互いに柔軟に組み合わせられる。 本稿では,自律型図書館システム利用事例に対して,逐次的・非オントロジ的倫理学理論を独立かつ同時に適用する。 我々は,機械倫理システムの様々な要件を満たすと思われる予備的枠組みを導入する。複数の理論の下での汎用性と,透明性と説明可能性を実現する人間との共謀である。

We propose the use of the hypothetical retrospection argumentation procedure, developed by Sven Ove Hansson to improve existing approaches to machine ethical reasoning by accounting for probability and uncertainty from a position of Philosophy that resonates with humans. Actions are represented with a branching set of potential outcomes, each with a state, utility, and either a numeric or poetic probability estimate. Actions are chosen based on comparisons between sets of arguments favouring actions from the perspective of their branches, even those branches that led to an undesirable outcome. This use of arguments allows a variety of philosophical theories for ethical reasoning to be used, potentially in flexible combination with each other. We implement the procedure, applying consequentialist and deontological ethical theories, independently and concurrently, to an autonomous library system use case. We introduce a preliminary framework that seems to meet the varied requirements of a machine ethics system: versatility under multiple theories and a resonance with humans that enables transparency and explainability.
翻訳日:2023-07-13 16:46:40 公開日:2023-07-12
# イベントカメラによるニューロモルフィック光流れとリアルタイム実装

Neuromorphic Optical Flow and Real-time Implementation with Event Cameras ( http://arxiv.org/abs/2304.07139v2 )

ライセンス: Link先を確認
Yannick Schnider, Stanislaw Wozniak, Mathias Gehrig, Jules Lecomte, Axel von Arnim, Luca Benini, Davide Scaramuzza, Angeliki Pantazi(参考訳) 光フローは、多くのコンピュータビジョンパイプラインの重要な要素である相対運動に関する情報を提供する。 ニューラルネットワークは高精度な光フローを提供するが、効率とレイテンシが重要な役割を果たすエッジやロボットでは、その複雑さがしばしば禁止される。 この課題に対処するため、イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。 timelensにインスパイアされた新しいネットワークアーキテクチャを提案する。スパイクモードと非スパイクモードの両方で動作する場合、最先端の自己教師付き光フロー精度を向上させる。 物理イベントカメラを用いたリアルタイムパイプラインの実現を目的として,アクティビティと遅延解析に基づくモデル単純化手法を提案する。 精度を維持しつつ複雑性を約2桁低減した高速光フロー予測を行い,リアルタイム展開への道を開く。

Optical flow provides information on relative motion that is an important component in many computer vision pipelines. Neural networks provide high accuracy optical flow, yet their complexity is often prohibitive for application at the edge or in robots, where efficiency and latency play crucial role. To address this challenge, we build on the latest developments in event-based vision and spiking neural networks. We propose a new network architecture, inspired by Timelens, that improves the state-of-the-art self-supervised optical flow accuracy when operated both in spiking and non-spiking mode. To implement a real-time pipeline with a physical event camera, we propose a methodology for principled model simplification based on activity and latency analysis. We demonstrate high speed optical flow prediction with almost two orders of magnitude reduced complexity while maintaining the accuracy, opening the path for real-time deployments.
翻訳日:2023-07-13 16:45:58 公開日:2023-07-12
# 感情推論を支援する感情概念知識の言語特異的表現

Language-Specific Representation of Emotion-Concept Knowledge Causally Supports Emotion Inference ( http://arxiv.org/abs/2302.09582v3 )

ライセンス: Link先を確認
Ming Li, Yusheng Su, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Zhiyuan Liu, Dan Zhang(参考訳) 言語がどのように感情推論をサポートするかを理解することは、感情科学における議論のトピックである。 本研究では,言語固有の知識表現を大言語モデルで操作することで,言語由来の感情概念知識が感情推論を因果的に支援するかどうかを検討した。 プロンプト法を用いて、感情概念の14の属性が、異なる人工ニューロン集団によって表されることがわかった。 これらの属性関連ニューロンを操作することで、感情推論タスクの大半はランダム操作に比べて性能が低下することを示した。 属性特異的なパフォーマンス劣化は、人間の精神空間における異なる属性の重要性に関連していた。 本研究は感情推論のための言語に基づくメカニズムを支持する因果的証拠を提供し,感情概念知識の寄与を強調する。

Understanding how language supports emotion inference remains a topic of debate in emotion science. The present study investigated whether language-derived emotion-concept knowledge would causally support emotion inference by manipulating the language-specific knowledge representations in large language models. Using the prompt technique, 14 attributes of emotion concepts were found to be represented by distinct artificial neuron populations. By manipulating these attribute-related neurons, the majority of the emotion inference tasks showed performance deterioration compared to random manipulations. The attribute-specific performance deterioration was related to the importance of different attributes in human mental space. Our findings provide causal evidence in support of a language-based mechanism for emotion inference and highlight the contributions of emotion-concept knowledge.
翻訳日:2023-07-13 16:45:20 公開日:2023-07-12
# 解釈可能なモデルの混合に対するブラックボックスの分割とクエリ:経路、解釈、繰り返し

Dividing and Conquering a BlackBox to a Mixture of Interpretable Models: Route, Interpret, Repeat ( http://arxiv.org/abs/2307.05350v2 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) mlモデル設計は解釈可能なモデルかブラックボックスから始まり、ポストホックであると説明する。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは本質的に説明可能である。 しかし、解釈可能なモデルは広範なml知識を必要とし、ブラックボックスの変種よりも柔軟性とパフォーマンスが低い傾向がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各解釈可能なモデルはサンプルのサブセットを専門とし、一階述語論理(fol)を用いて説明し、ブラックボックスの概念に関する基本的な推論を提供する。 残りのサンプルを柔軟な残留物にルーティングします。 すべての解釈可能なモデルが所望のデータの割合を説明するまで、残差ネットワーク上のメソッドを繰り返す。 以上の結果から,本手法では,提案手法は,性能を損なうことなく,MoIEによる高概念完全性を備えた多種多様なインスタンス固有概念の集合を同定し,残差を説明できる比較的‘harder’のサンプルを同定し,(3)テスト時間介入時にかなりの差で解釈可能な設計モデルを上回り,(4)オリジナルのBlackboxで学んだショートカットを修正した。 MoIEのコードは以下で公開されている。 \url{https://github.com/batmanlab/ICML-2023-Route-interpret-repeat}

ML model design either starts with an interpretable model or a Blackbox and explains it post hoc. Blackbox models are flexible but difficult to explain, while interpretable models are inherently explainable. Yet, interpretable models require extensive ML knowledge and tend to be less flexible and underperforming than their Blackbox variants. This paper aims to blur the distinction between a post hoc explanation of a Blackbox and constructing interpretable models. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each interpretable model specializes in a subset of samples and explains them using First Order Logic (FOL), providing basic reasoning on concepts from the Blackbox. We route the remaining samples through a flexible residual. We repeat the method on the residual network until all the interpretable models explain the desired proportion of data. Our extensive experiments show that our route, interpret, and repeat approach (1) identifies a diverse set of instance-specific concepts with high concept completeness via MoIE without compromising in performance, (2) identifies the relatively ``harder'' samples to explain via residuals, (3) outperforms the interpretable by-design models by significant margins during test-time interventions, and (4) fixes the shortcut learned by the original Blackbox. The code for MoIE is publicly available at: \url{https://github.com/batmanlab/ICML-2023-Route-interpret-repeat}
翻訳日:2023-07-13 16:39:02 公開日:2023-07-12
# 臨床領域におけるLLaMAのパラメータ効率向上

Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain ( http://arxiv.org/abs/2307.03042v2 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Luke Daines, Pasquale Minervini, Beatrice Alex(参考訳) 臨床応用のような新しい領域に事前訓練された言語モデルを適用するには、伝統的にパラメータの集合全体をトレーニングする必要がある。 しかし、このような大規模言語モデルの訓練に関係するかなりの計算要求のため、このアプローチは実用的でないことがますます証明されている。 この問題に対処するために、パラメータ効率の良いファインチューニング(peft)技術は、追加のパラメータの小さなサブセットを選択的に微調整することで、実行可能なソリューションを提供する。 本研究では,オープンソースのLLaMAモデルに基づくPEFTアダプタ層である臨床LLaMA-LoRAを提案する。 MIMIC-IVデータベースから得られた臨床ノートを用いて臨床LLaMA-LoRAを訓練し、臨床領域用に設計された特別なアダプタを作成する。 さらに,2段階のPEFTフレームワークを提案する。このフレームワークは,下流タスクに特化した2段階のPEFTアダプタであるLLaMA-LoRAと臨床LLaMA-LoRAを融合する。 本稿では,複数の臨床結果予測データセットについて,臨床訓練言語モデルと比較した。 提案フレームワークは,すべての臨床下流タスクにおいて,最先端のaurocスコアを実現する。 診断や手順分類などの大規模多ラベル分類タスクにおいて,6-9%のAUROCスコアの大幅な改善が観察された。

Adapting pretrained language models to novel domains, such as clinical applications, traditionally involves retraining their entire set of parameters. However, this approach is increasingly proven to be impractical owing to the substantial computational requirements associated with training such large language models. To address this issue, Parameter-Efficient Fine-Tuning (PEFT) techniques offer a viable solution by selectively fine-tuning a small subset of additional parameters, significantly reducing the computational requirements for domain adaptation. In this study, we propose Clinical LLaMA-LoRA, a PEFT adapter layer built upon the open-sourced LLaMA model. Clinical LLaMA-LoRA is trained using clinical notes obtained from the MIMIC-IV database, thereby creating a specialised adapter designed for the clinical domain. Additionally, we propose a two-step PEFT framework which fuses Clinical LLaMA-LoRA with Downstream LLaMA-LoRA, another PEFT adapter specialised for downstream tasks. We evaluate this framework on multiple clinical outcome prediction datasets, comparing it to clinically trained language models. Our proposed framework achieves a state-of-the-art AUROC score averaged across all clinical downstream tasks. We observe substantial improvements of 6-9% AUROC score in the large-scale multilabel classification tasks, such as diagnoses and procedures classification.
翻訳日:2023-07-13 16:37:34 公開日:2023-07-12
# PatternGPT : 大言語モデルテキスト生成のためのパターン駆動フレームワーク

PatternGPT :A Pattern-Driven Framework for Large Language Model Text Generation ( http://arxiv.org/abs/2307.00470v2 )

ライセンス: Link先を確認
Le Xiao and Xin Shan(参考訳) 大規模言語モデル(LLMS)は、多くのダウンストリームタスクに対して流動的な応答を生成することができる優れたテキスト生成能力を示している。 しかしながら、幻覚への感受性や外部知識を直接使用できないため、実世界の重要なタスクに大規模な言語モデルを適用することは依然として困難である。 そこで本研究では,大規模言語モデルのためのパターン駆動型テキスト生成フレームワークであるPatternGPTを提案する。 まず、フレームワークは大規模言語モデルの抽出機能を利用して、リッチで多様なパターンを生成し、後に連合学習のアイデアを描き出す。 複数のエージェントを使って共有し、より多様なパターンを得る。 最後に、判定基準と最適化アルゴリズムを用いて高品質なパターンを探索し、探索されたパターンを用いてモデルの生成を誘導する。 このフレームワークは、多種多様なパターンの生成、データのプライバシ保護、外部知識の統合、生成品質の向上といった利点があり、大きな言語モデルのテキスト生成能力を最適化し、インテリジェントな対話やコンテンツ生成の分野によりよい適用を可能にする効果的な方法を提供する。

Large language models(LLMS) have shown excellent text generation capabilities,capable of generating fluent responses for many downstream tasks. However,applying large language models to real-world critical tasks remains challenging due to their susceptibility to hallucinations and inability to directly use external knowledge. To address the above challenges,this paper proposes PatternGPT, a pattern-driven text generation framework for large language models. First,the framework utilizes the extraction capabilities of large language models to generate rich and diverse patterns and later draws on the idea of federated learning. Using multiple agents to achieve sharing to obtain more diverse patterns. Finally, it searches for high-quality patterns using judgment criteria and optimization algorithms and uses the searched patterns to guide the model for generation. This framework has the advantages of generating diversified patterns, protecting data privacy,combining external knowledge, and improving the quality of generation, which provides an effective method to optimize the text generation capability of large language models,and make it better applied to the field of intelligent dialogue and content generation.
翻訳日:2023-07-13 16:36:37 公開日:2023-07-12
# 死人:画像とテキストのモデルに対するグレイボックスの敵攻撃

I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models ( http://arxiv.org/abs/2306.07591v2 )

ライセンス: Link先を確認
Raz Lapid, Moshe Sipper(参考訳) 現代の画像からテキストへのシステムは、画像の特徴を抽出するための画像エンコーダと、キャプションを生成するのに使われるトランスフォーマベースのデコーダという2つの主要なコンポーネントからなるエンコーダ-デコーダフレームワークを採用するのが一般的である。 ニューラルネットワークの逆摂動に対するロバスト性の分析から着想を得て,画像からテキストへのモデルの逆例を作成するための新しいグレイボックスアルゴリズムを提案する。 クラスラベルの有限集合を持つ画像分類タスクとは異なり、画像からテキストへのタスクで視覚的に類似した逆の例を見つけることは、キャプションシステムによって事実上無限のキャプションの空間を可能にするため、大きな課題となる。 本稿では,非ターゲティングとターゲティングの両方において,画像対テキストに対するグレイボックス攻撃を提案する。 本稿では,画像エンコーダ成分のみを用いる最適化問題として,言語モデルに依存しない逆摂動を探索するプロセスを定式化する。 また,Hugging Faceの最もよく使われている画像とテキストのモデルであるViT-GPT2モデルとFlickr30kデータセットを用いた実験により,この攻撃により,ターゲットのないキャプションとターゲットのキャプションの両方で,視覚的に類似したサンプルを生成することができた。 私たちの攻撃はグレーボックス方式で実行されており、デコーダモジュールに関する知識は必要ない。 また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。

Modern image-to-text systems typically adopt the encoder-decoder framework, which comprises two main components: an image encoder, responsible for extracting image features, and a transformer-based decoder, used for generating captions. Taking inspiration from the analysis of neural networks' robustness against adversarial perturbations, we propose a novel gray-box algorithm for creating adversarial examples in image-to-text models. Unlike image classification tasks that have a finite set of class labels, finding visually similar adversarial examples in an image-to-text task poses greater challenges because the captioning system allows for a virtually infinite space of possible captions. In this paper, we present a gray-box adversarial attack on image-to-text, both untargeted and targeted. We formulate the process of discovering adversarial perturbations as an optimization problem that uses only the image-encoder component, meaning the proposed attack is language-model agnostic. Through experiments conducted on the ViT-GPT2 model, which is the most-used image-to-text model in Hugging Face, and the Flickr30k dataset, we demonstrate that our proposed attack successfully generates visually similar adversarial examples, both with untargeted and targeted captions. Notably, our attack operates in a gray-box manner, requiring no knowledge about the decoder module. We also show that our attacks fool the popular open-source platform Hugging Face.
翻訳日:2023-07-13 16:35:36 公開日:2023-07-12
# 数学推論と問題解決におけるChatGPTの有効性の検討:ベトナム国立高校卒業試験から

Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination ( http://arxiv.org/abs/2306.06331v2 )

ライセンス: Link先を確認
Xuan-Quy Dao and Ngoc-Bich Le(参考訳) 本研究は,ベトナム国立高校卒業試験(VNHSGE)における複数項目の質問に応答するChatGPTの数学能力について,様々な課題と難易度について完全な分析を行った。 データセットには、知識(K)、理解(C)、応用(A)、高適用(H)の4つのレベルに分けられた250の質問と、多様な数学的概念をカバーする10のテーマが含まれていた。 その結果,ChatGPTの性能は難易度や課題によって異なることが示された。 レベル (k) の質問で最高の成績をあげたが、難易度が上昇するにつれて成績は悪く、精度は10\%$であった。 この研究は、ChatGPTが指数関数や対数関数、幾何学的進行、算術的進行といった問題に対する回答を提供することに成功していることも示している。 研究によると、chatgptは微分や応用、空間幾何学、オキシズ空間計算といったトピックに関する質問に正しく答えられなかった。 さらに,本研究ではベトナム人学生のVNHSGEや他の数学コンペティションとChatGPTの結果を比較した。 ChatGPTはSAT Mathの競争で70 %$、VNHSGEの数学(58.8 %)$で優位に立った。 しかし、その成功率はAP統計、GRE定量、AMC 10、AMC 12、AP Calculus BCなど他の試験よりも低かった。 これらの結果は、chatgptが数学の効果的な教育ツールになる可能性が示唆されているが、グラフィックデータの取り扱いを強化し、より困難になっている質問によって提示される課題に対処するためには、さらに多くの作業が必要である。

This study offers a complete analysis of ChatGPT's mathematics abilities in responding to multiple-choice questions for the Vietnamese National High School Graduation Examination (VNHSGE) on a range of subjects and difficulty levels. The dataset included 250 questions divided into four levels: knowledge (K), comprehension (C), application (A), and high application (H), and it included ten themes that covered diverse mathematical concepts. The outcomes demonstrate that ChatGPT's performance varies depending on the difficulty level and subject. It performed best on questions at Level (K), with an accuracy rate of $83\%$; but, as the difficulty level rose, it scored poorly, with an accuracy rate of $10\%$. The study has also shown that ChatGPT significantly succeeds in providing responses to questions on subjects including exponential and logarithmic functions, geometric progression, and arithmetic progression. The study found that ChatGPT had difficulty correctly answering questions on topics including derivatives and applications, spatial geometry, and Oxyz spatial calculus. Additionally, this study contrasted ChatGPT outcomes with Vietnamese students in VNHSGE and in other math competitions. ChatGPT dominated in the SAT Math competition with a success rate of $70\%$, followed by VNHSGE mathematics ($58.8\%)$. However, its success rates were lower on other exams, such as AP Statistics, the GRE Quantitative, AMC 10, AMC 12, and AP Calculus BC. These results suggest that ChatGPT has the potential to be an effective teaching tool for mathematics, but more work is needed to enhance its handling of graphical data and address the challenges presented by questions that are getting more challenging.
翻訳日:2023-07-13 16:35:07 公開日:2023-07-12
# 深部強化学習によるトラップイオン量子回路のハイブリッド離散連続コンパイル

Hybrid discrete-continuous compilation of trapped-ion quantum circuits with deep reinforcement learning ( http://arxiv.org/abs/2307.05744v1 )

ライセンス: Link先を確認
Francesco Preti, Michael Schilling, Sofiene Jerbi, Lea M. Trenkwalder, Hendrik Poulsen Nautrup, Felix Motzoi, Hans J. Briegel(参考訳) 量子回路の短縮は、環境デコヒーレンスの破壊効果を低減し、有用なアルゴリズムを実現するために重要である。 本稿では,連続ゲートセット間のハイブリッド離散連続最適化とアーキテクチャ対応実装の組み合わせにより,このようなコンパイルタスクの改善を実証する。 連続パラメータは勾配に基づく最適化アルゴリズムで検出され、タンデムでは、射影シミュレーションに基づいて、深い強化学習アルゴリズムによって最適なゲート順序が学習される。 このアプローチをテストするために,古典的デバイス上で,捕捉イオン系の集合ゲートを効率的にシミュレートする枠組みを提案する。 このアルゴリズムは、トラップイオンコンピューティングにおいて、関連する量子回路のサイズを大幅に削減できることを示す。 さらに, 未知のユニタリプロセスを再現することを目的とした実験的なセットアップにも, フレームワークを適用できることを示した。

Shortening quantum circuits is crucial to reducing the destructive effect of environmental decoherence and enabling useful algorithms. Here, we demonstrate an improvement in such compilation tasks via a combination of using hybrid discrete-continuous optimization across a continuous gate set, and architecture-tailored implementation. The continuous parameters are discovered with a gradient-based optimization algorithm, while in tandem the optimal gate orderings are learned via a deep reinforcement learning algorithm, based on projective simulation. To test this approach, we introduce a framework to simulate collective gates in trapped-ion systems efficiently on a classical device. The algorithm proves able to significantly reduce the size of relevant quantum circuits for trapped-ion computing. Furthermore, we show that our framework can also be applied to an experimental setup whose goal is to reproduce an unknown unitary process.
翻訳日:2023-07-13 15:18:35 公開日:2023-07-12
# og: インスタンスのセグメンテーションと視覚の接地によるビジョンの占有

OG: Equip vision occupancy with instance segmentation and visual grounding ( http://arxiv.org/abs/2307.05873v1 )

ライセンス: Link先を確認
Zichao Dong, Hang Ji, Weikun Zhang, Xufeng Huang, Junbo Chen(参考訳) 占有予測タスクは、各voxelの幾何ラベルと意味ラベルの両方の推論にフォーカスしており、これは重要な知覚ミッションである。 しかし、様々なインスタンスを区別することなくセマンティックセグメンテーションタスクである。 さらに,open-vocabulary occupancy (ovo) のような既存の作品では,オープン語彙検出の問題をすでに解決しているが,視覚の接地は最善の知識では解決されていない。 この2つの制約に対処するため,本論文では,バニラ占有率のセグメンテーション能力を備え,接地SAMの助けを借りてボクセル方式で視覚的グラウンドディングを操作可能な,OG(Occupancy Grounding)を提案する。 提案手法の鍵は,(1)インスタンスクラスタリングにおける親和性フィールド予測と(2)2dインスタンスマスクと3d占有インスタンスの連携戦略である。 下記の可視化結果と分析結果を示す大規模な実験が実施されている。 私たちのコードはまもなく公開されます。

Occupancy prediction tasks focus on the inference of both geometry and semantic labels for each voxel, which is an important perception mission. However, it is still a semantic segmentation task without distinguishing various instances. Further, although some existing works, such as Open-Vocabulary Occupancy (OVO), have already solved the problem of open vocabulary detection, visual grounding in occupancy has not been solved to the best of our knowledge. To tackle the above two limitations, this paper proposes Occupancy Grounding (OG), a novel method that equips vanilla occupancy instance segmentation ability and could operate visual grounding in a voxel manner with the help of grounded-SAM. Keys to our approach are (1) affinity field prediction for instance clustering and (2) association strategy for aligning 2D instance masks and 3D occupancy instances. Extensive experiments have been conducted whose visualization results and analysis are shown below. Our code will be publicly released soon.
翻訳日:2023-07-13 14:40:13 公開日:2023-07-12
# 1次元量子ビットアレイにおける光子誘起液滴様境界状態

Photon-induced droplet-like bound states in one-dimensional qubit array ( http://arxiv.org/abs/2307.05868v1 )

ライセンス: Link先を確認
J. Talukdar, D. Blume(参考訳) トンネルエネルギー$j$と強度の非線形性$u$を持つ1次元キャビティアレイと結合した、n_e$非相互作用量子ビットまたはエミッターの配列を考える。 キャビティの数は、キュービットの数よりも大きいと仮定される。 2励起多様体において、2つの励起量子ビットのエネルギーが2光子結合状態バンドとオフ共振するバンドギャップレジームに焦点をあてる。 フォトニック自由度の2段階の断熱的除去は、効果的な相互作用を持つ1次元スピンハミルトニアン(英語版)を生じさせる。特に、ハミルトニアンの特徴は、近接する近傍同士だけでなく、次から次へのスピンと次から次へのホッピング相互作用を制限したシングルキュービットホッピングとペアホッピング相互作用である。 周期的に配列されたキュービットアレイでは,ペアホッピングに重要な特性を持つ新しい滴状境界状態をサポートするパラメータの組み合わせを同定する。 液滴状状態は動的に観測することができる。 オフ共振条件に対する我々の研究で同定された境界状態は、オン共振条件のために出現する局所的ハイブリダイゼーション状態とは異なる。

We consider an array of $N_e$ non-interacting qubits or emitters that are coupled to a one-dimensional cavity array with tunneling energy $J$ and non-linearity of strength $U$. The number of cavities is assumed to be larger than the number of qubits. Working in the two-excitation manifold, we focus on the bandgap regime where the energy of two excited qubits is off-resonant with the two-photon bound state band. A two-step adiabatic elimination of the photonic degrees of freedom gives rise to a one-dimensional spin Hamiltonian with effective interactions; specifically, the Hamiltonian features constrained single-qubit hopping and pair hopping interactions not only between nearest neighbors but also between next-to-nearest and next-to-next-to-nearest spins. For a regularly arranged qubit array, we identify parameter combinations for which the system supports novel droplet-like bound states whose characteristics depend critically on the pair hopping. The droplet-like states can be probed dynamically. The bound states identified in our work for off-resonance conditions are distinct from localized hybridized states that emerge for on-resonance conditions.
翻訳日:2023-07-13 14:39:51 公開日:2023-07-12
# 均質な結果を示すデプロイ機械学習の生態系レベル解析

Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes ( http://arxiv.org/abs/2307.05862v1 )

ライセンス: Link先を確認
Connor Toups, Rishi Bommasani, Kathleen A. Creel, Sarah H. Bana, Dan Jurafsky, Percy Liang(参考訳) 機械学習は従来、モデルレベルで研究されてきた。研究者は、特定のモデルの正確性、堅牢性、バイアス、効率、その他の次元を測定し、改善する。 実際に、機械学習の社会的影響は、機械学習デプロイメントの周囲のコンテキストによって決定される。 単一のモデルを分析するのではなく、与えられたコンテキストにデプロイされるモデルの集合を考えます。 例えば、雇用におけるエコシステムレベルの分析では、求職者の成果は単一の雇用アルゴリズムや企業によって決定されるだけでなく、応募したすべての企業の集団的決定によって決定される。 3つのモダリティ(テキスト、画像、音声)と11のデータセットにまたがって、私たちは明確なトレンドを確立しています。 個々のモデルが時間とともに人口レベルで改善しても、このような改善がシステム障害の頻度を減少させることはめったにない。 代わりに、これらの改善の利点は、主に、既に他のモデルによって正しく分類されている個人に生じる。 これらの傾向を踏まえ,システム障害のコストが特に高い皮膚科領域の医用画像について考察する。 従来の分析では、モデルと人間の両方で人種的パフォーマンスの相違が見られるが、生態系レベルの分析では、人間の予測に存在しないモデル予測に新しい形態の人種的相違が見られる。 これらの例は、エコシステムレベルの分析が機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。

Machine learning is traditionally studied at the model level: researchers measure and improve the accuracy, robustness, bias, efficiency, and other dimensions of specific models. In practice, the societal impact of machine learning is determined by the surrounding context of machine learning deployments. To capture this, we introduce ecosystem-level analysis: rather than analyzing a single model, we consider the collection of models that are deployed in a given context. For example, ecosystem-level analysis in hiring recognizes that a job candidate's outcomes are not only determined by a single hiring algorithm or firm but instead by the collective decisions of all the firms they applied to. Across three modalities (text, images, speech) and 11 datasets, we establish a clear trend: deployed machine learning is prone to systemic failure, meaning some users are exclusively misclassified by all models available. Even when individual models improve at the population level over time, we find these improvements rarely reduce the prevalence of systemic failure. Instead, the benefits of these improvements predominantly accrue to individuals who are already correctly classified by other models. In light of these trends, we consider medical imaging for dermatology where the costs of systemic failure are especially high. While traditional analyses reveal racial performance disparities for both models and humans, ecosystem-level analysis reveals new forms of racial disparity in model predictions that do not present in human predictions. These examples demonstrate ecosystem-level analysis has unique strengths for characterizing the societal impact of machine learning.
翻訳日:2023-07-13 14:39:24 公開日:2023-07-12
# デコヒーレンスフリー部分空間を用いた分子対称性振動の量子化

Quantum-Enhanced Metrology for Molecular Symmetry Violation using Decoherence-Free Subspaces ( http://arxiv.org/abs/2307.05858v1 )

ライセンス: Link先を確認
Chi Zhang, Phelan Yu, Arian Jadbabaie and Nicholas R. Hutzler(参考訳) 本研究では,標準量子限界を克服する分子の時間反転対称性の破れを計測する手法を提案し,非コヒーレンスフリー部分空間を用いて古典的雑音に対する感度を緩和する。 このプロトコルは外部の電界を必要とせず、エンタングル状態はスピンと双極子の平均的なラボフレーム射影がゼロである重ね合わせを含むため、静的電磁界に対する一階の感度を持たない。 このプロトコルは閉じ込められた中性またはイオン種で適用でき、実験的に実証された方法を用いて実装することができる。

We propose a method to measure time-reversal symmetry violation in molecules that overcomes the standard quantum limit while leveraging decoherence-free subspaces to mitigate sensitivity to classical noise. The protocol does not require an external electric field, and the entangled states have no first-order sensitivity to static electromagnetic fields as they involve superpositions with zero average lab-frame projection of spins and dipoles. This protocol can be applied with trapped neutral or ionic species, and can be implemented using methods which have been demonstrated experimentally.
翻訳日:2023-07-13 14:38:59 公開日:2023-07-12
# fairo: ループ内人間システムのためのシーケンシャル・デシジョン・メイキングにおけるフェアネス・アウェア適応

FAIRO: Fairness-aware Adaptation in Sequential-Decision Making for Human-in-the-Loop Systems ( http://arxiv.org/abs/2307.05857v1 )

ライセンス: Link先を確認
Tianyu Zhao, Mojtaba Taherisadr, Salma Elmalaki(参考訳) HITL(Human-in-the-Loop)環境における逐次決定システムにおける公平性の達成は、特に、異なる行動と期待を持つ複数の人間が、システム内の同じ適応決定によって影響を受ける場合において重要な関心事である。 この人的変動係数は、ある時点で公正であると考えられる政策が、人間間および人的変動から生じる人間の嗜好の変化により、時間とともに差別的になる可能性があるため、複雑さを増す。 本稿では,人間の行動の変動や時間経過に伴う人の嗜好の変化を考慮し,エクイティレンズからの公平性問題に対処する。 本稿では,これらの概念を意思決定プロセスに取り入れた,htl適応における公平性を考慮したシーケンシャル決定アルゴリズムfairoを提案する。 特にfairoは、options reinforcement learningフレームワークを利用して、この複雑なフェアネスタスクを個々の人間の好みに基づいた適応型サブタスクに分解する。 我々は、共有適応決定問題を持つ3種類のHITLアプリケーション設定に一般化するためにFAIROを設計する。 さらに、公正なポリシーがアプリケーションのユーティリティと矛盾することがあることも認識しています。 この課題に対処するため、我々はFAIROでフェアネスユーティリティトレードオフを提供し、システム設計者は特定のアプリケーション要件に基づいてフェアネスとユーティリティの目標をバランスさせることができる。 3つのHITLアプリケーションに対するFAIROの広範囲な評価は、その一般化性と、人間の多様性を考慮しつつ公正性を促進する効果を示す。 平均すると、FAIROは3つのアプリケーション全体にわたる他の方法と比較して35.36%改善できる。

Achieving fairness in sequential-decision making systems within Human-in-the-Loop (HITL) environments is a critical concern, especially when multiple humans with different behavior and expectations are affected by the same adaptation decisions in the system. This human variability factor adds more complexity since policies deemed fair at one point in time may become discriminatory over time due to variations in human preferences resulting from inter- and intra-human variability. This paper addresses the fairness problem from an equity lens, considering human behavior variability, and the changes in human preferences over time. We propose FAIRO, a novel algorithm for fairness-aware sequential-decision making in HITL adaptation, which incorporates these notions into the decision-making process. In particular, FAIRO decomposes this complex fairness task into adaptive sub-tasks based on individual human preferences through leveraging the Options reinforcement learning framework. We design FAIRO to generalize to three types of HITL application setups that have the shared adaptation decision problem. Furthermore, we recognize that fairness-aware policies can sometimes conflict with the application's utility. To address this challenge, we provide a fairness-utility tradeoff in FAIRO, allowing system designers to balance the objectives of fairness and utility based on specific application requirements. Extensive evaluations of FAIRO on the three HITL applications demonstrate its generalizability and effectiveness in promoting fairness while accounting for human variability. On average, FAIRO can improve fairness compared with other methods across all three applications by 35.36%.
翻訳日:2023-07-13 14:38:48 公開日:2023-07-12
# 量子ネットワークトモグラフィによる量子フリップ星のキャラクタリゼーションについて

On the Characterization of Quantum Flip Stars with Quantum Network Tomography ( http://arxiv.org/abs/2307.05854v1 )

ライセンス: Link先を確認
Matheus Guedes de Andrade, Jake Navas, In\`es Monta\~no, and Don Towsley(参考訳) 量子情報システムの実験的実現は、ノイズに対する量子情報の感度が高いため困難である。 この感度を克服することは、大きな距離で確実に量子情報を伝達できる量子ネットワークの設計の中心である。 さらに、量子ネットワークにおける通信ノイズを特徴付ける能力は、量子ネットワークにおけるノイズの影響を克服できるネットワークプロトコルを開発する上で重要である。 この文脈では、量子ネットワークトモグラフィー(quantum network tomography)は、エンドツーエンド計測による量子ネットワーク内のチャネルノイズのキャラクタリゼーションを指す。 本研究では,単一非自明なポーリ作用素を特徴とする量子チャネルによる量子星ネットワークのためのネットワークトモグラフィープロトコルを提案する。 さらに, 状態分布と測定値を分離して設計するトモグラフィープロトコルを導入することで, 量子ビットフリップ星ネットワークのエンド・ツー・エンドのキャラクタリゼーションを実現する。 これまでに提案してきた量子ネットワークトモグラフィプロトコルを基盤として,恒星のビットフリップ確率の特異な特徴付けのための新しい手法を提案する。 本稿では,量子フィッシャー情報行列に基づく理論的ベンチマークを導入し,量子ネットワークプロトコルの効率を比較する。 提案手法を提案プロトコルに適用し,量子ネットワークトモグラフィーにおける絡み合いの潜在的な利点について解析する。 さらに,netsquidを用いて提案プロトコルをシミュレートし,特定のパラメータレジームに対して得られた推定器の収束特性を評価する。 その結果,プロトコルの効率はパラメータ値に依存し,適応型量子ネットワークトモグラフィプロトコルの探索を動機付けることがわかった。

The experimental realization of quantum information systems will be difficult due to how sensitive quantum information is to noise. Overcoming this sensitivity is central to designing quantum networks capable of transmitting quantum information reliably over large distances. Moreover, the ability to characterize communication noise in quantum networks is crucial in developing network protocols capable of overcoming the effects of noise in quantum networks. In this context, quantum network tomography refers to the characterization of channel noise in a quantum network through end-to-end measurements. In this work, we propose network tomography protocols for quantum star networks formed by quantum channels characterized by a single, non-trivial Pauli operator. Our results further the end-to-end characterization of quantum bit-flip star networks by introducing tomography protocols where state distribution and measurements are designed separately. We build upon previously proposed quantum network tomography protocols, as well as provide novel methods for the unique characterization of bit-flip probabilities in stars. We introduce a theoretical benchmark based on the Quantum Fisher Information matrix to compare the efficiency of quantum network protocols. We apply our techniques to the protocols proposed, and provide an initial analysis on the potential benefits of entanglement for Quantum Network Tomography. Furthermore, we simulate the proposed protocols using NetSquid to assess the convergence properties of the estimators obtained for particular parameter regimes. Our findings show that the efficiency of protocols depend on parameter values and motivate the search for adaptive quantum network tomography protocols.
翻訳日:2023-07-13 14:38:23 公開日:2023-07-12
# GLA-GCN:3次元人間のためのグローバルローカル適応グラフ畳み込みネットワーク

GLA-GCN: Global-local Adaptive Graph Convolutional Network for 3D Human ( http://arxiv.org/abs/2307.05853v1 )

ライセンス: Link先を確認
Bruce X.B. Yu, Zhi Zhang, Yongxu Liu, Sheng-hua Zhong, Yan Liu, Chang Wen Chen(参考訳) 3d人間のポーズ推定は、有望な果物で何十年も研究されてきた。 3次元ポーズリフトは、推定ポーズと地上真実ポーズの両方がトレーニングに使用されるタスクに向けた有望な研究方向の1つである。 既存のポーズリフト作業は、主に推定されたポーズのパフォーマンス向上に重点を置いているが、地上の真実のポーズデータをテストする場合、通常はパフォーマンスが低下する。 2Dポーズの微調整や高度な2Dポーズ検出器の使用など、高品質な2Dポーズを作成することで、推定されたポーズの性能を容易に向上することができる。 そこで我々は,より高品質な推定ポーズデータの改善のために,地上の真実データによる3次元ポーズリフトの改善に注力する。 この目標に向けて,GLA-GCN(Global-local Adaptive Graph Convolutional Network)と呼ばれるシンプルなモデルを提案する。 gla-gcnは、グラフ表現を介して時空間構造をグローバルにモデル化し、個別連結層による3次元ポーズ推定のための局所ジョイント特徴をバックトレースする。 モデル設計を検証するため,Human3.6M,HumanEva-I,MPI-INF-3DHPの3つのベンチマークデータセットについて広範な実験を行った。 実験結果から,GLA-GCNを地中真理2Dで実装すると,最先端手法(Human3.6M,HumanEva-I,MPI-INF-3DHP)の精度は,それぞれ3%,17%,13%であった。

3D human pose estimation has been researched for decades with promising fruits. 3D human pose lifting is one of the promising research directions toward the task where both estimated pose and ground truth pose data are used for training. Existing pose lifting works mainly focus on improving the performance of estimated pose, but they usually underperform when testing on the ground truth pose data. We observe that the performance of the estimated pose can be easily improved by preparing good quality 2D pose, such as fine-tuning the 2D pose or using advanced 2D pose detectors. As such, we concentrate on improving the 3D human pose lifting via ground truth data for the future improvement of more quality estimated pose data. Towards this goal, a simple yet effective model called Global-local Adaptive Graph Convolutional Network (GLA-GCN) is proposed in this work. Our GLA-GCN globally models the spatiotemporal structure via a graph representation and backtraces local joint features for 3D human pose estimation via individually connected layers. To validate our model design, we conduct extensive experiments on three benchmark datasets: Human3.6M, HumanEva-I, and MPI-INF-3DHP. Experimental results show that our GLA-GCN implemented with ground truth 2D poses significantly outperforms state-of-the-art methods (e.g., up to around 3%, 17%, and 13% error reductions on Human3.6M, HumanEva-I, and MPI-INF-3DHP, respectively).
翻訳日:2023-07-13 14:38:02 公開日:2023-07-12
# 逐次優先順位付き雑音ラベルの定式化:ロバストビデオセグメンテーションのための多段階時間特徴親和性学習

Rectifying Noisy Labels with Sequential Prior: Multi-Scale Temporal Feature Affinity Learning for Robust Video Segmentation ( http://arxiv.org/abs/2307.05898v1 )

ライセンス: Link先を確認
Beilei Cui, Minqing Zhang, Mengya Xu, An Wang, Wu Yuan, Hongliang Ren(参考訳) ノイズラベル問題は、医療画像セグメンテーション内に必然的に存在し、性能が著しく低下する。 ノイズラベル問題に対する従来のセグメンテーション手法は単一の画像のみを使用し、画像間の相関を利用した可能性を見落としている。 特にビデオセグメンテーションでは、隣接するフレームはノイズラベルを認識するのに役立つ豊富なコンテキスト情報を含んでいる。 2つの知見に基づいて,ノイズラベル付き医療ビデオセグメンテーション問題を解決するため,MS-TFAL(Multi-Scale Temporal Feature Affinity Learning)フレームワークを提案する。 まず,ビデオの逐次的先行は効果的な参照であり,隣接するフレームからのピクセルレベルの特徴は同じクラスに対して距離が近かったり,あるいは距離が遠かったりする。 そのため、2つの隣接フレームにおける画素間の親和性を評価することにより、うるうるノイズラベルを示すために、TFAL(Temporal Feature Affinity Learning)を考案した。 また、ノイズ分布はビデオ、画像、ピクセルレベルによってかなり異なることに気付きました。 そこで,本研究では,サンプルの再重み付けと精錬によりネットワークを3つの異なる視点から監視するマルチスケール・スーパーバイザリング(mss)を導入する。 この設計により、ネットワークは粗い方法でクリーンなサンプルに集中することができる。 合成ラベルノイズと実世界のラベルノイズの両方を用いた実験により,最近の最先端のロバストセグメンテーション手法に勝ることを示す。 コードはhttps://github.com/BeileiCui/MS-TFALで入手できる。

Noisy label problems are inevitably in existence within medical image segmentation causing severe performance degradation. Previous segmentation methods for noisy label problems only utilize a single image while the potential of leveraging the correlation between images has been overlooked. Especially for video segmentation, adjacent frames contain rich contextual information beneficial in cognizing noisy labels. Based on two insights, we propose a Multi-Scale Temporal Feature Affinity Learning (MS-TFAL) framework to resolve noisy-labeled medical video segmentation issues. First, we argue the sequential prior of videos is an effective reference, i.e., pixel-level features from adjacent frames are close in distance for the same class and far in distance otherwise. Therefore, Temporal Feature Affinity Learning (TFAL) is devised to indicate possible noisy labels by evaluating the affinity between pixels in two adjacent frames. We also notice that the noise distribution exhibits considerable variations across video, image, and pixel levels. In this way, we introduce Multi-Scale Supervision (MSS) to supervise the network from three different perspectives by re-weighting and refining the samples. This design enables the network to concentrate on clean samples in a coarse-to-fine manner. Experiments with both synthetic and real-world label noise demonstrate that our method outperforms recent state-of-the-art robust segmentation approaches. Code is available at https://github.com/BeileiCui/MS-TFAL.
翻訳日:2023-07-13 14:31:00 公開日:2023-07-12
# 深層学習に基づく多視点画像からの全身運動量の推定

Deep learning-based estimation of whole-body kinematics from multi-view images ( http://arxiv.org/abs/2307.05896v1 )

ライセンス: Link先を確認
Kien X. Nguyen, Liying Zheng, Ashley L. Hawke, Robert E. Carey, Scott P. Breloff, Kang Li, Xi Peng(参考訳) 職業における致命的・筋骨格損傷のリスクを評価するためには,全身運動学(関節位置や関節角度を含む)の分析が必要である。 近年,共同位置決定における誤差を最小化する手法として,人間のポーズ推定が注目されている。 しかし,関節角度の評価は行われず,関節角度評価の品質も評価されない。 本稿では,多視点画像からの直交角度推定におけるエンドツーエンドアプローチを提案する。 提案手法は体積的ポーズ表現を活用し,各回転が一意に表現された連続空間に回転表現をマッピングした。 また,直接関節角度推定のための教師あり訓練手順に必要なアノテーションを生成するデータ処理パイプラインを用いて,住宅屋根の領域に新たなキネマティックデータセットを提示した。 新しい屋根付きデータセットでは平均アングル誤差が7.19^\circ$、human3.6mデータセットでは8.41^\circ$となり、マルチビュー画像を用いた現場運動解析の雇用方法が確立された。

It is necessary to analyze the whole-body kinematics (including joint locations and joint angles) to assess risks of fatal and musculoskeletal injuries in occupational tasks. Human pose estimation has gotten more attention in recent years as a method to minimize the errors in determining joint locations. However, the joint angles are not often estimated, nor is the quality of joint angle estimation assessed. In this paper, we presented an end-to-end approach on direct joint angle estimation from multi-view images. Our method leveraged the volumetric pose representation and mapped the rotation representation to a continuous space where each rotation was uniquely represented. We also presented a new kinematic dataset in the domain of residential roofing with a data processing pipeline to generate necessary annotations for the supervised training procedure on direct joint angle estimation. We achieved a mean angle error of $7.19^\circ$ on the new Roofing dataset and $8.41^\circ$ on the Human3.6M dataset, paving the way for employment of on-site kinematic analysis using multi-view images.
翻訳日:2023-07-13 14:30:37 公開日:2023-07-12
# 非凸ロバスト主成分分析のためのディープアンロール

Deep Unrolling for Nonconvex Robust Principal Component Analysis ( http://arxiv.org/abs/2307.05893v1 )

ライセンス: Link先を確認
Elizabeth Z. C. Tan, Caroline Chaux, Emmanuel Soubies, Vincent Y. F. Tan(参考訳) 我々は、行列を低階行列とスパース行列の和に分解するロバスト主成分分析(RPCA)のアルゴリズムを設計する。 本稿では,RPCAを非凸形式で解くことを目的とした,高速な交互プロジェクションアルゴリズムに基づくディープアンローリングアルゴリズムを提案する。 提案手法は、ディープニューラルネットワークの利点と元のアルゴリズムの解釈可能性を組み合わせて、ハイパーパラメータを自動的に学習する。 本研究では,合成データセットおよび顔モデリング問題に対する未ロールアルゴリズムの有効性を実証し,数値的および視覚的性能の向上に繋がる。

We design algorithms for Robust Principal Component Analysis (RPCA) which consists in decomposing a matrix into the sum of a low rank matrix and a sparse matrix. We propose a deep unrolled algorithm based on an accelerated alternating projection algorithm which aims to solve RPCA in its nonconvex form. The proposed procedure combines benefits of deep neural networks and the interpretability of the original algorithm and it automatically learns hyperparameters. We demonstrate the unrolled algorithm's effectiveness on synthetic datasets and also on a face modeling problem, where it leads to both better numerical and visual performances.
翻訳日:2023-07-13 14:30:19 公開日:2023-07-12
# SC-NeuS : スパース・ノイズからの一貫した神経表面再構成

SC-NeuS: Consistent Neural Surface Reconstruction from Sparse and Noisy Views ( http://arxiv.org/abs/2307.05892v1 )

ライセンス: Link先を確認
Shi-Sheng Huang, Zi-Xin Zou, Yi-Chi Zhang, Hua Huang(参考訳) ボリュームレンダリングによる最近の神経表面再構成は、印象的な表面再構成品質を達成することで大きな進歩を遂げているが、それでも高密度で高精度なポーズドビューに限定されている。 このような欠点を克服するために、ノイズの多いカメラポーズによるスパースビューから一貫した表面再構成を特に注目する。 従来のアプローチと異なり,本論文の主な違いは,ニューラルサーフェスの明示的な幾何から,マルチビュー制約を直接活用することであり,ニューラルサーフェスを共同で学習し,カメラポーズを洗練するための効果的な正規化として使用できる。 実効的な多視点制約を構築するために,地上の点を生成するための高速な微分可能交叉を導入し,そのような微分可能な点に基づく視点依存的損失を提案し,ニューラルサーフェス学習を規則化する。 そこで本稿では, SC-NeuS と呼ばれるニューラルサーフェスとカメラポーズの協調学習手法を提案する。 公開データセットを広範囲に評価することで,前回のニューラルサーフェス再構成法よりも細部まで細部まで細分化した表面再構成結果が得られる。

The recent neural surface reconstruction by volume rendering approaches have made much progress by achieving impressive surface reconstruction quality, but are still limited to dense and highly accurate posed views. To overcome such drawbacks, this paper pays special attention on the consistent surface reconstruction from sparse views with noisy camera poses. Unlike previous approaches, the key difference of this paper is to exploit the multi-view constraints directly from the explicit geometry of the neural surface, which can be used as effective regularization to jointly learn the neural surface and refine the camera poses. To build effective multi-view constraints, we introduce a fast differentiable on-surface intersection to generate on-surface points, and propose view-consistent losses based on such differentiable points to regularize the neural surface learning. Based on this point, we propose a jointly learning strategy for neural surface and camera poses, named SC-NeuS, to perform geometry-consistent surface reconstruction in an end-to-end manner. With extensive evaluation on public datasets, our SC-NeuS can achieve consistently better surface reconstruction results with fine-grained details than previous state-of-the-art neural surface reconstruction approaches, especially from sparse and noisy camera views.
翻訳日:2023-07-13 14:30:09 公開日:2023-07-12
# 部分可観測制御タスクにおける深層強化学習のためのpidインスパイアインダクティブバイアス

PID-Inspired Inductive Biases for Deep Reinforcement Learning in Partially Observable Control Tasks ( http://arxiv.org/abs/2307.05891v1 )

ライセンス: Link先を確認
Ian Char and Jeff Schneider(参考訳) 深層強化学習(英語版) (RL) は、データだけでシステムを制御できる大きな可能性を示している。 しかし、深いRLが直面する課題の1つは、システムの完全な状態がしばしば観測できないことである。 このような場合、ポリシーは現在の状態を推測するために観測履歴を活用する必要があります。 同時に、トレーニング環境とテスト環境の違いは、トレーニング時に見る観察のシーケンスに過度に適合しないようにポリシーを重要視します。 このように、履歴エンコーダが関連する情報を抽出するのに十分な柔軟性を持ちながら、環境の変化に頑健であることの間には、重要なバランスをとる行為がある。 このバランスをとるために、私たちはPIDコントローラにインスピレーションを与えます。 PIDコントローラの成功は、多くの制御タスクに時間をかけて情報を蓄積するためには、和と差分のみが必要であることを示す。 この原則に従って,PID機能を直接利用するアーキテクチャと,これらのコアアイデアを拡張して任意の制御タスクで使用できるアーキテクチャの2つを提案する。 従来のアプローチと比較すると、エンコーダは、多くの場合、より堅牢で、さまざまなトラッキングタスクでパフォーマンスが向上するポリシを生成します。 タスクのトラッキングを超えて、我々のポリシーは、高次元制御タスクスイートにおける従来の最先端メソッドよりも平均1.7倍高いパフォーマンスを達成する。

Deep reinforcement learning (RL) has shown immense potential for learning to control systems through data alone. However, one challenge deep RL faces is that the full state of the system is often not observable. When this is the case, the policy needs to leverage the history of observations to infer the current state. At the same time, differences between the training and testing environments makes it critical for the policy not to overfit to the sequence of observations it sees at training time. As such, there is an important balancing act between having the history encoder be flexible enough to extract relevant information, yet be robust to changes in the environment. To strike this balance, we look to the PID controller for inspiration. We assert the PID controller's success shows that only summing and differencing are needed to accumulate information over time for many control tasks. Following this principle, we propose two architectures for encoding history: one that directly uses PID features and another that extends these core ideas and can be used in arbitrary control tasks. When compared with prior approaches, our encoders produce policies that are often more robust and achieve better performance on a variety of tracking tasks. Going beyond tracking tasks, our policies achieve 1.7x better performance on average over previous state-of-the-art methods on a suite of high dimensional control tasks.
翻訳日:2023-07-13 14:29:41 公開日:2023-07-12
# FreeSeed:Sparse-view CT再構成のための周波数帯域認識と自己誘導ネットワーク

FreeSeed: Frequency-band-aware and Self-guided Network for Sparse-view CT Reconstruction ( http://arxiv.org/abs/2307.05890v1 )

ライセンス: Link先を確認
Chenglong Ma, Zilong Li, Junping Zhang, Yi Zhang, Hongming Shan(参考訳) スパースビューct(sparse-view ct、ct)は、スキャンプロセスの迅速化と患者への放射線被曝の軽減に有望な解決策であるが、再構成された画像には重度のストリークアーティファクトが含まれており、その後のスクリーニングと診断を阻害している。 近年,深層学習に基づく画像ポストプロセッシング手法とデュアルドメイン対応手法が有望な結果を示している。 しかし,既存の手法では,(1)画像領域のアーティファクトパターンを正確にモデル化することの難しさ,(2)損失関数における各ピクセルの平等な処理などにより,細部が不明瞭な画像を生成することが多い。 そこで我々は,これらの問題に対処するため,画像のポストプロセッシングに重点を置き,簡易かつ効果的な周波数帯域認識・自己誘導型ネットワークであるfreeseedを提案する。 具体的には,まず周波数帯域アウェアアーティファクトモデリングネットワーク(freenet)を提案する。これはフーリエ領域におけるアーティファクト関連周波数帯域アテンションを学習し,スパースビューct画像上のグローバルに分散したストリークアーティファクトのモデリングを改善する。 次に、予測されたアーティファクトを活用する自己誘導のアーティファクトリファインメントネットワーク(SeedNet)を導入し、FreeNetが悪化した詳細を洗練し続けるのを支援します。 広汎な実験は、最先端のスパース・ビューCT再構成法よりもFreeSeedとその二重ドメインの優れた性能を示す。 ソースコードはhttps://github.com/masaaki-75/freeseedで入手できる。

Sparse-view computed tomography (CT) is a promising solution for expediting the scanning process and mitigating radiation exposure to patients, the reconstructed images, however, contain severe streak artifacts, compromising subsequent screening and diagnosis. Recently, deep learning-based image post-processing methods along with their dual-domain counterparts have shown promising results. However, existing methods usually produce over-smoothed images with loss of details due to (1) the difficulty in accurately modeling the artifact patterns in the image domain, and (2) the equal treatment of each pixel in the loss function. To address these issues, we concentrate on the image post-processing and propose a simple yet effective FREquency-band-awarE and SElf-guidED network, termed FreeSeed, which can effectively remove artifact and recover missing detail from the contaminated sparse-view CT images. Specifically, we first propose a frequency-band-aware artifact modeling network (FreeNet), which learns artifact-related frequency-band attention in Fourier domain for better modeling the globally distributed streak artifact on the sparse-view CT images. We then introduce a self-guided artifact refinement network (SeedNet), which leverages the predicted artifact to assist FreeNet in continuing to refine the severely corrupted details. Extensive experiments demonstrate the superior performance of FreeSeed and its dual-domain counterpart over the state-of-the-art sparse-view CT reconstruction methods. Source code is made available at https://github.com/Masaaki-75/freeseed.
翻訳日:2023-07-13 14:29:18 公開日:2023-07-12
# 分裂検出の再検討: 多様なデータと特徴表現に向けて

Rethinking Mitosis Detection: Towards Diverse Data and Feature Representation ( http://arxiv.org/abs/2307.05889v1 )

ライセンス: Link先を確認
Hao Wang, Jiatai Lin, Danyi Li, Jing Wang, Bingchao Zhao, Zhenwei Shi, Xipeng Pan, Huadeng Wang, Bingbing Li, Changhong Liang, Guoqiang Han, Li Liang, Chu Han, Zaiyi Liu(参考訳) 分裂の検出は、計算病理学における基本的な課題の1つであり、分裂細胞の多様性のために非常に困難である。 現在の研究のほとんどは、モデルの複雑さを増大させることで、技術的な側面における不均一性を解決する。 しかし、生物学的知識や複雑なモデル設計の考慮を欠くことは、検出モデルの一般化可能性を制限する一方で、過剰フィッティング問題につながる可能性がある。 本稿では,異なる分裂期および曖昧な非分裂細胞における形態学的外観を体系的に研究し,データと特徴の多様性のバランスがよりよい一般化性を達成することができることを明らかにする。 そこで本研究ではmitdet(generalizable framework for mitosis detection)を提案する。 データ多様性は、提案された多様性誘導サンプルバランス(DGSB)によって考慮される。 特徴多様性はクラス内およびクラス内特徴多様性保存モジュール(InCDP)によって保存される。 Stain enhancement (SE)モジュールは、データと機能のドメイン関連多様性を同時に向上するために導入された。 広範囲な実験により,提案手法は点アノテーションのみを用いた最小限のアノテーションによる内部および外部テストセットにおいて,いくつかの一般的なミトーシス検出データセットにおいて,SOTAアプローチよりも優れた性能を示した。 包括的アブレーション研究は、データの再考と特徴の多様性バランスの効果も証明している。 実験結果を定量的に定性的に分析することにより,提案モデルがSOTAの性能を達成するだけでなく,新たな観点からの今後の研究を促すことができると考えている。 ソースコードはhttps://github.com/onehour0108/mitdet。

Mitosis detection is one of the fundamental tasks in computational pathology, which is extremely challenging due to the heterogeneity of mitotic cell. Most of the current studies solve the heterogeneity in the technical aspect by increasing the model complexity. However, lacking consideration of the biological knowledge and the complex model design may lead to the overfitting problem while limited the generalizability of the detection model. In this paper, we systematically study the morphological appearances in different mitotic phases as well as the ambiguous non-mitotic cells and identify that balancing the data and feature diversity can achieve better generalizability. Based on this observation, we propose a novel generalizable framework (MitDet) for mitosis detection. The data diversity is considered by the proposed diversity-guided sample balancing (DGSB). And the feature diversity is preserved by inter- and intra- class feature diversity-preserved module (InCDP). Stain enhancement (SE) module is introduced to enhance the domain-relevant diversity of both data and features simultaneously. Extensive experiments have demonstrated that our proposed model outperforms all the SOTA approaches in several popular mitosis detection datasets in both internal and external test sets using minimal annotation efforts with point annotations only. Comprehensive ablation studies have also proven the effectiveness of the rethinking of data and feature diversity balancing. By analyzing the results quantitatively and qualitatively, we believe that our proposed model not only achieves SOTA performance but also might inspire the future studies in new perspectives. Source code is at https://github.com/Onehour0108/MitDet.
翻訳日:2023-07-13 14:28:47 公開日:2023-07-12
# エッジ/クラウドコンピューティング環境におけるディジタルツインの効率的なタスクオフロードアルゴリズム

Efficient Task Offloading Algorithm for Digital Twin in Edge/Cloud Computing Environment ( http://arxiv.org/abs/2307.05888v1 )

ライセンス: Link先を確認
Ziru Zhang, Xuling Zhang, Guangzhi Zhu, Yuyang Wang and Pan Hui(参考訳) モノのインターネット(IoT)の時代において、デジタルツイン(DT)は物理オブジェクトとデジタル世界の間の橋渡しとして、様々な領域に力を与えることを想定している。 仮想化とシミュレーション技術によって、コンピューティングリソースを活用することで、複数の機能を実現できる。 このプロセスでは、リアルタイムフィードバックを実現する上で、Mobile Cloud Computing(MCC)とMobile Edge Computing(MEC)の2つが重要な要素となっている。 しかしながら、現在の動作は、DTシステムモデルにおけるエッジサーバまたはクラウドサーバのみである。 さらに、モデルは1つのデータリソースだけでDTを無視します。 本稿では異種MEC/MCC環境を考慮した新しいDTシステムモデルを提案する。 モデル内の各DTは、複数のデータ収集デバイスを介してサーバの1つで維持される。 オフロード決定問題についても検討し,分散ディープラーニング(DDL)に基づく新しいオフロード方式を提案する。 シミュレーションの結果,提案アルゴリズムは,システムの平均遅延とエネルギー消費を効果的かつ効率的に低減できることを示した。 DTの動的環境下でのベースラインと比較して重要な改善が達成される。

In the era of Internet of Things (IoT), Digital Twin (DT) is envisioned to empower various areas as a bridge between physical objects and the digital world. Through virtualization and simulation techniques, multiple functions can be achieved by leveraging computing resources. In this process, Mobile Cloud Computing (MCC) and Mobile Edge Computing (MEC) have become two of the key factors to achieve real-time feedback. However, current works only considered edge servers or cloud servers in the DT system models. Besides, The models ignore the DT with not only one data resource. In this paper, we propose a new DT system model considering a heterogeneous MEC/MCC environment. Each DT in the model is maintained in one of the servers via multiple data collection devices. The offloading decision-making problem is also considered and a new offloading scheme is proposed based on Distributed Deep Learning (DDL). Simulation results demonstrate that our proposed algorithm can effectively and efficiently decrease the system's average latency and energy consumption. Significant improvement is achieved compared with the baselines under the dynamic environment of DTs.
翻訳日:2023-07-13 14:28:20 公開日:2023-07-12
# 時間依存coxサバイバルニューラルネットワークによる動的予測

Dynamic Prediction using Time-Dependent Cox Survival Neural Network ( http://arxiv.org/abs/2307.05881v1 )

ライセンス: Link先を確認
Lang Zeng, Jipeng Zhang, Wei Chen, Ying Ding(参考訳) 動的予測の目標は、新たなデータが利用可能になると更新可能な、個人化されたリスク予測を提供することだ。 進行眼疾患, 年齢関連黄斑変性(AMD)の動的予測モデルを確立することにより, 時間依存型Coxモデルに基づく生存ニューラルネットワーク(tdCoxSNN)を提案し, 経時的眼底画像を用いてその進行を連続的に予測した。 tdcoxsnnは時間依存coxモデルを拡張し、ニューラルネットワークを利用して時間依存coxの非線形効果を生存率にモデル化する。 さらに、畳み込みニューラルネットワーク(CNN)を組み込むことで、tdCoxSNNは縦方向の生画像を入力することができる。 提案手法を,2つの時間依存精度指標であるBrier ScoreとDynamic AUCを用いて総合シミュレーションにより,共同モデリングおよびランドマーク化手法と比較した。 提案手法を2つの実データに適用した。 AREDS(Aage-Related Eye Disease Study、老化関連眼疾患研究)は、4000人以上の参加者に対して、12年間に5万枚以上の眼底画像が撮影された大規模なAMD研究である。 もうひとつは原発性胆汁性肝硬変 (PBC) の公的データセットで, 経時的に複数回検査を行い, 移植時期を予測した。 本手法はシミュレーションと実データ解析の両方において良好な予測性能を実現する。 tdCoxSNNはPyTorch、Tensorflow、R-Tensorflowで実装された。

The target of dynamic prediction is to provide individualized risk predictions over time which can be updated as new data become available. Motivated by establishing a dynamic prediction model for the progressive eye disease, age-related macular degeneration (AMD), we proposed a time-dependent Cox model-based survival neural network (tdCoxSNN) to predict its progression on a continuous time scale using longitudinal fundus images. tdCoxSNN extends the time-dependent Cox model by utilizing a neural network to model the non-linear effect of the time-dependent covariates on the survival outcome. Additionally, by incorporating the convolutional neural network (CNN), tdCoxSNN can take the longitudinal raw images as input. We evaluate and compare our proposed method with joint modeling and landmarking approaches through comprehensive simulations using two time-dependent accuracy metrics, the Brier Score and dynamic AUC. We applied the proposed approach to two real datasets. One is a large AMD study, the Age-Related Eye Disease Study (AREDS), in which more than 50,000 fundus images were captured over a period of 12 years for more than 4,000 participants. Another is a public dataset of the primary biliary cirrhosis (PBC) disease, in which multiple lab tests were longitudinally collected to predict the time-to-liver transplant. Our approach achieves satisfactory prediction performance in both simulation studies and the two real data analyses. tdCoxSNN was implemented in PyTorch, Tensorflow, and R-Tensorflow.
翻訳日:2023-07-13 14:28:06 公開日:2023-07-12
# 注意機構としてのマルチオブジェクト追跡

Multi-Object Tracking as Attention Mechanism ( http://arxiv.org/abs/2307.05874v1 )

ライセンス: Link先を確認
Hiroshi Fukui and Taiki Miyagawa and Yusuke Morishita(参考訳) 本稿では,カルマンフィルタ,ハンガリーアルゴリズム,トランスフォーマーブロック,グラフネットワークなどの付加モジュールを必要としない,概念的に単純かつ高速なマルチオブジェクト追跡(MOT)モデルを提案する。 従来のMOTモデルは上記のマルチステップモジュール上に構築されており、計算コストが高い。 提案するエンドツーエンドMOTモデルである \textit{TicrossNet} は,ベース検出器とクロスアテンションモジュールのみで構成されている。 その結果、インスタンス数(N_t$)が増加しても、トラッキングのオーバーヘッドは大幅に増加しない。 具体的には、mot17では32.6 fps、mot20(tesla v100)では31.0 fpsを実現し、1フレームあたり最大$100のインスタンスを含む。 また、TicrossNetは$N_t$に対して堅牢であるため、リアルタイム処理の他のモデルでよく行われているように、$N_t$に依存するため、ベース検出器のサイズを変更する必要はない。

We propose a conceptually simple and thus fast multi-object tracking (MOT) model that does not require any attached modules, such as the Kalman filter, Hungarian algorithm, transformer blocks, or graph networks. Conventional MOT models are built upon the multi-step modules listed above, and thus the computational cost is high. Our proposed end-to-end MOT model, \textit{TicrossNet}, is composed of a base detector and a cross-attention module only. As a result, the overhead of tracking does not increase significantly even when the number of instances ($N_t$) increases. We show that TicrossNet runs \textit{in real-time}; specifically, it achieves 32.6 FPS on MOT17 and 31.0 FPS on MOT20 (Tesla V100), which includes as many as $>$100 instances per frame. We also demonstrate that TicrossNet is robust to $N_t$; thus, it does not have to change the size of the base detector, depending on $N_t$, as is often done by other models for real-time processing.
翻訳日:2023-07-13 14:27:38 公開日:2023-07-12
# SwiFT:スウィン4D fMRI変換器

SwiFT: Swin 4D fMRI Transformer ( http://arxiv.org/abs/2307.05916v1 )

ライセンス: Link先を確認
Peter Yongho Kim, Junbeom Kwon, Sunghwan Joo, Sangyoon Bae, Donggyu Lee, Yoonho Jung, Shinjae Yoo, Jiook Cha, Taesup Moon(参考訳) 4次元機能MRIのような高次元データからの時空間脳波のモデリングは、神経科学における重大な課題である。 この課題に対処するために、スウィン4d fmriトランスフォーマーであるswift(swin 4d fmri transformer)を提案する。スウィントランスフォーマーは4d機能的脳mriデータから直接、メモリと計算効率のよい方法で脳のダイナミクスを学ぶことができる。 swiftは4dウィンドウのマルチヘッドセルフアテンション機構と絶対位置埋め込みを実装することでこれを実現する。 性別,年齢,認知的知性などのタスクにおいて,最大規模の脳機能画像データセットを用いてswiftを評価する。 我々の実験結果から、SwiFTは最新の最先端モデルよりも一貫して優れています。 我々の知る限りでは、SwiFTは最初のSwin Transformerアーキテクチャであり、三次元時空間脳機能データをエンドツーエンドで処理できる。 さらに,エンド・ツー・エンドの学習能力から,下位タスクのパフォーマンス向上のためには,swiftのコントラスト的損失ベース自己教師付き事前学習も可能であることを示した。 我々の研究は、高次元fMRIにトランスフォーマーモデルを適用する際のハードルを減らし、神経科学研究における機能的脳画像のスケーラブルな学習を促進する大きな可能性を秘めていると信じている。

The modeling of spatiotemporal brain dynamics from high-dimensional data, such as 4D functional MRI, is a formidable task in neuroscience. To address this challenge, we present SwiFT (Swin 4D fMRI Transformer), a Swin Transformer architecture that can learn brain dynamics directly from 4D functional brain MRI data in a memory and computation-efficient manner. SwiFT achieves this by implementing a 4D window multi-head self-attention mechanism and absolute positional embeddings. We evaluate SwiFT using multiple largest-scale human functional brain imaging datasets in tasks such as predicting sex, age, and cognitive intelligence. Our experimental outcomes reveal that SwiFT consistently outperforms recent state-of-the-art models. To the best of our knowledge, SwiFT is the first Swin Transformer architecture that can process dimensional spatiotemporal brain functional data in an end-to-end fashion. Furthermore, due to the end-to-end learning capability, we also show that contrastive loss-based self-supervised pre-training of SwiFT is also feasible for achieving improved performance on a downstream task. We believe that our work holds substantial potential in facilitating scalable learning of functional brain imaging in neuroscience research by reducing the hurdles associated with applying Transformer models to high-dimensional fMRI.
翻訳日:2023-07-13 14:20:46 公開日:2023-07-12
# Prompt Generate Train (PGT): ドメイン固有のオープンブック質問応答のための検索器拡張生成(RAG)モデルの少数ショットドメイン適応、アライメント、不確実性校正のためのフレームワーク

Prompt Generate Train (PGT): A framework for few-shot domain adaptation, alignment, and uncertainty calibration of a retriever augmented generation (RAG) model for domain specific open book question-answering ( http://arxiv.org/abs/2307.05915v1 )

ライセンス: Link先を確認
C. S. Krishna(参考訳) 本稿では,オープンブック質問応答のための生成的質問応答モデルを開発するためのフレームワークであるPrompt, Generate, Train (PGT)を提案する。 このフレームワークは、数ショット設定で合成フィードバックによる教師付き微調整および強化学習を用いて、レトリバー拡張生成モデルを対象領域に適応させる。 これにより、GPT-4ベースのコンテキスト内検索拡張生成と競合する整合的不確実性校正モデルが得られ、より低いサービスコストで関連する回答を生成する。 合成生成パイプラインは、中規模のLLM、Flan−T5XXL、および新規な一貫性フィルタリングスキームを含む高品質な合成訓練データを生成する。 パイプラインは、コーパス全体にわたる抽象的および抽出的な質問を生成するように設計されている。 このデータセットのサンプルを使用して、このフレームワークは、データセットのサンプルに高密度検索器と小さいサイズのLLMを含む小さなRAGモデルを微調整する。 並行して、フレームワークはRewardモデルをトレーニングし、幻覚的回答よりも高いドメイン基底の回答をスコアする。 次のフェーズでは、フレームワークは強化学習を使用してRAGモデルとターゲットドメインを整列する。 このステップは、ragモデルが根拠のある回答を生成し、ドメインの質問を無視する能力を改善する。 最終段階では、フレームワークは抽出された質問者に対するモデルの不確かさを補う。 モデルが応答を確信している場合にのみRAGモデルの回答が表面化されるカスケードシステムにモデルを組み込むことができるため、これは望ましい特徴である。

We present a framework - Prompt, Generate, Train (PGT) - to efficiently develop a generative question-answering model for open-book question-answering over a proprietary collection of text documents. The framework adapts a retriever augmented generation model to the target domain using supervised finetuning and reinforcement learning with synthetic feedback in a few-shot setting. This yields an aligned, uncertainty calibrated model that is competitive with GPT-4 based in-context retrieval augmented generation in generating relevant answers at lower serving costs. The synthetic generation pipeline generates high quality synthetic training data musing a medium sized LLM, Flan-T5 XXL, and a novel consistency filtering scheme. The pipeline is designed to generate both abstractive and extractive questions that span the entire corpus. Using samples from this dataset, the framework fine-tunes a smaller RAG model comprising a dense retriever and a smaller sized LLM on samples from the dataset. In parallel, the framework trains a Reward model to score domain grounded answers higher than hallucinated answers. In the next phase, the framework aligns to the RAG model with the target domain using reinforcement learning. This step improves the RAG model's ability to generate grounded answers and ignore out of domain questions. In the final phase, the framework calibrates the model uncertainty for extractive question-answers. This is a desirable feature since the model can be integrated into a cascading system where the RAG model's answer is surfaced only when the model is confident of its answer.
翻訳日:2023-07-13 14:20:22 公開日:2023-07-12
# FIS-ONE:クラウドソーシングRF信号用1ラベル床同定システム

FIS-ONE: Floor Identification System with One Label for Crowdsourced RF Signals ( http://arxiv.org/abs/2307.05914v1 )

ライセンス: Link先を確認
Weipeng Zhuo, Ka Ho Chiu, Jierun Chen, Ziqi Zhao, S.-H. Gary Chan, Sangtae Ha, Chul-Ho Lee(参考訳) クラウドソースされたRF信号のフロアラベルは、マルチフロアの屋内ローカライゼーション、ジオフェンシング、ロボット監視など、多くのスマートシティアプリケーションにとって不可欠である。 その測定に基づいて新しいRF信号の床数を特定するための予測モデルを構築するため、クラウドソースされたRF信号を用いた従来の手法では、各フロアにラベル付き信号サンプルが少なくとも少ないと仮定している。 本研究は, 封筒をさらに推し進め, 底面に1つのフロアラベル信号サンプルのみで, 残りの信号サンプルをラベル付けすることなく, 床識別が可能であることを実証するものである。 FIS-ONEは1つのラベル付きサンプルしか持たない新しい床識別システムである。 FIS-ONEは信号クラスタリングとクラスタインデックスという2つのステップで構成される。 まず、RF信号サンプルをモデル化する二部グラフを構築し、注目グラフニューラルネットワークモデルを用いて各ノード(各信号サンプル)の潜在表現を求め、RF信号サンプルをより正確にクラスタ化できるようにする。 次に,アクセスポイントからの信号が異なるフロア,すなわち信号の流出を検知できるという観測結果を活用して,クラスタを適切なフロアラベルでインデックス化する問題に取り組む。 具体的には,クラスタインデックス化問題を組合せ最適化問題として定式化し,(近距離)最適解が効率的に見つかる旅行セールスマン問題と等価であることを示す。 我々はfis-oneを実装し,microsoft datasetと3つの大規模ショッピングモールで有効性を検証した。 その結果,fis-oneは他のベースラインアルゴリズムよりも大幅に優れており,調整ランド指数は最大23%向上し,正規化相互情報も25%向上した。

Floor labels of crowdsourced RF signals are crucial for many smart-city applications, such as multi-floor indoor localization, geofencing, and robot surveillance. To build a prediction model to identify the floor number of a new RF signal upon its measurement, conventional approaches using the crowdsourced RF signals assume that at least few labeled signal samples are available on each floor. In this work, we push the envelope further and demonstrate that it is technically feasible to enable such floor identification with only one floor-labeled signal sample on the bottom floor while having the rest of signal samples unlabeled. We propose FIS-ONE, a novel floor identification system with only one labeled sample. FIS-ONE consists of two steps, namely signal clustering and cluster indexing. We first build a bipartite graph to model the RF signal samples and obtain a latent representation of each node (each signal sample) using our attention-based graph neural network model so that the RF signal samples can be clustered more accurately. Then, we tackle the problem of indexing the clusters with proper floor labels, by leveraging the observation that signals from an access point can be detected on different floors, i.e., signal spillover. Specifically, we formulate a cluster indexing problem as a combinatorial optimization problem and show that it is equivalent to solving a traveling salesman problem, whose (near-)optimal solution can be found efficiently. We have implemented FIS-ONE and validated its effectiveness on the Microsoft dataset and in three large shopping malls. Our results show that FIS-ONE outperforms other baseline algorithms significantly, with up to 23% improvement in adjusted rand index and 25% improvement in normalized mutual information using only one floor-labeled signal sample.
翻訳日:2023-07-13 14:19:50 公開日:2023-07-12
# 補間光学流によるクローズアップビュー合成

Close-up View synthesis by Interpolating Optical Flow ( http://arxiv.org/abs/2307.05913v1 )

ライセンス: Link先を確認
Xinyi Bai, Ze Wang, Lu Yang, Hong Cheng(参考訳) 仮想視点は、深度情報や不明瞭なカメラパラメータが欠如していることから、仮想ナビゲーションにおける新しい技術として認識されている。 本稿では,深度センサを使わずに擬似3次元投影を実現するために,光学フローのみを用いてパララックス効果を発生させるクローズアップ仮想ビューを実現する手法を提案する。 光フローの比例補間により仮想視点を得るための双方向光フロー法を開発した。 さらに、光学フロー値の巧妙な応用により、googleストリートビューシステムにおける視点拡大と遷移による視覚的歪みや画像のぼかしを克服する、任意の隅角でのレンズストレッチによる明快で視覚的な拡大結果が得られる。

The virtual viewpoint is perceived as a new technique in virtual navigation, as yet not supported due to the lack of depth information and obscure camera parameters. In this paper, a method for achieving close-up virtual view is proposed and it only uses optical flow to build parallax effects to realize pseudo 3D projection without using depth sensor. We develop a bidirectional optical flow method to obtain any virtual viewpoint by proportional interpolation of optical flow. Moreover, with the ingenious application of the optical-flow-value, we achieve clear and visual-fidelity magnified results through lens stretching in any corner, which overcomes the visual distortion and image blur through viewpoint magnification and transition in Google Street View system.
翻訳日:2023-07-13 14:19:22 公開日:2023-07-12
# 実データと生成データを用いた機械学習による粒界・粒界セグメンテーション

Grain and Grain Boundary Segmentation using Machine Learning with Real and Generated Datasets ( http://arxiv.org/abs/2307.05911v1 )

ライセンス: Link先を確認
Peter Warren, Nandhini Raju, Abhilash Prasad, Shajahan Hossain, Ramesh Subramanian, Jayanta Kapat, Navin Manjooran, Ranajay Ghosh(参考訳) 実データと生成データを組み合わせて学習した畳み込みニューラルネットワーク(CNN)を用いて粒界セグメンテーションの精度を大幅に改善した。 手動のセグメンテーションは正確だが時間がかかり、既存の計算手法は高速だがしばしば不正確である。 このジレンマに対処するために、機械学習モデルを使用して手動セグメンテーションの精度を達成し、計算手法の効率を高めることができる。 316L鋼試料から得られた広範囲なデータセットを添加して調製し, 研磨し, エッチングした後, 組織的に微細構造粒子像を収集した。 既存の計算手法と手作業による粒分分割を行い,「実」なトレーニングデータを作成した。 ランダムな合成ノイズと模擬欠陥を併用したボロノイ焼成パターンを開発し, 新規な造粒法を開発した。 これにより、データ集約型機械学習メソッドのトレーニングデータ補完が提供される。 本研究で提案する機械学習手法と計算手法を用いて分割した微細構造画像からの粒度測定の精度を算出し,粒度セグメンテーションのベンチマーク結果と比較した。 400以上のステンレス試料の微細構造像を手作業で分割して機械学習トレーニングを行った。 このデータと人工データはKaggleで利用可能だ。

We report significantly improved accuracy of grain boundary segmentation using Convolutional Neural Networks (CNN) trained on a combination of real and generated data. Manual segmentation is accurate but time-consuming, and existing computational methods are faster but often inaccurate. To combat this dilemma, machine learning models can be used to achieve the accuracy of manual segmentation and have the efficiency of a computational method. An extensive dataset of from 316L stainless steel samples is additively manufactured, prepared, polished, etched, and then microstructure grain images were systematically collected. Grain segmentation via existing computational methods and manual (by-hand) were conducted, to create "real" training data. A Voronoi tessellation pattern combined with random synthetic noise and simulated defects, is developed to create a novel artificial grain image fabrication method. This provided training data supplementation for data-intensive machine learning methods. The accuracy of the grain measurements from microstructure images segmented via computational methods and machine learning methods proposed in this work are calculated and compared to provide much benchmarks in grain segmentation. Over 400 images of the microstructure of stainless steel samples were manually segmented for machine learning training applications. This data and the artificial data is available on Kaggle.
翻訳日:2023-07-13 14:19:06 公開日:2023-07-12
# 予測パイプラインデコーディング: 正確なLLMデコーディングのための計算レイテンシトレードオフ

Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding ( http://arxiv.org/abs/2307.05908v1 )

ライセンス: Link先を確認
Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, Kangwook Lee(参考訳) 本稿では,大言語モデル (llms) におけるグリーディ復号化を高速化する手法である "predictive pipelined decoding (ppd)" について述べる。 従来の戦略とは異なり、ppdは追加の計算リソースを使用して、現在のトークンデコード中に続くトークンデコーディングの開始を並列化する。 この革新的な手法はデコード遅延を低減し、llmデコード戦略におけるトレードオフの理解を再構築する。 我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。 このフレームワークを用いて,p_correctとして表される一致率の評価により,提案手法による遅延低減の可能性について解析的に推定する。 その結果,余剰計算資源を用いることで,LCMのグレディ復号化を加速する可能性が示された。

This paper presents "Predictive Pipelined Decoding (PPD)," an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This innovative method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM greedy decoding.
翻訳日:2023-07-13 14:18:44 公開日:2023-07-12
# コントラスト損失のミニバッチ最適化

Mini-Batch Optimization of Contrastive Loss ( http://arxiv.org/abs/2307.05906v1 )

ライセンス: Link先を確認
Jaewoong Cho, Kartik Sreenivasan, Keon Lee, Kyunghoo Mun, Soheun Yi, Jeong-Gwan Lee, Anna Lee, Jy-yong Sohn, Dimitris Papailiopoulos, Kangwook Lee(参考訳) コントラスト学習は,自己指導型学習の手法として注目されている。 対照的な損失関数は、正のサンプル対の埋め込み(例えば、同じクラスから異なるサンプルや同じオブジェクトの異なるビュー)が類似していることを保証するが、負のペアの埋め込みは異なる。 大きなメモリ要求のような実践的な制約は、全ての可能な正と負のペアを考えることを困難にし、ミニバッチ最適化の使用につながる。 本稿では,コントラスト学習におけるミニバッチ最適化の理論的側面について検討する。 ミニバッチ最適化が完全バッチ最適化と同値であることは、すべての$\binom{N}{B}$ mini-batchesが選択された場合に限るが、サブ最適性はサブセットのみを調べるときに生じる可能性がある。 次に,高損失ミニバッチを利用することでsgd収束を高速化できることを示し,高損失ミニバッチを識別するためのスペクトルクラスタリングに基づくアプローチを提案する。 実験結果から,提案手法がvanilla sgdよりも実環境において優れていることを示し,コントラスト学習におけるミニバッチ最適化の理解を深めた。

Contrastive learning has gained significant attention as a method for self-supervised learning. The contrastive loss function ensures that embeddings of positive sample pairs (e.g., different samples from the same class or different views of the same object) are similar, while embeddings of negative pairs are dissimilar. Practical constraints such as large memory requirements make it challenging to consider all possible positive and negative pairs, leading to the use of mini-batch optimization. In this paper, we investigate the theoretical aspects of mini-batch optimization in contrastive learning. We show that mini-batch optimization is equivalent to full-batch optimization if and only if all $\binom{N}{B}$ mini-batches are selected, while sub-optimality may arise when examining only a subset. We then demonstrate that utilizing high-loss mini-batches can speed up SGD convergence and propose a spectral clustering-based approach for identifying these high-loss mini-batches. Our experimental results validate our theoretical findings and demonstrate that our proposed algorithm outperforms vanilla SGD in practically relevant settings, providing a better understanding of mini-batch optimization in contrastive learning.
翻訳日:2023-07-13 14:18:29 公開日:2023-07-12
# 乗法的平滑化による特徴属性の安定性保証

Stability Guarantees for Feature Attributions with Multiplicative Smoothing ( http://arxiv.org/abs/2307.05902v1 )

ライセンス: Link先を確認
Anton Xue, Rajeev Alur, Eric Wong(参考訳) 機械学習モデルの説明方法は、正式な保証を提供しておらず、根底にある意思決定プロセスを反映しない傾向がある。 本研究では,安定度を信頼性のある特徴帰属特性として解析する。 モデルが特徴のマスキングに関して十分リプシッツである場合、緩和された安定性の変種は保証される。 このようなモデルを実現するために,Multi Plicative Smoothing (MuS) と呼ばれる平滑化手法を開発した。 MuS は標準平滑化手法の理論的限界を克服し,任意の分類器や特徴属性法と統合可能であることを示す。 LIME や SHAP などの様々な特徴帰属手法を用いた視覚モデルや言語モデル上で MuS を評価するとともに, MuS が非自明な安定性を保証する特徴帰属を実現することを示す。

Explanation methods for machine learning models tend to not provide any formal guarantees and may not reflect the underlying decision-making process. In this work, we analyze stability as a property for reliable feature attribution methods. We prove that relaxed variants of stability are guaranteed if the model is sufficiently Lipschitz with respect to the masking of features. To achieve such a model, we develop a smoothing method called Multiplicative Smoothing (MuS). We show that MuS overcomes theoretical limitations of standard smoothing techniques and can be integrated with any classifier and feature attribution method. We evaluate MuS on vision and language models with a variety of feature attribution methods, such as LIME and SHAP, and demonstrate that MuS endows feature attributions with non-trivial stability guarantees.
翻訳日:2023-07-13 14:18:09 公開日:2023-07-12
# 正規化相互相関に基づく畳み込みによる単一領域一般化

Single Domain Generalization via Normalised Cross-correlation Based Convolutions ( http://arxiv.org/abs/2307.05901v1 )

ライセンス: Link先を確認
WeiQin Chuah, Ruwan Tennakoon, Reza Hoseinnezhad, David Suter, Alireza Bab-Hadiashar(参考訳) ディープラーニングのテクニックは、テストデータがトレーニングデータとは異なる分布に従うドメインシフトの存在下では、よく機能しない。 この問題に対処する上で最も望ましいアプローチはs-dg(single domain generalization)で、単一のソースからのデータを使用して堅牢なモデルをトレーニングすることを目的としている。 S-DGの以前の研究は主に、多様なトレーニングデータを生成するためにデータ拡張技術を使うことに重点を置いていた。 本稿では,線形演算子の強靭性,例えば畳み込みや深層学習によく用いられる高密度層について検討する。 重みと入力特徴パッチ間の正規化相互相関を計算するxcnormと呼ばれる新しい演算子を提案する。 このアプローチは、アフィンシフトと局所特徴パッチ内のエネルギーの変化の両方に不変であり、一般的に使用される非線形活性化関数の必要性をなくす。 この演算子からなるディープニューラルネットワークは,共通の意味分布シフトに頑健であることを示す。 さらに, 単ドメイン一般化ベンチマークにおける実験結果から, 提案手法が最先端手法と同等に動作することを示す。

Deep learning techniques often perform poorly in the presence of domain shift, where the test data follows a different distribution than the training data. The most practically desirable approach to address this issue is Single Domain Generalization (S-DG), which aims to train robust models using data from a single source. Prior work on S-DG has primarily focused on using data augmentation techniques to generate diverse training data. In this paper, we explore an alternative approach by investigating the robustness of linear operators, such as convolution and dense layers commonly used in deep learning. We propose a novel operator called XCNorm that computes the normalized cross-correlation between weights and an input feature patch. This approach is invariant to both affine shifts and changes in energy within a local feature patch and eliminates the need for commonly used non-linear activation functions. We show that deep neural networks composed of this operator are robust to common semantic distribution shifts. Furthermore, our empirical results on single-domain generalization benchmarks demonstrate that our proposed technique performs comparably to the state-of-the-art methods.
翻訳日:2023-07-13 14:17:57 公開日:2023-07-12
# DiffuseGAE:非交叉表現による制御可能かつ高忠実な画像操作

DiffuseGAE: Controllable and High-fidelity Image Manipulation from Disentangled Representation ( http://arxiv.org/abs/2307.05899v1 )

ライセンス: Link先を確認
Yipeng Leng, Qiangjuan Huang, Zhiyuan Wang, Yangyang Liu, Haoyu Zhang(参考訳) 拡散確率モデル (DPM) はテキスト・ツー・イメージ生成や画像インパインティングといった様々な画像合成タスクにおいて顕著な結果を示している。 しかしながら、VAEやGANのような他の生成方法と比較して、DPMは低次元、解釈可能、そしてよく分離された潜在コードを持たない。 近年,拡散オートエンコーダ (Diff-AE) が提案されている。 diff-aeは、注目すべき解釈性を示すアクセス可能な潜在性空間を提供し、空間からの潜在コードに基づいて画像属性を操作できます。 ただし、いくつかの限定的な属性でのみ動作するため、以前の作業は汎用的ではない。 さらに,Diff-AEの潜伏空間を探索し,汎用的な編集パイプラインを実現するために,Diff-AEのためのグループ教師付きオートエンコーダ(GAE)と呼ばれるモジュールを提案した。 提案するGAEは属性スワップ戦略を用いて,複数属性の画像操作のための潜在コードを取得する訓練を行っている。 提案手法は,複数属性の操作が可能であり,精度の高いサンプル品質と属性アライメントを実現するとともに,画素ベースのデカップリング手法と比較して計算要求を著しく低減する。 コードはまもなくリリースされる。

Diffusion probabilistic models (DPMs) have shown remarkable results on various image synthesis tasks such as text-to-image generation and image inpainting. However, compared to other generative methods like VAEs and GANs, DPMs lack a low-dimensional, interpretable, and well-decoupled latent code. Recently, diffusion autoencoders (Diff-AE) were proposed to explore the potential of DPMs for representation learning via autoencoding. Diff-AE provides an accessible latent space that exhibits remarkable interpretability, allowing us to manipulate image attributes based on latent codes from the space. However, previous works are not generic as they only operated on a few limited attributes. To further explore the latent space of Diff-AE and achieve a generic editing pipeline, we proposed a module called Group-supervised AutoEncoder(dubbed GAE) for Diff-AE to achieve better disentanglement on the latent code. Our proposed GAE has trained via an attribute-swap strategy to acquire the latent codes for multi-attribute image manipulation based on examples. We empirically demonstrate that our method enables multiple-attributes manipulation and achieves convincing sample quality and attribute alignments, while significantly reducing computational requirements compared to pixel-based approaches for representational decoupling. Code will be released soon.
翻訳日:2023-07-13 14:17:37 公開日:2023-07-12
# yoga: 軽量な特徴学習とマルチスケールな注意を伴う野生の深部物体検出

YOGA: Deep Object Detection in the Wild with Lightweight Feature Learning and Multiscale Attention ( http://arxiv.org/abs/2307.05945v1 )

ライセンス: Link先を確認
Raja Sunkara and Tie Luo(参考訳) 我々は,ディープラーニングをベースとした,かつ軽量なオブジェクト検出モデルであるYOGAを紹介し,競争精度を保ちながら,ローエンドエッジデバイス上で動作可能である。 YOGAアーキテクチャは、安価な線形変換を備えた2相機能学習パイプラインで構成され、従来の畳み込みニューラルネットワークで要求される畳み込みフィルタの半分で特徴マップを学習する。 さらに、従来の検出器で用いられるナイーブ結合の代わりに注意機構を用いて、首にマルチスケールの特徴融合を行う。 YOGAはフレキシブルなモデルであり、幅広いハードウェア制約に適合するために、数桁のスケールアップやスケールダウンが容易である。 我々は、COCO-valおよびCOCO-testdevデータセット上のYOGAを、他の10以上の最先端オブジェクト検出器と比較した。 その結果、YOGAはモデルサイズと精度の最良のトレードオフ(APの最大22%増加とパラメータとFLOPの最大23~34%削減)を達成し、ローエンドエッジデバイス上での配置に最適な選択肢であることがわかった。 これは、NVIDIA Jetson Nano上でのハードウェア実装と評価によってさらに裏付けられる。

We introduce YOGA, a deep learning based yet lightweight object detection model that can operate on low-end edge devices while still achieving competitive accuracy. The YOGA architecture consists of a two-phase feature learning pipeline with a cheap linear transformation, which learns feature maps using only half of the convolution filters required by conventional convolutional neural networks. In addition, it performs multi-scale feature fusion in its neck using an attention mechanism instead of the naive concatenation used by conventional detectors. YOGA is a flexible model that can be easily scaled up or down by several orders of magnitude to fit a broad range of hardware constraints. We evaluate YOGA on COCO-val and COCO-testdev datasets with other over 10 state-of-the-art object detectors. The results show that YOGA strikes the best trade-off between model size and accuracy (up to 22% increase of AP and 23-34% reduction of parameters and FLOPs), making it an ideal choice for deployment in the wild on low-end edge devices. This is further affirmed by our hardware implementation and evaluation on NVIDIA Jetson Nano.
翻訳日:2023-07-13 14:11:52 公開日:2023-07-12
# 9-bメモリセルを組み込んだ137.5TOPS/W SRAMコンピュートインメモリマクロとAIエッジ応用のための信号マージン向上技術

A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge Applications ( http://arxiv.org/abs/2307.05944v1 )

ライセンス: Link先を確認
Xiaomeng Wang, Fengshi Tian, Xizi Chen, Jiakun Zheng, Xuejiao Liu, Fengbin Tu, Jie Yang, Mohamad Sawan, Kwang-Ting (Tim) Cheng, Chi-Ying Tsui(参考訳) 本稿では、4x4ビットMAC演算を行い、9ビット符号付き出力を出力できる高精度SRAMベースのCIMマクロを提案する。 SRAMセルの固有の放電枝を用いて、2ビット線キャパシタに時間変調MACおよび9ビットADC読み出し動作を適用する。 同じ原理がMACとA-to-Dの変換にも使われ、高い線形性を確保し、多くのアナログMAC蓄積をサポートする。 メモリセル埋め込みADCは、別々のADCの使用を排除し、エネルギーと面積効率を高める。 さらに,CIMの計算精度を向上させるために,MAC折り畳み方式とブーストクリッピング方式の2つの信号マージン向上手法を提案する。

In this paper, we propose a high-precision SRAM-based CIM macro that can perform 4x4-bit MAC operations and yield 9-bit signed output. The inherent discharge branches of SRAM cells are utilized to apply time-modulated MAC and 9-bit ADC readout operations on two bit-line capacitors. The same principle is used for both MAC and A-to-D conversion ensuring high linearity and thus supporting large number of analog MAC accumulations. The memory cell-embedded ADC eliminates the use of separate ADCs and enhances energy and area efficiency. Additionally, two signal margin enhancement techniques, namely the MAC-folding and boosted-clipping schemes, are proposed to further improve the CIM computation accuracy.
翻訳日:2023-07-13 14:11:32 公開日:2023-07-12
# マルチモーダル言語理解のための原型コントラスト変換学習

Prototypical Contrastive Transfer Learning for Multimodal Language Understanding ( http://arxiv.org/abs/2307.05942v1 )

ライセンス: Link先を確認
Seitaro Otsuki, Shintaro Ishikawa, Komei Sugiura(参考訳) 家庭内サービスロボットは支援を必要とする個人を支援することが期待されているが、現在自然言語による円滑な対話はできない。 例えば、"bring me a bottle from the kitchen"という指示を考えると、そのようなロボットが屋内環境でボトルを指定することは困難である。 従来のモデルのほとんどは、作業集約型の実世界のデータセットでトレーニングされており、転送学習フレームワークを通じてシミュレーションデータを十分に活用していない。 本研究では,多モーダル言語理解のための新しい伝達学習手法であるPrototypeal Contrastive Transfer Learning (PCTL)を提案する。 国内環境における対象対象物を,自由形式の自然言語命令に従って識別するタスクにPCTLを導入する。 PCTLを検証するために、我々は新しい実世界とシミュレーションデータセットを構築した。 実験の結果,PCTLは既存の手法よりも優れていた。 特にPCTLは78.1%の精度を達成し、単純な微調整は73.4%の精度を達成した。

Although domestic service robots are expected to assist individuals who require support, they cannot currently interact smoothly with people through natural language. For example, given the instruction "Bring me a bottle from the kitchen," it is difficult for such robots to specify the bottle in an indoor environment. Most conventional models have been trained on real-world datasets that are labor-intensive to collect, and they have not fully leveraged simulation data through a transfer learning framework. In this study, we propose a novel transfer learning approach for multimodal language understanding called Prototypical Contrastive Transfer Learning (PCTL), which uses a new contrastive loss called Dual ProtoNCE. We introduce PCTL to the task of identifying target objects in domestic environments according to free-form natural language instructions. To validate PCTL, we built new real-world and simulation datasets. Our experiment demonstrated that PCTL outperformed existing methods. Specifically, PCTL achieved an accuracy of 78.1%, whereas simple fine-tuning achieved an accuracy of 73.4%.
翻訳日:2023-07-13 14:11:16 公開日:2023-07-12
# 業務プロセス監視における予測精度と公平性のトレードオフの自動調整

Automatically Reconciling the Trade-off between Prediction Accuracy and Earliness in Prescriptive Business Process Monitoring ( http://arxiv.org/abs/2307.05939v1 )

ライセンス: Link先を確認
Andreas Metzger, Tristan Kley, Aristide Rothweiler, Klaus Pohl(参考訳) 規範的ビジネスプロセス監視(prescriptive business process monitoring)は、プロセスマネージャに対して、進行中のビジネスプロセスをいつどのように適応させ、望ましくないプロセス結果の防止や緩和を行うかに関する意思決定サポートを提供する。 我々は,適応のタイミングを決定する際に,予測精度と予測誤差との間のトレードオフを自動的に解決する問題に焦点をあてる。 適応は十分に早く行われ、適応が効果的になるのに十分なリードタイムを提供するべきです。 しかし、初期の予測は通常、後の予測よりも正確ではない。 これは、精度の低い予測に作用することで、不要な適応や不必要な適応につながる可能性があることを意味する。 予測精度と補聴器とのトレードオフを和らげるために、文献で異なるアプローチが提示された。 これまでのところ、これらのアプローチは異なるベースラインと比較され、異なるデータセットや機密データセットを使って評価された。 これにより、アプローチの互換性と再現性が制限され、実際に具体的なアプローチを選択することが困難になる。 本研究は,予測精度と親しみやすさのトレードオフを解消するための主な代替手法の比較評価を行う。 4つの実世界のイベントログデータセットと2種類の予測モデルを用いて、これらのアプローチのコスト削減を評価し比較する。 実験結果は,どの基準がアプローチの有効性に影響を与えるかを示し,具体的なアプローチを選択するための初期勧告を提示するのに役立つ。

Prescriptive business process monitoring provides decision support to process managers on when and how to adapt an ongoing business process to prevent or mitigate an undesired process outcome. We focus on the problem of automatically reconciling the trade-off between prediction accuracy and prediction earliness in determining when to adapt. Adaptations should happen sufficiently early to provide enough lead time for the adaptation to become effective. However, earlier predictions are typically less accurate than later predictions. This means that acting on less accurate predictions may lead to unnecessary adaptations or missed adaptations. Different approaches were presented in the literature to reconcile the trade-off between prediction accuracy and earliness. So far, these approaches were compared with different baselines, and evaluated using different data sets or even confidential data sets. This limits the comparability and replicability of the approaches and makes it difficult to choose a concrete approach in practice. We perform a comparative evaluation of the main alternative approaches for reconciling the trade-off between prediction accuracy and earliness. Using four public real-world event log data sets and two types of prediction models, we assess and compare the cost savings of these approaches. The experimental results indicate which criteria affect the effectiveness of an approach and help us state initial recommendations for the selection of a concrete approach in practice.
翻訳日:2023-07-13 14:10:59 公開日:2023-07-12
# Sem-CS: テキストベースの画像スタイル転送のためのセマンティックCLIPStyler

Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer ( http://arxiv.org/abs/2307.05934v1 )

ライセンス: Link先を確認
Chanda Grover Kamra, Indra Deep Mastan, Debayan Gupta(参考訳) CLIPStylerは、(参照スタイルのイメージを必要とする代わりに)スタイル記述のみを使用して、現実的なテクスチャでイメージスタイルの転送をデモした。 しかし、スタイル転送出力におけるオブジェクトの基底セマンティクスは、サルエントや背景オブジェクト(コンテンツミスマッチ)へのスタイルこぼれや過度なスタイライゼーションによって失われる。 そこで,本稿では,セマンティックスタイル転送を行うセマンティッククリップスタイル(sem-cs)を提案する。 Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。 セマンティックなスタイルの転送は、グローバルな前景の損失(有能なオブジェクト)とグローバルな背景の損失(非塩性オブジェクト)を用いて達成される。 DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法が質的,定量的に優れた性能を示すことを示す。 私たちのコードはgithub.com/chandagrover/sem-csで入手できる。

CLIPStyler demonstrated image style transfer with realistic textures using only a style text description (instead of requiring a reference style image). However, the ground semantics of objects in the style transfer output is lost due to style spill-over on salient and background objects (content mismatch) or over-stylization. To solve this, we propose Semantic CLIPStyler (Sem-CS), that performs semantic style transfer. Sem-CS first segments the content image into salient and non-salient objects and then transfers artistic style based on a given style text description. The semantic style transfer is achieved using global foreground loss (for salient objects) and global background loss (for non-salient objects). Our empirical results, including DISTS, NIMA and user study scores, show that our proposed framework yields superior qualitative and quantitative performance. Our code is available at github.com/chandagrover/sem-cs.
翻訳日:2023-07-13 14:10:38 公開日:2023-07-12
# BiRP: 相対パラメタライゼーション法による人間記述の一般化された二元座標学習ロボット

BiRP: Learning Robot Generalized Bimanual Coordination using Relative Parameterization Method on Human Demonstration ( http://arxiv.org/abs/2307.05933v1 )

ライセンス: Link先を確認
Junjia Liu, Hengyi Sim, Chenzui Li, and Fei Chen(参考訳) ヒトの両手操作は2本の腕の単純な組み合わせよりも複雑な作業を行うことができ、腕間の時空間的調整が認められている。 しかし、二元協調の記述はロボティクスにおいてまだオープンな話題である。 これにより、ロボティクスに限らず、説明可能なコーディネーションパラダイムを与えるのが難しくなります。 本研究では,人間の日常活動における主課題を,リーダーフォローと相乗協調の2つのタイプに分けた。 次に,人間の実演からこれらのコーディネーションを学ぶための相対的パラメータ化手法を提案する。 両面的なデモンストレーションから得られたガウス混合モデルとしてコーディネーションを表現し、確率による運動全体のコーディネーションの重要性の変化を記述する。 学習されたコーディネート表現は、時空間的コーディネーションを確保しながら、新しいタスクパラメータに一般化することができる。 人工動作と人間の実演データを用いて人型ロボットに展開し、一般化された双対協調動作を行う手法を実証する。 ロボットによる大規模操作モデルトレーニングのためのデータ拡張プラグインとして,この2次元学習(lfd)手法が利用できる可能性が示唆されている。 対応するコードはhttps://github.com/Skylark0924/Rofuncで公開されている。

Human bimanual manipulation can perform more complex tasks than a simple combination of two single arms, which is credited to the spatio-temporal coordination between the arms. However, the description of bimanual coordination is still an open topic in robotics. This makes it difficult to give an explainable coordination paradigm, let alone applied to robotics. In this work, we divide the main bimanual tasks in human daily activities into two types: leader-follower and synergistic coordination. Then we propose a relative parameterization method to learn these types of coordination from human demonstration. It represents coordination as Gaussian mixture models from bimanual demonstration to describe the change in the importance of coordination throughout the motions by probability. The learned coordinated representation can be generalized to new task parameters while ensuring spatio-temporal coordination. We demonstrate the method using synthetic motions and human demonstration data and deploy it to a humanoid robot to perform a generalized bimanual coordination motion. We believe that this easy-to-use bimanual learning from demonstration (LfD) method has the potential to be used as a data augmentation plugin for robot large manipulation model training. The corresponding codes are open-sourced in https://github.com/Skylark0924/Rofunc.
翻訳日:2023-07-13 14:10:21 公開日:2023-07-12
# aphidクラスタ検出のための新しいデータセットと比較研究

A New Dataset and Comparative Study for Aphid Cluster Detection ( http://arxiv.org/abs/2307.05929v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Kaidong Li, Xiangyu Chen, Cuncong Zhong, Bo Luo, Ivan Grijalva Teran, Brian McCornack, Daniel Flippo, Ajay Sharda, Guanghui Wang(参考訳) アフィドは作物、農村の家族、そして世界の食料安全保障に対する主要な脅威の1つである。 化学害虫防除は収量を最大化するために作物生産に必要な要素であるが、環境汚染やコストを考慮した化学的アプローチを全分野に適用することは不要である。 したがって、アブラムシの正確な局在化と寄生レベルの推定は、殺虫剤の正確な局所的適用に不可欠である。 個々のアブラムシは非常に小さく、すべてのアブラムシがクラスタとして混み合っているため、アブラムシの検出は非常に難しい。 本稿では,アブラムシクラスタの検出により感染レベルを推定する。 我々は,ソリガムフィールドで何百万枚もの画像を撮影し,手動でアフィドを含む5,447枚の画像を選択し,各アフィドクラスタに注釈を付けた。 これらのイメージを機械学習モデルに使用するために、イメージをパッチに抽出し、151,000以上のイメージパッチを持つラベル付きデータセットを作成しました。 次に4つの最先端オブジェクト検出モデルの性能を実装・比較する。

Aphids are one of the main threats to crops, rural families, and global food security. Chemical pest control is a necessary component of crop production for maximizing yields, however, it is unnecessary to apply the chemical approaches to the entire fields in consideration of the environmental pollution and the cost. Thus, accurately localizing the aphid and estimating the infestation level is crucial to the precise local application of pesticides. Aphid detection is very challenging as each individual aphid is really small and all aphids are crowded together as clusters. In this paper, we propose to estimate the infection level by detecting aphid clusters. We have taken millions of images in the sorghum fields, manually selected 5,447 images that contain aphids, and annotated each aphid cluster in the image. To use these images for machine learning models, we crop the images into patches and created a labeled dataset with over 151,000 image patches. Then, we implement and compare the performance of four state-of-the-art object detection models.
翻訳日:2023-07-13 14:10:02 公開日:2023-07-12
# 画像技術による時系列ギャップの充填:多次元コンテキストオートエンコーダによるエネルギーデータインプテーションの構築

Filling time-series gaps using image techniques: Multidimensional context autoencoder approach for building energy data imputation ( http://arxiv.org/abs/2307.05926v1 )

ライセンス: Link先を確認
Chun Fu, Matias Quintana, Zoltan Nagy, Clayton Miller(参考訳) エネルギー予測と管理の構築は、IoT(Internet of Things)デバイスの成長と、より多くのエネルギーデータの提供によって、ここ数十年でますます重要になっている。 しかし、エネルギーデータは、しばしば複数の源から収集され、不完全または一貫性がなく、正確なエネルギーシステムの予測と管理を阻害し、意思決定と研究のためのデータの有用性を制限できる。 この問題に対処するため、過去の研究では、ランダムと連続のギャップを含むエネルギーデータの欠落を補うことに重点を置いてきた。 この領域の主な課題の1つは、様々なビルディングとメータータイプを持つベンチマークデータセットに対する検証の欠如であり、異なる計算方法のパフォーマンスを正確に評価することは困難である。 もう1つの課題は、エネルギーデータの欠如に対する最先端のインプテーション法の適用がないことである。 部分的畳み込み (PConv) のような現代の画像インパインティング手法はコンピュータビジョン領域で広く使われており、複雑な欠落パターンを扱う上での有効性を実証している。 画像に基づく深層学習法からエネルギーデータインプテーションが恩恵を受けるかどうかを検討するため、pconv、畳み込みニューラルネットワーク(cnns)、週間持続法を比較し、世界1479の電力計からなる最大公に利用可能な建築エネルギーデータセットの1つをベンチマークとした。 その結果,CNNと生の時系列(1D-CNN)と週毎の持続法と比較すると,2次元のエネルギーデータを持つニューラルネットワークモデルは平均二乗誤差(MSE)を10%から30%削減した。 高度なディープラーニング手法であるPartial Convolution (PConv)は、MSEを2D-CNNよりも20-30%削減し、全てのモデルで際立っている。

Building energy prediction and management has become increasingly important in recent decades, driven by the growth of Internet of Things (IoT) devices and the availability of more energy data. However, energy data is often collected from multiple sources and can be incomplete or inconsistent, which can hinder accurate predictions and management of energy systems and limit the usefulness of the data for decision-making and research. To address this issue, past studies have focused on imputing missing gaps in energy data, including random and continuous gaps. One of the main challenges in this area is the lack of validation on a benchmark dataset with various building and meter types, making it difficult to accurately evaluate the performance of different imputation methods. Another challenge is the lack of application of state-of-the-art imputation methods for missing gaps in energy data. Contemporary image-inpainting methods, such as Partial Convolution (PConv), have been widely used in the computer vision domain and have demonstrated their effectiveness in dealing with complex missing patterns. To study whether energy data imputation can benefit from the image-based deep learning method, this study compared PConv, Convolutional neural networks (CNNs), and weekly persistence method using one of the biggest publicly available whole building energy datasets, consisting of 1479 power meters worldwide, as the benchmark. The results show that, compared to the CNN with the raw time series (1D-CNN) and the weekly persistence method, neural network models with reshaped energy data with two dimensions reduced the Mean Squared Error (MSE) by 10% to 30%. The advanced deep learning method, Partial convolution (PConv), has further reduced the MSE by 20-30% than 2D-CNN and stands out among all models.
翻訳日:2023-07-13 14:09:44 公開日:2023-07-12
# 放射線医のような放射線画像を読む

Reading Radiology Imaging Like The Radiologist ( http://arxiv.org/abs/2307.05921v1 )

ライセンス: Link先を確認
Yuhao Wang(参考訳) 自動放射線学レポート生成は、放射線学イメージングのリッチできめ細かい記述を含む放射線学レポートを生成することを目的としている。 自然画像領域の画像キャプションと比較すると、医療画像は互いに非常によく似ており、疾患の発生にはほとんど差異がない。 放射線学レポートにおけるこれらの小さな違いの重要性を考えると、モデルに病気の発生の微妙な領域にもっと集中するよう促すことが重要である。 第二に、視覚的およびテキスト的データバイアスの問題は深刻である。 通常のケースがデータセットの大部分を占めるだけでなく、病的変化のある部分を記述する文も、段落のごく一部を構成するのみである。 最後に、医療画像レポートの生成には、医療知識の専門知識と経験的トレーニングを必要とする長いテキスト生成の課題が伴う。 その結果、このようなレポートを生成するのが困難になる。 これらの課題に対処するため,我々は,同様の報告を先行知識参照として利用する疾患指向検索フレームワークを提案する。 我々は、より正確かつ事実的に一貫した疾患記述を生成するために、事実整合性キャプション生成器を設計する。 本研究の枠組みは,CXRデータベースから,その位置と形態的特徴からなる疾患指向マスクを検索することによって,疾患に関する最も類似した報告を見つけることができる。 疾患指向の類似報告と視覚的特徴を参照することにより、事実整合性モデルはより正確な放射線診断レポートを生成することができる。

Automated radiology report generation aims to generate radiology reports that contain rich, fine-grained descriptions of radiology imaging. Compared with image captioning in the natural image domain, medical images are very similar to each other, with only minor differences in the occurrence of diseases. Given the importance of these minor differences in the radiology report, it is crucial to encourage the model to focus more on the subtle regions of disease occurrence. Secondly, the problem of visual and textual data biases is serious. Not only do normal cases make up the majority of the dataset, but sentences describing areas with pathological changes also constitute only a small part of the paragraph. Lastly, generating medical image reports involves the challenge of long text generation, which requires more expertise and empirical training in medical knowledge. As a result, the difficulty of generating such reports is increased. To address these challenges, we propose a disease-oriented retrieval framework that utilizes similar reports as prior knowledge references. We design a factual consistency captioning generator to generate more accurate and factually consistent disease descriptions. Our framework can find most similar reports for a given disease from the CXR database by retrieving a disease-oriented mask consisting of the position and morphological characteristics. By referencing the disease-oriented similar report and the visual features, the factual consistency model can generate a more accurate radiology report.
翻訳日:2023-07-13 14:09:11 公開日:2023-07-12
# 連続プロンプトによる医用画像・テキスト・ラベルコントラスト学習

Unified Medical Image-Text-Label Contrastive Learning With Continuous Prompt ( http://arxiv.org/abs/2307.05920v1 )

ライセンス: Link先を確認
Yuhao Wang(参考訳) 対照的なlanguage-image pre-training (clip) [13]はラベルのない画像テキストペアの大規模なデータセットを活用することができる。 医用データの注釈付けは時間と手間がかかることを考えると、Image-Text Pre-Trainingは大規模医療画像および放射線医学レポートデータセットの活用に有望な応用である。 しかし,医療用画像テキストの事前学習には,(1)プライバシ上の懸念から,利用可能な医療データ量は自然データと比較して比較的少ないため,モデルの一般化能力が低下する。 2) 医用画像は微妙さの微妙な相違のみに非常によく似ており, 比較学習では偽陰性サンプル対が多数存在する。 (3)手作りのプロンプトは,通常,天然の医用画像と異なり,語調の変化は,性能に有意な違いをもたらす可能性がある。 本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。 まず、画像、テキスト、ラベルのデータを統合することで、モデルが利用できるトレーニングデータを大幅に拡張しました。 次に,継続的な暗黙的プロンプトの導入によるデータ多様性の問題と,手作りのプロンプトがモデル性能に与える影響について論じる。 最後に,偽陰性サンプルの多すぎる問題を軽減するため,画像テキストラベルコントラストトレーニングを提案する。 我々は,Unified Medical Contrastive Learning (UMCL) フレームワークが複数の下流タスクにおいて優れた性能を示すことを示す。

Contrastive language-image Pre-training (CLIP) [13] can leverage large datasets of unlabeled Image-Text pairs, which have demonstrated impressive performance in various downstream tasks. Given that annotating medical data is time-consuming and laborious, Image-Text Pre-training has promising applications in exploiting large-scale medical image and radiology report datasets. However, medical Image-Text Pre-training faces several challenges, as follows: (1) Due to privacy concerns, the amount of available medical data is relatively small compared to natural data, leading to weaker generalization ability of the model. (2) Medical images are highly similar with only fine-grained differences in subtleties, resulting in a large number of false-negative sample pairs in comparison learning. (3) The hand-crafted Prompt usually differs from the natural medical image report, Subtle changes in wording can lead to significant differences in performance. In this paper, we propose a unified Image-Text-Label contrastive learning framework based on continuous prompts, with three main contributions. First, We unified the data of images, text, and labels, which greatly expanded the training data that the model could utilize. Second, we address the issue of data diversity and the impact of hand-crafted prompts on model performance by introducing continuous implicit prompts. Lastly, we propose a ImageText-Label contrastive Training to mitigate the problem of too many false-negative samples. We demonstrate through sufficient experiments that the Unified Medical Contrastive Learning (UMCL) framework exhibits excellent performance on several downstream tasks.
翻訳日:2023-07-13 14:08:48 公開日:2023-07-12
# コンバージョン率予測のためのコントラスト学習

Contrastive Learning for Conversion Rate Prediction ( http://arxiv.org/abs/2307.05974v1 )

ライセンス: Link先を確認
Wentao Ouyang, Rui Dong, Xiuwu Zhang, Chaofeng Guo, Jinmei Luo, Xiangzheng Liu, Yanlong Du(参考訳) コンバージョンレート(CVR)予測は広告システムにおいて重要な役割を果たす。 近年,教師付き深層ニューラルネットワークモデルがcvr予測において有望な性能を示している。 しかし、それらは空腹のデータであり、膨大なトレーニングデータを必要とする。 オンライン広告システムでは、何百万から数十億もの広告があるが、ユーザーは小さなセットだけをクリックし、さらに小さなセットに変換する傾向にある。 このデータ空間問題は、これらの深層モデルのパワーを制限する。 本稿では,CL4CVR(Contrastive Learning for CVR Prediction)フレームワークを提案する。 教師付きCVR予測タスクとコントラスト学習タスクを関連付けることで、豊富なラベルのないデータを利用したより良いデータ表現を学習し、CVR予測性能を向上させる。 CVR予測問題に対する対照的な学習課題を調整するために,特徴マスキングではなく埋め込みマスキング(EM)を提案し,拡張サンプルの2つのビューを作成する。 また,ユーザ行動データの自然な性質を考慮し,アンカーサンプルと同じ特徴を持つサンプルを除去するために,偽陰性除去(FNE)成分を提案する。 さらに,スパースかつ貴重なユーザ変換イベントをフル活用するために,アンカーサンプル毎に追加のポジティブサンプルを含む教師付きポジティブインクルージョン(SPI)コンポーネントを提案する。 2つの実世界の変換データセットの実験結果はcl4cvrの優れた性能を示している。 ソースコードはhttps://github.com/DongRuiHust/CL4CVRで入手できる。

Conversion rate (CVR) prediction plays an important role in advertising systems. Recently, supervised deep neural network-based models have shown promising performance in CVR prediction. However, they are data hungry and require an enormous amount of training data. In online advertising systems, although there are millions to billions of ads, users tend to click only a small set of them and to convert on an even smaller set. This data sparsity issue restricts the power of these deep models. In this paper, we propose the Contrastive Learning for CVR prediction (CL4CVR) framework. It associates the supervised CVR prediction task with a contrastive learning task, which can learn better data representations exploiting abundant unlabeled data and improve the CVR prediction performance. To tailor the contrastive learning task to the CVR prediction problem, we propose embedding masking (EM), rather than feature masking, to create two views of augmented samples. We also propose a false negative elimination (FNE) component to eliminate samples with the same feature as the anchor sample, to account for the natural property in user behavior data. We further propose a supervised positive inclusion (SPI) component to include additional positive samples for each anchor sample, in order to make full use of sparse but precious user conversion events. Experimental results on two real-world conversion datasets demonstrate the superior performance of CL4CVR. The source code is available at https://github.com/DongRuiHust/CL4CVR.
翻訳日:2023-07-13 14:01:25 公開日:2023-07-12
# VoxPoser: 言語モデルを用いたロボット操作のための構成可能な3次元値マップ

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models ( http://arxiv.org/abs/2307.05973v1 )

ライセンス: Link先を確認
Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei(参考訳) 大規模言語モデル(llm)は、推論と計画という形でロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。 進歩にもかかわらず、ほとんどの場合、環境との物理的相互作用を実行するために事前に定義された運動プリミティブに依存している。 本研究では,ロボットの軌跡,すなわち6自由度エンドエフェクタ・ウェイポイントの密集したシーケンスを,命令のオープンセットとオブジェクトのオープンセットを与えられた多種多様な操作タスクで合成することを目的とする。 まず,LLMが自由形式の言語命令を与えられた可読性や制約を推定できることを観察する。 さらに重要なのは、コード記述機能を活用することで、視覚言語モデル(VLM)と対話して3D値マップを作成し、エージェントの観察空間に知識を基盤とすることが可能になる。 合成された値マップはモデルベースの計画フレームワークで使われ、動的摂動に対して頑健な閉ループロボットの軌跡を合成する。 さらに,コンタクトリッチなインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンラインエクスペリエンスのメリットを享受できることを示す。 本研究では, 実ロボット環境とシミュレーション環境の両方において, 提案手法を大規模に検討し, 自由形自然言語で特定された日常的タスクを多種多様に行う能力を示す。 プロジェクトウェブサイト: https://voxposer.github.io

Large language models (LLMs) are shown to possess a wealth of actionable knowledge that can be extracted for robot manipulation in the form of reasoning and planning. Despite the progress, most still rely on pre-defined motion primitives to carry out the physical interactions with the environment, which remains a major bottleneck. In this work, we aim to synthesize robot trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a large variety of manipulation tasks given an open-set of instructions and an open-set of objects. We achieve this by first observing that LLMs excel at inferring affordances and constraints given a free-form language instruction. More importantly, by leveraging their code-writing capabilities, they can interact with a visual-language model (VLM) to compose 3D value maps to ground the knowledge into the observation space of the agent. The composed value maps are then used in a model-based planning framework to zero-shot synthesize closed-loop robot trajectories with robustness to dynamic perturbations. We further demonstrate how the proposed framework can benefit from online experiences by efficiently learning a dynamics model for scenes that involve contact-rich interactions. We present a large-scale study of the proposed method in both simulated and real-robot environments, showcasing the ability to perform a large variety of everyday manipulation tasks specified in free-form natural language. Project website: https://voxposer.github.io
翻訳日:2023-07-13 14:01:04 公開日:2023-07-12
# 自己蒸留量子化:トランスフォーマー言語モデルにおける高い圧縮率を達成する

Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models ( http://arxiv.org/abs/2307.05972v1 )

ライセンス: Link先を確認
James O' Neill and Sourav Dutta(参考訳) ポストトレーニング量子化と量子化アウェアトレーニングがトランスフォーマー言語モデルの一般化に及ぼす影響について検討した。 本稿では,累積量子化誤差を最小化し,ベースラインを上回る自己蒸留量子化法(sdq)を提案する。 SDQを多言語モデル XLM-R-Base および InfoXLM-Base に適用し,XGLUE ベンチマークにおいて高い性能を維持しながら,両モデルが32ビット浮動小数点重から8ビット整数重に削減可能であることを示す。 また, 微調整されていない言語に一般化しなければならない多言語モデルの定量化の課題についても強調した。

We investigate the effects of post-training quantization and quantization-aware training on the generalization of Transformer language models. We present a new method called self-distilled quantization (SDQ) that minimizes accumulative quantization errors and outperforms baselines. We apply SDQ to multilingual models XLM-R-Base and InfoXLM-Base and demonstrate that both models can be reduced from 32-bit floating point weights to 8-bit integer weights while maintaining a high level of performance on the XGLUE benchmark. Our results also highlight the challenges of quantizing multilingual models, which must generalize to languages they were not fine-tuned on.
翻訳日:2023-07-13 14:00:39 公開日:2023-07-12
# 超エンタングルフォトニック状態を用いた量子通信速度の増大

Increasing Quantum Communication Rates Using Hyperentangled Photonic States ( http://arxiv.org/abs/2307.05970v1 )

ライセンス: Link先を確認
Liat Nemirovsky-Levy, Uzi Pereg and Mordechai Segev(参考訳) 量子通信は、量子状態の生成と通信プロトコルのための量子リソースの利用に基づいている。 現在、光子は伸縮性のある長距離遷移が可能で、比較的作成や検出が容易であるため、情報の最適な担体と考えられている。 絡み合いは量子通信と情報処理の基本的な資源であり、量子リピータ [1] にとって特に重要である。 当事者が2つ以上の自由度(dof)を持つ状態であるハイパーエンタングルメント[2]は、データレートを増加させエラーレジリエンスを高めるため、重要な追加リソースを提供する。 しかし、フォトニクスでは、チャネル容量、すなわち究極のスループットは、線形要素を扱う際に根本的に制限される。 本稿では,1つの光子上で複数のdofを多重化し,光子を送信し,最後にはベル状態測定を用いて送信先の異なる光子に多重化することで,ハイパーエンタングル状態を用いて量子通信の高伝送率を実現する手法を提案する。 我々の計画に従うと、1つの光子だけを送ることで2つの絡み合った量子ビット対を生成することができる。 提案方式は、高い伝送速度とスケーラブルな量子技術に対する制御の洗練された新しい量子通信プロトコルの基礎となる。

Quantum communication is based on the generation of quantum states and exploitation of quantum resources for communication protocols. Currently, photons are considered as the optimal carrier of information, because they enable long-distance transition with resilience to decoherence, and they are relatively easy to create and detect. Entanglement is a fundamental resource for quantum communication and information processing, and it is of particular importance for quantum repeaters [1]. Hyperentanglement [2], a state where parties are entangled with two or more degrees of freedom (DoFs), provides an important additional resource because it increases data rates and enhances error resilience. However, in photonics, the channel capacity, i.e. the ultimate throughput, is fundamentally limited when dealing with linear elements. We propose a technique for achieving higher transmission rates for quantum communication by using hyperentangled states, based on multiplexing multiple DoFs on a single photon, transmitting the photon, and eventually demultiplexing the DoFs to different photons at the destination, using a Bell state measurement. Following our scheme, one can generate two entangled qubit pairs by sending only a single photon. The proposed transmission scheme lays the groundwork for novel quantum communication protocols with higher transmission rate and refined control over scalable quantum technologies.
翻訳日:2023-07-13 14:00:25 公開日:2023-07-12
# 量子アニーリングに基づく化学空間の仮想スクリーニング

Virtual Screening of Chemical Space based on Quantum Annealing ( http://arxiv.org/abs/2307.05964v1 )

ライセンス: Link先を確認
Takuro Tanaka, Masami Sako, Mahito Chiba, Chul Lee, Hyukgeun Cha, and Masayuki Ohzeki(参考訳) 発光波長などの目標特性値を満たす新しい化学物質を探索するには、化学空間が天文学的に大きいため、多くのカットと実験・計算が必要である(有機分子は10^60の候補を生成する)。 特徴量抽出は, 化学量を削減する手法であり, それらの特徴量に対する探索空間の制限により, 開発時間が短縮される。 量子コンピュータは従来のコンピュータよりも高速にサンプリングデータを生成でき、この特性を利用して特徴を抽出する。 本稿では, 材料特性の特徴的重要性を抽出するためのサンプルとして, 量子アニールを用いた。 化学的空間を重要視することにより, 化学的空間を1%未満に減らすことが可能であることが判明した。 この結果は物質研究の加速が達成可能であることを示唆している。

For searching a new chemical material which satisfies the target characteristic value, for example emission wavelength, many cut and trial of experiments/calculations are required since the chemical space is astronomically large (organic molecules generates >10^60 candidates). Extracting feature importance is a method to reduce the chemical space, and limiting the search space to those features leads to shorter development time. Quantum computer can generate sampling data faster than classical computers, and this property is utilized to extract feature importance. In this paper, quantum annealer was used as a sampler to make data for extracting feature importance of material properties. By screening the chemical space with feature importance, it was found that the chemical space can be reduced to less than 1 percent. This result suggests that the acceleration of material research can be achievable.
翻訳日:2023-07-13 14:00:05 公開日:2023-07-12
# GVCCI:言語誘導型ロボットマニピュレーションのための視覚グラウンドの生涯学習

GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation ( http://arxiv.org/abs/2307.05963v1 )

ライセンス: Link先を確認
Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang(参考訳) 言語誘導型ロボットマニピュレーション(LGRM)は、日常の物体を操作するために人間の指示を理解するロボットを必要とするため、難しい課題である。 LGRMの最近のアプローチは、操作環境に適応せずにオブジェクトを検出するために、事前訓練されたビジュアルグラウンド(VG)モデルに依存している。 これにより、事前トレーニングデータと実世界のデータの間にかなりのドメインギャップがあるため、パフォーマンスが低下する。 簡単な解決策は、追加のトレーニングデータを集めることですが、人間アノテーションのコストはゆがみます。 本稿では,lgrmのための生涯学習フレームワークgvcciに対して,人間の監督なしに連続的にvgを学習するグラウンディングビジョンを提案する。 GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。 さまざまなVGモデル上で、さまざまな環境にわたってオフラインおよびオンライン設定でフレームワークを検証する。 実験の結果、GVCCIから合成データを蓄積すると、VGは最大56.7%向上し、LGRMは最大29.4%改善した。 さらに, 定性解析により, 未適応vgモデルでは, 事前学習データから学習したバイアスが強いため, 正しい物体を見つけることができない場合が多かった。 最後に,多種多様な操作環境から252k以上の画像オブジェクトインストラクションからなるlgrm用の新しいvgデータセットを提案する。

Language-Guided Robotic Manipulation (LGRM) is a challenging task as it requires a robot to understand human instructions to manipulate everyday objects. Recent approaches in LGRM rely on pre-trained Visual Grounding (VG) models to detect objects without adapting to manipulation environments. This results in a performance drop due to a substantial domain gap between the pre-training and real-world data. A straightforward solution is to collect additional training data, but the cost of human-annotation is extortionate. In this paper, we propose Grounding Vision to Ceaselessly Created Instructions (GVCCI), a lifelong learning framework for LGRM, which continuously learns VG without human supervision. GVCCI iteratively generates synthetic instruction via object detection and trains the VG model with the generated data. We validate our framework in offline and online settings across diverse environments on different VG models. Experimental results show that accumulating synthetic data from GVCCI leads to a steady improvement in VG by up to 56.7% and improves resultant LGRM by up to 29.4%. Furthermore, the qualitative analysis shows that the unadapted VG model often fails to find correct objects due to a strong bias learned from the pre-training data. Finally, we introduce a novel VG dataset for LGRM, consisting of nearly 252k triplets of image-object-instruction from diverse manipulation environments.
翻訳日:2023-07-13 13:59:51 公開日:2023-07-12
# ロボットに手を与える: 目で見る人間のビデオデモで汎用的な操作を学ぶ

Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations ( http://arxiv.org/abs/2307.05959v1 )

ライセンス: Link先を確認
Moo Jin Kim, Jiajun Wu, Chelsea Finn(参考訳) 眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。 しかし、ロボットの模倣では、人間の遠隔操作者が本物のロボットで大量の専門家のデモンストレーションを収集することは依然として高価である。 一方、人間がタスクを実行するビデオは、ロボット遠隔操作の専門知識を排除し、広範囲のシナリオで素早く撮影できるため、収集のコストがはるかに安い。 したがって、人間のビデオデモは、汎用的なロボット操作ポリシーを大規模に学習するための有望なデータソースである。 本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。 人間とロボットのデータの間には明確な視覚領域ギャップが存在するが,アイ・イン・ハンドカメラの部分的可観測性や簡易な固定画像マスク方式を活用するため,明示的なドメイン適応手法は不要である。 3-DoFと6-DoFの両方のロボットアーム制御を含む8つの実世界のタスクにおいて、ロボットがロボットのデモデータに見られない新しい環境構成と新しいタスクの両方を一般化できるように、平均58%(絶対)の目の操作ポリシーの成功率を改善する。 https://giving-robots-a-hand.github.io/のビデオ結果を参照。

Eye-in-hand cameras have shown promise in enabling greater sample efficiency and generalization in vision-based robotic manipulation. However, for robotic imitation, it is still expensive to have a human teleoperator collect large amounts of expert demonstrations with a real robot. Videos of humans performing tasks, on the other hand, are much cheaper to collect since they eliminate the need for expertise in robotic teleoperation and can be quickly captured in a wide range of scenarios. Therefore, human video demonstrations are a promising data source for learning generalizable robotic manipulation policies at scale. In this work, we augment narrow robotic imitation datasets with broad unlabeled human video demonstrations to greatly enhance the generalization of eye-in-hand visuomotor policies. Although a clear visual domain gap exists between human and robot data, our framework does not need to employ any explicit domain adaptation method, as we leverage the partial observability of eye-in-hand cameras as well as a simple fixed image masking scheme. On a suite of eight real-world tasks involving both 3-DoF and 6-DoF robot arm control, our method improves the success rates of eye-in-hand manipulation policies by 58% (absolute) on average, enabling robots to generalize to both new environment configurations and new tasks that are unseen in the robot demonstration data. See video results at https://giving-robots-a-hand.github.io/ .
翻訳日:2023-07-13 13:59:28 公開日:2023-07-12
# ニューウェル理論に基づく時空間交通予測のための特徴変換

Newell's theory based feature transformations for spatio-temporal traffic prediction ( http://arxiv.org/abs/2307.05949v1 )

ライセンス: Link先を確認
Agnimitra Sengupta, S. Ilgin Guler(参考訳) 時空間トラフィックフロー予測のための深層学習(DL)モデルは、畳み込みフィルタやグラフ畳み込みフィルタを用いて、トラフィックデータの空間的および時間的依存関係をキャプチャする。 これらのモデル、例えばCNN-LSTMは、近隣の検出器ステーションからのトラフィックフローを利用して、特定の場所でのフローを予測する。 しかしながら、これらのモデルは、主に検出器の構成と目標位置における交通特性に特有の特徴を学習するため、交通システムのより広範なダイナミクスを捉える能力に制限がある。 したがって、モデルトレーニングのために新しい場所でデータが利用できない場合、これらのモデルの異なる場所への転送が困難になる。 この制限に対処するため,時空間DLモデルのための交通流物理に基づく特徴変換を提案する。 この変換は、Newellの、ターゲットの場所でのトラフィックフローの非混雑状態推定器を組み込んで、モデルがシステムのより広範なダイナミクスを学習できるようにする。 提案手法は,2つの異なる場所からのトラヒックデータを用いて実証的に検証する。 その結果,提案した特徴変換は,より優れた適合性統計値によって示されるように,異なる予測地平線上での交通流予測におけるモデルの性能を向上させることを示した。 私たちのフレームワークの重要な利点は、データが利用できない新しい場所に転送できることです。 これは駅距離や様々な交通パラメータに基づいて空間依存度を適切に計算することで達成される。 対照的に、通常のDLモデルは入力が固定されているため容易に転送できない。 注意すべきは、データ制限のため、空間感度分析は行えず、シミュレーションデータを用いたさらなる研究が要求されたことである。

Deep learning (DL) models for spatio-temporal traffic flow forecasting employ convolutional or graph-convolutional filters along with recurrent neural networks to capture spatial and temporal dependencies in traffic data. These models, such as CNN-LSTM, utilize traffic flows from neighboring detector stations to predict flows at a specific location of interest. However, these models are limited in their ability to capture the broader dynamics of the traffic system, as they primarily learn features specific to the detector configuration and traffic characteristics at the target location. Hence, the transferability of these models to different locations becomes challenging, particularly when data is unavailable at the new location for model training. To address this limitation, we propose a traffic flow physics-based feature transformation for spatio-temporal DL models. This transformation incorporates Newell's uncongested and congested-state estimators of traffic flows at the target locations, enabling the models to learn broader dynamics of the system. Our methodology is empirically validated using traffic data from two different locations. The results demonstrate that the proposed feature transformation improves the models' performance in predicting traffic flows over different prediction horizons, as indicated by better goodness-of-fit statistics. An important advantage of our framework is its ability to be transferred to new locations where data is unavailable. This is achieved by appropriately accounting for spatial dependencies based on station distances and various traffic parameters. In contrast, regular DL models are not easily transferable as their inputs remain fixed. It should be noted that due to data limitations, we were unable to perform spatial sensitivity analysis, which calls for further research using simulated data.
翻訳日:2023-07-13 13:59:03 公開日:2023-07-12
# 少数発仮説適応のための多様性向上型生成ネットワーク

Diversity-enhancing Generative Network for Few-shot Hypothesis Adaptation ( http://arxiv.org/abs/2307.05948v1 )

ライセンス: Link先を確認
Ruijiang Dong, Feng Liu, Haoang Chi, Tongliang Liu, Mingming Gong, Gang Niu, Masashi Sugiyama and Bo Han(参考訳) そこでは,いくつかのラベル付きターゲットドメインデータと,高度に互換性のある非ラベル付きデータの付加情報に対して,十分に訓練されたソースドメイン分類器(ソースドメイン分類器)を用いて,ターゲットドメインの分類器を訓練することを目的としている。 しかし、既存のメソッドの生成されたデータは、非常に似ているか、あるいは同じです。 生成されたデータ間の強い依存は、学習を失敗に導く。 本稿では,カーネル独立性尺度(hilbert-schmidt independence criterion, hsic)を用いて多様なラベルなしデータを生成するfha問題に対する多様性向上生成ネットワーク(deg-net)を提案する。 具体的には、deg-netは、生成されたデータの意味的特徴のうち、hsic値(すなわち独立性を最大化する)を最小化することでデータを生成する。 DEG-Netにより、生成されたラベルなしデータはより多様で、FHA問題に対処するのにより効果的である。 実験結果から,DEC-Netは既存のFHAベースラインよりも優れており,FHA問題に対処する上で,多様なデータ生成が重要な役割を果たすことが確認された。

Generating unlabeled data has been recently shown to help address the few-shot hypothesis adaptation (FHA) problem, where we aim to train a classifier for the target domain with a few labeled target-domain data and a well-trained source-domain classifier (i.e., a source hypothesis), for the additional information of the highly-compatible unlabeled data. However, the generated data of the existing methods are extremely similar or even the same. The strong dependency among the generated data will lead the learning to fail. In this paper, we propose a diversity-enhancing generative network (DEG-Net) for the FHA problem, which can generate diverse unlabeled data with the help of a kernel independence measure: the Hilbert-Schmidt independence criterion (HSIC). Specifically, DEG-Net will generate data via minimizing the HSIC value (i.e., maximizing the independence) among the semantic features of the generated data. By DEG-Net, the generated unlabeled data are more diverse and more effective for addressing the FHA problem. Experimental results show that the DEG-Net outperforms existing FHA baselines and further verifies that generating diverse data plays a vital role in addressing the FHA problem
翻訳日:2023-07-13 13:58:35 公開日:2023-07-12
# 交通予測モデルにおける不確かさの定量化と一般化性向上のためのベイズ的アプローチ

A Bayesian approach to quantifying uncertainties and improving generalizability in traffic prediction models ( http://arxiv.org/abs/2307.05946v1 )

ライセンス: Link先を確認
Agnimitra Sengupta, Sudeepta Mondal, Adway Das, S. Ilgin Guler(参考訳) 交通データ予測のためのディープラーニングモデルは、多層アーキテクチャを用いた複雑な関数のモデリングにおいて優れた性能を持つ。 しかし、これらのアプローチの大きな欠点は、これらのアプローチのほとんどが不確実性推定による予測を提供していないことである。 不確実性推定がなければ、モデル予測に信頼レベルを付けることは困難であり、過信予測に依存する運用戦略は交通状況の悪化につながる可能性がある。 本研究では,隠れた層にスペクトル正規化を導入することで,より一般化可能な交通予測における不確実性定量化のためのベイズ繰り返しニューラルネットワークフレームワークを提案する。 本稿では,モデルの複雑さを制御し,トレーニングデータへの過剰適合のリスクを低減し,ディープニューラルネットワークのトレーニングプロセスを変化させることを示す。 これにより、アウト・オブ・ディストリビューションデータセット上でのモデルの一般化性能が向上する。 その結果、スペクトル正規化は不確実性推定を改善でき、単段予測地平線の正規化を伴わない層正規化とモデルの両方を著しく上回ることがわかった。 この改良された性能は、摂動下でのデータの特徴空間をよりよくローカライズするスペクトル正規化の能力に起因する。 特に交通管理の分野では,複数地点にわたる交通状況の予測が目的であるが,複数の地点からのトレーニングデータの利用は限られている。 したがって、スペクトル正規化は、位置特化モデルを必要としないトラフィックデータの基本パターンを効果的にキャプチャできる、より一般化可能なアプローチを提供する。

Deep-learning models for traffic data prediction can have superior performance in modeling complex functions using a multi-layer architecture. However, a major drawback of these approaches is that most of these approaches do not offer forecasts with uncertainty estimates, which are essential for traffic operations and control. Without uncertainty estimates, it is difficult to place any level of trust to the model predictions, and operational strategies relying on overconfident predictions can lead to worsening traffic conditions. In this study, we propose a Bayesian recurrent neural network framework for uncertainty quantification in traffic prediction with higher generalizability by introducing spectral normalization to its hidden layers. In our paper, we have shown that normalization alters the training process of deep neural networks by controlling the model's complexity and reducing the risk of overfitting to the training data. This, in turn, helps improve the generalization performance of the model on out-of-distribution datasets. Results demonstrate that spectral normalization improves uncertainty estimates and significantly outperforms both the layer normalization and model without normalization in single-step prediction horizons. This improved performance can be attributed to the ability of spectral normalization to better localize the feature space of the data under perturbations. Our findings are especially relevant to traffic management applications, where predicting traffic conditions across multiple locations is the goal, but the availability of training data from multiple locations is limited. Spectral normalization, therefore, provides a more generalizable approach that can effectively capture the underlying patterns in traffic data without requiring location-specific models.
翻訳日:2023-07-13 13:58:06 公開日:2023-07-12
# メモリ付き量子ネットワーク上での動的スケジューリングのための線形代数的枠組み

A Linear Algebraic Framework for Dynamic Scheduling Over Memory-Equipped Quantum Networks ( http://arxiv.org/abs/2307.06009v1 )

ライセンス: Link先を確認
Paolo Fittipaldi, Anastasios Giovanidis, Fr\'ed\'eric Grosshans(参考訳) 量子インターネットワーク(Quantum Internetworking)は、多くの興味深いアプリケーションを約束する最近の分野であり、その多くが、任意のユーザペア間の絡み合いの分散を必要とする。 この研究は、任意の絡み合い交換量子ネットワーク(しばしば第1世代量子ネットワークと呼ばれる)の一般トポロジー、マルチコモディティ、ロスアウェアな定式化におけるスケジューリングの問題を扱う。 中間絡み合いリンクの生成を通じて量子メモリを利用する線形代数的フレームワークを導入する。 この枠組みは、古典的ネットワーク科学における標準的な手法であるリャプノフドリフト最小化を適用して量子ネットワークの2次スケジューリングポリシーの自然なクラスを数学的に導出するために用いられる。 さらに, 計算コストを大幅に削減し, 性能劣化の少ない価格で, 最大重み付きポリシーの追加クラスを提案し, ベンチマークを行った。 このポリシーは、提供ツールの量子ネットワーク設計への潜在的な応用を示すために、ユーザが提供するネットワークトポロジとスケジューリングポリシーを認めるアドホックシミュレータを通じて、情報可用性、ローカライズ、ネットワーク全体のパフォーマンスの点で比較される。

Quantum Internetworking is a recent field that promises numerous interesting applications, many of which require the distribution of entanglement between arbitrary pairs of users. This work deals with the problem of scheduling in an arbitrary entanglement swapping quantum network - often called first generation quantum network - in its general topology, multicommodity, loss-aware formulation. We introduce a linear algebraic framework that exploits quantum memory through the creation of intermediate entangled links. The framework is then employed to mathematically derive a natural class of quadratic scheduling policies for quantum networks by applying Lyapunov Drift Minimization, a standard technique in classical network science. Moreover, an additional class of Max-Weight inspired policies is proposed and benchmarked, reducing significantly the computation cost, at the price of a slight performance degradation. The policies are compared in terms of information availability, localization and overall network performance through an ad-hoc simulator that admits user-provided network topologies and scheduling policies in order to showcase the potential application of the provided tools to quantum network design.
翻訳日:2023-07-13 13:51:48 公開日:2023-07-12
# 視覚トランスフォーマーの微調整中に起こること:不変性に基づく調査

What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation ( http://arxiv.org/abs/2307.06006v1 )

ライセンス: Link先を確認
Gabriele Merlin, Vedant Nanda, Ruchit Rawal, Mariya Toneva(参考訳) pretrain-finetuneパラダイムは通常、同じタスクでモデルをスクラッチからトレーニングするよりも下流のパフォーマンスを改善し、マシンラーニングの多くの領域で共通化します。 プレトレーニングは様々なタスクに有益であると実証的に見られているが、この効果の理由についてはまだ明確には分かっていない。 本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。 本稿では,事前学習モデルで学習した不変性が,微調整中にどのように保持されるか,あるいは忘れられるかを明らかにする。 これらの測定値を用いて, 事前学習は浅層における伝達可能な不変性を誘導し, より深い事前学習層からの不変性を微調整中により浅い層へ圧縮するなど, 一連の実験結果を示す。 これらの知見は、事前訓練されたモデルの成功の理由と、下流タスクで微調整された場合の事前訓練されたモデルの変化を理解するのに寄与する。

The pretrain-finetune paradigm usually improves downstream performance over training a model from scratch on the same task, becoming commonplace across many areas of machine learning. While pretraining is empirically observed to be beneficial for a range of tasks, there is not a clear understanding yet of the reasons for this effect. In this work, we examine the relationship between pretrained vision transformers and the corresponding finetuned versions on several benchmark datasets and tasks. We present new metrics that specifically investigate the degree to which invariances learned by a pretrained model are retained or forgotten during finetuning. Using these metrics, we present a suite of empirical findings, including that pretraining induces transferable invariances in shallow layers and that invariances from deeper pretrained layers are compressed towards shallower layers during finetuning. Together, these findings contribute to understanding some of the reasons for the successes of pretrained models and the changes that a pretrained model undergoes when finetuned on a downstream task.
翻訳日:2023-07-13 13:51:27 公開日:2023-07-12
# DDNAS: テキスト分類のための離散化微分可能なニューラルアーキテクチャ探索

DDNAS: Discretized Differentiable Neural Architecture Search for Text Classification ( http://arxiv.org/abs/2307.06005v1 )

ライセンス: Link先を確認
Kuan-Chun Chen, Cheng-Te Li, Kuo-Jung Lee(参考訳) neural architecture search (nas)は、テキスト表現の学習に有望な能力を示している。 しかし、既存のテキストベースのNASは、アーキテクチャを最適化するための学習可能なニューラルネットワークの統合も行わず、テキスト入力の背後にある階層的分類を符号化する。 本稿では,テキスト表現学習と分類のための新しいnas法であるddna(discretized differentiable neural architecture search)を提案する。 アーキテクチャ表現の継続的な緩和により、DDNASは勾配勾配を利用して探索を最適化できる。 また,テキスト表現における潜在階層分類をモデル化するために,各探索ノードに課される相互情報最大化による新しい離散化層を提案する。 8つの多様な実データに対して行われた大規模な実験により、DDNASは最先端のNAS法より一貫して優れていることが示された。 DDNASは、NASビルディングブロックの候補となるために、畳み込み、プーリング、およびなしという3つの基本的な操作しか頼っていないが、その有望な性能は、より異なる操作を追加することでさらなる改善を得るために顕著で拡張可能である。

Neural Architecture Search (NAS) has shown promising capability in learning text representation. However, existing text-based NAS neither performs a learnable fusion of neural operations to optimize the architecture, nor encodes the latent hierarchical categorization behind text input. This paper presents a novel NAS method, Discretized Differentiable Neural Architecture Search (DDNAS), for text representation learning and classification. With the continuous relaxation of architecture representation, DDNAS can use gradient descent to optimize the search. We also propose a novel discretization layer via mutual information maximization, which is imposed on every search node to model the latent hierarchical categorization in text representation. Extensive experiments conducted on eight diverse real datasets exhibit that DDNAS can consistently outperform the state-of-the-art NAS methods. While DDNAS relies on only three basic operations, i.e., convolution, pooling, and none, to be the candidates of NAS building blocks, its promising performance is noticeable and extensible to obtain further improvement by adding more different operations.
翻訳日:2023-07-13 13:51:07 公開日:2023-07-12
# スパイクカメラの動的タイミング表現による教師なし光フロー推定

Unsupervised Optical Flow Estimation with Dynamic Timing Representation for Spike Camera ( http://arxiv.org/abs/2307.06003v1 )

ライセンス: Link先を確認
Lujie Xia, Ziluo Ding, Rui Zhao, Jiyuan Zhang, Lei Ma, Zhaofei Yu, Tiejun Huang, Ruiqin Xiong(参考訳) 正確な情報を抽出するために適切なスパイクストリームデータ長を効率よく選択することがスパイクビジョンタスクの鍵となる。 この問題に対処するために,スパイクストリームの動的タイミング表現を提案する。 多層構造に基づき、時間次元上の拡張畳み込みを適用し、パラメータの少ない多時間スケールの特徴を抽出する。 そして、これらの機能を動的に融合するために層注意をデザインします。 さらに,ラベル付きデータへの依存を断ち切るために,スパイクに基づく光フロー推定のための教師なし学習手法を提案する。 さらに、ロバスト性を検証するために、SSESデータセットと呼ばれる自動運転における極端なシナリオのためのスパイクベースの合成検証データセットを構築する。 様々なコーナーケースで構成されている。 実験により,本手法は実際のシーンを含む異なる高速シーンにおけるスパイクストリームからの光流れを予測できることを示した。 例えば、私たちのメソッドは、最高のスパイクベースの作業であるSCFlowから、それぞれ$15\%と$19\%のエラー削減を、以前の作業と同じ設定である$\Delta t=10$と$\Delta t=20$で取得します。

Efficiently selecting an appropriate spike stream data length to extract precise information is the key to the spike vision tasks. To address this issue, we propose a dynamic timing representation for spike streams. Based on multi-layers architecture, it applies dilated convolutions on temporal dimension to extract features on multi-temporal scales with few parameters. And we design layer attention to dynamically fuse these features. Moreover, we propose an unsupervised learning method for optical flow estimation in a spike-based manner to break the dependence on labeled data. In addition, to verify the robustness, we also build a spike-based synthetic validation dataset for extreme scenarios in autonomous driving, denoted as SSES dataset. It consists of various corner cases. Experiments show that our method can predict optical flow from spike streams in different high-speed scenes, including real scenes. For instance, our method gets $15\%$ and $19\%$ error reduction from the best spike-based work, SCFlow, in $\Delta t=10$ and $\Delta t=20$ respectively which are the same settings as the previous works.
翻訳日:2023-07-13 13:50:49 公開日:2023-07-12
# 超低消費電力エッジシステムのためのフレキシブル・フル量子化チニシモヨロ

Flexible and Fully Quantized Ultra-Lightweight TinyissimoYOLO for Ultra-Low-Power Edge Systems ( http://arxiv.org/abs/2307.05999v1 )

ライセンス: Link先を確認
Julian Moosmann, Hanna Mueller, Nicky Zimmerman, Georg Rutishauser, Luca Benini, Michele Magno(参考訳) 本稿では,非常に柔軟で完全に量子化された超軽量物体検出ネットワークであるtinyissimoyoloを,数ミリワットの電力包絡を有するエッジシステム向けに設計した。 実験により,ネットワークの検知性能を包括的に評価し,入力解像度,オブジェクトクラス数,隠蔽層調整など,様々なパラメータの影響について検討した。 我々は、TinyissimoYOLOの変種を最先端の超低消費電力極端プラットフォームにデプロイし、レイテンシ、エネルギー効率、ワークロードを効率的に並列化する能力の詳細な比較を示す。 特に、新しい並列RISC-Vプロセッサ(グリーンウェーブのGAP9)と、そのオンチップハードウェアアクセラレータの使用の有無を比較し、ARM Cortex-M7コア(STマイクロエレクトロニクスのSTM32H7)、2つのARM Cortex-M4コア(STMのSTM32L4とAmbiqのApollo4b)とCNNハードウェアアクセラレータのマルチコアプラットフォーム(Analog Devices MAX78000)を比較した。 実験の結果、GAP9のハードウェアアクセラレータは、それぞれ2.12msと150uJで最低推論遅延とエネルギーを達成しており、これは次の最高のプラットフォームであるMAX78000よりも約2倍高速で20%効率が高い。 GAP9のハードウェアアクセラレータは、TinyissimoYOLOの112x112ピクセルと10の検出クラスを3.2msで実行し、245uJを消費する。 また,多目的汎用システムの競争力を示すため,GAP9のマルチコア実装を異なる動作点に展開・プロファイルし,低レイテンシで11.3ms,エネルギー効率で490uJを実現した。 本稿では,リアルタイム超低消費電力エッジ推論のための最先端検出データセットに対するTinyissimoYOLOの適合性と柔軟性を示す。

This paper deploys and explores variants of TinyissimoYOLO, a highly flexible and fully quantized ultra-lightweight object detection network designed for edge systems with a power envelope of a few milliwatts. With experimental measurements, we present a comprehensive characterization of the network's detection performance, exploring the impact of various parameters, including input resolution, number of object classes, and hidden layer adjustments. We deploy variants of TinyissimoYOLO on state-of-the-art ultra-low-power extreme edge platforms, presenting an in-depth a comparison on latency, energy efficiency, and their ability to efficiently parallelize the workload. In particular, the paper presents a comparison between a novel parallel RISC-V processor (GAP9 from Greenwaves) with and without use of its on-chip hardware accelerator, an ARM Cortex-M7 core (STM32H7 from ST Microelectronics), two ARM Cortex-M4 cores (STM32L4 from STM and Apollo4b from Ambiq), and a multi-core platform with a CNN hardware accelerator (Analog Devices MAX78000). Experimental results show that the GAP9's hardware accelerator achieves the lowest inference latency and energy at 2.12ms and 150uJ respectively, which is around 2x faster and 20% more efficient than the next best platform, the MAX78000. The hardware accelerator of GAP9 can even run an increased resolution version of TinyissimoYOLO with 112x112 pixels and 10 detection classes within 3.2ms, consuming 245uJ. To showcase the competitiveness of a versatile general-purpose system we also deployed and profiled a multi-core implementation on GAP9 at different operating points, achieving 11.3ms with the lowest-latency and 490uJ with the most energy-efficient configuration. With this paper, we demonstrate the suitability and flexibility of TinyissimoYOLO on state-of-the-art detection datasets for real-time ultra-low-power edge inference.
翻訳日:2023-07-13 13:50:30 公開日:2023-07-12
# デジタルツールと職業の健康、ブレーキ、レバーは、多分野のダイナミックスを構築するか?

Digital tools in occupational health, brakes or levers for building multidisciplinary dynamics? ( http://arxiv.org/abs/2307.05998v1 )

ライセンス: Link先を確認
C\'edric Gouvenelle (ACT\'e), Maudhuy Flora, Thorin Florence(参考訳) デジタルプラットフォームの到来は、職業保健サービス(SPSTI)がデータベースを取得し、プロフェッショナルに新たな行動の可能性を提供することによって、職業健康に革命をもたらした。 しかしながら、20年間にわたって多分野の発展に疑問を呈してきた活動部門では、新しいツールの登場がすぐに解決できる可能性がある。 この研究は、デジタルツール開発の観点から先駆的なSPSTIで実施され、SPSTIの技術チームのメンバーだけでなく、医療専門家や医療従事者にとってのインストゥルメンタルトランスフォーメーションや組織変革の方法と影響の蓄積を目的としている。 ブレーキとレバー、それに考慮すべき様々な伴奏の可能性を強調する問題である。

The arrival of digital platforms has revolutionized occupational health by giving the possibility to Occupational Health Services (SPSTI) to acquire databases to offer professionals new possibilities for action. However, in a sector of activity that has been questioning the development of multidisciplinarity for 20 years, the arrival of new tools can sometimes seem to be a quick solution. The study, conducted in a precursor SPSTI in terms of the development of digital tools, aims to take stock of the methods and impacts of instrumental and organizational transformations for health professionals as well as for members of the technical teams of the SPSTI. It is a question of highlighting the brakes and the levers as well as the various possibilities of accompaniment to consider.
翻訳日:2023-07-13 13:49:42 公開日:2023-07-12
# 人間の活動認識における自動データアノテーション技術の概要

A Comprehensive Review of Automated Data Annotation Techniques in Human Activity Recognition ( http://arxiv.org/abs/2307.05988v1 )

ライセンス: Link先を確認
Florenc Demrozi and Cristian Turetta and Fadi Al Machot and Graziano Pravadelli and Philipp H. Kindt(参考訳) 人間活動認識(HAR)は、過去10年間の主要な研究トピックの1つとなっている。 センシング技術が成熟し、経済コストが低下するにつれて、医療、産業、スポーツ、日常生活活動などの新しい応用が盛んに行われている。 HARシステムの設計には、データ収集、アノテーション、モデルのトレーニングと最適化など、さまざまな時間を要する。 特に、データアノテーションは人間のアノテーションから広範囲かつ詳細な手作業を必要とするため、HARにおいて最も労働集約的で面倒なステップである。 そこで,HARにおけるアノテーション手順の自動化に関する様々な手法が提案されている。 アノテーション問題は、異なる概念とシナリオで発生し、それぞれが個別のソリューションを必要とする。 本稿では,harのためのデータアノテーション技術に関する最初の体系的レビューを行う。 既存のアプローチをクラスにグループ化し、分類を提供することで、私たちのゴールは、特定のシナリオで有益に使用できるテクニックの決定をサポートすることです。

Human Activity Recognition (HAR) has become one of the leading research topics of the last decade. As sensing technologies have matured and their economic costs have declined, a host of novel applications, e.g., in healthcare, industry, sports, and daily life activities have become popular. The design of HAR systems requires different time-consuming processing steps, such as data collection, annotation, and model training and optimization. In particular, data annotation represents the most labor-intensive and cumbersome step in HAR, since it requires extensive and detailed manual work from human annotators. Therefore, different methodologies concerning the automation of the annotation procedure in HAR have been proposed. The annotation problem occurs in different notions and scenarios, which all require individual solutions. In this paper, we provide the first systematic review on data annotation techniques for HAR. By grouping existing approaches into classes and providing a taxonomy, our goal is to support the decision on which techniques can be beneficially used in a given scenario.
翻訳日:2023-07-13 13:49:26 公開日:2023-07-12
# 強化学習におけるトランスフォーマー:調査

Transformers in Reinforcement Learning: A Survey ( http://arxiv.org/abs/2307.05979v1 )

ライセンス: Link先を確認
Pranav Agarwal, Aamer Abdul Rahman, Pierre-Luc St-Charles, Simon J.D. Prince, Samira Ebrahimi Kahou(参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に大きな影響を与えており、他のニューラルネットワークと比較してパフォーマンスが向上している。 この調査は、トランスフォーマーが強化学習(rl)においてどのように使われるかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。 まず、RLの簡単なドメイン概要を提供し、続いて古典的なRLアルゴリズムの課題について議論する。 次に、変換器とその変種の性質を掘り下げ、RLに固有の課題に対処するのに適した特性について論じる。 本稿では,表現学習,遷移・報酬関数モデリング,ポリシー最適化など,RLの様々な側面への変換器の適用について検討する。 また、可視化技術と効率的なトレーニング戦略を用いて、RLにおけるトランスフォーマーの解釈可能性と効率を高めることを目的とした最近の研究についても論じる。 トランスフォーマーアーキテクチャは、しばしば、特定のアプリケーションの特定のニーズに合わせて調整されなければならない。 本稿では,ロボット工学,医学,言語モデリング,クラウドコンピューティング,組合せ最適化など,トランスフォーマーの応用方法の概要を紹介する。 我々は、RLにおけるトランスフォーマーの使用の限界について議論し、この分野における将来のブレークスルーを触媒する可能性を評価する。

Transformers have significantly impacted domains like natural language processing, computer vision, and robotics, where they improve performance compared to other neural networks. This survey explores how transformers are used in reinforcement learning (RL), where they are seen as a promising solution for addressing challenges such as unstable training, credit assignment, lack of interpretability, and partial observability. We begin by providing a brief domain overview of RL, followed by a discussion on the challenges of classical RL algorithms. Next, we delve into the properties of the transformer and its variants and discuss the characteristics that make them well-suited to address the challenges inherent in RL. We examine the application of transformers to various aspects of RL, including representation learning, transition and reward function modeling, and policy optimization. We also discuss recent research that aims to enhance the interpretability and efficiency of transformers in RL, using visualization techniques and efficient training strategies. Often, the transformer architecture must be tailored to the specific needs of a given application. We present a broad overview of how transformers have been adapted for several applications, including robotics, medicine, language modeling, cloud computing, and combinatorial optimization. We conclude by discussing the limitations of using transformers in RL and assess their potential for catalyzing future breakthroughs in this field.
翻訳日:2023-07-13 13:49:11 公開日:2023-07-12
# インターネット規模テキスト・画像拡散モデルの安全な自己蒸留に向けて

Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models ( http://arxiv.org/abs/2307.05977v1 )

ライセンス: Link先を確認
Sanghyun Kim, Seohyeon Jung, Balhae Kim, Moonseok Choi, Jinwoo Shin, Juho Lee(参考訳) 大規模な画像生成モデルは、インターネット上で利用可能な膨大な量のデータによって可能になった印象的な品質を持ち、これらのモデルが有害または著作権のあるコンテンツを生成できるという社会的懸念を提起する。 バイアスと有害性はトレーニングプロセス全体を通して発生し、完全に排除することは困難であり、これらのモデルの安全なデプロイには大きなハードルとなりました。 本稿では,テキスト・画像拡散モデルにおける問題コンテンツ生成を防止するためのSDDという手法を提案する。 拡散モデルを自己蒸留し, 目標除去概念に基づく騒音推定条件を非条件モデルと一致させるために導出する。 従来の手法に比べ, 画像全体の画質を低下させることなく, 生成画像から有害なコンテンツの比率を大幅に削減できる。 さらに,本手法では一度に複数の概念を除去できるが,従来の手法では一度に1つの概念を除去するしかなかった。

Large-scale image generation models, with impressive quality made possible by the vast amount of data available on the Internet, raise social concerns that these models may generate harmful or copyrighted content. The biases and harmfulness arise throughout the entire training process and are hard to completely remove, which have become significant hurdles to the safe deployment of these models. In this paper, we propose a method called SDD to prevent problematic content generation in text-to-image diffusion models. We self-distill the diffusion model to guide the noise estimate conditioned on the target removal concept to match the unconditional one. Compared to the previous methods, our method eliminates a much greater proportion of harmful content from the generated images without degrading the overall image quality. Furthermore, our method allows the removal of multiple concepts at once, whereas previous works are limited to removing a single concept at a time.
翻訳日:2023-07-13 13:48:49 公開日:2023-07-12
# 回帰における異常検出:円錐二次形式

Outlier detection in regression: conic quadratic formulations ( http://arxiv.org/abs/2307.05975v1 )

ライセンス: Link先を確認
Andr\'es G\'omez and Jos\'e Neto(参考訳) 多くのアプリケーションでは、線形回帰モデルを構築する際に、外れ値、すなわち破損した入力データポイントの存在を考慮に入れることが重要である。 このような問題は、二次変数の積と連続変数の二次項によって与えられる立方項を含む混合整数最適化問題として定式化することができる。 文献における既存のアプローチは、通常、ビッグM制約を用いた立方体項の線形化に依存し、弱い緩和と実際のパフォーマンスの低下に悩まされている。 この研究では、大きなM制約を伴わないより強い二階円錐緩和を導出する。 計算実験の結果,提案手法は既存のbig-m方式よりも数桁高速であることが判明した。

In many applications, when building linear regression models, it is important to account for the presence of outliers, i.e., corrupted input data points. Such problems can be formulated as mixed-integer optimization problems involving cubic terms, each given by the product of a binary variable and a quadratic term of the continuous variables. Existing approaches in the literature, typically relying on the linearization of the cubic terms using big-M constraints, suffer from weak relaxation and poor performance in practice. In this work we derive stronger second-order conic relaxations that do not involve big-M constraints. Our computational experiments indicate that the proposed formulations are several orders-of-magnitude faster than existing big-M formulations in the literature for this problem.
翻訳日:2023-07-13 13:48:33 公開日:2023-07-12
# 偏光と軌道角運動量を持つ任意の非分離状態を生成する

Generating arbitrary non-separable states with polarization and orbital angular momentum of light ( http://arxiv.org/abs/2307.06044v1 )

ライセンス: Link先を確認
Sarika Mishra, Ali Anwar, R.P. Singh(参考訳) 偏光および軌道角運動量(OAM)自由度を用いて光の任意の非分離状態を生成する実験方法を示す。 我々は、非分離状態を異なる偏光状態に投影することにより、光ビームのOAMモードに対応する強度分布を観察する。 さらに、偏光度と線形エントロピーを計測することにより、非分離性の存在をさらに検証する。 この古典的な非分離性は、量子通信や量子センシングへの応用のために、自発的なパラメトリックダウンコンバージョンを用いて量子領域に容易に転送できる。

We demonstrate an experimental method to generate arbitrary non-separable states of light using polarization and orbital angular momentum (OAM) degrees of freedom. We observe the intensity distribution corresponding to OAM modes of the light beam by projecting the non-separable state into different polarization states. We further verify the presence of non-separability by measuring the degree of polarization and linear entropy. This classical non-separability can be easily transferred to the quantum domain using spontaneous parametric down-conversion for applications in quantum communication and quantum sensing.
翻訳日:2023-07-13 13:41:04 公開日:2023-07-12
# 音声変換のためのリズムモデリング

Rhythm Modeling for Voice Conversion ( http://arxiv.org/abs/2307.06040v1 )

ライセンス: Link先を確認
Benjamin van Niekerk, Marc-Andr\'e Carbonneau, Herman Kamper(参考訳) 音声変換は、ソース音声を異なるターゲット音声に変換することを目的としている。 しかし、典型的な音声変換システムはリズムを考慮せず、これは話者識別の知覚において重要な要素である。 このギャップを埋めるために、並列データやテキストの書き起こしを必要としないリズム変換のためのUrhythmic-anunsupervisedメソッドを導入する。 自己教師あり表現を用いて,まず音源音声を音素,難聴者,沈黙を近似するセグメントに分割する。 次に,各セグメントの発話速度や時間分布を推定し,リズムをモデル化する。 最後に,発話区間の時間伸張により,発話速度やリズムを一致させる。 実験により、urhythmicは、品質と韻律の観点から、既存の教師なしの方法よりも優れていることが示されている。 コードとチェックポイント: https://github.com/bshall/urhythmic。 オーディオデモページ: https://ubisoft-laforge.github.io/speech/urhythmic.com

Voice conversion aims to transform source speech into a different target voice. However, typical voice conversion systems do not account for rhythm, which is an important factor in the perception of speaker identity. To bridge this gap, we introduce Urhythmic-an unsupervised method for rhythm conversion that does not require parallel data or text transcriptions. Using self-supervised representations, we first divide source audio into segments approximating sonorants, obstruents, and silences. Then we model rhythm by estimating speaking rate or the duration distribution of each segment type. Finally, we match the target speaking rate or rhythm by time-stretching the speech segments. Experiments show that Urhythmic outperforms existing unsupervised methods in terms of quality and prosody. Code and checkpoints: https://github.com/bshall/urhythmic. Audio demo page: https://ubisoft-laforge.github.io/speech/urhythmic.
翻訳日:2023-07-13 13:40:54 公開日:2023-07-12
# RGB-D画像からの2手再構成のためのピラミッドディープフュージョンネットワーク

Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images ( http://arxiv.org/abs/2307.06038v1 )

ライセンス: Link先を確認
Jinwei Ren, and Jianke Zhu(参考訳) 両手の密集した3dメッシュを単眼画像から正確に復元することは、咬合や投影の曖昧さのために大きな課題となる。 既存の手法のほとんどは、実世界の重要な深度やスケール情報を無視するルートアラインハンドメッシュを推定するために、カラー画像から特徴を抽出する。 精度の制限されたノイズセンサの計測値を考えると、深度に基づく手法は密集したメッシュではなく、3dのキーポイントを予測する。 これらの制限は、現実のスケールで高密度の手メッシュを取得するために、これらの2つの補完的な入力を活用する動機となります。 本研究では,片視点RGB-D画像ペアを入力として用いた,両手の高密度メッシュを復元するエンドツーエンドフレームワークを提案する。 主な課題は、RGB画像のぼやけた効果と奥行き画像の雑音を緩和するために、2つの異なる入力モードを効果的に活用することである。 深度マップをRGB画像のための追加チャネルとして直接扱うのではなく、不整点雲に深度情報をエンコードして、より幾何学的な詳細を保存する。 具体的には、rgbとpoint cloudから機能を引き出すためにresnet50とpointnet++を使っています。 さらに,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク(PDFNet)を導入し,従来の融合戦略よりも優れた有効性を示した。 さらに,gcnベースのデコーダを用いて,融合した特徴を処理し,対応する3次元ポーズと高密度メッシュを復元する。 包括的なアブレーション実験を通じて,提案した融合アルゴリズムの有効性を実証しただけでなく,公開データセットに対する最先端のアプローチよりも優れていた。 結果を再現するため、ソースコードとモデルを {\url{https://github.com/zijinxuxu/PDFNet}}で公開します。

Accurately recovering the dense 3D mesh of both hands from monocular images poses considerable challenges due to occlusions and projection ambiguity. Most of the existing methods extract features from color images to estimate the root-aligned hand meshes, which neglect the crucial depth and scale information in the real world. Given the noisy sensor measurements with limited resolution, depth-based methods predict 3D keypoints rather than a dense mesh. These limitations motivate us to take advantage of these two complementary inputs to acquire dense hand meshes on a real-world scale. In this work, we propose an end-to-end framework for recovering dense meshes for both hands, which employ single-view RGB-D image pairs as input. The primary challenge lies in effectively utilizing two different input modalities to mitigate the blurring effects in RGB images and noises in depth images. Instead of directly treating depth maps as additional channels for RGB images, we encode the depth information into the unordered point cloud to preserve more geometric details. Specifically, our framework employs ResNet50 and PointNet++ to derive features from RGB and point cloud, respectively. Additionally, we introduce a novel pyramid deep fusion network (PDFNet) to aggregate features at different scales, which demonstrates superior efficacy compared to previous fusion strategies. Furthermore, we employ a GCN-based decoder to process the fused features and recover the corresponding 3D pose and dense mesh. Through comprehensive ablation experiments, we have not only demonstrated the effectiveness of our proposed fusion algorithm but also outperformed the state-of-the-art approaches on publicly available datasets. To reproduce the results, we will make our source code and models publicly available at {\url{https://github.com/zijinxuxu/PDFNet}}.
翻訳日:2023-07-13 13:40:41 公開日:2023-07-12
# AI生成画像: 'Readymade' の新しい時代

AI-Generated Imagery: A New Era for the `Readymade' ( http://arxiv.org/abs/2307.06033v1 )

ライセンス: Link先を確認
Amy Smith and Michael Cook(参考訳) この論文は、midjourneyのような生成型aiシステムによって生成されたデジタル画像が、いかに頻繁に使われるようになったかを調べることを目的としている。 aiが生成するイメージをアートとして分類することに関する議論は、現在幾分均質であり、より伝統的な芸術メディア制作法に適用されるよりニュアンス的な側面を欠いている。 本稿では,芸術的文脈におけるAI生成画像に関する議論の表面に重要な哲学的考察をもたらすことを目的とする。 我々は既存の哲学的枠組みと言語理論を用いて、これらの枠組み内での視覚的特性により、AI生成画像の一部が芸術として考慮すべき「既成事実」として提示できることを示唆している。

While the term `art' defies any concrete definition, this paper aims to examine how digital images produced by generative AI systems, such as Midjourney, have come to be so regularly referred to as such. The discourse around the classification of AI-generated imagery as art is currently somewhat homogeneous, lacking the more nuanced aspects that would apply to more traditional modes of artistic media production. This paper aims to bring important philosophical considerations to the surface of the discussion around AI-generated imagery in the context of art. We employ existing philosophical frameworks and theories of language to suggest that some AI-generated imagery, by virtue of its visual properties within these frameworks, can be presented as `readymades' for consideration as art.
翻訳日:2023-07-13 13:40:07 公開日:2023-07-12
# Vlasov-PoissonからSchr\"odinger-Poisson:量子変動時間進化アルゴリズムによる暗黒物質シミュレーション

From Vlasov-Poisson to Schr\"odinger-Poisson: dark matter simulation with a quantum variational time evolution algorithm ( http://arxiv.org/abs/2307.06032v1 )

ライセンス: Link先を確認
Luca Cappelli, Francesco Tacchino, Giuseppe Murante, Stefano Borgani and Ivano Tavernelli(参考訳) 自己重力衝突のないダークマター(dm)流体の膨張背景における密度摂動の進化を記述する宇宙論的シミュレーションは、広いダイナミックレンジでの宇宙構造の形成を追従する強力なツールである。 最も広く採用されているアプローチは、衝突のないVlasov-Poisson(VP)方程式のN-ボディの離散化に基づいて、単一銀河の形成と最大の宇宙構造の形成を同時にカバーするために必要な幅広いスケールをシミュレートするときに、好ましくないスケーリングによって妨げられる。 一方、VP方程式によって記述される力学は、拡大するスケールの範囲をシミュレートするために必要な分解能要素(格子点や粒子)の数の増加によって制限される。 最近の研究では、DM摂動の進化をシミュレートするために、6次元+1(6D+1)VP問題をより可換な3次元+1非線形Schr\"odinger-Poisson (SP)問題にマッピングした。 これにより、量子コンピューティングを用いた時間伝播シミュレーションのスケーリングを改善する可能性が開ける。 本稿では,空間次元と分解能の関数としてアルゴリズムのスケーリングを徹底的に解析し,DM摂動に追従するSP方程式のシミュレーションのための変動時間進化量子アルゴリズムの厳密な定式化を開発する。 最後に、SP力学の古典的極限への遷移について検討し、これはVP方程式の解の効率的な代替となる。

Cosmological simulations describing the evolution of density perturbations of a self-gravitating collisionless Dark Matter (DM) fluid in an expanding background, provide a powerful tool to follow the formation of cosmic structures over wide dynamic ranges. The most widely adopted approach, based on the N-body discretization of the collisionless Vlasov-Poisson (VP) equations, is hampered by an unfavourable scaling when simulating the wide range of scales needed to cover at the same time the formation of single galaxies and of the largest cosmic structures. On the other hand, the dynamics described by the VP equations is limited by the rapid increase of the number of resolution elements (grid points and/or particles) which is required to simulate an ever growing range of scales. Recent studies showed an interesting mapping of the 6-dimensional+1 (6D+1) VP problem into a more amenable 3D+1 non-linear Schr\"odinger-Poisson (SP) problem for simulating the evolution of DM perturbations. This opens up the possibility of improving the scaling of time propagation simulations using quantum computing. In this paper, we develop a rigorous formulation of a variational-time evolution quantum algorithm for the simulation of the SP equations to follow DM perturbations, presenting a thorough analysis of the scaling of the algorithm as a function of spatial dimensions and resolution. Finally we investigate the transition of the SP dynamics towards the classical limit, which could become an efficient alternative to the solution of the VP equation.
翻訳日:2023-07-13 13:39:53 公開日:2023-07-12
# メモリ提供アダプタによるプラガブルニューラルマシン翻訳モデル

Pluggable Neural Machine Translation Models via Memory-augmented Adapters ( http://arxiv.org/abs/2307.06029v1 )

ライセンス: Link先を確認
Yuzhuang Xu, Shuo Wang, Peng Li, Xuebo Liu, Xiaolong Wang, Weidong Liu, Yang Liu(参考訳) ニューラルマシン翻訳(nmt)モデルは一般領域でうまく機能するが、異なるユーザのニーズを満たすために生成動作を制御することは依然として困難である。 コストのかかるトレーニングコストとユーザ要求毎に新しいモデルをスクラッチから学習する際のデータ不足を考慮し、プリトレーニングされたNMTモデルをプラガブルに操るメモリ拡張アダプタを提案する。 具体的には,ユーザが提供するテキストサンプルに基づいて複数粒度メモリを構築し,モデル表現と検索結果を組み合わせた新しいアダプタアーキテクチャを提案する。 また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。 提案手法はスタイルとドメイン固有の実験の両方において検証し,提案手法がいくつかの代表的プラグ可能なベースラインより優れていることを示す。

Although neural machine translation (NMT) models perform well in the general domain, it remains rather challenging to control their generation behavior to satisfy the requirement of different users. Given the expensive training cost and the data scarcity challenge of learning a new model from scratch for each user requirement, we propose a memory-augmented adapter to steer pretrained NMT models in a pluggable manner. Specifically, we construct a multi-granular memory based on the user-provided text samples and propose a new adapter architecture to combine the model representations and the retrieved results. We also propose a training strategy using memory dropout to reduce spurious dependencies between the NMT model and the memory. We validate our approach on both style- and domain-specific experiments and the results indicate that our method can outperform several representative pluggable baselines.
翻訳日:2023-07-13 13:39:25 公開日:2023-07-12
# 模範的説明から学ぶ

Learning from Exemplary Explanations ( http://arxiv.org/abs/2307.06026v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee(参考訳) eXplanation Based Learning (XBL) はインタラクティブ機械学習(Interactive Machine Learning, IML)の一種で、モデル説明に基づいて収集されたユーザフィードバックを通じてモデル精製アプローチを提供する。 XBLの相互作用性はモデルの透明性を促進するが、XBLは膨大な量のユーザインタラクションを必要とし、IMLでより一般的な単純なカテゴリラベリングではなく、詳細なアノテーションの形でフィードバックされるため、コストがかかる可能性がある。 この費用は医用画像分類のような高利害率領域で悪化する。 2つの入力インスタンスとそれに対応するGradCAM(Gradient Weighted Class Activation Mapping)モデルの説明を、XBLを実装するための模範的な説明として利用する新しいアプローチを導入する。 医用画像分類タスクを用いて、人間の入力を最小限に抑えることで説明能力(+0.02,+3%)が向上し、相互作用のないモデルと比較した場合の分類性能(-0.04,-4%)が低下することを示した。

eXplanation Based Learning (XBL) is a form of Interactive Machine Learning (IML) that provides a model refining approach via user feedback collected on model explanations. Although the interactivity of XBL promotes model transparency, XBL requires a huge amount of user interaction and can become expensive as feedback is in the form of detailed annotation rather than simple category labelling which is more common in IML. This expense is exacerbated in high stakes domains such as medical image classification. To reduce the effort and expense of XBL we introduce a new approach that uses two input instances and their corresponding Gradient Weighted Class Activation Mapping (GradCAM) model explanations as exemplary explanations to implement XBL. Using a medical image classification task, we demonstrate that, using minimal human input, our approach produces improved explanations (+0.02, +3%) and achieves reduced classification performance (-0.04, -4%) when compared against a model trained without interactions.
翻訳日:2023-07-13 13:39:11 公開日:2023-07-12
# balance -- 偏りのあるデータサンプルのバランスをとるpythonパッケージ

balance -- a Python package for balancing biased data samples ( http://arxiv.org/abs/2307.06024v1 )

ライセンス: Link先を確認
Tal Sarig, Tal Galili, Roee Eilat(参考訳) 調査は重要な調査ツールであり、他の手段では測定できない感情や意見などの主観的経験のユニークな測定を提供する。 しかし、調査データは、自己選択された参加者のグループから収集され、関心の集団に直接洞察を直接推論したり、そのようなデータに基づいてMLモデルを訓練したりすることで、誤った見積もりや過小評価モデルにつながる可能性がある。 本稿では,meta によるオープンソースの python パッケージである balance について述べる。興味のある人に対して偏りのあるデータサンプルを解析・調整するための簡単なワークフローを提供する。 バランスワークフローには、3つのステップがある: ターゲットに対するデータの初期バイアスを理解し、適合度スコアに基づいてサンプルの各ユニットの重みを生成してバイアスを正すようにデータを調整し、装着した重みを適用した後の最終的なバイアスと分散インフレーションを評価する。 このパッケージはシンプルなAPIを提供しており、研究者やデータサイエンティストがさまざまな分野のデータを検証することができる。 本稿では,関連するコンテキスト,方法論的背景,パッケージのAPIについて述べる。

Surveys are an important research tool, providing unique measurements on subjective experiences such as sentiment and opinions that cannot be measured by other means. However, because survey data is collected from a self-selected group of participants, directly inferring insights from it to a population of interest, or training ML models on such data, can lead to erroneous estimates or under-performing models. In this paper we present balance, an open-source Python package by Meta, offering a simple workflow for analyzing and adjusting biased data samples with respect to a population of interest. The balance workflow includes three steps: understanding the initial bias in the data relative to a target we would like to infer, adjusting the data to correct for the bias by producing weights for each unit in the sample based on propensity scores, and evaluating the final biases and the variance inflation after applying the fitted weights. The package provides a simple API that can be used by researchers and data scientists from a wide range of fields on a verity of data. The paper provides the relevant context, methodological background, and presents the package's API.
翻訳日:2023-07-13 13:38:51 公開日:2023-07-12
# PolyLM: オープンソースの多言語大言語モデル

PolyLM: An Open Source Polyglot Large Language Model ( http://arxiv.org/abs/2307.06018v1 )

ライセンス: Link先を確認
Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie(参考訳) 大規模言語モデル(llm)は、自然言語命令を理解、推論、生成する驚くべき能力を示している。 しかし、llmsの開発は主に英語などの高資源言語に焦点を当てており、その適用性と研究を他の言語で制限している。 その結果,640億(B)トークンで訓練された多言語LLMであるPolyLMが,モデルサイズが1.7Bと13Bの2つで評価可能であることがわかった。 多言語能力を高めるために 1)バイリンガルデータをトレーニングデータに統合すること,及び 2) 事前学習では, 初年度の30%から最終段階の60%に非英語データの割合を増加させるカリキュラム学習戦略を採用する。 さらに,モデル微調整のための多言語命令を自動的に生成する多言語自己指示手法を提案する。 モデルの性能を評価するために,多言語理解,質問応答,生成,翻訳など,既存の多言語タスクを収集した。 大規模な実験により、PolyLMはLLaMAやBLOOMといった他のオープンソースモデルよりも多言語タスクを上回り、英語で同等のパフォーマンスを維持していることがわかった。 命令データと多言語ベンチマークだけで、以下のモデルが利用できる。 \url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation}。

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: \url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation}.
翻訳日:2023-07-13 13:38:31 公開日:2023-07-12
# 2視点3ビューラベル伝搬による実効的で効率的なエンティティアライメントフレームワーク

An Effective and Efficient Time-aware Entity Alignment Framework via Two-aspect Three-view Label Propagation ( http://arxiv.org/abs/2307.06013v1 )

ライセンス: Link先を確認
Li Cai, Xin Mao, Youshao Xiao, Changxu Wu, Man Lan(参考訳) エンティティアライメント(EA)は、知識融合を促進するために不可欠である異なる知識グラフ(KG)間の等価なエンティティペアを見つけることを目的としている。 時間的知識グラフ(TKG)の多用により、時間を考慮したEA(TEA)手法はEAを増強すると考えられる。 既存のTEAモデルは、グラフニューラルネットワーク(GNN)をベースとして、最先端(SOTA)のパフォーマンスを実現するが、GNNのスケーラビリティの問題により、大規模なTKGに移行することは困難である。 本稿では,TKG間の効果的かつ効率的な非神経EAフレームワークであるLightTEAを提案する。これは,(1)2視点3視点ラベル伝搬,(2)時間制約との疎類似性,(3)シンクホーン演算子,(4)時間反復学習の4つの必須成分からなる。 これらのモジュールはすべて協調してeaのパフォーマンスを改善し、モデルの時間消費を削減します。 公開データセットに対する大規模な実験により,提案手法はTKG間でのEAのSOTA法を著しく上回り,LightTEAが消費する時間は最大で数十秒に過ぎず,最も効率的なTAA法の10%に満たないことがわかった。

Entity alignment (EA) aims to find the equivalent entity pairs between different knowledge graphs (KGs), which is crucial to promote knowledge fusion. With the wide use of temporal knowledge graphs (TKGs), time-aware EA (TEA) methods appear to enhance EA. Existing TEA models are based on Graph Neural Networks (GNN) and achieve state-of-the-art (SOTA) performance, but it is difficult to transfer them to large-scale TKGs due to the scalability issue of GNN. In this paper, we propose an effective and efficient non-neural EA framework between TKGs, namely LightTEA, which consists of four essential components: (1) Two-aspect Three-view Label Propagation, (2) Sparse Similarity with Temporal Constraints, (3) Sinkhorn Operator, and (4) Temporal Iterative Learning. All of these modules work together to improve the performance of EA while reducing the time consumption of the model. Extensive experiments on public datasets indicate that our proposed model significantly outperforms the SOTA methods for EA between TKGs, and the time consumed by LightTEA is only dozens of seconds at most, no more than 10% of the most efficient TEA method.
翻訳日:2023-07-13 13:38:13 公開日:2023-07-12
# サイドバンドによるパラメトリック駆動スピン量子ビットのキャビティによる絡み合い

Cavity-mediated entanglement of parametrically driven spin qubits via sidebands ( http://arxiv.org/abs/2307.06067v1 )

ライセンス: Link先を確認
V. Srinivasa, J. M. Taylor, J. R. Petta(参考訳) 量子ドットベースのスピン量子ビットは、超伝導空洞内のマイクロ波光子を介して相互作用し、また外部の電界によってパラメトリックに駆動される。 本システムでは,共振量子ビットとキャビティ周波数の共振の存在下でスピン量子ビットの絡み合いのモデルを定式化する。 駆動フィールドを介して発生するサイドバンドは、c制御のみを使用し、同時に共振するクビット周波数とキャビティ周波数を調整することなく、高度に調整可能なqubit-qubit絡み合わせを可能にすることを示す。 我々が導出するモデルは、二重量子ドットにおけるデチューン駆動の1電子スピン量子ビットや三重量子ドットにおける3電子共振交換量子ビットなど、様々な量子ビットタイプにマッピングできる。 スピン量子ビットに内在する高次非線形性は、パラメトリック駆動による絡み合いに特に有利である。 2つの駆動量子ビットと共振器の共振条件を複数決定し,共振器の光子占有や崩壊に対する感度を抑えるエンタングリングゲートの実装を可能にする実験的なパラメータ機構を同定する。 パラメトリック駆動型サイドバンド共振方式は、スピン光子カップリングのためのマイクロマグネットレス電子およびホールシステムにも実装可能な、駆動可能なチューニング性を通じて、スピンベースの量子情報処理におけるスケーラビリティとモジュラリティへの有望な経路を提供する。

We consider a pair of quantum dot-based spin qubits that interact via microwave photons in a superconducting cavity, and that are also parametrically driven by separate external electric fields. For this system, we formulate a model for spin qubit entanglement in the presence of mutually off-resonant qubit and cavity frequencies. We show that the sidebands generated via the driving fields enable highly tunable qubit-qubit entanglement using only ac control and without requiring the qubit and cavity frequencies to be tuned into simultaneous resonance. The model we derive can be mapped to a variety of qubit types, including detuning-driven one-electron spin qubits in double quantum dots and three-electron resonant exchange qubits in triple quantum dots. The high degree of nonlinearity inherent in spin qubits renders these systems particularly favorable for parametric drive-activated entanglement. We determine multiple common resonance conditions for the two driven qubits and the cavity and identify experimentally relevant parameter regimes that enable the implementation of entangling gates with suppressed sensitivity to cavity photon occupation and decay. The parametrically driven sideband resonance approach we describe provides a promising route toward scalability and modularity in spin-based quantum information processing through drive-enabled tunability that can also be implemented in micromagnet-free electron and hole systems for spin-photon coupling.
翻訳日:2023-07-13 13:32:10 公開日:2023-07-12
# オンラインフリーランスソフトウェア開発におけるセキュリティ: 分散セキュリティ責任の事例

Security in Online Freelance Software Development: A case for Distributed Security Responsibility ( http://arxiv.org/abs/2307.06066v1 )

ライセンス: Link先を確認
Irum Rauf and Tamara Lopez and Thein Tun and Marian Petre and Bashar Nuseibeh(参考訳) セキュアなソフトウェアは、安全でレジリエントなデジタルエコシステムの基盤となる。 ユーザーの機密データを保護し、サイバー脅威から守るための強力な基盤を提供する。 デジタル経済の急速な成長は、様々な社会技術的、社会経済的背景を持つ開発者がオンラインフリーランスマーケットプレースに参加することを奨励している。 セキュアなソフトウェアプラクティスは、ソフトウェア開発者がセキュアなソフトウェアを開発するのを手助けするが、フリーランス開発者がセキュリティプラクティスを遵守する方法や、非ソース環境におけるセキュリティ行動を改善するための促進方法に関する研究が多数存在する。 さらに、フリーランス開発者は安全でないコードを生成する責任を負うことが多い。 本稿では,既存の文献をレビューし,オンラインフリーランス環境における分散型セキュリティ責任について論じる。 本稿では,オンラインフリーランス市場におけるセキュリティニーズと課題に対処するため,研究者による組織的かつ体系的な取り組みの提供を目的とした研究課題を提案する。 ソフトウェアセキュリティの特徴と責任の分離の定義、オンラインフリーランス開発コミュニティへの信頼の構築、セキュアなソフトウェア開発の促進におけるオンラインフリーランスプラットフォームの可能性の活用、オンラインフリーランスソフトウェア開発のための適応的セキュリティ介入の構築。 この研究は、既存のセキュリティソリューションをより広い開発者コミュニティに提供し、より広いセキュリティエコシステムに実質的なメリットをもたらす可能性がある。

Secure software is a cornerstone to safe and resilient digital ecosystems. It offers strong foundation to protect users' sensitive data and guard against cyber-threats. The rapidly increasing landscape of digital economy has encouraged developers from different socio-technical and socio-economic backgrounds to join online freelance marketplaces. While, secure software practices facilitate software developers in developing secure software, there is paucity of research on how freelance developers adhere to security practices and how they can be facilitated to improve their security behavior in under-resourced environments. Moreover, freelance developers are often held responsible for producing insecure code. In this position paper, we review existing literature and argue for the case of distributed security responsibilities in online freelance environment. We propose a research agenda aimed at offering an organized and systematic effort by researchers to address security needs and challenges of online freelance marketplaces. These include: characterising software security and defining separation of responsibilities, building trust in online freelance development communities, leveraging the potential of online freelancing platforms in the promotion of secure software development and building adaptive security interventions for online freelance software development. The research has the potential to bring forth existing security solutions to wider developer community and deliver substantial benefits to the broader security ecosystem.
翻訳日:2023-07-13 13:31:26 公開日:2023-07-12
# 運用支援推定ネットワーク

Operational Support Estimator Networks ( http://arxiv.org/abs/2307.06065v1 )

ライセンス: Link先を確認
Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 本研究では,提案手法であるosens(operational support estimator networks)を提案する。 サポート推定(SE)はスパース信号における非ゼロ要素の位置を見つけるものとして定義される。 その性質上、測定とスパース信号のマッピングは非線形演算である。 従来の支援推定器は、そのような非線形性を達成するために計算コストの高い反復信号回復技術に依存している。 畳み込み層とは対照的に、提案されたOSENアプローチは、深いネットワークを必要としない複雑な非線形性を学ぶことができる運用層で構成されている。 これにより、非観念的サポート推定の性能が大幅に向上する。 さらに、操作層は、非局所カーネルといわゆる生成的 \textit{super neurons} から構成される。 各ニューロン/機能マップのカーネル位置は、トレーニング中にSEタスクに共同で最適化される。 我々はosensを3つの異なるアプリケーションで評価する。 圧縮センシング(cs)測定からの支持推定(ii) 表現に基づく分類,およびiii。 学習支援型CS再構成では,OSENの出力をCSアルゴリズムの事前知識として使用し,改良された再構成を行う。 実験結果から,提案手法は計算効率を向上し,特に低測定率での競合手法よりも優れることがわかった。 ソフトウェアの実装はhttps://github.com/meteahishali/osenで公開されている。

In this work, we propose a novel approach called Operational Support Estimator Networks (OSENs) for the support estimation task. Support Estimation (SE) is defined as finding the locations of non-zero elements in a sparse signal. By its very nature, the mapping between the measurement and sparse signal is a non-linear operation. Traditional support estimators rely on computationally expensive iterative signal recovery techniques to achieve such non-linearity. Contrary to the convolution layers, the proposed OSEN approach consists of operational layers that can learn such complex non-linearities without the need for deep networks. In this way, the performance of the non-iterative support estimation is greatly improved. Moreover, the operational layers comprise so-called generative \textit{super neurons} with non-local kernels. The kernel location for each neuron/feature map is optimized jointly for the SE task during the training. We evaluate the OSENs in three different applications: i. support estimation from Compressive Sensing (CS) measurements, ii. representation-based classification, and iii. learning-aided CS reconstruction where the output of OSENs is used as prior knowledge to the CS algorithm for an enhanced reconstruction. Experimental results show that the proposed approach achieves computational efficiency and outperforms competing methods, especially at low measurement rates by a significant margin. The software implementation is publicly shared at https://github.com/meteahishali/OSEN.
翻訳日:2023-07-13 13:31:05 公開日:2023-07-12
# 病状進行クラスタリングのための深層埋め込みの解釈

Interpreting deep embeddings for disease progression clustering ( http://arxiv.org/abs/2307.06060v1 )

ライセンス: Link先を確認
Anna Munoz-Farre, Antonios Poulakakis-Daktylidis, Dilini Mahesha Kothalawala, Andrea Rodriguez-Martinez(参考訳) 本稿では,患者クラスタリングにおける深層埋め込みの解釈手法を提案する。 本研究は,英国バイオバンクの2型糖尿病患者のデータセットに対するアプローチを評価し,疾患進行パターンに関する臨床的意義を示す。

We propose a novel approach for interpreting deep embeddings in the context of patient clustering. We evaluate our approach on a dataset of participants with type 2 diabetes from the UK Biobank, and demonstrate clinically meaningful insights into disease progression patterns.
翻訳日:2023-07-13 13:30:46 公開日:2023-07-12
# 深ベイズ分類のための関数空間規則化

Function-Space Regularization for Deep Bayesian Classification ( http://arxiv.org/abs/2307.06055v1 )

ライセンス: Link先を確認
Jihao Andreas Lin, Joe Watson, Pascal Klink, Jan Peters(参考訳) ベイジアンディープラーニングアプローチは、モデルパラメータを潜在確率変数と仮定し、後続分布を推定して不確実性を定量化し、安全性と信頼を高め、過信で予測不可能な振る舞いを防ぐ。 しかし、重み空間の優先順位はモデル固有であり、解釈が難しく、特定が難しい。 代わりに、予測空間に先立ってディリクレを適用し、近似関数空間変分推論を行う。 そこで我々は,確率的ニューラルネットワーク分類器の従来のカテゴリー予測を,暗黙的ディリクレ分布のサンプルとして解釈する。 推論を適用することで、モデルアーキテクチャやサイズに影響を与えることなく、同じ関数空間を異なるモデルと組み合わせることができる。 玩具実験による先行実験の柔軟性と有効性を示し,大規模画像分類実験により,拡張性,不確かさの定量化,敵対的ロバスト性を示す。

Bayesian deep learning approaches assume model parameters to be latent random variables and infer posterior distributions to quantify uncertainty, increase safety and trust, and prevent overconfident and unpredictable behavior. However, weight-space priors are model-specific, can be difficult to interpret and are hard to specify. Instead, we apply a Dirichlet prior in predictive space and perform approximate function-space variational inference. To this end, we interpret conventional categorical predictions from stochastic neural network classifiers as samples from an implicit Dirichlet distribution. By adapting the inference, the same function-space prior can be combined with different models without affecting model architecture or size. We illustrate the flexibility and efficacy of such a prior with toy experiments and demonstrate scalability, improved uncertainty quantification and adversarial robustness with large-scale image classification experiments.
翻訳日:2023-07-13 13:30:41 公開日:2023-07-12
# 画像における多変量ガウス異常検出の可視化

Visualization for Multivariate Gaussian Anomaly Detection in Images ( http://arxiv.org/abs/2307.06052v1 )

ライセンス: Link先を確認
Joao P C Bertoldo and David Arrustico(参考訳) 本稿では,画像内の異常検出のためのPaDiM(Pixel-Wise Anomaly Detection through Instance Modeling)法を単純化し,背骨畳み込みニューラルネットワーク(CNN)から抽出した特徴ベクトルに単一の多変量ガウス分布を適用し,そのマハラノビス距離を異常スコアとして利用する。 本稿では,特徴ベクトルにホワイトニング変換を適用することで,mvg で学習した特徴を視覚的に説明可能なヒートマップの生成を可能にする。 提案手法はMVTec-ADデータセットを用いて評価され,その結果から視覚モデル検証の重要性が示され,他の方法では見えない問題に対する洞察が得られた。 この論文で生成された可視化はhttps://doi.org/10.5281/zenodo.7937978で公開されている。

This paper introduces a simplified variation of the PaDiM (Pixel-Wise Anomaly Detection through Instance Modeling) method for anomaly detection in images, fitting a single multivariate Gaussian (MVG) distribution to the feature vectors extracted from a backbone convolutional neural network (CNN) and using their Mahalanobis distance as the anomaly score. We introduce an intermediate step in this framework by applying a whitening transformation to the feature vectors, which enables the generation of heatmaps capable of visually explaining the features learned by the MVG. The proposed technique is evaluated on the MVTec-AD dataset, and the results show the importance of visual model validation, providing insights into issues in this framework that were otherwise invisible. The visualizations generated for this paper are publicly available at https://doi.org/10.5281/zenodo.7937978.
翻訳日:2023-07-13 13:30:26 公開日:2023-07-12
# モンゴル一般コーパスの適切な大きさに関する研究

A Study on the Appropriate size of the Mongolian general corpus ( http://arxiv.org/abs/2307.06050v1 )

ライセンス: Link先を確認
Sunsoo Choi and Ganbat Tsend(参考訳) 本研究の目的は,モンゴルの一般コーパスの適切なサイズを決定することである。 本研究はモンゴル一般コーパスの適切なサイズを決定するためにヒープ関数と型トークン比を用いた。 906,064枚のトークンのサンプルコーパスは、新聞政治、経済、社会、文化、スポーツ、世界記事と法律、中・高校文学の教科書、インタビュー記事、ポッドキャストの原稿の10の分野のテキストで構成されていた。 まず,このサンプルコーパスを用いてHeaps関数を推定した。 次に,Heaps関数を用いてトークン数を100万増加させながら,タイプ数とTTR値の変化を観察した。 その結果,トークン数が39万から42万を超えると,TTR値はほとんど変化しないことがわかった。 したがって、モンゴルの一般コーパスの適切なサイズは、39万から42百万のトークンである。

This study aims to determine the appropriate size of the Mongolian general corpus. This study used the Heaps function and Type Token Ratio to determine the appropriate size of the Mongolian general corpus. The sample corpus of 906,064 tokens comprised texts from 10 domains of newspaper politics, economy, society, culture, sports, world articles and laws, middle and high school literature textbooks, interview articles, and podcast transcripts. First, we estimated the Heaps function with this sample corpus. Next, we observed changes in the number of types and TTR values while increasing the number of tokens by one million using the estimated Heaps function. As a result of observation, we found that the TTR value hardly changed when the number of tokens exceeded from 39 to 42 million. Thus, we conclude that an appropriate size for a Mongolian general corpus is from 39 to 42 million tokens.
翻訳日:2023-07-13 13:30:11 公開日:2023-07-12
# オンラインインベントリ問題:オンライン凸最適化によるi.i.d.設定を超えて

Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex Optimization ( http://arxiv.org/abs/2307.06048v1 )

ライセンス: Link先を確認
Massil Hihat, St\'ephane Ga\"iffas, Guillaume Garrigos, Simon Bussy(参考訳) 本研究では,管理職が累積損失を最小限に抑えるために,部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。 我々のモチベーションは、通常、ニュースベンダータイプの損失、固定力学、非現実的な需要仮定に依存する標準モデルを超える一般的な需要、損失、ダイナミクスを考えることである。 提案するオンラインアルゴリズムMaxCOSDは,例えばパーシビリティを含む,非ID要求やステートフルなダイナミクスの問題に対しても,証明可能な保証を持つ。 我々は、需要プロセスにおいて非退化仮説と呼ぶものを検討し、学習を許容するために必要なものであると主張する。

We study multi-product inventory control problems where a manager makes sequential replenishment decisions based on partial historical information in order to minimize its cumulative losses. Our motivation is to consider general demands, losses and dynamics to go beyond standard models which usually rely on newsvendor-type losses, fixed dynamics, and unrealistic i.i.d. demand assumptions. We propose MaxCOSD, an online algorithm that has provable guarantees even for problems with non-i.i.d. demands and stateful dynamics, including for instance perishability. We consider what we call non-degeneracy assumptions on the demand process, and argue that they are necessary to allow learning.
翻訳日:2023-07-13 13:29:55 公開日:2023-07-12
# マグノン結晶を用いた量子情報ダイオード

Quantum information diode based on a magnonic crystal ( http://arxiv.org/abs/2307.06047v1 )

ライセンス: Link先を確認
Rohit K. Shukla, Levan Chotorlishvili, Vipin Vijayan, Harshit Verma, Arthur Ernst, Stuart S. P. Parkin and Sunil K. Mishra(参考訳) 逆対称性を持たない系において、非相互マグノンの効果を爆発させることにより、反対方向に伝達される量子情報の量を修正する装置である量子情報ダイオードの概念を提案する。 我々は、印加された外部電場を通して非対称な左および右量子情報電流を制御し、それを時間外相関(OTOC)を介して定量化する。 量子情報ダイオードの効率を高めるため,マグノニック結晶を用いる。 異なる周波数のマグノンを励起し、反対方向に伝播させる。 反対方向に伝播する非相互マグノンは異なる分散関係を持つ。 一方向に伝播するマグノンは共鳴条件に一致し、ゲートマノンに散乱する。 したがって、一方向のマグノンフラックスは、量子情報ダイオードにおける量子情報の非対称輸送に繋がるマグノン結晶内で減衰される。 量子情報ダイオードは、イットリウム鉄ガーネット(yig)膜から製造することができる。 これは実験的に実現可能な概念であり、低温と平衡からの小さな偏差からフォノンとマグノンの相互作用の影響を排除できる条件を示している。 量子情報の欠陥の整流は外部の電界と磁力効果によって効率的に制御できることを示す。

Exploiting the effect of nonreciprocal magnons in a system with no inversion symmetry, we propose a concept of a quantum information diode, {\it i.e.}, a device rectifying the amount of quantum information transmitted in the opposite directions. We control the asymmetric left and right quantum information currents through an applied external electric field and quantify it through the left and right out-of-time-ordered correlation (OTOC). To enhance the efficiency of the quantum information diode, we utilize a magnonic crystal. We excite magnons of different frequencies and let them propagate in opposite directions. Nonreciprocal magnons propagating in opposite directions have different dispersion relations. Magnons propagating in one direction match resonant conditions and scatter on gate magnons. Therefore, magnon flux in one direction is damped in the magnonic crystal leading to an asymmetric transport of quantum information in the quantum information diode. A quantum information diode can be fabricated from an yttrium iron garnet (YIG) film. This is an experimentally feasible concept and implies certain conditions: low temperature and small deviation from the equilibrium to exclude effects of phonons and magnon interactions. We show that rectification of the flaw of quantum information can be controlled efficiently by an external electric field and magnetoelectric effects.
翻訳日:2023-07-13 13:29:42 公開日:2023-07-12
# 新しい関係型とノードを用いたリンク予測のためのOODマルチタスク視点

An OOD Multi-Task Perspective for Link Prediction with New Relation Types and Nodes ( http://arxiv.org/abs/2307.06046v1 )

ライセンス: Link先を確認
Jincheng Zhou, Beatrice Bevilacqua, Bruno Ribeiro(参考訳) 多重グラフの帰納的リンク予測のタスクは、新しいテストマルチグラフにおけるノード間の帰納的リンク(関係)の欠如を推論する。 従来のリレーショナルラーニング手法は、新しいノードとトレーニングで見られない新しいリレーショナルタイプの両方を含むOODテストマルチグラフへの限定的な一般化の課題に直面している。 近年、全ての関係型が同じ構造的予測パターン(単一タスク)を共有しているという前提の下で、Gaoら(2023)は、グラフニューラルネットワーク(GNN)の設計に使用される(単一)交換可能性(ノードのみ)とは対照的に、二重交換可能性(ノードと関係型)の理論的概念を用いたOODリンク予測手法を提案した。 本研究は、二重交換可能性の概念をマルチタスクの二重交換性へと拡張し、異なる関係型(複数タスク)の集合に対して異なる、潜在的に矛盾する予測パターンを持つ属性付き多重グラフにおけるリンク予測を定義する。 実世界のデータセットに対する実験結果から、我々のアプローチは、追加情報にアクセスせずに、テストにおいて全く新しい関係型に効果的に一般化できることが示され、既存の手法よりも大幅に性能が向上した。

The task of inductive link prediction in (discrete) attributed multigraphs infers missing attributed links (relations) between nodes in new test multigraphs. Traditional relational learning methods face the challenge of limited generalization to OOD test multigraphs containing both novel nodes and novel relation types not seen in training. Recently, under the only assumption that all relation types share the same structural predictive patterns (single task), Gao et al. (2023) proposed an OOD link prediction method using the theoretical concept of double exchangeability (for nodes & relation types), in contrast to the (single) exchangeability (only for nodes) used to design Graph Neural Networks (GNNs). In this work we further extend the double exchangeability concept to multi-task double exchangeability, where we define link prediction in attributed multigraphs that can have distinct and potentially conflicting predictive patterns for different sets of relation types (multiple tasks). Our empirical results on real-world datasets demonstrate that our approach can effectively generalize to entirely new relation types in test, without access to additional information, yielding significant performance improvements over existing methods.
翻訳日:2023-07-13 13:29:26 公開日:2023-07-12
# 質量欠陥と相対論的補正を伴う多極複合ボソンの量子場理論

Quantum field theory for multipolar composite bosons with mass defect and relativistic corrections ( http://arxiv.org/abs/2307.06110v1 )

ライセンス: Link先を確認
Tobias A{\ss}mann, Enno Giese, Fabio Di Pumpo(参考訳) 原子の高精度測定は基礎物理学、標準模型、重力理論のテストにおいて競争力と必須の手法となっている。 したがって、そのような測定が量子電磁力学のような場の理論から生じる原子の一貫した相対論的記述を要求することは自明である。 ほとんどの量子メソジカルアプローチは、スクイーズのような技術による精度の向上を記述するために、効果的な場の理論的な処理を仮定する。 しかし、内部構造と原子の質量の中心の両方を含む基本量子場理論から相互作用する原子量子ガスの一貫性のある導出はまだ解決されていない。 我々は、光との相互作用が多極性記述に含まれるコボソンと呼ばれる複合ボソンを形成する核と電子からなる原子の相互作用、スピンキャリング、そしておそらく荷電アンサンブルのための効果的な量子場理論を提案する。 相対論的補正は、単一コボソンのエネルギー、光・物質相互作用、およびコボソン間の散乱ポテンシャルに一貫した自然な方法で生じる。 特に、コボソンの質量中心運動と質量欠陥によって符号化された内部構造とイオンスピン軌道結合との相対論的カップリングを求める。 これらの結果を用いて、イオンの運動、散乱ポテンシャルの修正、グロス・ピタエフスキー方程式の相対論的拡張、原子時計や量子時計干渉法に適用可能な質量欠陥などの修正された境界状態エネルギーを導出する。 我々の理論は、有効場の理論、量子光学、散乱理論、超低温量子気体の側面を結合して一般化するだけでなく、量子電磁力学と超低温量子気体の有効場理論のギャップを埋める。

Atomic high-precision measurements have become a competitive and essential technique for tests of fundamental physics, the Standard Model, and our theory of gravity. It is therefore self-evident that such measurements call for a consistent relativistic description of atoms that eventually originates from quantum field theories like quantum electrodynamics. Most quantum-metrological approaches even postulate effective field-theoretical treatments to describe a precision enhancement through techniques like squeezing. However, a consistent derivation of interacting atomic quantum gases from an elementary quantum field theory that includes both the internal structure as well as the center of mass of atoms, has not yet been addressed. We present such an effective quantum field theory for interacting, spin-carrying, and possibly charged ensembles of atoms composed of nucleus and electron that form composite bosons called cobosons, where the interaction with light is included in a multipolar description. Relativistic corrections to the energy of a single coboson, light-matter interaction, and the scattering potential between cobosons arise in a consistent and natural manner. In particular, we obtain a relativistic coupling between the coboson's center-of-mass motion and internal structure encoded by the mass defect, together with an ion spin-orbit coupling. We use these results to derive modified bound-state energies including the motion of ions, modified scattering potentials, a relativistic extension of the Gross-Pitaevskii equation, and the mass defect applicable to atomic clocks or quantum-clock interferometry. Our theory does not only combine and generalize aspects of effective field theories, quantum optics, scattering theory, and ultracold quantum gases, but it also bridges the gap between quantum electrodynamics and effective field theories for ultracold quantum gases.
翻訳日:2023-07-13 13:21:48 公開日:2023-07-12
# 動的グラフのためのディープラーニング:モデルとベンチマーク

Deep learning for dynamic graphs: models and benchmarks ( http://arxiv.org/abs/2307.06104v1 )

ライセンス: Link先を確認
Alessio Gravina and Davide Bacciu(参考訳) 近年,Deep Graph Networks (DGNs) の研究が進展し,グラフ上の学習領域が成熟した。 この研究分野の成長にもかかわらず、まだ解決されていない重要な課題が残っている。 具体的には、時間とともに進化する相互接続された実体の現実的なシステム上での予測タスクに適したDGNを作成することを提案する。 まず、動的グラフの領域における研究の促進を目的として、時間的情報と空間的情報の両方を学習する最近の利点を調査し、動的グラフの表現学習の領域における現在の最先端の概観を提供する。 第2に,厳密なモデル選択と評価を全手法で活用し,新しいアーキテクチャとアプローチを評価するための音響ベースラインを確立することによる,最も一般的な提案手法の公正な性能比較を行う。

Recent progress in research on Deep Graph Networks (DGNs) has led to a maturation of the domain of learning on graphs. Despite the growth of this research field, there are still important challenges that are yet unsolved. Specifically, there is an urge of making DGNs suitable for predictive tasks on realworld systems of interconnected entities, which evolve over time. With the aim of fostering research in the domain of dynamic graphs, at first, we survey recent advantages in learning both temporal and spatial information, providing a comprehensive overview of the current state-of-the-art in the domain of representation learning for dynamic graphs. Secondly, we conduct a fair performance comparison among the most popular proposed approaches, leveraging rigorous model selection and assessment for all the methods, thus establishing a sound baseline for evaluating new architectures and approaches
翻訳日:2023-07-13 13:21:19 公開日:2023-07-12
# RFENet:ガラスセグメンテーションの相互特徴進化を目指して

RFENet: Towards Reciprocal Feature Evolution for Glass Segmentation ( http://arxiv.org/abs/2307.06099v1 )

ライセンス: Link先を確認
Ke Fan, Changan Wang, Yabiao Wang, Chengjie Wang, Ran Yi and Lizhuang Ma(参考訳) ガラスのような物体は日常生活で広く見られるが、既存の手法では分節化できない。 透明な性質は背景と区別することが難しく、小さな分離境界は正確な輪郭の取得をさらに妨げている。 本稿では,セマンティクスと境界学習の重要な共進化要求を明らかにすることにより,それらの相互機能学習を可能にする選択的相互進化(sme)モジュールを提案する。 そこで我々は,大域的な形状のコンテキストを活用するために,境界付近の不明瞭な点に対して,微細な特徴改善を行うためのSAR (Structurely Attentive Refinement) モジュールを提案する。 最後に, マルチスケール表現をさらに活用するために, 上記の2つのモジュールをカスケード構造に統合し, 効果的なガラス状オブジェクトセグメンテーションのための相互特徴進化ネットワーク (rfenet) を導入する。 大規模な実験により、我々のRFENetは3つの人気のある公開データセットで最先端のパフォーマンスを達成した。

Glass-like objects are widespread in daily life but remain intractable to be segmented for most existing methods. The transparent property makes it difficult to be distinguished from background, while the tiny separation boundary further impedes the acquisition of their exact contour. In this paper, by revealing the key co-evolution demand of semantic and boundary learning, we propose a Selective Mutual Evolution (SME) module to enable the reciprocal feature learning between them. Then to exploit the global shape context, we propose a Structurally Attentive Refinement (SAR) module to conduct a fine-grained feature refinement for those ambiguous points around the boundary. Finally, to further utilize the multi-scale representation, we integrate the above two modules into a cascaded structure and then introduce a Reciprocal Feature Evolution Network (RFENet) for effective glass-like object segmentation. Extensive experiments demonstrate that our RFENet achieves state-of-the-art performance on three popular public datasets.
翻訳日:2023-07-13 13:21:07 公開日:2023-07-12
# グラフニューラルネットワークによる帰属正規化としての確率力学系の学習

Learning Stochastic Dynamical Systems as an Implicit Regularization with Graph Neural Networks ( http://arxiv.org/abs/2307.06097v1 )

ライセンス: Link先を確認
Jin Guo, Ting Gao, Yufu Lan, Peng Zhang, Sikun Yang, Jinqiao Duan(参考訳) 観測された次元がしばしば空間的に相関する高次元時系列を学ぶために、確率的グンベルグラフネットワークが提案されている。 そこで,確率微分方程式のドリフト項と拡散項をGumble行列埋め込みで学習することにより,観測されたランダム性と空間相関を捉える。 特に,この新しい枠組みにより,s-ggnにおける雑音項の暗黙的正則化効果を検証できる。 提案するS-GGNは,小さな近傍の2つの損失関数の違いを導出することにより,理論的に保証する。 次に, 2つの損失関数のヘッセン行列からスペクトル密度を比較するために, 倉本モデルを用いてデータを生成する。 実世界のデータを用いた実験の結果,s-ggnは最先端と比較して収束性,ロバスト性,一般化に優れることが示された。

Stochastic Gumbel graph networks are proposed to learn high-dimensional time series, where the observed dimensions are often spatially correlated. To that end, the observed randomness and spatial-correlations are captured by learning the drift and diffusion terms of the stochastic differential equation with a Gumble matrix embedding, respectively. In particular, this novel framework enables us to investigate the implicit regularization effect of the noise terms in S-GGNs. We provide a theoretical guarantee for the proposed S-GGNs by deriving the difference between the two corresponding loss functions in a small neighborhood of weight. Then, we employ Kuramoto's model to generate data for comparing the spectral density from the Hessian Matrix of the two loss functions. Experimental results on real-world data, demonstrate that S-GGNs exhibit superior convergence, robustness, and generalization, compared with state-of-the-arts.
翻訳日:2023-07-13 13:20:50 公開日:2023-07-12
# オンラインラプラスモデル選択の再検討

Online Laplace Model Selection Revisited ( http://arxiv.org/abs/2307.06093v1 )

ライセンス: Link先を確認
Jihao Andreas Lin, Javier Antor\'an, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Laplace近似はニューラルネットワーク(NN)のためのクローズドフォームモデル選択の目的を提供する。 NNパラメータをウェイト崩壊強度などのハイパーパラメータと組み合わせて最適化するオンライン版では、ベイジアンディープラーニングコミュニティに新たな関心が寄せられている。 しかし、これらの手法は、損失のモードで近似が実行されるというラプラスの致命的な仮定に反し、それらの音響性に疑問を投げかける。 この研究はオンラインのLaplaceメソッドを再定義し、静的な仮定をしないモード修正されたLaplace証拠の変分境界を目標とすることを示した。 オンラインラプラスとそのモード修正版は静止点を共有している 1. NNパラメータは、Laplaceメソッドの仮定を満たす最大アプリートであり、そして、 2. ハイパーパラメータはラプラスのエビデンスを最大化し、オンラインメソッドを動機付ける。 これらの最適化は、UCI回帰データセットのフルバッチ勾配勾配を用いたオンラインアルゴリズムにより、大まかに達成されていることを実証する。 最適化されたハイパーパラメータは、過剰フィッティングと検証ベースの早期停止を防止します。

The Laplace approximation provides a closed-form model selection objective for neural networks (NN). Online variants, which optimise NN parameters jointly with hyperparameters, like weight decay strength, have seen renewed interest in the Bayesian deep learning community. However, these methods violate Laplace's method's critical assumption that the approximation is performed around a mode of the loss, calling into question their soundness. This work re-derives online Laplace methods, showing them to target a variational bound on a mode-corrected variant of the Laplace evidence which does not make stationarity assumptions. Online Laplace and its mode-corrected counterpart share stationary points where 1. the NN parameters are a maximum a posteriori, satisfying the Laplace method's assumption, and 2. the hyperparameters maximise the Laplace evidence, motivating online methods. We demonstrate that these optima are roughly attained in practise by online algorithms using full-batch gradient descent on UCI regression datasets. The optimised hyperparameters prevent overfitting and outperform validation-based early stopping.
翻訳日:2023-07-13 13:20:34 公開日:2023-07-12
# ディープニューラルネットワークにおける量的clt

Quantitative CLTs in Deep Neural Networks ( http://arxiv.org/abs/2307.06092v1 )

ライセンス: Link先を確認
Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nourdin, Giovanni Peccati(参考訳) ランダムなガウス重みとバイアスを持つ完全連結ニューラルネットワークの分布について検討し,隠れた層幅が大きな定数$n$に比例することを示した。 非線形性に関する穏やかな仮定の下では、正規近似の量的境界は、大きなが有限の n$ と任意の固定されたネットワーク深さで有効である。 我々の定理は、有限次元分布と全過程の両方について、ランダムな完全連結ネットワーク(とその微分)と対応する無限幅ガウス過程の間の距離は、例えば$n^{-\gamma}$ for $\gamma>0,$ であり、その指数は離散性を測定するのに用いられる計量に依存する。 我々の境界は、これまで文献で利用できたものよりもネットワーク幅に依存しているという点で強い。

We study the distribution of a fully connected neural network with random Gaussian weights and biases in which the hidden layer widths are proportional to a large constant $n$. Under mild assumptions on the non-linearity, we obtain quantitative bounds on normal approximations valid at large but finite $n$ and any fixed network depth. Our theorems show, both for the finite-dimensional distributions and the entire process, that the distance between a random fully connected network (and its derivatives) to the corresponding infinite width Gaussian process scales like $n^{-\gamma}$ for $\gamma>0,$ with the exponent depending on the metric used to measure discrepancy. Our bounds are stronger in terms of their dependence on network width than any previously available in the literature.
翻訳日:2023-07-13 13:20:19 公開日:2023-07-12
# AICT: 適応型画像圧縮変換器

AICT: An Adaptive Image Compression Transformer ( http://arxiv.org/abs/2307.06091v1 )

ライセンス: Link先を確認
Ahmed Ghorbel, Wassim Hamidouche and Luce Morin(参考訳) swint-charm と呼ばれる tranformer-based transform coding framework の効率性の検討に動機づけられ,まず,より単純かつ効果的なtranformer-based channel-wise auto-regressive prior モデルにより,絶対画像圧縮トランスフォーマ (ict) を実現することを提案する。 ConvNetベースのエントロピー符号化に依存している現在の手法は、局所的な接続性やアーキテクチャ上のバイアスや事前の増大により、長距離モデリング依存に限られている。 それとは逆に、提案したICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。 さらに,サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し,高品質な画像を再構成しながら,よりコンパクトな潜在表現を正確に抽出する。 ベンチマークデータセットの大規模な実験結果から、提案した適応画像圧縮変換器(AICT)フレームワークは、多目的ビデオ符号化(VVC)参照エンコーダ(VTM-18.0)とニューラルコーデックSwinT-ChARMとのトレードオフを大幅に改善することが示された。

Motivated by the efficiency investigation of the Tranformer-based transform coding framework, namely SwinT-ChARM, we propose to enhance the latter, as first, with a more straightforward yet effective Tranformer-based channel-wise auto-regressive prior model, resulting in an absolute image compression transformer (ICT). Current methods that still rely on ConvNet-based entropy coding are limited in long-range modeling dependencies due to their local connectivity and an increasing number of architectural biases and priors. On the contrary, the proposed ICT can capture both global and local contexts from the latent representations and better parameterize the distribution of the quantized latents. Further, we leverage a learnable scaling module with a sandwich ConvNeXt-based pre/post-processor to accurately extract more compact latent representation while reconstructing higher-quality images. Extensive experimental results on benchmark datasets showed that the proposed adaptive image compression transformer (AICT) framework significantly improves the trade-off between coding efficiency and decoder complexity over the versatile video coding (VVC) reference encoder (VTM-18.0) and the neural codec SwinT-ChARM.
翻訳日:2023-07-13 13:20:02 公開日:2023-07-12
# 深層学習のためのチャージトラップフラッシュの非理想的プログラム時間保存

Non-Ideal Program-Time Conservation in Charge Trap Flash for Deep Learning ( http://arxiv.org/abs/2307.06088v1 )

ライセンス: Link先を確認
Shalini Shrivastava, Vivek Saraswat, Gayatri Dash, Samyak Chakrabarty, Udayan Ganguly(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは計算集約的だが、Charge Trap Flash(CTF)のような不揮発性メモリの配列は、インメモリコンピューティングを使用してDNN操作を加速することができる。 具体的には、抵抗処理ユニット(RPU)アーキテクチャは、確率符号化パルス列とアナログメモリ特徴による電圧閾値プログラムを用いてベクトルベクトル外積の高速化と勾配降下アルゴリズムの重み更新を行う。 精度の高いCTFは、RPUを実装する上では優れた選択であると考えられてきたが、応用確率パルス列による電荷蓄積は最終的に最終重量更新を決定する上で重要な意味を持つ。 本稿では, パルス入力測定によるCTFの非理想的プログラム時間保存について報告する。 パルス幅とパルスギャップの影響を実験的に測定し,入力パルストレインの総オンタイムを一定に保ち,(1) 累積V_Tシフトがより多くの短パルスに分断された場合に減少する,(2) 累積V_Tシフトが突然パルス幅<2 {\mu}sで減少する,(3) 累積V_Tシフトが連続パルス間のギャップに依存する,という3つの非理想性を報告する。 本稿では,これらの非理想性を説明するために,酸化物トラップチャージダイナミクスのブロックによる一過性トンネル場拡張に基づく説明を行う。 責任あるメカニズムを特定し、モデル化し、学習中のシステムレベルの効果を予測することは重要です。 この非理想的な蓄積は、インメモリコンピューティングベースの加速のための数学的に等価な関数を実装するデバイスに依存するアルゴリズムやアーキテクチャに影響を与えることが期待されている。

Training deep neural networks (DNNs) is computationally intensive but arrays of non-volatile memories like Charge Trap Flash (CTF) can accelerate DNN operations using in-memory computing. Specifically, the Resistive Processing Unit (RPU) architecture uses the voltage-threshold program by stochastic encoded pulse trains and analog memory features to accelerate vector-vector outer product and weight update for the gradient descent algorithms. Although CTF, offering high precision, has been regarded as an excellent choice for implementing RPU, the accumulation of charge due to the applied stochastic pulse trains is ultimately of critical significance in determining the final weight update. In this paper, we report the non-ideal program-time conservation in CTF through pulsing input measurements. We experimentally measure the effect of pulse width and pulse gap, keeping the total ON-time of the input pulse train constant, and report three non-idealities: (1) Cumulative V_T shift reduces when total ON-time is fragmented into a larger number of shorter pulses, (2) Cumulative V_T shift drops abruptly for pulse widths < 2 {\mu}s, (3) Cumulative V_T shift depends on the gap between consecutive pulses and the V_T shift reduction gets recovered for smaller gaps. We present an explanation based on a transient tunneling field enhancement due to blocking oxide trap-charge dynamics to explain these non-idealities. Identifying and modeling the responsible mechanisms and predicting their system-level effects during learning is critical. This non-ideal accumulation is expected to affect algorithms and architectures relying on devices for implementing mathematically equivalent functions for in-memory computing-based acceleration.
翻訳日:2023-07-13 13:19:35 公開日:2023-07-12
# スパイクニューラルネットワークにおけるロバストオンチップ常時学習のためのニューロモルフィックアナログ回路

Neuromorphic analog circuits for robust on-chip always-on learning in spiking neural networks ( http://arxiv.org/abs/2307.06084v1 )

ライセンス: Link先を確認
Arianna Rubino, Matteo Cartiglia, Melika Payvand and Giacomo Indiveri(参考訳) 混合信号ニューロモルフィックシステムは、外部のコンピューティングリソースに頼ることなく、極端にエッジなコンピューティングタスクを解くための有望なソリューションである。 スパイキングニューラルネットワーク回路は、オンラインの感覚データを連続的に処理するために最適化されている。 しかし、その低い精度と高い可変性は性能を著しく制限することができる。 この問題に対処し,その内部状態変数と外部入力信号の両方における不均一性と雑音に対するロバスト性を改善するため,短期アナログダイナミクスと長期三状態弁別機構を備えたオンチップ学習回路を設計した。 安定性を改善し、必要に応じて自動的にウェイト更新を無効にし、常時学習を可能にする、追加のヒステリックストップラーニングメカニズムが含まれている。 我々は180nmCMOS技術を用いて,これらの学習回路を用いたスパイクニューラルネットワークを試作した。 プロトタイプチップのシミュレーションとシリコン測定結果について述べる。 これらの回路は、リアルタイムエッジコンピューティングタスクのためのオンライン学習機能を備えた大規模スパイクニューラルネットワークの構築を可能にする。

Mixed-signal neuromorphic systems represent a promising solution for solving extreme-edge computing tasks without relying on external computing resources. Their spiking neural network circuits are optimized for processing sensory data on-line in continuous-time. However, their low precision and high variability can severely limit their performance. To address this issue and improve their robustness to inhomogeneities and noise in both their internal state variables and external input signals, we designed on-chip learning circuits with short-term analog dynamics and long-term tristate discretization mechanisms. An additional hysteretic stop-learning mechanism is included to improve stability and automatically disable weight updates when necessary, to enable continuous always-on learning. We designed a spiking neural network with these learning circuits in a prototype chip using a 180 nm CMOS technology. Simulation and silicon measurement results from the prototype chip are presented. These circuits enable the construction of large-scale spiking neural networks with online learning capabilities for real-world edge computing tasks.
翻訳日:2023-07-13 13:19:00 公開日:2023-07-12
# VELMA:ストリートビューにおける視覚・言語ナビゲーションのためのLLMエージェントの言語化

VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View ( http://arxiv.org/abs/2307.06082v1 )

ライセンス: Link先を確認
Raphael Schumann and Wanrong Zhu and Weixi Feng and Tsu-Jui Fu and Stefan Riezler and William Yang Wang(参考訳) 現実世界の環境におけるインクリメンタルな意思決定は、人工知能を具現化する上で最も難しいタスクの1つだ。 特に要求されるシナリオは視覚と言語ナビゲーション(VLN)であり、視覚的および自然言語理解と空間的および時間的推論能力を必要とする。 具体化エージェントは、ストリートビューのような現実世界の環境を観察する際に、ナビゲーション指示に対する理解を深める必要がある。 LLMの他の研究分野における印象的な成果にもかかわらず、インタラクティブな視覚環境とどのように接続するかは、現在進行中の問題である。 本研究では, 次の行動の文脈的プロンプトとして, 軌跡の言語化と視覚環境観察を併用したLLMエージェントであるVELMAを提案する。 視覚情報は、人間の記述したナビゲーション命令からランドマークを抽出し、CLIPを使用して現在のパノラマビューでその可視性を決定するパイプラインによって言語化される。 VELMAは2つのコンテキスト内例だけで,ストリートビューでのナビゲーション指示に従うことができることを示す。 数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。

Incremental decision making in real-world environments is one of the most challenging tasks in embodied artificial intelligence. One particularly demanding scenario is Vision and Language Navigation~(VLN) which requires visual and natural language understanding as well as spatial and temporal reasoning capabilities. The embodied agent needs to ground its understanding of navigation instructions in observations of a real-world environment like Street View. Despite the impressive results of LLMs in other research areas, it is an ongoing problem of how to best connect them with an interactive visual environment. In this work, we propose VELMA, an embodied LLM agent that uses a verbalization of the trajectory and of visual environment observations as contextual prompt for the next action. Visual information is verbalized by a pipeline that extracts landmarks from the human written navigation instructions and uses CLIP to determine their visibility in the current panorama view. We show that VELMA is able to successfully follow navigation instructions in Street View with only two in-context examples. We further finetune the LLM agent on a few thousand examples and achieve 25%-30% relative improvement in task completion over the previous state-of-the-art for two datasets.
翻訳日:2023-07-13 13:18:44 公開日:2023-07-12
# 位相空間における量子場のエントロピー識別性

Entropic distinguishability of quantum fields in phase space ( http://arxiv.org/abs/2307.06128v1 )

ライセンス: Link先を確認
Sara Ditsch and Tobias Haas(参考訳) 電場理論位相空間における量子場配置のエントロピー不確かさをエントロピー微分可能性の観点から定量化する一般的な方法を提案する。 このアプローチは関数型husimi $q$-分散とその相対エントロピーに基づいており、不確実性原理によって上から非自明に有界であることが示されている。 結果として生じる相対エントロピーの不確実性関係は、有限個のモードと量子場を持ち、コヒーレント状態の概念と同じくらい一般である。 本研究では, 相対論的スカラー場とスピンレスマヨナフェルミオンをそれぞれ考慮し, ボゾンとフェルミオンの自由度の関係を評価する。 その結果, 真空スケールに対する励起のエントロピー的識別性は, 平均励起数と一致し, 粒子の性質とは無関係であることがわかった。

We present a general way of quantifying the entropic uncertainty of quantum field configurations in field-theoretic phase space in terms of entropic distinguishability. Our approach is based on the functional Husimi $Q$-distribution and a suitably chosen relative entropy thereof, which we show to be non-trivially bounded from above by the uncertainty principle. The resulting relative entropic uncertainty relation holds for a finite number of modes as well as for quantum fields and is as general as the concept of coherent states. We evaluate this relation for bosonic and fermionic degrees of freedom by considering the relativistic scalar field and the spinless Majorana fermion, respectively. We find that the bound on the entropic distinguishability of excitations with respect to the vacuum scales with the average number of excitations and is independent of the particle nature.
翻訳日:2023-07-13 13:12:40 公開日:2023-07-12
# ボトムアップ型対話型制約獲得

Guided Bottom-Up Interactive Constraint Acquisition ( http://arxiv.org/abs/2307.06126v1 )

ライセンス: Link先を確認
Dimos Tsouros, Senne Berden, Tias Guns(参考訳) 制約獲得(ca)システムは、制約満足度問題のモデリングを支援するために使用できる。 対話型caでは、システムは候補制約のセットを与えられ、候補間の適切な制約を見つけることを目標として、ユーザにクエリをポストする。 現在の対話型CAアルゴリズムは、少なくとも2つの大きなボトルネックに悩まされている。 まず、収束させるためには、ユーザに対して大量のクエリを要求する必要があります。 第二に、ユーザの待ち時間が大きくなるため、大量の候補制約を処理できない。 そのため、ユーザは、システムが考慮すべき制約について、かなり正確な知識を持つ必要があります。 本稿では,CAの効率を向上する2つの新しい手法を提案することにより,これらのボトルネックを緩和する。 まず,groveacqというボトムアップアプローチを導入することで,ユーザの待ち時間を短縮し,さらに多くの制約候補を処理することができる。 また、ターゲットの制約ネットワークがスパースしていない問題に対するクエリの総数も削減する。 第2に,クエリ生成をガイドする確率ベース手法を提案し,収束に必要なクエリ数を大幅に削減できることを示す。 また、クエリ生成にオープンアクセス可能なCPソルバを使用できる新しい手法を提案し、公開されていないメンテナンスの少ないカスタムソルバへの既存のメソッドの依存性を除去する。 実験の結果,提案手法は最先端caメソッドよりも優れており,クエリ数を最大60%削減できることがわかった。 提案手法は, 候補制約の集合が文献で一般的に用いられる制約よりも50倍大きい場合においても有効である。

Constraint Acquisition (CA) systems can be used to assist in the modeling of constraint satisfaction problems. In (inter)active CA, the system is given a set of candidate constraints and posts queries to the user with the goal of finding the right constraints among the candidates. Current interactive CA algorithms suffer from at least two major bottlenecks. First, in order to converge, they require a large number of queries to be asked to the user. Second, they cannot handle large sets of candidate constraints, since these lead to large waiting times for the user. For this reason, the user must have fairly precise knowledge about what constraints the system should consider. In this paper, we alleviate these bottlenecks by presenting two novel methods that improve the efficiency of CA. First, we introduce a bottom-up approach named GrowAcq that reduces the maximum waiting time for the user and allows the system to handle much larger sets of candidate constraints. It also reduces the total number of queries for problems in which the target constraint network is not sparse. Second, we propose a probability-based method to guide query generation and show that it can significantly reduce the number of queries required to converge. We also propose a new technique that allows the use of openly accessible CP solvers in query generation, removing the dependency of existing methods on less well-maintained custom solvers that are not publicly available. Experimental results show that our proposed methods outperform state-of-the-art CA methods, reducing the number of queries by up to 60%. Our methods work well even in cases where the set of candidate constraints is 50 times larger than the ones commonly used in the literature.
翻訳日:2023-07-13 13:12:24 公開日:2023-07-12
# モバイル操作のための階層型対話型多目的探索の学習

Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation ( http://arxiv.org/abs/2307.06125v1 )

ライセンス: Link先を確認
Fabian Schmalstieg, Daniel Honerkamp, Tim Welschehold, Abhinav Valada(参考訳) 既存のオブジェクト検索アプローチでは、ロボットは自由経路を探索できるが、構造化されていない人間中心の環境で動作するロボットは、必要に応じて環境を操作する必要がある。 本研究では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索して対象物を見つける,インタラクティブな多目的探索タスクを提案する。 これらの新しい課題は、未探索の環境で操作とナビゲーションのスキルを組み合わせることを必要とする。 本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。 これを実現するために,セマンティックマップメモリ周辺の抽象的なハイレベルなアクション空間を設計し,探索環境をインスタンスナビゲーションポイントとして活用する。 我々は,HIMOSがゼロショット方式で効果的に新しい環境へ移行することを示すシミュレーションと実世界の広範な実験を行った。 目に見えないサブポリティシー、実行時の失敗、そして異なるロボットキネマティクスに対する堅牢性を示す。 これらの機能は、具体化されたAIや現実世界のユースケースにまたがる幅広いダウンストリームタスクへの扉を開く。

Existing object-search approaches enable robots to search through free pathways, however, robots operating in unstructured human-centered environments frequently also have to manipulate the environment to their needs. In this work, we introduce a novel interactive multi-object search task in which a robot has to open doors to navigate rooms and search inside cabinets and drawers to find target objects. These new challenges require combining manipulation and navigation skills in unexplored environments. We present HIMOS, a hierarchical reinforcement learning approach that learns to compose exploration, navigation, and manipulation skills. To achieve this, we design an abstract high-level action space around a semantic map memory and leverage the explored environment as instance navigation points. We perform extensive experiments in simulation and the real-world that demonstrate that HIMOS effectively transfers to new environments in a zero-shot manner. It shows robustness to unseen subpolicies, failures in their execution, and different robot kinematics. These capabilities open the door to a wide range of downstream tasks across embodied AI and real-world use cases.
翻訳日:2023-07-13 13:11:59 公開日:2023-07-12
# 動的タイミングとマウスによるポルトガル語手話アニメーションの強化

Enhancing Portuguese Sign Language Animation with Dynamic Timing and Mouthing ( http://arxiv.org/abs/2307.06124v1 )

ライセンス: Link先を確認
In\^es Lacerda, Hugo Nicolau and Luisa Coheur(参考訳) 現在の署名アバターは、人間の署名者の同期した身体行動の全ての微妙な部分を正確に再現できないため、しばしば不自然と表現される。 本稿では,ポルトガル語手話の口調アニメーションに焦点をあてて,記号間の遷移に対する動的アプローチを提案する。 ネイティブシグナーは動的遷移を伴うアニメーションを好んだが,理解度や自然性スコアに有意な差は認められなかった。 一方,先駆的な手話学習者の理解と自然性は,口頭行動を含むことによって改善した。 結果は、計算言語学、人間とコンピュータの相互作用、および署名アバターの合成アニメーションに影響を及ぼす。

Current signing avatars are often described as unnatural as they cannot accurately reproduce all the subtleties of synchronized body behaviors of a human signer. In this paper, we propose a new dynamic approach for transitions between signs, focusing on mouthing animations for Portuguese Sign Language. Although native signers preferred animations with dynamic transitions, we did not find significant differences in comprehension and perceived naturalness scores. On the other hand, we show that including mouthing behaviors improved comprehension and perceived naturalness for novice sign language learners. Results have implications in computational linguistics, human-computer interaction, and synthetic animation of signing avatars.
翻訳日:2023-07-13 13:11:42 公開日:2023-07-12
# SoK: 異なるメンバーシップ推論攻撃と包括的なベンチマークの比較

SoK: Comparing Different Membership Inference Attacks with a Comprehensive Benchmark ( http://arxiv.org/abs/2307.06123v1 )

ライセンス: Link先を確認
Jun Niu, Xiaoyan Zhu, Moxuan Zeng, Ge Zhang, Qingyang Zhao, Chunhui Huang, Yangming Zhang, Suyu An, Yangzhong Wang, Xinghui Yue, Zhipeng He, Weihao Guo, Kuo Shen, Peng Liu, Yulong Shen, Xiaohong Jiang, Jianfeng Ma, Yuqing Zhang(参考訳) メンバーシップ推論(MI)攻撃は、特定のデータサンプルを使用してターゲットモデルをトレーニングしたかどうかを判断することで、ユーザのプライバシを脅かす。 しかし、既存の作業で使用される「異なるMI攻撃」手法には深刻な制約があることがますます認識されている。 これらの制限のため、文献で報告されたいくつかの比較結果がかなり誤解を招くことが判明した(この研究での実験を通して)。 本稿では、評価指標だけでなく、評価シナリオも含むMIBenchと呼ばれる異なるMI攻撃を比較するための総合的なベンチマークを開発することを目的とする。 また,対象データセット内のデータサンプル間の距離分布,対象データセットのデータサンプル間の距離,2つのデータセット間の差分距離(ターゲットデータセットと非メンバのみの生成されたデータセット),mi攻撃による推論を行わないサンプルの比率という4つの視点から評価シナリオを設計する。 評価指標は10の典型的な評価指標からなる。 我々は,提案手法である"異なるmi攻撃の比較"のための3つの原則を特定し,各データセットに対する84の評価シナリオを備えたmibenchベンチマークの設計と実装を行った。 588の評価シナリオで15の最先端mi攻撃アルゴリズムを公平かつ体系的に比較し,これらの評価シナリオは,広く使用されている7つのデータセットと,代表的な7種類のモデルをカバーする。 MIBenchのコードと評価はhttps://github.com/MIBench/MIBench.github.io/blob/main/README.mdで公開されている。

Membership inference (MI) attacks threaten user privacy through determining if a given data example has been used to train a target model. However, it has been increasingly recognized that the "comparing different MI attacks" methodology used in the existing works has serious limitations. Due to these limitations, we found (through the experiments in this work) that some comparison results reported in the literature are quite misleading. In this paper, we seek to develop a comprehensive benchmark for comparing different MI attacks, called MIBench, which consists not only the evaluation metrics, but also the evaluation scenarios. And we design the evaluation scenarios from four perspectives: the distance distribution of data samples in the target dataset, the distance between data samples of the target dataset, the differential distance between two datasets (i.e., the target dataset and a generated dataset with only nonmembers), and the ratio of the samples that are made no inferences by an MI attack. The evaluation metrics consist of ten typical evaluation metrics. We have identified three principles for the proposed "comparing different MI attacks" methodology, and we have designed and implemented the MIBench benchmark with 84 evaluation scenarios for each dataset. In total, we have used our benchmark to fairly and systematically compare 15 state-of-the-art MI attack algorithms across 588 evaluation scenarios, and these evaluation scenarios cover 7 widely used datasets and 7 representative types of models. All codes and evaluations of MIBench are publicly available at https://github.com/MIBench/MIBench.github.io/blob/main/README.md.
翻訳日:2023-07-13 13:11:31 公開日:2023-07-12
# 修正U-netアーキテクチャを用いた行列テンプレートからの学生識別数認識

Recognizing student identification numbers from the matrix templates using a modified U-net architecture ( http://arxiv.org/abs/2307.06120v1 )

ライセンス: Link先を確認
Filip Pavi\v{c}i\'c(参考訳) 本稿では,従来の個人情報入力手法の限界を克服する,試験や知識試験における学生識別の革新的アプローチを提案する。 提案手法は,数を含む正方形を選択的に黒くする試験の指定された部分に行列テンプレートを用いる。 この手法は、学生の個人識別番号を認識するために特別に設計されたニューラルネットワークの開発を含む。 ニューラルネットワークは特別に適応したU-Netアーキテクチャを使用し、黒色テーブルの画像からなる広範なデータセットに基づいてトレーニングされる。 ネットワークは、黒字正方形のパターンや配置を認識し、その中に刻まれた情報を正確に解釈する能力を示す。 また、入力した学生の個人番号を正確に識別し、テーブル内の誤入力を効果的に検出する精度も高い。 このアプローチには複数の利点がある。 まず、黒字表から識別情報を自動抽出し、手動入力の必要性をなくし、エラーの可能性を最小化することにより、試験マーキングプロセスを著しく加速する。 次に、識別プロセスを自動化し、管理労力を削減し、データ処理を迅速化する。 この革新的な識別システムの導入は、従来の手動による個人データの入力を合理化し、効率的で正確な識別プロセスに置き換え、試験や知識テストの分野で顕著な進歩を示している。

This paper presents an innovative approach to student identification during exams and knowledge tests, which overcomes the limitations of the traditional personal information entry method. The proposed method employs a matrix template on the designated section of the exam, where squares containing numbers are selectively blackened. The methodology involves the development of a neural network specifically designed for recognizing students' personal identification numbers. The neural network utilizes a specially adapted U-Net architecture, trained on an extensive dataset comprising images of blackened tables. The network demonstrates proficiency in recognizing the patterns and arrangement of blackened squares, accurately interpreting the information inscribed within them. Additionally, the model exhibits high accuracy in correctly identifying entered student personal numbers and effectively detecting erroneous entries within the table. This approach offers multiple advantages. Firstly, it significantly accelerates the exam marking process by automatically extracting identifying information from the blackened tables, eliminating the need for manual entry and minimizing the potential for errors. Secondly, the method automates the identification process, thereby reducing administrative effort and expediting data processing. The introduction of this innovative identification system represents a notable advancement in the field of exams and knowledge tests, replacing the conventional manual entry of personal data with a streamlined, efficient, and accurate identification process.
翻訳日:2023-07-13 13:11:06 公開日:2023-07-12
# TreeFormer: 単一高解像度画像からのツリーカウントのための半スーパービジョントランスフォーマーベースのフレームワーク

TreeFormer: a Semi-Supervised Transformer-based Framework for Tree Counting from a Single High Resolution Image ( http://arxiv.org/abs/2307.06118v1 )

ライセンス: Link先を確認
Hamed Amini Amirkolaee, Miaojing Shi, Mark Mulligan(参考訳) 単一空中・衛星画像による木密度の自動推定と推定は,光度測定とリモートセンシングにおいて困難な課題であるが,森林管理において重要な役割を担っている。 本稿では,リモートセンシング画像に対する高コストなツリーアノテーションを削減した,ツリーカウントのための最初の半教師付きトランスフォーマーベースのフレームワークを提案する。 treeformerと呼ばれるこの手法は、まずトランスフォーマーブロックに基づくピラミッドツリー表現モジュールを開発し、エンコーディング段階でマルチスケールな特徴を抽出する。 文脈的注意に基づく特徴融合と木密度回帰モジュールは、エンコーダからロバストな特徴を利用してデコーダ内の木密度マップを推定するように設計されている。 さらに,未ラベル画像の学習過程に活用するために,局所木密度の整合性と局所木数ランキング損失を含むピラミッド学習戦略を提案する。 最後に、ラベル付き画像とラベルなし画像の両方のグローバルツリーカウントを計算することで、ネットワークを規制するためにツリーカウンタトークンが導入される。 我々のモデルは、JiosuとYosemiteという2つのベンチマークツリーカウントデータセットと、彼ら自身が作成した新しいデータセットKCL-Londonで評価された。 本手法は,同じ条件下での半教師あり手法の状態を上回り,同じラベル付き画像を用いた全教師あり手法を上回った。 コードとデータセットはhttps://github.com/haaclassic/treeformerで入手できる。

Automatic tree density estimation and counting using single aerial and satellite images is a challenging task in photogrammetry and remote sensing, yet has an important role in forest management. In this paper, we propose the first semisupervised transformer-based framework for tree counting which reduces the expensive tree annotations for remote sensing images. Our method, termed as TreeFormer, first develops a pyramid tree representation module based on transformer blocks to extract multi-scale features during the encoding stage. Contextual attention-based feature fusion and tree density regressor modules are further designed to utilize the robust features from the encoder to estimate tree density maps in the decoder. Moreover, we propose a pyramid learning strategy that includes local tree density consistency and local tree count ranking losses to utilize unlabeled images into the training process. Finally, the tree counter token is introduced to regulate the network by computing the global tree counts for both labeled and unlabeled images. Our model was evaluated on two benchmark tree counting datasets, Jiangsu, and Yosemite, as well as a new dataset, KCL-London, created by ourselves. Our TreeFormer outperforms the state of the art semi-supervised methods under the same setting and exceeds the fully-supervised methods using the same number of labeled images. The codes and datasets are available at https://github.com/HAAClassic/TreeFormer.
翻訳日:2023-07-13 13:10:44 公開日:2023-07-12
# ナノフォトニック回路におけるオンデマンドW状態の生成と検出

Scalable generation and detection of on-demand W states in nanophotonic circuits ( http://arxiv.org/abs/2307.06116v1 )

ライセンス: Link先を確認
Jun Gao, Leonardo Santos, Govind Krishna, Ze-Sheng Xu, Adrian Iovan, Stephan Steinhauer, Otfried G\"uhne, Philip J. Poole, Dan Dalacu, Val Zwiller, Ali W. Elshaari(参考訳) 量子物理学現象、絡み合いとコヒーレンス(英語版)は量子情報プロトコルにとって重要であるが、2つ以上の部分を持つシステムでこれらを理解することは複雑さが増すために困難である。 w状態は多成分の絡み合った状態であり、その強固さと量子通信の利点で有名である。 ここでは,ナノワイヤ量子ドットと窒化ケイ素フォトニックチップを用いて,オンデマンドで8モードの単一光子状態を生成する。 我々は,gerchberg-saxton位相検索アルゴリズムによって支援されたフーリエおよび実空間イメージングを用いて,フォトニック回路におけるw状態再構成のための信頼性の高いスケーラブルな手法を示す。 さらに, 絡み合い証人を用いて混合状態と絡み合い状態の区別を行い, 生成状態の絡み合い特性を肯定する。 この研究は、W状態における多重粒子の絡み合いを評価し、画像処理のさらなる進歩と複雑な量子システムのためのフーリエ空間解析技術を提供する。

Quantum physics phenomena, entanglement and coherence, are crucial for quantum information protocols, but understanding these in systems with more than two parts is challenging due to increasing complexity. The W state, a multipartite entangled state, is notable for its robustness and benefits in quantum communication. Here, we generate an 8-mode on-demand single photon W states, using nanowire quantum dots and a silicon nitride photonic chip. We demonstrate a reliable, scalable technique for reconstructing W-state in photonic circuits using Fourier and real-space imaging, supported by the Gerchberg-Saxton phase retrieval algorithm. Additionally, we utilize an entanglement witness to distinguish between mixed and entangled states, thereby affirming the entangled nature of our generated state. The study provides a new imaging approach of assessing multipartite entanglement in W-states, paving the way for further progress in image processing and Fourier-space analysis techniques for complex quantum systems.
翻訳日:2023-07-13 13:10:04 公開日:2023-07-12
# 3-テンソルのサブランクの次のギャップ

The next gap in the subrank of 3-tensors ( http://arxiv.org/abs/2307.06115v1 )

ライセンス: Link先を確認
Fulvio Gesmundo and Jeroen Zuiddam(参考訳) costa-dalai、christandl-gesmundo-zuiddam、blatter-draisma-rupniewski、bri\"et-christandl-leigh-shpilka-zuiddamの最近の研究は、漸近テンソルのランクをとる可能性のある値における離散性とギャップの概念を調査した。 特に、任意の0でない3-テンソルの漸近部分ランクと漸近スライスランクは、1 と 1.88 に等しいか、少なくとも 2 (任意の体上) に等しいことが示され、これらのパラメータの可能な値の集合は離散的である(いくつかのレジームにおいて)。 次のギャップを正確に決定し、任意の 0 でない 3 個のテンソルの漸近部分ランクと漸近スライスランクが 1 に等しいか、1.88 に等しいか、少なくとも 2.68 に等しいかを示す。

Recent works of Costa-Dalai, Christandl-Gesmundo-Zuiddam, Blatter-Draisma-Rupniewski, and Bri\"et-Christandl-Leigh-Shpilka-Zuiddam have investigated notions of discreteness and gaps in the possible values that asymptotic tensor ranks can take. In particular, it was shown that the asymptotic subrank and asymptotic slice rank of any nonzero 3-tensor is equal to 1, equal to 1.88, or at least 2 (over any field), and that the set of possible values of these parameters is discrete (in several regimes). We determine exactly the next gap, showing that the asymptotic subrank and asymptotic slice rank of any nonzero 3-tensor is equal to 1, equal to 1.88, equal to 2, or at least 2.68.
翻訳日:2023-07-13 13:09:46 公開日:2023-07-12
# 意思決定システムにおける人間制御のための反射型ハイブリッドインテリジェンス

Reflective Hybrid Intelligence for Meaningful Human Control in Decision-Support Systems ( http://arxiv.org/abs/2307.06159v1 )

ライセンス: Link先を確認
Catholijn M. Jonker, Luciano Cavalcante Siebert and Pradeep K. Murukannaiah(参考訳) AIシステムの能力と普及力の増大により、社会は、人類の自律性の低下、危険に晒された民主主義と制限された人権と、人間と社会的価値に整合したAI、協力の育成、レジリエンス、知識、倫理的行動とを総合的に選択する必要がある。 本章では,AIシステムに対する有意義な人間制御のための自己表現型AIシステムの概念を紹介する。 意思決定支援システムに着目し,人間の価値観や社会規範に応答するAIシステムを構築するために,心理学や哲学からの知識を形式的推論手法や機械学習アプローチと統合する枠組みを提案する。 また,AIシステムにおける自己表現能力の設計と開発のための研究手法を提案する。 最後に、自己反射型AIシステムは、自己反射型ハイブリッドシステム(人間+AI)につながる可能性があり、それによって有意義な人間のコントロールが増加し、人間の道徳的盲点に関する理解可能な情報と洞察を提供することで、人間の道徳的推論を強化する。

With the growing capabilities and pervasiveness of AI systems, societies must collectively choose between reduced human autonomy, endangered democracies and limited human rights, and AI that is aligned to human and social values, nurturing collaboration, resilience, knowledge and ethical behaviour. In this chapter, we introduce the notion of self-reflective AI systems for meaningful human control over AI systems. Focusing on decision support systems, we propose a framework that integrates knowledge from psychology and philosophy with formal reasoning methods and machine learning approaches to create AI systems responsive to human values and social norms. We also propose a possible research approach to design and develop self-reflective capability in AI systems. Finally, we argue that self-reflective AI systems can lead to self-reflective hybrid systems (human + AI), thus increasing meaningful human control and empowering human moral reasoning by providing comprehensible information and insights on possible human moral blind spots.
翻訳日:2023-07-13 13:02:50 公開日:2023-07-12
# スケールドタイト結合結晶

Scaled Tight-Binding Crystal ( http://arxiv.org/abs/2307.06158v1 )

ライセンス: Link先を確認
Peter Schmelcher(参考訳) 局所対称性力学の概念は、最近1次元鎖における離散対称性の進化が創発的周期性をもたらすことを示すために用いられる。 ここでは、さらに一歩進んで、この力学の非有界性は、拡大する長さのサブユニットからなる鎖となり、スケールした鎖となることを示す。 この縮尺鎖を対応する強結合ハミルトニアンにマッピングし、スペクトル特性と透過特性について検討する。 オフ対角結合の変化 固有値スペクトルは、特性遷移と対応する状態密度のピークを持つ異なる枝を示す。 エネルギーレベルの変動は、それぞれに特徴的なエネルギー間隔のシーケンスを伴うミニギャップの階層を示す。 スペクトル特性を記述するための局所共振器モデルを開発し、弱い結合状態から中間結合状態への深い理解を得る。 結合強度の異なるスケールドチェーンの特性(デ)局在化特性を解くために、逆参加比とともに固有状態写像を用いる。 最後に、縮尺鎖のエネルギー依存性伝達プロファイルを探索する。

The concept of local symmetry dynamics has recently been used to demonstrate the evolution of discrete symmetries in one-dimensional chains leading to emergent periodicity. Here we go one step further and show that the unboundedness of this dynamics can lead to chains that consist of subunits of ever increasing lengths which results in a scaled chain. Mapping this scaled chain onto a corresponding tight-binding Hamiltonian we investigate its spectral and transmission properties. Varying the off-diagonal coupling the eigenvalue spectrum shows different branches with characteristic transitions and peaks in the corresponding density of states. The fluctuations of the energy levels exhibit a hierarchy of minigaps each one accompanied by a characteristic sequence of energy spacings. We develop a local resonator model to describe the spectral properties and gain a deeper understanding of it in the weak to intermediate coupling regime. Eigenstate maps together with the inverse participation ratio are used to unravel the characteristic (de-)localization properties of the scaled chain with varying coupling strength. Finally we probe the energy-dependent transmission profile of the scaled chain.
翻訳日:2023-07-13 13:02:30 公開日:2023-07-12
# 手作り報酬機能を持たない自動カリキュラム強化学習による操作意思決定

Maneuver Decision-Making Through Automatic Curriculum Reinforcement Learning Without Handcrafted Reward functions ( http://arxiv.org/abs/2307.06152v1 )

ライセンス: Link先を確認
Zhang Hong-Peng(参考訳) 機動意思決定は、自律飛行のための無人戦闘航空機の中核である。 そこで,本研究では,エージェントが空戦における効果的な判断をスクラッチから学習できる自動カリキュラム強化学習手法を提案する。 初期状態の範囲は、異なる難易度のキュリキュラを識別するために使用されるため、操作決定は一連のサブタスクに分割して容易から困難にし、テスト結果を使用してサブタスクを変更する。 サブタスクが変化するにつれて、エージェントは徐々に一連のサブタスクの完了を容易かつ困難にし、報酬関数の設計に費やすことなく、さまざまな状態に対処する効果的な操作決定を行えるようになる。 本論文で提案する自動カリキュラム学習は,強化学習による学習に不可欠な要素であり,エージェントはカリキュラム学習なしでは効果的な意思決定を完了できない。 シミュレーション実験によれば、訓練後、エージェントは追跡、攻撃、脱出など、合理的かつ解釈可能な異なる状態の効果的な決定をすることができる。

Maneuver decision-making is the core of unmanned combat aerial vehicle for autonomous air combat. To solve this problem, we propose an automatic curriculum reinforcement learning method, which enables agents to learn effective decisions in air combat from scratch. The range of initial states are used for distinguishing curricula of different difficulty levels, thereby maneuver decision is divided into a series of sub-tasks from easy to difficult, and test results are used to change sub-tasks. As sub-tasks change, agents gradually learn to complete a series of sub-tasks from easy to difficult, enabling them to make effective maneuvering decisions to cope with various states without the need to spend effort designing reward functions. The ablation studied show that the automatic curriculum learning proposed in this article is an essential component for training through reinforcement learning, namely, agents cannot complete effective decisions without curriculum learning. Simulation experiments show that, after training, agents are able to make effective decisions given different states, including tracking, attacking and escaping, which are both rational and interpretable.
翻訳日:2023-07-13 13:02:14 公開日:2023-07-12
# NetGPT: パーソナライズされた生成サービスの提供を超えて、ネイティブAIネットワークアーキテクチャ

NetGPT: A Native-AI Network Architecture Beyond Provisioning Personalized Generative Services ( http://arxiv.org/abs/2307.06148v1 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, and Honggang Zhang(参考訳) 大規模言語モデル(LLM)は、生成情報による日常生活の活性化に大きく成功し、LLMのパーソナライゼーションは、人間の意図との整合性の向上により、その応用にさらに貢献する可能性がある。 パーソナライズされた生成サービスに向けて、コラボレーティブなクラウドエッジ方法論は有望に思える。異種分散通信とコンピューティングリソースの効率的なオーケストレーションを促進する。 本稿では,複数のクラウドエッジコラボレーション技術の長所と短所を議論した後,そのコンピューティング能力に応じて,適切なllmをエッジとクラウドに適切にデプロイするためにnetgptを展開する。 さらに、エッジllmは、パーソナライズされたプロンプト完了のためにロケーションベースの情報を効率的に活用することができ、クラウドllmとのインタラクションの恩恵を受ける。 エッジとクラウドに代表的オープンソースLLM(例えばGPT-2ベースとLLaMAモデル)をデプロイした後、低ランク適応に基づく軽量微調整に基づくNetGPTの実現可能性を示す。 続いて、ネイティブ人工知能(AI)ネットワークアーキテクチャがNetGPTに必要となる重要な変更を強調し、特に通信とコンピューティングリソースのより深い統合と論理的AIワークフローの慎重な校正に焦点を当てた。 さらに,NetGPT の副産物的メリットとして,エッジ LLM がトレンドを予測し,意図を推測する驚くべき能力を備えている。 簡単に言うと、NetGPTはパーソナライズされた生成サービスをプロビジョニングする以上の、有望なネイティブAIネットワークアーキテクチャである、ということです。

Large language models (LLMs) have triggered tremendous success to empower daily life by generative information, and the personalization of LLMs could further contribute to their applications due to better alignment with human intents. Towards personalized generative services, a collaborative cloud-edge methodology sounds promising, as it facilitates the effective orchestration of heterogeneous distributed communication and computing resources. In this article, after discussing the pros and cons of several candidate cloud-edge collaboration techniques, we put forward NetGPT to capably deploy appropriate LLMs at the edge and the cloud in accordance with their computing capacity. In addition, edge LLMs could efficiently leverage location-based information for personalized prompt completion, thus benefiting the interaction with cloud LLMs. After deploying representative open-source LLMs (e.g., GPT-2-base and LLaMA model) at the edge and the cloud, we present the feasibility of NetGPT on the basis of low-rank adaptation-based light-weight fine-tuning. Subsequently, we highlight substantial essential changes required for a native artificial intelligence (AI) network architecture towards NetGPT, with special emphasis on deeper integration of communications and computing resources and careful calibration of logical AI workflow. Furthermore, we demonstrate several by-product benefits of NetGPT, given edge LLM's astonishing capability to predict trends and infer intents, which possibly leads to a unified solution for intelligent network management \& orchestration. In a nutshell, we argue that NetGPT is a promising native-AI network architecture beyond provisioning personalized generative services.
翻訳日:2023-07-13 13:01:56 公開日:2023-07-12
# 効率的な光場圧縮のための学習カーネル変調ニューラル表現

Learning Kernel-Modulated Neural Representation for Efficient Light Field Compression ( http://arxiv.org/abs/2307.06143v1 )

ライセンス: Link先を確認
Jinglei Shi and Yihong Xu and Christine Guillemot(参考訳) 光野とは、様々な方向のシーンから放射される光を記録して3Dシーン情報をキャプチャする画像データの一種である。 従来の2D画像よりも没入感に富むが、膨大なデータ量を必要とする。 本稿では,光フィールドのサブアパーチャ画像(SAI)の視覚特性からインスピレーションを得て,光フィールド圧縮タスクのためのコンパクトニューラルネットワーク表現を設計する。 ネットワークバックボーンはランダムに初期化されたノイズを入力として取り、ターゲットライトフィールドのサイスに監督される。 トレーニング中に学んだシーン記述情報を格納する記述カーネル(ディスクリプタ)と、クエリされた視点から異なるSAIのレンダリングを制御する変調カーネル(モジュレータ)の2種類で構成されている。 復号化光フィールドの高品質を保ちながらネットワークのコンパクト性をさらに向上するため,変調器の割り当てとカーネルテンソル分解機構を導入し,非一様量子化とロスレスエントロピー符号化技術を導入し,最終的に効率的な圧縮パイプラインを形成する。 広汎な実験により,本手法は光場圧縮タスクにおいて,他の最先端(SOTA)手法よりも優れた性能を示した。 さらに、ディスクリプタを整列した後、一つの光フィールドから学習した変調器を新しい光フィールドに転送して、濃密なビューをレンダリングし、ビュー合成タスクの潜在的な解決策を示すことができる。

Light field is a type of image data that captures the 3D scene information by recording light rays emitted from a scene at various orientations. It offers a more immersive perception than classic 2D images but at the cost of huge data volume. In this paper, we draw inspiration from the visual characteristics of Sub-Aperture Images (SAIs) of light field and design a compact neural network representation for the light field compression task. The network backbone takes randomly initialized noise as input and is supervised on the SAIs of the target light field. It is composed of two types of complementary kernels: descriptive kernels (descriptors) that store scene description information learned during training, and modulatory kernels (modulators) that control the rendering of different SAIs from the queried perspectives. To further enhance compactness of the network meanwhile retain high quality of the decoded light field, we accordingly introduce modulator allocation and kernel tensor decomposition mechanisms, followed by non-uniform quantization and lossless entropy coding techniques, to finally form an efficient compression pipeline. Extensive experiments demonstrate that our method outperforms other state-of-the-art (SOTA) methods by a significant margin in the light field compression task. Moreover, after aligning descriptors, the modulators learned from one light field can be transferred to new light fields for rendering dense views, indicating a potential solution for view synthesis task.
翻訳日:2023-07-13 13:01:22 公開日:2023-07-12
# 正統派か反対派か? 1950年代のボームのオントロジー反射の進化

Orthodox or Dissident? The Evolution of Bohm's Ontological Reflections in the 1950s ( http://arxiv.org/abs/2307.06142v1 )

ライセンス: Link先を確認
Andrea Oldofredi(参考訳) デビッド・ボームはしばしば量子革命の意味を理解できず、その急進的メタフィジカルな意味を取り入れられないと考えられている。 同様に、彼のパイロット波理論は古典的で決定論的な世界観を回復しようとする試みとして否定的に描写された。 この背景に対して、本論文の目的は2つある: まず第一に、数名の著名な物理学者contra bohmによるドッグマティズムの告発は科学的に根拠がなく、彼の作品に対する偏見のある理解を示している。 これを参照して、ボーア=パウリ対応と、ボーアの量子力学哲学のファーベント支持者であるレオン・ローゼンフェルドとの困難な関係について、2つのケーススタディが議論される。 読者がご覧いただくように、どちらの例もパイロット波のアプローチに対する反対が科学的な根拠に基づくものではないことをはっきりと示しています。 第二に、ボムのオントロジー、科学的リアリズム、多元論に関する哲学的考察の進化を、私的文通と彼の50世紀の主な著作である「近代物理学における因果性とチャンス」で再構築し、分析する。 ボームの思想の独創性に基づいて、ボームの視点は地域実在論の一形態として特徴づけられると結論づけられる。

David Bohm has often been considered unable to understand the meaning of the quantum revolution and to embrace its radical metaphysical implications. Similarly, his pilot-wave theory was negatively portrayed as an attempt to restore a classical and deterministic worldview. Against this background, the aim of this paper is twofold: in the first place, it will be argued that the accusations of dogmatism advanced by several eminent physicists contra Bohm are scientifically unfounded, showing a biased understanding of his works. Referring to this, two case studies will be discussed: the Bohm-Pauli correspondence, and the difficult relationship between Bohm and Leon Rosenfeld, a fervent supporter of Bohr's philosophy of quantum mechanics. As the reader will see, both examples clearly indicate that the opposition against the pilot-wave approach was for the most part not based on scientific grounds. In the second place, I will reconstruct and analyze the evolution of Bohm's philosophical reflections about ontology, scientific realism and pluralism studying private correspondences as well as his main works in the fifties culminated in the book "Causality and Chance in Modern Physics". Underlining the originality of Bohm's thoughts, it will be concluded that his perspective can be characterized a form of local realism.
翻訳日:2023-07-13 13:00:57 公開日:2023-07-12
# 任意の多重量子系における置換不変過程

Permutationally invariant processes in arbitrary multiqudit systems ( http://arxiv.org/abs/2307.06141v1 )

ライセンス: Link先を確認
T. Bastin and J. Martin(参考訳) 我々は、この力学が時間とともにPI対称性を保存するとき、任意の$N$-qudit系における置換不変量(PI)状態の開系力学を正確に記述するための理論的枠組みを確立する。 シュル=ワイル双対性強形式主義により、マスター方程式を射影できるリウヴィル空間のPI作用素部分空間における正規正規正規作用素基底を同定し、最も一般的な場合において正確な拡張係数を与える。 我々のアプローチでは、制限作用素部分空間内で直接作用するシュル変換を計算する必要はなく、その次元はキューディットの数で多項式的にしかスケールしない。 この文脈で非常に有用であることを証明した3-\nu$-symbol matrixの概念を紹介する。

We establish the theoretical framework for an exact description of the open system dynamics of permutationally invariant (PI) states in arbitrary $N$-qudit systems when this dynamics preserves the PI symmetry over time. Thanks to Schur-Weyl duality powerful formalism, we identify an orthonormal operator basis in the PI operator subspace of the Liouville space onto which the master equation can be projected and we provide the exact expansion coefficients in the most general case. Our approach does not require to compute the Schur transform as it operates directly within the restricted operator subspace, whose dimension only scales polynomially with the number of qudits. We introduce the concept of $3\nu$-symbol matrix that proves to be very useful in this context.
翻訳日:2023-07-13 13:00:31 公開日:2023-07-12
# SayPlan: スケーラブルなタスク計画のための3Dシーングラフによる大規模言語モデル構築

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning ( http://arxiv.org/abs/2307.06135v1 )

ライセンス: Link先を確認
Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid and Niko Suenderhauf(参考訳) 大規模言語モデル(llm)は、様々なタスクのためのジェネラリスト計画エージェントの開発において印象的な結果を示している。 しかし、これらの計画を拡張的でマルチフロア、マルチルーム環境で基礎化することは、ロボティクスにとって大きな課題となる。 本研究では,3次元シーングラフ(DSG)表現を用いたLLMベースの大規模タスク計画手法であるSayPlanを紹介する。 提案手法のスケーラビリティを確保するため,1) 3DSG の階層的特性を活用して,LLM がタスク関連部分グラフをより小さく,崩壊した全グラフの表現から意味的な検索を行うこと,(2) 古典的なパスプランナを統合することで LLM の計画的地平を低くすること,(3) シーングラフシミュレータからのフィードバックを用いて初期計画を改善する反復的再計画パイプラインを導入し,実行不可能な動作の修正と計画失敗の回避を図った。 我々は,最大3フロア,36部屋,140オブジェクトにまたがる2つの大規模環境へのアプローチを評価するとともに,移動マニピュレータロボットの抽象的,自然言語による大規模・長期タスクプランを構築できることを示す。

Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a semantic search for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an iterative replanning pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors, 36 rooms and 140 objects, and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute.
翻訳日:2023-07-13 13:00:18 公開日:2023-07-12
# リーブ格子のアップダウン対称性のない連続体におけるトロイダル双極子結合状態の融合

Merging toroidal dipole bound states in the continuum without up-down symmetry in Lieb lattice metasurfaces ( http://arxiv.org/abs/2307.06132v1 )

ライセンス: Link先を確認
Guodong Zhu Sen Yang and Justus C. Ndukaife(参考訳) 連続体(BIC)における境界状態の重要性は、理論上無限の品質因子のポテンシャルにある。 しかし、実際の品質要因は製造の不完全性によって制限され、放射線連続体と結合する。 本研究では,リーブ格子に基づく統合BIC体制を導入することにより,この問題に対処する新しい手法を提案する。 この手法を用いることで, 面外散乱損失を効果的に抑制し, 加工品に対する構造物の堅牢性を高める。 特に、従来のマージシステムとは異なり、我々の設計は準曲面のアップダウン対称性に依存していない。 この特性は、マイクロ流体デバイスのような異なる光学特性を持つ基板や超格子を含む応用において、より柔軟性を与える。 さらに, サイドバンドギャップミラーを設計に組み込んでBIC構造をカプセル化する。 このミラーは、有限サイズ効果による面内放射の抑制に役立ち、品質係数の顕著な10倍の改善をもたらす。 その結果、リーブ格子フォトニック結晶ミラーで囲まれたBIC準曲面は、26.6×26.6の小さなフットプリントを維持しながら、非常に高品質な105を達成できた。 本研究は, コンパクト構造内のBICのトポロジカルな性質を活かした魅力あるプラットフォームを構築した。 このプラットフォームは、光学トラップ、光流体学、高感度バイオ検出など、様々な応用に大いに期待でき、これらの分野で新たな可能性を開く。

The significance of bound states in the continuum (BICs) lies in their potential for theoretically infinite quality factors. However, their actual quality factors are limited by imperfections in fabrication, which lead to coupling with the radiation continuum. In this study, we present a novel approach to address this issue by introducing a merging BIC regime based on a Lieb lattice. By utilizing this approach, we effectively suppress the out-of-plane scattering loss, thereby enhancing the robustness of the structure against fabrication artifacts. Notably, unlike previous merging systems, our design does not rely on the up-down symmetry of metasurfaces. This characteristic grants more flexibility in applications that involve substrates and superstrates with different optical properties, such as microfluidic devices. Furthermore, we incorporate a lateral band gap mirror into the design to encapsulate the BIC structure. This mirror serves to suppress the in-plane radiation resulting from finite-size effects, leading to a remarkable ten-fold improvement in the quality factor. Consequently, our merged BIC metasurface, enclosed by the Lieb lattice photonic crystal mirror, achieves an exceptionally high-quality factor of 105 while maintaining a small footprint of 26.6X26.6 um. Our findings establish an appealing platform that capitalizes on the topological nature of BICs within compact structures. This platform holds great promise for various applications, including optical trapping, optofluidics, and high-sensitivity biodetection, opening up new possibilities in these fields.
翻訳日:2023-07-13 12:59:50 公開日:2023-07-12
# 磁気センサのリモートチップスケール量子センシング

Remote Chip-Scale Quantum Sensing of Magnetic Fields ( http://arxiv.org/abs/2307.06130v1 )

ライセンス: Link先を確認
Kfir Levi, Avital Giat, Liran Golan, Eliran Talker and Liron Stern(参考訳) 量子センシング(quantum sensing)は、物理量の測定を行うために量子現象を使用する、進化を続ける研究分野である。 様々な種類の量子センサーの中で、原子蒸気に基づく量子効果は時間、速度、加速度、電場や磁場などの量を測定するために広く使われている。 本稿では,チップスケールの原子蒸気電池を用いたリモート量子センシングを提案する。 具体的には、ミリスケールの微細加工された気相セルをリモートで尋問し、地球の磁場を約10m、感度は約1pT/Hz^0.5で測定する。 同時に、飛行時間測定によってマイクロセルと問合せシステム間の距離を計測し、位置と磁場を相関させることができる。 そこで本稿では,非遮蔽環境において,高感度かつ空間分解能で任意の,遠隔,及びアクセスしにくい磁場を測定するための新しいツールセットを提案し,医療,通信,防衛,宇宙爆発,量子技術などの様々な分野における新しい応用への道を開く。

Quantum sensing is an ever-evolving research field describing the use of a quantum phenomenon to perform measurement of a physical quantity. Amongst different types of quantum sensors, atomic vapor-based quantum effects are extensively used to measure quantities such as time, velocity, acceleration, and electric and magnetic fields. Here, we propose and demonstrate remote quantum sensing using a chip-scale atomic vapor cell. Specifically, we remotely interrogate mm-scale micromachined vapor cells, and measure the ambient Earth's magnetic field at a standoff distance of ~10 meters and a sensitivity of ~1 pT/Hz^0.5 . Simultaneously we are able measure the distance between micro-cell and the interrogating system by means of time-of-flight measurements, thus correlating between position and magnetic field. Consequently, we provide a novel toolset to measure and map arbitrary, remote, and hard to access magnetic field in unshielded environments with high sensitivity and spatial resolution, paving the way to a variety of novel applications in diverse fields such as medicine, communication, defense, space-exploration, and quantum technologies.
翻訳日:2023-07-13 12:59:25 公開日:2023-07-12
# 自己適応型大言語モデル(LLM)に基づくマルチエージェントシステム

Self-Adaptive Large Language Model (LLM)-Based Multiagent Systems ( http://arxiv.org/abs/2307.06187v1 )

ライセンス: Link先を確認
Nathalia Nascimento, Paulo Alencar, Donald Cowan(参考訳) オートノミックコンピューティングでは、マルチエージェントシステム(mass)の複雑性を管理する基本的なパラダイムとして自己適応が提案されている。 これは、特定の関心事を達成するために、監視と適応をサポートするシステムを拡張することで達成される。 これらのシステムにおけるコミュニケーションは、エージェントのインタラクションを含むシナリオにおいて、直接的かつ明確な情報交換を可能にすることで協調性を高め、協調の課題を低減することが鍵となる。 しかし,マスとのインタラクションコミュニケーションの表現力の向上には課題がない。 この意味では、自己適応システムと効果的なコミュニケーションの相互作用は、将来のMASの発展に不可欠である。 本稿では,GPT技術などの大規模言語モデル(LLM)をマルチエージェントシステムに統合することを提案する。 動的環境に応答するシステム適応のモニタリング,分析,計画,実行において堅牢なサポートで有名であるMAPE-Kモデルに,我々の方法論を定着させる。 また,提案手法の実践的な例を示し,基礎的なMASベースのアプリケーションの実装と評価を行う。 このアプローチは、LLM能力に基づく自律システムのMAS自己適応のための新しいパラダイムを提案することにより、自己適応システムの最先端性を著しく向上させる。

In autonomic computing, self-adaptation has been proposed as a fundamental paradigm to manage the complexity of multiagent systems (MASs). This achieved by extending a system with support to monitor and adapt itself to achieve specific concerns of interest. Communication in these systems is key given that in scenarios involving agent interaction, it enhances cooperation and reduces coordination challenges by enabling direct, clear information exchange. However, improving the expressiveness of the interaction communication with MASs is not without challenges. In this sense, the interplay between self-adaptive systems and effective communication is crucial for future MAS advancements. In this paper, we propose the integration of large language models (LLMs) such as GPT-based technologies into multiagent systems. We anchor our methodology on the MAPE-K model, which is renowned for its robust support in monitoring, analyzing, planning, and executing system adaptations in response to dynamic environments. We also present a practical illustration of the proposed approach, in which we implement and assess a basic MAS-based application. The approach significantly advances the state-of-the-art of self-adaptive systems by proposing a new paradigm for MAS self-adaptation of autonomous systems based on LLM capabilities.
翻訳日:2023-07-13 12:53:10 公開日:2023-07-12
# CellGAN: 細胞病理画像分類のための条件付き頸部細胞合成

CellGAN: Conditional Cervical Cell Synthesis for Augmenting Cytopathological Image Classification ( http://arxiv.org/abs/2307.06182v1 )

ライセンス: Link先を確認
Zhenrong Shen, Maosong Cao, Sheng Wang, Lichi Zhang, Qian Wang(参考訳) thin-prep cytologic test (tct) スライドの自動検査は、正確かつ効率的ながんスクリーニングのために、病理学者が頚椎異常を見つけるのに役立つ。 現在のソリューションでは、ttcのスライド画像全体が非常に大きいという事実から、疑わしい細胞を局在化し、局所的なパッチに基づいて異常を分類する必要がある。 したがって、パッチレベルの分類器のトレーニングを監督するためには、正常なおよび異常な頸部細胞に対する多くのアノテーションが必要である。 本稿では,様々な頸部細胞タイプの細胞病理像を合成し,パッチレベル細胞分類を増強するセルガンを提案する。 軽量なバックボーン上に構築されたCellGANは、画像生成にセルタイプ情報を効果的に組み込む非線形クラスマッピングネットワークを備えている。 また, セルの複雑な空間的関係をモデル化し, 逆学習により合成画像の忠実度を高めるためのスキップ層グローバルコンテキストモジュールを提案する。 実験の結果,CellGANは様々な細胞タイプに対して視覚的に可視なTCK細胞病理像を作成できることがわかった。 また,CellGANを用いたパッチレベルの細胞分類性能を大幅に向上させる効果も検証した。

Automatic examination of thin-prep cytologic test (TCT) slides can assist pathologists in finding cervical abnormality for accurate and efficient cancer screening. Current solutions mostly need to localize suspicious cells and classify abnormality based on local patches, concerning the fact that whole slide images of TCT are extremely large. It thus requires many annotations of normal and abnormal cervical cells, to supervise the training of the patch-level classifier for promising performance. In this paper, we propose CellGAN to synthesize cytopathological images of various cervical cell types for augmenting patch-level cell classification. Built upon a lightweight backbone, CellGAN is equipped with a non-linear class mapping network to effectively incorporate cell type information into image generation. We also propose the Skip-layer Global Context module to model the complex spatial relationship of the cells, and attain high fidelity of the synthesized images through adversarial learning. Our experiments demonstrate that CellGAN can produce visually plausible TCT cytopathological images for different cell types. We also validate the effectiveness of using CellGAN to greatly augment patch-level cell classification performance.
翻訳日:2023-07-13 12:52:52 公開日:2023-07-12
# リレーショナル推論に基づくOOD検出に必要なのは大規模なクラス分離ではない

Large Class Separation is not what you need for Relational Reasoning-based OOD Detection ( http://arxiv.org/abs/2307.06179v1 )

ライセンス: Link先を確認
Lorenzo Li Lu, Giulia D'Ascenzi, Francesco Cappio Borlino, Tatiana Tommasi(参考訳) 標準認識アプローチは、テスト時に新しいカテゴリを扱うことができない。 既知のクラスに対する過剰な信頼は、医療や自動運転のような安全クリティカルなアプリケーションでは、予測を信頼できないものにします。 Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。 これらの手法のほとんどは、既知のデータの学習段階を利用する。つまり、正規性の概念を捉えるためにモデルをトレーニング(あるいは微調整)することを意味する。 このプロセスは利用可能なサンプル量に明らかに敏感であり、オンボードシステムには計算コストがかかる可能性がある。 実行可能な代替手段は、大きな事前学習モデルによって生成された埋め込み空間の類似性を評価することである。 我々は、このような微調整不要なOOD検出設定に集中する。 本研究は,最近導入された関係推論の事前学習を詳細に分析し,学習された埋め込みの特性について検討し,クラス間特徴距離とOOD検出精度との相関関係を明らかにする。 クラス分離は選択された事前学習目標に依存するため,クラス間マージンを制御する代替損失関数を提案し,徹底的な実験でその利点を示す。

Standard recognition approaches are unable to deal with novel categories at test time. Their overconfidence on the known classes makes the predictions unreliable for safety-critical applications such as healthcare or autonomous driving. Out-Of-Distribution (OOD) detection methods provide a solution by identifying semantic novelty. Most of these methods leverage a learning stage on the known data, which means training (or fine-tuning) a model to capture the concept of normality. This process is clearly sensitive to the amount of available samples and might be computationally expensive for on-board systems. A viable alternative is that of evaluating similarities in the embedding space produced by large pre-trained models without any further learning effort. We focus exactly on such a fine-tuning-free OOD detection setting. This works presents an in-depth analysis of the recently introduced relational reasoning pre-training and investigates the properties of the learned embedding, highlighting the existence of a correlation between the inter-class feature distance and the OOD detection accuracy. As the class separation depends on the chosen pre-training objective, we propose an alternative loss function to control the inter-class margin, and we show its advantage with thorough experiments.
翻訳日:2023-07-13 12:52:32 公開日:2023-07-12
# スマートインフラストラクチャ - リサーチジャンクション

Smart Infrastructure: A Research Junction ( http://arxiv.org/abs/2307.06177v1 )

ライセンス: Link先を確認
Manuel Hetzel, Hannes Reichert, Konrad Doll, Bernhard Sick(参考訳) 複雑な都市内ジャンクションは、怪我や致命的な事故で最も重要な交通路である。 高度自動運転(HAD)システムの開発は、これらの領域における複雑でヘキな日常生活に苦慮している。 センサーを内蔵したスマートインフラストラクチャーは、車両とのコミュニケーションと協調が可能であるため、運転者や車両の認識システム自体がカバーできない閉塞を解決するための全体像の理解が不可欠である。 我々は,ドイツのアシャッフェンブルクにある都市内ジャンクションに,視覚センサ技術を備えた知的研究基盤を導入する。 マルチビューカメラシステムは、道路利用者の行動を認識するために交通状況を監視する。 自動車化と非電動化の両方が検討されている。 このシステムは、データ生成の研究、新しいHADセンサーシステム、アルゴリズム、および実データ、合成データ、および拡張データを使用した人工知能(AI)トレーニング戦略の評価に使用される。 さらに、ジャンクションは高度に正確なデジタルツインを備えている。 実世界のデータは、シミュレーション目的と合成データ生成のためにデジタルツインに取り込みます。

Complex inner-city junctions are among the most critical traffic areas for injury and fatal accidents. The development of highly automated driving (HAD) systems struggles with the complex and hectic everyday life within those areas. Sensor-equipped smart infrastructures, which can communicate and cooperate with vehicles, are essential to enable a holistic scene understanding to resolve occlusions drivers and vehicle perception systems for themselves can not cover. We introduce an intelligent research infrastructure equipped with visual sensor technology, located at a public inner-city junction in Aschaffenburg, Germany. A multiple-view camera system monitors the traffic situation to perceive road users' behavior. Both motorized and non-motorized traffic is considered. The system is used for research in data generation, evaluating new HAD sensors systems, algorithms, and Artificial Intelligence (AI) training strategies using real-, synthetic- and augmented data. In addition, the junction features a highly accurate digital twin. Real-world data can be taken into the digital twin for simulation purposes and synthetic data generation.
翻訳日:2023-07-13 12:52:13 公開日:2023-07-12
# 学習による集団行動の分散的部分観測可能な平均場制御

Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior ( http://arxiv.org/abs/2307.06175v1 )

ライセンス: Link先を確認
Kai Cui, Sascha Hauck, Christian Fabian, Heinz Koeppl(参考訳) 近年の強化学習(RL)法は様々な分野で成功している。 しかし、マルチエージェントRL(MARL)は多くのエージェントに対する分散化、部分観測可能性、スケーラビリティの観点からも課題である。 一方、集団行動は前述の課題の解決を必要とし、アクティブマター物理学、自己組織化システム、意見力学、生物学的またはロボットの群れなど、最先端の多くの応用において重要なままである。 ここで、marl via mean field control (mfc) はスケーラビリティに対する潜在的なソリューションを提供するが、分散的で部分的に観測可能なシステムを考えることができない。 本稿では,分散化された部分観測可能なMFC(Dec-POMFC)の新たなモデルを提案することで,部分情報に基づくエージェントの分散動作を可能にする。 有限群群に適用したDec-POMFC解の最適性保証とともに、動的プログラミング原理を含む厳密な理論的結果を提供する。 アルゴリズムにより,中央集中型トレーニングと分散実行を通じ,dec-pomfcに基づくmarlのポリシー勾配手法を提案する。 さらに,完全観測可能なmfcにも関心があるカーネル法により,最先端のヒストグラムベースのmfcを改良した。 クラモトモデルやビクセックスワーミングモデルなど,代表的な集団行動タスクを数値的に評価し,最先端のmarlと同等に評価した。 全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。

Recent reinforcement learning (RL) methods have achieved success in various domains. However, multi-agent RL (MARL) remains a challenge in terms of decentralization, partial observability and scalability to many agents. Meanwhile, collective behavior requires resolution of the aforementioned challenges, and remains of importance to many state-of-the-art applications such as active matter physics, self-organizing systems, opinion dynamics, and biological or robotic swarms. Here, MARL via mean field control (MFC) offers a potential solution to scalability, but fails to consider decentralized and partially observable systems. In this paper, we enable decentralized behavior of agents under partial information by proposing novel models for decentralized partially observable MFC (Dec-POMFC), a broad class of problems with permutation-invariant agents allowing for reduction to tractable single-agent Markov decision processes (MDP) with single-agent RL solution. We provide rigorous theoretical results, including a dynamic programming principle, together with optimality guarantees for Dec-POMFC solutions applied to finite swarms of interest. Algorithmically, we propose Dec-POMFC-based policy gradient methods for MARL via centralized training and decentralized execution, together with policy gradient approximation guarantees. In addition, we improve upon state-of-the-art histogram-based MFC by kernel methods, which is of separate interest also for fully observable MFC. We evaluate numerically on representative collective behavior tasks such as adapted Kuramoto and Vicsek swarming models, being on par with state-of-the-art MARL. Overall, our framework takes a step towards RL-based engineering of artificial collective behavior via MFC.
翻訳日:2023-07-13 12:51:58 公開日:2023-07-12
# トンネルプロセスと核融合の状態依存性

State dependence of tunneling processes and nuclear fusion ( http://arxiv.org/abs/2307.06172v1 )

ライセンス: Link先を確認
Roberto Onofrio and Carlo Presilla(参考訳) 量子状態の初期準備に対するトンネルプロセスの感度について論じる。 トンネル係数の解析式が利用できる一般化ウッズ・サクソンポテンシャルを用いて,位置分散の異なるガウス波パケットの場合を比較した。 障壁ポテンシャルに対する現実的なパラメータを用いて、通常の平面波近似は、制御されたエネルギー生産に対する実用的関係の温度範囲において、核融合反応を桁違いに過小評価する。

We discuss the sensitivity of tunneling processes to the initial preparation of the quantum state. We compare the case of Gaussian wave packets of different positional variances using a generalised Woods-Saxon potential for which analytical expressions of the tunneling coefficients are available. Using realistic parameters for barrier potentials we find that the usual plane wave approximation underestimates fusion reactivities by an order of magnitude in a range of temperatures of practical relevance for controlled energy production.
翻訳日:2023-07-13 12:51:30 公開日:2023-07-12
# 物理インフォームドニューラルネットワークに基づく偏微分方程式解の補助課題学習

Auxiliary-Tasks Learning for Physics-Informed Neural Network-Based Partial Differential Equations Solving ( http://arxiv.org/abs/2307.06167v1 )

ライセンス: Link先を確認
Junjun Yan, Xinhai Chen, Zhichao Wang, Enqiang Zhou and Jie Liu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための有望な代理モードとして登場した。 その効果は、ニューラルネットワークを通じてソリューション関連の機能をキャプチャする能力にある。 しかし、元のPINNは、低い精度や非収束といったボトルネックに悩まされ、複雑な物理的コンテキストにおける適用性が制限される。 これらの問題を緩和するため、我々は4つの補助タスク学習モードを提供する補助タスク学習ベースの物理インフォームドニューラルネットワーク(ATL-PINN)を提案する。 また,補助的タスク学習モードの有効性向上を目的として,補助的問題損失とatlピンの一次問題損失を統合するために,勾配コサイン類似度アルゴリズムを用いる。 我々の知る限りでは、物理学情報学習の文脈で補助タスク学習モードを導入する最初の研究である。 我々は、異なる分野とシナリオで3つのPDE問題を実験する。 提案する補助タスク学習モードは,従来のシングルタスクピンと比較して96.62% (平均28.23%) の最大性能向上を達成できることを示した。 コードとデータセットはhttps://github.com/junjun-yan/ATL-PINNで公開されている。

Physics-informed neural networks (PINNs) have emerged as promising surrogate modes for solving partial differential equations (PDEs). Their effectiveness lies in the ability to capture solution-related features through neural networks. However, original PINNs often suffer from bottlenecks, such as low accuracy and non-convergence, limiting their applicability in complex physical contexts. To alleviate these issues, we proposed auxiliary-task learning-based physics-informed neural networks (ATL-PINNs), which provide four different auxiliary-task learning modes and investigate their performance compared with original PINNs. We also employ the gradient cosine similarity algorithm to integrate auxiliary problem loss with the primary problem loss in ATL-PINNs, which aims to enhance the effectiveness of the auxiliary-task learning modes. To the best of our knowledge, this is the first study to introduce auxiliary-task learning modes in the context of physics-informed learning. We conduct experiments on three PDE problems across different fields and scenarios. Our findings demonstrate that the proposed auxiliary-task learning modes can significantly improve solution accuracy, achieving a maximum performance boost of 96.62% (averaging 28.23%) compared to the original single-task PINNs. The code and dataset are open source at https://github.com/junjun-yan/ATL-PINN.
翻訳日:2023-07-13 12:51:21 公開日:2023-07-12
# Vision-Language Modelsは良いゲストになれるか? 時間と位置推論のためのVLMの探索

Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning ( http://arxiv.org/abs/2307.06166v1 )

ライセンス: Link先を確認
Gengyuan Zhang, Yurui Zhang, Kerui Zhang, Volker Tresp(参考訳) 視覚言語モデル(vlms)は、常識的な知識を人間として推論できると期待されている。 一つの例は、人間が知識に基づいて画像がどこでいつ撮影されるのかを判断できるということである。 これは、視覚的な手がかりに基づいて、大規模な画像テキストリソースで事前訓練された視覚言語モデルが、推論時間と位置において人間の能力を上回ることができるかどうかを疑問視させる。 そこで本研究では、VLMが時間や位置関連の特徴を認識できるかどうかを識別・生成するVLMに応用した2段階の認識空間探索タスクを提案する。 この調査を容易にするために,リッチな社会文化的な手がかりで画像を合成する画像データセットWikiTiLoを紹介した。 広範にわたる実験的研究において、VLMは視覚エンコーダの関連性を効果的に維持できるが、完全な推論ができないことが判明した。 将来の研究を促進するために、データセットとコードをリリースします。

Vision-Language Models (VLMs) are expected to be capable of reasoning with commonsense knowledge as human beings. One example is that humans can reason where and when an image is taken based on their knowledge. This makes us wonder if, based on visual cues, Vision-Language Models that are pre-trained with large-scale image-text resources can achieve and even outperform human's capability in reasoning times and location. To address this question, we propose a two-stage \recognition\space and \reasoning\space probing task, applied to discriminative and generative VLMs to uncover whether VLMs can recognize times and location-relevant features and further reason about it. To facilitate the investigation, we introduce WikiTiLo, a well-curated image dataset compromising images with rich socio-cultural cues. In the extensive experimental studies, we find that although VLMs can effectively retain relevant features in visual encoders, they still fail to make perfect reasoning. We will release our dataset and codes to facilitate future studies.
翻訳日:2023-07-13 12:51:00 公開日:2023-07-12
# IMPTCデータセット:インフラ内マルチパーソン軌道とコンテキストデータセット

The IMPTC Dataset: An Infrastructural Multi-Person Trajectory and Context Dataset ( http://arxiv.org/abs/2307.06165v1 )

ライセンス: Link先を確認
Manuel Hetzel, Hannes Reichert, G\"unther Reitberger, Erich Fuchs, Konrad Doll, Bernhard Sick(参考訳) 市内の交差点は、怪我や致命的な事故で最も重要な交通エリアである。 自動走行車はこれらの地域で複雑でヘキな日常生活に苦しむ。 センサーを装備したスマートインフラストラクチャーは、ドライバーや車両の認識システムを拡張することによって、自動トラフィックの恩恵を受けることができる。 さらに、自動化トラフィックにおける様々なアプリケーションのトレーニングアルゴリズムの基礎としてコンテキスト情報を含む、全体論的シーン理解の再現可能な正確なデータを収集する機会を提供する。 そこで我々は,Infrastructureural Multi-Person Trajectory and Context Dataset (IMPTC)を紹介した。 われわれは、ドイツのインテリジェントな公共都市交差点と視覚センサー技術を使用している。 多視点カメラとLiDARシステムは交通状況と道路利用者の行動を認識する。 追加のセンサーは、天気、照明、交通信号などの状況情報を監視する。 データ取得システムは、Vulnerable Road Users(VRU)とマルチエージェントインタラクションに焦点を当てている。 得られたデータセットは8時間の計測データから構成される。 歩行者、サイクリスト、eスクーターライダー、ベビーカー、車椅子利用者を含む2500以上のvru軌道と、日時、天候、季節の異なる2万以上の車両軌道を含んでいる。 さらに、研究機能のスタック全体を可能にするため、データセットには、センサ、キャリブレーション、検出データから、軌跡とコンテキストデータまで、すべてのデータが含まれている。 データセットは継続的に拡張され、https://github.com/kav-institute/imptc-datasetで非商用研究が利用可能である。

Inner-city intersections are among the most critical traffic areas for injury and fatal accidents. Automated vehicles struggle with the complex and hectic everyday life within those areas. Sensor-equipped smart infrastructures, which can cooperate with vehicles, can benefit automated traffic by extending the perception capabilities of drivers and vehicle perception systems. Additionally, they offer the opportunity to gather reproducible and precise data of a holistic scene understanding, including context information as a basis for training algorithms for various applications in automated traffic. Therefore, we introduce the Infrastructural Multi-Person Trajectory and Context Dataset (IMPTC). We use an intelligent public inner-city intersection in Germany with visual sensor technology. A multi-view camera and LiDAR system perceives traffic situations and road users' behavior. Additional sensors monitor contextual information like weather, lighting, and traffic light signal status. The data acquisition system focuses on Vulnerable Road Users (VRUs) and multi-agent interaction. The resulting dataset consists of eight hours of measurement data. It contains over 2,500 VRU trajectories, including pedestrians, cyclists, e-scooter riders, strollers, and wheelchair users, and over 20,000 vehicle trajectories at different day times, weather conditions, and seasons. In addition, to enable the entire stack of research capabilities, the dataset includes all data, starting from the sensor-, calibration- and detection data until trajectory and context data. The dataset is continuously expanded and is available online for non-commercial research at https://github.com/kav-institute/imptc-dataset.
翻訳日:2023-07-13 12:50:40 公開日:2023-07-12
# 生理的信号の深部生成モデル--体系的文献レビュー

Deep Generative Models for Physiological Signals: A Systematic Literature Review ( http://arxiv.org/abs/2307.06162v1 )

ライセンス: Link先を確認
Nour Neifar and Afef Mdhaffar and Achraf Ben-Hamadou and Mohamed Jmaiel(参考訳) 本稿では,生理学的信号の深部生成モデル,特に心電図,脳電図,光胸腺図,筋電図について概説する。 既存のレビュー論文と比較して,最近の最先端の深層生成モデルをまとめた最初のレビューを提示する。 深層生成モデルに関する最新の研究と,その主な応用と課題を分析した結果,これらのモデルが生理的信号に適用されることの総合的理解に寄与した。 さらに, 使用済み評価プロトコルと最も使用される生理学データベースを強調し, 深層生成モデルの評価とベンチマークを容易にする。

In this paper, we present a systematic literature review on deep generative models for physiological signals, particularly electrocardiogram, electroencephalogram, photoplethysmogram and electromyogram. Compared to the existing review papers, we present the first review that summarizes the recent state-of-the-art deep generative models. By analysing the state-of-the-art research related to deep generative models along with their main applications and challenges, this review contributes to the overall understanding of these models applied to physiological signals. Additionally, by highlighting the employed evaluation protocol and the most used physiological databases, this review facilitates the assessment and benchmarking of deep generative models.
翻訳日:2023-07-13 12:50:20 公開日:2023-07-12
# dsse: ドローン群検索環境

DSSE: a drone swarm search environment ( http://arxiv.org/abs/2307.06240v1 )

ライセンス: Link先を確認
Manuel Castanares and Luis F. S. Carrete and Enrico F. Damiani and Leonardo D. M. de Abreu and Jos\'e Fernando B. Brancalion and Fabr\'icio J. Barth(参考訳) Drone Swarm Searchプロジェクトは、PettingZooをベースにした環境であり、マルチエージェント(またはシングルエージェント)強化学習アルゴリズムと組み合わせて使用される。 エージェント(ドロネス)がターゲット(難破した人々)を見つけなければならない環境である。 エージェントはターゲットの位置を知らないし、ターゲットへの自身の距離に関する報酬を受け取らない。 しかし、これらのエージェントは、地図の特定のセル内にあるターゲット(s)の確率を受け取る。 このプロジェクトの目的は、インプットとして動的確率を必要とする強化学習アルゴリズムの研究を支援することである。

The Drone Swarm Search project is an environment, based on PettingZoo, that is to be used in conjunction with multi-agent (or single-agent) reinforcement learning algorithms. It is an environment in which the agents (drones), have to find the targets (shipwrecked people). The agents do not know the position of the target and do not receive rewards related to their own distance to the target(s). However, the agents receive the probabilities of the target(s) being in a certain cell of the map. The aim of this project is to aid in the study of reinforcement learning algorithms that require dynamic probabilities as inputs.
翻訳日:2023-07-13 12:43:40 公開日:2023-07-12
# モダリティブレンドによる統一分子モデリング

Unified Molecular Modeling via Modality Blending ( http://arxiv.org/abs/2307.06235v1 )

ライセンス: Link先を確認
Qiying Yu, Yudi Zhang, Yuyan Ni, Shikun Feng, Yanyan Lan, Hao Zhou, Jingjing Liu(参考訳) 自己制御型分子表現学習は、AIによる薬物発見のような分子ベースのタスクに不可欠である。 近年の研究では、2次元情報と3次元情報の両方を表現学習に利用することを検討している。 本研究では,異なるモダリティから原子関係を1つの統一関係行列に融合して符号化し,2次元構造と3次元構造のモダリティ固有情報を復元する「ブレンド・テン・プレディクト」自己教師付き学習法(moleblend)を提案する。 原子の関係をアンカーとして扱うことにより、一見異質な2dおよび3d多様体は、微細な関係レベルで有機的に整列して統合される。 大規模な実験により、MoleBLENDは主要な2D/3Dベンチマークで最先端のパフォーマンスを達成した。 さらに, 相互情報の最大化の観点から理論的考察を行い, コントラスト的, 生成的(モーダル間予測) とマスク的(モーダル間予測) の目的を単一の結合型ブレンド・テン予測フレームワークに統一することを示した。

Self-supervised molecular representation learning is critical for molecule-based tasks such as AI-assisted drug discovery. Recent studies consider leveraging both 2D and 3D information for representation learning, with straightforward alignment strategies that treat each modality separately. In this work, we introduce a novel "blend-then-predict" self-supervised learning method (MoleBLEND), which blends atom relations from different modalities into one unified relation matrix for encoding, then recovers modality-specific information for both 2D and 3D structures. By treating atom relationships as anchors, seemingly dissimilar 2D and 3D manifolds are aligned and integrated at fine-grained relation-level organically. Extensive experiments show that MoleBLEND achieves state-of-the-art performance across major 2D/3D benchmarks. We further provide theoretical insights from the perspective of mutual-information maximization, demonstrating that our method unifies contrastive, generative (inter-modal prediction) and mask-then-predict (intra-modal prediction) objectives into a single cohesive blend-then-predict framework.
翻訳日:2023-07-13 12:43:31 公開日:2023-07-12
# 画像圧縮学習におけるDenoisingの重要性について

On the Importance of Denoising when Learning to Compress Images ( http://arxiv.org/abs/2307.06233v1 )

ライセンス: Link先を確認
Benoit Brummer and Christophe De Vleeschouwer(参考訳) 画像ノイズは写真においてユビキタスである。 しかし、画像ノイズは圧縮可能でも望ましくないため、圧縮された画像ビットストリーム内のノイズを伝達しようとすると、速度と歪みの両方がサブパリティとなる。 コーデックのトレーニングにおいて,画像の雑音化タスクを明示的に学習することを提案する。 そこで我々はNatural Image Noise Datasetを活用し、様々なISO番号でキャプチャされた様々なシーンを提供し、重要でないものを含む様々なノイズレベルをもたらす。 このトレーニングセットを前提として,ノイズ-クリーン画像ペアを用いたコーデックの監視を行い,ノイズレベル可変画像の混合に基づいてトレーニングした単一モデルが,ノイズレベルとクリーンな画像の両方において,クラス内で最高の結果が得られることを示す。

Image noise is ubiquitous in photography. However, image noise is not compressible nor desirable, thus attempting to convey the noise in compressed image bitstreams yields sub-par results in both rate and distortion. We propose to explicitly learn the image denoising task when training a codec. Therefore, we leverage the Natural Image Noise Dataset, which offers a wide variety of scenes captured with various ISO numbers, leading to different noise levels, including insignificant ones. Given this training set, we supervise the codec with noisy-clean image pairs, and show that a single model trained based on a mixture of images with variable noise levels appears to yield best-in-class results with both noisy and clean images, achieving better rate-distortion than a compression-only model or even than a pair of denoising-then-compression models with almost one order of magnitude fewer GMac operations.
翻訳日:2023-07-13 12:43:00 公開日:2023-07-12
# 非検出光子を用いた実用的な量子イメージング

Practical quantum imaging with undetected photons ( http://arxiv.org/abs/2307.06225v1 )

ライセンス: Link先を確認
Emma Pearce (1), Nathan R. Gemmell (1), Jefferson Fl\'orez (1), Jiaye Ding (1), Rupert F. Oulton (1), Alex S. Clark (1 and 2), and Chris C. Phillips (1) ((1) Blackett Laboratory, Department of Physics, Imperial College London, (2) Quantum Engineering Technology Labs, H. H. Wills Physics Laboratory and Department of Electrical and Electronic Engineering, University of Bristol)(参考訳) 赤外線(ir)イメージングは、材料分析から診断医学まで、多くの科学分野において有用である。 しかし、検出コスト、分解能と感度、熱赤外背景によるノイズ、赤外光源のコスト、可搬性、調整性によって応用は制限されることが多い。 本稿では、IR光源や赤外線検出器を使わずに、IR波長で物体を撮像できる小型でポータブルで低コストなシステムについて述べる。 未検出光子(IUP)アプローチによるこのイメージングは、量子干渉と絡み合った光子対間の相関を利用して、赤外線から可視光へ画像情報を伝達し、標準のシリコンカメラで検出することができる。 また,位相情報と伝送画像情報の両方を取得するための高速解析手法を示す。 これらの開発は、IUPを商用化するための重要なステップを提供する。

Infrared (IR) imaging is invaluable across many scientific disciplines, from material analysis to diagnostic medicine. However, applications are often limited by detector cost, resolution and sensitivity, noise caused by the thermal IR background, and the cost, portability and tunability of infrared sources. Here, we describe a compact, portable, and low-cost system that is able to image objects at IR wavelengths without an IR source or IR detector. This imaging with undetected photons (IUP) approach uses quantum interference and correlations between entangled photon pairs to transfer image information from the IR to the visible, where it can be detected with a standard silicon camera. We also demonstrate a rapid analysis approach to acquire both phase and transmission image information. These developments provide an important step towards making IUP a commercially viable technique.
翻訳日:2023-07-13 12:42:33 公開日:2023-07-12
# ashaar:深層学習によるアラビア語詩の自動分析と生成

Ashaar: Automatic Analysis and Generation of Arabic Poetry Using Deep Learning Approaches ( http://arxiv.org/abs/2307.06218v1 )

ライセンス: Link先を確認
Zaid Alyafeai and Maged S. Al-Shaibani and Moataz Ahmed(参考訳) 詩はあらゆる国の文化や伝統の織物の中で非常に重要である。 詩人が感情を表現し、習慣を守り、文化の本質を伝えるための手段としての役割を担っている。 アラビア詩は例外ではなく、歴史を通じてアラビアのコミュニティの遺産に重要な役割を担い、現代においてもその関連性を維持した。 通常、アラビア語の詩を理解するには、その内容を分析して品質を評価することができる言語学者の専門知識が必要である。 本稿では,アラビア詩の分析と生成に特化したデータセットと事前学習されたモデルの集合を包含する, \textit{ashaar} https://github.com/arbml/ashaarというフレームワークを紹介する。 提案手法で確立されたパイプラインは,メータ,テーマ,時代分類など,詩のさまざまな側面を包含する。 また、自動的な詩のダイナクリゼーションも組み込まれており、より複雑な分析を可能にしている。 さらに,文字ベースGPTモデルの事前学習による条件付き詩生成の実現可能性についても検討する。 さらに、この取り組みの一環として、詩生成のためのデータセットと、ダイアクリティカル化のためのデータセットと、Arudiスタイルの予測のためのデータセットを4つ提供します。 これらのデータセットは、研究者や愛好家がこの豊かな文学的伝統のニュアンスを掘り下げることによって、アラビア詩の分野の研究と発展を促進することを目的としている。

Poetry holds immense significance within the cultural and traditional fabric of any nation. It serves as a vehicle for poets to articulate their emotions, preserve customs, and convey the essence of their culture. Arabic poetry is no exception, having played a cherished role in the heritage of the Arabic community throughout history and maintaining its relevance in the present era. Typically, comprehending Arabic poetry necessitates the expertise of a linguist who can analyze its content and assess its quality. This paper presents the introduction of a framework called \textit{Ashaar} https://github.com/ARBML/Ashaar, which encompasses a collection of datasets and pre-trained models designed specifically for the analysis and generation of Arabic poetry. The pipeline established within our proposed approach encompasses various aspects of poetry, such as meter, theme, and era classification. It also incorporates automatic poetry diacritization, enabling more intricate analyses like automated extraction of the \textit{Arudi} style. Additionally, we explore the feasibility of generating conditional poetry through the pre-training of a character-based GPT model. Furthermore, as part of this endeavor, we provide four datasets: one for poetry generation, another for diacritization, and two for Arudi-style prediction. These datasets aim to facilitate research and development in the field of Arabic poetry by enabling researchers and enthusiasts to delve into the nuances of this rich literary tradition.
翻訳日:2023-07-13 12:42:07 公開日:2023-07-12
# 熱浴における回転ブラックホールの絡み合い

Entanglement from rotating black holes in thermal baths ( http://arxiv.org/abs/2307.06215v1 )

ライセンス: Link先を確認
Ivan Agullo, Anthony J. Brady, Adri\`a Delhom, Dimitrios Kranas(参考訳) 我々は、ホーキングの蒸発過程で生じる絡み合いを回転と熱環境(例えば、宇宙マイクロ波背景)を含むことで定量化するための以前の取り組みを拡張する。 どちらの拡張も、宇宙の本当のブラックホールを記述するために必要です。 ガウス量子情報からの手法を利用して、ブラックホールのエルゴ領域は量子の絡み合いの活発な源であり、熱環境は絡み合い生成を劇的に劣化させる。 我々の予測は、アナログプラットフォームを用いて研究室でテストするのに適したものであり、より一般的な設定でブラックホールの量子情報の運命を評価するツールを提供する。

We extend previous efforts to quantify the entanglement generated in Hawking's evaporation process by including rotation and thermal environments (e.g. the cosmic microwave background). Both extensions are needed to describe real black holes in our universe. Leveraging techniques from Gaussian quantum information, we find that the black hole's ergoregion is an active source of quantum entanglement and that thermal environments drastically degrade entanglement generation. Our predictions are suitable to be tested in the lab using analogue platforms and also provide tools to assess the fate of quantum information for black holes in more generic settings.
翻訳日:2023-07-13 12:41:25 公開日:2023-07-12
# ベクトルモデル重み付けのための異なるログベースをテストする

Testing different Log Bases For Vector Model Weighting Technique ( http://arxiv.org/abs/2307.06213v1 )

ライセンス: Link先を確認
Kamel Assaf(参考訳) 情報検索システムは、ユーザが提出したクエリに基づいて関連文書を検索する。 文書はまずインデックス化され、文書中の単語は、TF(Term Frequency)とIDF(Inverse Document Frequency)の産物であるTFIDFと呼ばれる重み付け技術を用いて重み付けされる。 TFは、文書内の項の発生数を表す。 IDFはすべての文書でこの用語が一般的か稀かを測定する。 用語を含む文書数でシステム内の文書の総数を分割し、その商の対数を計算することで計算する。 デフォルトでは、ベース10を使って対数を計算する。 本稿では,この重み付け手法を,0.1から100.0までのログベースを用いて,idfの計算を行う。 ベクトルモデル重み付け手法のために異なるログベースをテストすることは、異なる重み付け値でシステムの性能を理解することの重要性を強調します。 我々は,MED,CRAN,NPL,LISA,CISIテストコレクションの文書を用いて,科学者がデータ情報検索システムの実験のために明示的に組み立てた。

Information retrieval systems retrieves relevant documents based on a query submitted by the user. The documents are initially indexed and the words in the documents are assigned weights using a weighting technique called TFIDF which is the product of Term Frequency (TF) and Inverse Document Frequency (IDF). TF represents the number of occurrences of a term in a document. IDF measures whether the term is common or rare across all documents. It is computed by dividing the total number of documents in the system by the number of documents containing the term and then computing the logarithm of the quotient. By default, we use base 10 to calculate the logarithm. In this paper, we are going to test this weighting technique by using a range of log bases from 0.1 to 100.0 to calculate the IDF. Testing different log bases for vector model weighting technique is to highlight the importance of understanding the performance of the system at different weighting values. We use the documents of MED, CRAN, NPL, LISA, and CISI test collections that scientists assembled explicitly for experiments in data information retrieval systems.
翻訳日:2023-07-13 12:41:15 公開日:2023-07-12
# 計算画像における広範かつ汎用的な大規模再構成のための局所条件付きニューラルネットワーク

Local Conditional Neural Fields for Versatile and Generalizable Large-Scale Reconstructions in Computational Imaging ( http://arxiv.org/abs/2307.06207v1 )

ライセンス: Link先を確認
Hao Wang and Lei Tian(参考訳) ディープラーニングは計算画像に変化をもたらしたが、従来のピクセルベースの表現は、オブジェクトの連続的、複数スケールの詳細をキャプチャする能力を制限する。 本稿では、この制限に対応するために、連続的な暗黙的ニューラル表現を活用する、新しいローカル条件ニューラルフィールド(LCNF)フレームワークを紹介する。 LCNFは柔軟なオブジェクト表現を可能にし、マルチスケール情報の再構築を容易にする。 本研究では,多重計測によるフーリエptychography microscope (fpm) における逆問題に対するlcnfの有用性を実証し,ロバストでスケーラブルで汎用的な大規模位相検索を実現する。 従来のニューラルネットワークフレームワークとは異なり、LCNFには、モデル一般化を促進するローカル条件表現、マルチスケール情報、大規模イメージングデータの効率的な処理が含まれている。 学習遅延ベクトルに条件付エンコーダとデコーダを組み合わせることにより、LCNFは多目的な連続領域超解像再構成を実現する。 複数回の多重計測による広視野・高分解能位相像の高精度再構成を示す。 LCNFは、不完全なデータセットでトレーニングされた場合でも、連続オブジェクトの事前をしっかりとキャプチャし、さまざまなフェーズアーティファクトを排除します。 このフレームワークは強力な一般化を示し、限られたトレーニングデータでも多様なオブジェクトを再構築する。 さらに,自然画像を用いた物理シミュレータ上でlcnfを訓練し,生体試料の実験的測定に有効である。 計算機画像における大規模逆問題に対するLCNFの可能性は,様々な深層学習技術に適用可能である。

Deep learning has transformed computational imaging, but traditional pixel-based representations limit their ability to capture continuous, multiscale details of objects. Here we introduce a novel Local Conditional Neural Fields (LCNF) framework, leveraging a continuous implicit neural representation to address this limitation. LCNF enables flexible object representation and facilitates the reconstruction of multiscale information. We demonstrate the capabilities of LCNF in solving the highly ill-posed inverse problem in Fourier ptychographic microscopy (FPM) with multiplexed measurements, achieving robust, scalable, and generalizable large-scale phase retrieval. Unlike traditional neural fields frameworks, LCNF incorporates a local conditional representation that promotes model generalization, learning multiscale information, and efficient processing of large-scale imaging data. By combining an encoder and a decoder conditioned on a learned latent vector, LCNF achieves versatile continuous-domain super-resolution image reconstruction. We demonstrate accurate reconstruction of wide field-of-view, high-resolution phase images using only a few multiplexed measurements. LCNF robustly captures the continuous object priors and eliminates various phase artifacts, even when it is trained on imperfect datasets. The framework exhibits strong generalization, reconstructing diverse objects even with limited training data. Furthermore, LCNF can be trained on a physics simulator using natural images and successfully applied to experimental measurements on biological samples. Our results highlight the potential of LCNF for solving large-scale inverse problems in computational imaging, with broad applicability in various deep-learning-based techniques.
翻訳日:2023-07-13 12:40:57 公開日:2023-07-12
# SepVAE : 健康なものから病理パターンを分離するための対照的なVAE

SepVAE: a contrastive VAE to separate pathological patterns from healthy ones ( http://arxiv.org/abs/2307.06206v1 )

ライセンス: Link先を確認
Robin Louiset, Edouard Duchesnay, Antoine Grigis, Benoit Dufumier, Pietro Gori(参考訳) コントラスト分析vae(ca-vaes)は、背景データセット(bg)と対象データセット(tg)との間の変動の共通要因を、対象データセットにのみ存在するものから分離することを目的とした、変分オートエンコーダ(vaes)のファミリーである。 そのために、これらのメソッドは、潜在空間を一連の有能な特徴(すなわち、ターゲットデータセットに適切な)と共通の特徴(すなわち、両方のデータセットに存在する)に分離する。 現在、全てのモデルは潜在空間間の情報の共有を効果的に防ぎ、変動の全ての有意な要因を捉えることができない。 そこで本研究では,共通表現と有意表現の混同項と,有意空間の背景サンプルと対象サンプルの分類項の2つの重要な正規化損失を導入する。 3つの医療応用と自然画像データセット(CelebA)において,従来のCA-VAEs法よりも優れた性能を示す。 コードとデータセットはgithub https://github.com/neurospin-projects/2023_rlouiset_sepvaeで入手できる。

Contrastive Analysis VAE (CA-VAEs) is a family of Variational auto-encoders (VAEs) that aims at separating the common factors of variation between a background dataset (BG) (i.e., healthy subjects) and a target dataset (TG) (i.e., patients) from the ones that only exist in the target dataset. To do so, these methods separate the latent space into a set of salient features (i.e., proper to the target dataset) and a set of common features (i.e., exist in both datasets). Currently, all models fail to prevent the sharing of information between latent spaces effectively and to capture all salient factors of variation. To this end, we introduce two crucial regularization losses: a disentangling term between common and salient representations and a classification term between background and target samples in the salient space. We show a better performance than previous CA-VAEs methods on three medical applications and a natural images dataset (CelebA). Code and datasets are available on GitHub https://github.com/neurospin-projects/2023_rlouiset_sepvae.
翻訳日:2023-07-13 12:40:30 公開日:2023-07-12
# 量子力学の測定仮定は冗長ではない

The measurement postulates of quantum mechanics are not redundant ( http://arxiv.org/abs/2307.06191v1 )

ライセンス: Link先を確認
Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge and Perimeter Institute for Theoretical Physics)(参考訳) Masanes, Galley and M\"uller [1] argue that the measurement postulates of non-relativistic quantum mechanics follow from the structural postulates together with an assumption they call the "possibility of state estimation". Their argument also relies on what they term a "theory-independent characterization of measurements for single and multipartite systems". We refute their conclusion, giving explicit examples of non-quantum measurement and state update rules that satisfy all their assumptions. We also show that their "possibility of state estimation" assumption is neither necessary nor sufficient to ensure a sensible notion of state estimation within a theory whose states are described by the quantum formalism. We further show their purportedly "theory-independent" characterization assumes several properties of quantum measurements that exclude plausible alternative types of measurement. これらの点のすべてに、特定の代替測度仮定と、測定後の状態更新ルールを記載する。 我々は、いくつかの伝承に反して、量子力学は決して理論空間における島ではないと結論づける。 POVM以外の量子状態に関する情報を取得するためのルールによって、一貫して拡張することができる。 そのような規則が自然界、例えば量子論と重力の結合において実現されるかどうかは、理論解析だけでは解決できない経験的問題である。

Masanes, Galley and M\"uller [1] argue that the measurement postulates of non-relativistic quantum mechanics follow from the structural postulates together with an assumption they call the "possibility of state estimation". Their argument also relies on what they term a "theory-independent characterization of measurements for single and multipartite systems". We refute their conclusion, giving explicit examples of non-quantum measurement and state update rules that satisfy all their assumptions. We also show that their "possibility of state estimation" assumption is neither necessary nor sufficient to ensure a sensible notion of state estimation within a theory whose states are described by the quantum formalism. We further show their purportedly "theory-independent" characterization assumes several properties of quantum measurements that exclude plausible alternative types of measurement. We illustrate all these points with specific alternative measurement postulates and post-measurement state update rules. We conclude that, contrary to some folklore, quantum mechanics is by no means an island in theory-space. It can consistently be extended by rules for obtaining information about quantum states other than via POVMs. Whether such rules are realised in nature, for example in linking quantum theory and gravity, is an empirical question that cannot be resolved by theoretical analysis alone.
翻訳日:2023-07-13 12:40:07 公開日:2023-07-12
# フェイクの抽出:効果的な拡散生成画像検出

Exposing the Fake: Effective Diffusion-Generated Images Detection ( http://arxiv.org/abs/2307.06272v1 )

ライセンス: Link先を確認
Ruipeng Ma, Jinhao Duan, Fei Kong, Xiaoshuang Shi, Kaidi Xu(参考訳) 画像合成は拡散確率モデル(ddpm)やテキストから画像への拡散モデルといった拡散ベースの生成モデルが出現したことで、大きな進歩を遂げている。 その効果にもかかわらず、拡散生成画像の検出に特化した研究が行われ、セキュリティとプライバシーのリスクが生じる可能性がある。 本稿では,拡散生成画像検出(SeDID)のためのステップワイド誤差と呼ばれる新しい検出手法を提案する。 統計ベースの$\text{SeDID}_{\text{Stat}}$とニューラルネットワークベースの$\text{SeDID}_{\text{NNs}}$、SeDIDは拡散モデルのユニークな属性、すなわち決定論的逆転と決定論的復号化計算エラーを利用する。 本評価は拡散モデルに適用した場合のsedidの既存手法よりも優れた性能を示す。 そこで本研究では,拡散モデル生成画像の識別に重要な貢献を行い,人工知能のセキュリティ分野における重要な一歩を踏み出した。

Image synthesis has seen significant advancements with the advent of diffusion-based generative models like Denoising Diffusion Probabilistic Models (DDPM) and text-to-image diffusion models. Despite their efficacy, there is a dearth of research dedicated to detecting diffusion-generated images, which could pose potential security and privacy risks. This paper addresses this gap by proposing a novel detection method called Stepwise Error for Diffusion-generated Image Detection (SeDID). Comprising statistical-based $\text{SeDID}_{\text{Stat}}$ and neural network-based $\text{SeDID}_{\text{NNs}}$, SeDID exploits the unique attributes of diffusion models, namely deterministic reverse and deterministic denoising computation errors. Our evaluations demonstrate SeDID's superior performance over existing methods when applied to diffusion models. Thus, our work makes a pivotal contribution to distinguishing diffusion model-generated images, marking a significant step in the domain of artificial intelligence security.
翻訳日:2023-07-13 12:34:41 公開日:2023-07-12
# マクロトラヒックフローモデルのキャリブレーションのための物理インフォームド機械学習

Physics-informed Machine Learning for Calibrating Macroscopic Traffic Flow Models ( http://arxiv.org/abs/2307.06267v1 )

ライセンス: Link先を確認
Yu Tang, Li Jin, Kaan Ozbay(参考訳) 交通現象の理解と制御戦略の設計には,よく校正された交通流モデルが不可欠である。 従来のキャリブレーションは最適化法に基づいている。 本稿では,最適化に基づく手法に匹敵し,さらに優れた性能を実現する新しい物理モデルに基づくキャリブレーション手法を提案する。 この目的のために,1つのエンコーダと1つのデコーダからなる教師なし機械学習モデルであるclassic deep autoencoderとトラフィックフローモデルを組み合わせた。 提案手法は, 物理的トラフィックフローモデルのデコーダに通知し, 適切なトラフィックパラメータを導出するためにエンコーダを誘導する。 また,本手法にはデノナイズ自動エンコーダが組み込まれており,通常のデータだけでなく,値が不足したデータでも処理できる。 カリフォルニアにおけるI-210Eのケーススタディにより,我々のアプローチを検証した。

Well-calibrated traffic flow models are fundamental to understanding traffic phenomena and designing control strategies. Traditional calibration has been developed base on optimization methods. In this paper, we propose a novel physics-informed, learning-based calibration approach that achieves performances comparable to and even better than those of optimization-based methods. To this end, we combine the classical deep autoencoder, an unsupervised machine learning model consisting of one encoder and one decoder, with traffic flow models. Our approach informs the decoder of the physical traffic flow models and thus induces the encoder to yield reasonable traffic parameters given flow and speed measurements. We also introduce the denoising autoencoder into our method so that it can handles not only with normal data but also with corrupted data with missing values. We verified our approach with a case study of I-210 E in California.
翻訳日:2023-07-13 12:34:19 公開日:2023-07-12
# 周波数応答関数の階層ベイズモデルについて

On the hierarchical Bayesian modelling of frequency response functions ( http://arxiv.org/abs/2307.06263v1 )

ライセンス: Link先を確認
T.A. Dardeno, R.S. Mills, N. Dervilis, K. Worden, L.A. Bull(参考訳) 人口ベースの構造健康モニタリング(pbshm)は、メンバーの健康状態に関する推測を改善するために、正常および損傷条件データなどの集団のメンバー間で貴重な情報を共有することを目的としている。 人口が名目上の構造で構成されている場合でも、材料特性、幾何学、境界条件、環境効果(例えば温度変化)にわずかな違いがあるため、メンバー間の良質な差異が存在する。 これらの相違は変調特性に影響を与え、周波数応答関数(FRF)の共鳴ピークの特性の変化として現れる。 多くのshm戦略は構造物の動的特性の監視に依存しているため、こうしたシステムの実用的な実装には良質な変化が困難である。 振動ベースのscmのもうひとつの一般的な課題は、送信の問題、センサーの故障、センサ間のサンプルレートのミスマッチ、その他の原因によるデータ損失である。 時間領域におけるデータの欠落は周波数領域の分解能を低下させ、動的特徴化を損なう。 階層ベイズ・アプローチは、個体群と個人(またはドメイン)レベルの統計分布が同時に学習され、パラメータ間の統計強度を高めるので、pbshmの有用なモデリング構造を提供する。 その結果、特にデータが制限された場合、パラメータ推定値のばらつきが低減される。 本稿では, 階層型ベイズ構造を用いて, 温度条件の異なるヘリコプタブレードの少人数を対象に, 複合確率的frfモデルを開発した。 これらのモデルはshmにおける重要な課題に対処し、基礎となる力学の違いとして生じる良質な変化を取り入れ、ブレード間の類似性を考慮(および活用)する。

Population-based structural health monitoring (PBSHM) aims to share valuable information among members of a population, such as normal- and damage-condition data, to improve inferences regarding the health states of the members. Even when the population is comprised of nominally-identical structures, benign variations among the members will exist as a result of slight differences in material properties, geometry, boundary conditions, or environmental effects (e.g., temperature changes). These discrepancies can affect modal properties and present as changes in the characteristics of the resonance peaks of the frequency response function (FRF). Many SHM strategies depend on monitoring the dynamic properties of structures, so benign variations can be challenging for the practical implementation of these systems. Another common challenge with vibration-based SHM is data loss, which may result from transmission issues, sensor failure, a sample-rate mismatch between sensors, and other causes. Missing data in the time domain will result in decreased resolution in the frequency domain, which can impair dynamic characterisation. The hierarchical Bayesian approach provides a useful modelling structure for PBSHM, because statistical distributions at the population and individual (or domain) level are learnt simultaneously to bolster statistical strength among the parameters. As a result, variance is reduced among the parameter estimates, particularly when data are limited. In this paper, combined probabilistic FRF models are developed for a small population of nominally-identical helicopter blades under varying temperature conditions, using a hierarchical Bayesian structure. These models address critical challenges in SHM, by accommodating benign variations that present as differences in the underlying dynamics, while also considering (and utilising), the similarities among the blades.
翻訳日:2023-07-13 12:34:04 公開日:2023-07-12
# UGCANet: 内視鏡画像解析のための特徴アライメント付きグローバルコンテキスト対応トランスフォーマーネットワーク

UGCANet: A Unified Global Context-Aware Transformer-based Network with Feature Alignment for Endoscopic Image Analysis ( http://arxiv.org/abs/2307.06260v1 )

ライセンス: Link先を確認
Pham Vu Hung, Nguyen Duy Manh, Nguyen Thi Oanh, Nguyen Thi Thuy, Dinh Viet Sang(参考訳) 消化器内視鏡は、カメラやその他の器具を備えた柔軟なチューブを使用して消化器を調べる医療処置である。 この最小侵襲のテクニックは、炎症性腸疾患、消化管出血、大腸癌など、さまざまな消化管疾患の診断および管理を可能にする。 上部消化管病変の早期発見と診断,悪性ポリープの鑑別は消化管内視鏡の診断・治療上の重要な構成要素である。 したがって、消化器疾患の検出率の向上は、患者の寿命を延ばし、全体の健康状態を改善するタイムリーな医療介入の可能性を高めることにより、患者の予後を著しく改善することができる。 本稿では,複数のタスクを同時に実行し,上部消化管病変と大腸ポリープの同定を可能にする,トランスフォーマーベースの深層ニューラルネットワークを提案する。 提案するグローバルなコンテキスト認識モジュールは,機能アライメントブロックとともに強力なMiTバックボーンを活用することで,ネットワークの表現能力を向上する。 この新しい設計は、様々な内視鏡的診断タスクで性能が大幅に向上する。 他の最先端手法と比較して,本手法の優れた性能を示す。

Gastrointestinal endoscopy is a medical procedure that utilizes a flexible tube equipped with a camera and other instruments to examine the digestive tract. This minimally invasive technique allows for diagnosing and managing various gastrointestinal conditions, including inflammatory bowel disease, gastrointestinal bleeding, and colon cancer. The early detection and identification of lesions in the upper gastrointestinal tract and the identification of malignant polyps that may pose a risk of cancer development are critical components of gastrointestinal endoscopy's diagnostic and therapeutic applications. Therefore, enhancing the detection rates of gastrointestinal disorders can significantly improve a patient's prognosis by increasing the likelihood of timely medical intervention, which may prolong the patient's lifespan and improve overall health outcomes. This paper presents a novel Transformer-based deep neural network designed to perform multiple tasks simultaneously, thereby enabling accurate identification of both upper gastrointestinal tract lesions and colon polyps. Our approach proposes a unique global context-aware module and leverages the powerful MiT backbone, along with a feature alignment block, to enhance the network's representation capability. This novel design leads to a significant improvement in performance across various endoscopic diagnosis tasks. Extensive experiments demonstrate the superior performance of our method compared to other state-of-the-art approaches.
翻訳日:2023-07-13 12:33:34 公開日:2023-07-12
# 機械学習とトポロジカルデータ解析は3Dスキャンでヒト乳頭の特徴を同定する

Machine learning and Topological data analysis identify unique features of human papillae in 3D scans ( http://arxiv.org/abs/2307.06255v1 )

ライセンス: Link先を確認
Rayna Andreeva, Anwesha Sarkar, Rik Sarkar(参考訳) 舌の表面は、味覚やテクスチュラル感覚の力学や化学に不可欠なパピラを包含している。 パピラエの味覚機能はよく研究されているが、個体内および個体間のパピラエの特異性はいまだに解明されていない。 そこで本研究では,ヒト乳頭3次元顕微鏡(n=2092)における最初の機械学習フレームワークについて,幾何学的特徴と位相的特徴の特異性を明らかにする。 離散微分幾何学と計算トポロジーから導かれる多くの特徴に基づいて, 乳頭形状の微細な差異を計算的に検討した。 解釈可能な機械学習技術は、乳頭形状の持続的ホモロジー特徴が生物学的変数の予測に最も有効であることを示している。 これらの特徴を少量のデータサンプルでトレーニングしたモデルは、85%の精度で乳頭の種類を予測する。 パピラ型分類モデルは、フィリフォームと菌形パピラの空間配置を表面上にマッピングすることができる。 特筆すべきは、パピラは個体間で識別され、個人は1つのパピラから15人の参加者のうち48%の精度で識別できることである。 総じて、舌乳頭が食物の嗜好や口腔の診断に新しい研究の方向性を刺激するユニークな識別子として機能することを示す最初の前例のない証拠である。

The tongue surface houses a range of papillae that are integral to the mechanics and chemistry of taste and textural sensation. Although gustatory function of papillae is well investigated, the uniqueness of papillae within and across individuals remains elusive. Here, we present the first machine learning framework on 3D microscopic scans of human papillae (n = 2092), uncovering the uniqueness of geometric and topological features of papillae. The finer differences in shapes of papillae are investigated computationally based on a number of features derived from discrete differential geometry and computational topology. Interpretable machine learning techniques show that persistent homology features of the papillae shape are the most effective in predicting the biological variables. Models trained on these features with small volumes of data samples predict the type of papillae with an accuracy of 85%. The papillae type classification models can map the spatial arrangement of filiform and fungiform papillae on a surface. Remarkably, the papillae are found to be distinctive across individuals and an individual can be identified with an accuracy of 48% among the 15 participants from a single papillae. Collectively, this is the first unprecedented evidence demonstrating that tongue papillae can serve as a unique identifier inspiring new research direction for food preferences and oral diagnostics.
翻訳日:2023-07-13 12:33:14 公開日:2023-07-12
# 位相量子ホール系の絡み合いハミルトニアンの実現

Realizing the entanglement Hamiltonian of a topological quantum Hall system ( http://arxiv.org/abs/2307.06251v1 )

ライセンス: Link先を確認
Quentin Redon, Qi Liu, Jean-Baptiste Bouhiron, Nehal Mittal, Aur\'elien Fabre, Raphael Lopes, Sylvain Nascimbene(参考訳) ホール絶縁体のような位相量子多体系は、それらの成分間の絡み合いに符号化された隠れ秩序によって特徴づけられる。 絡み合いをグローバルに定量化する実験的なアクセス可能な単数である絡み合いエントロピーは、位相秩序の最初の署名として提案されている。 逆に、エンタングルメントの完全な記述は、曲線時空における量子エンタングルメントを定式化するために最初に導入されたより複雑な天体であるハミルトンのエンタングルメントに依存する。 Li と Haldane が予想したように、多体系の絡み合いハミルトニアンはその境界特性に直接関連しているようで、特に位相系を特徴づけるのに有用である。 エンタングルメントスペクトルは数値シミュレーションで生じる複雑な位相を特定するために一般的に用いられるが、その測定は依然として顕著な課題である。 ここでは,合成量子ホール系の絡み合いハミルトニアンを,真のハミルトニアンとして実験的に実現するための変分的アプローチを行う。 我々は、ジスプロシウム原子の電子スピンに符号化された合成次元を用いて、ビソニャーノ・ヴィヒマン予想によって示唆される空間変形ホール系を実装する。 最適変動ハミルトニアンのスペクトルは、トポロジカルエッジモードに似たキラル分散を示し、絡み合いと境界物理学の基本的な関係を明らかにする。 我々の変分手順は、様々なプラットフォーム上で相互作用する多体系に容易に一般化することができ、分数ホール状態、キラルスピン液体、臨界系などの長距離相関を持つ異方性量子系の探索に向けた重要なステップとなる。

Topological quantum many-body systems, such as Hall insulators, are characterized by a hidden order encoded in the entanglement between their constituents. Entanglement entropy, an experimentally accessible single number that globally quantifies entanglement, has been proposed as a first signature of topological order. Conversely, the full description of entanglement relies on the entanglement Hamiltonian, a more complex object originally introduced to formulate quantum entanglement in curved spacetime. As conjectured by Li and Haldane, the entanglement Hamiltonian of a many-body system appears to be directly linked to its boundary properties, making it particularly useful for characterizing topological systems. While the entanglement spectrum is commonly used to identify complex phases arising in numerical simulations, its measurement remains an outstanding challenge. Here, we perform a variational approach to realize experimentally, as a genuine Hamiltonian, the entanglement Hamiltonian of a synthetic quantum Hall system. We use a synthetic dimension, encoded in the electronic spin of dysprosium atoms, to implement spatially deformed Hall systems, as suggested by the Bisognano-Wichmann prediction. The spectrum of the optimal variational Hamiltonian exhibits a chiral dispersion akin to a topological edge mode, revealing the fundamental link between entanglement and boundary physics. Our variational procedure can be easily generalized to interacting many-body systems on various platforms, marking an important step towards the exploration of exotic quantum systems with long-range correlations, such as fractional Hall states, chiral spin liquids and critical systems.
翻訳日:2023-07-13 12:32:54 公開日:2023-07-12
# ソフトインターベンションからの因果解離に対する識別可能性保証

Identifiability Guarantees for Causal Disentanglement from Soft Interventions ( http://arxiv.org/abs/2307.06250v1 )

ライセンス: Link先を確認
Jiaqi Zhang, Chandler Squires, Kristjan Greenewald, Akash Srivastava, Karthikeyan Shanmugam, Caroline Uhler(参考訳) 因果解離は因果モデルを通して相互に関係する潜伏変数を用いてデータの表現を明らかにすることを目的としている。 このような表現は、データを説明する潜在モデルが一意であれば識別できる。 本稿では,各介入が潜在変数のメカニズムを変化させることにより,非ペア型観察データや介入データが得られるシナリオに焦点を当てる。 因果変数が完全に観測されると、忠実性の仮定の下で因果モデルを特定するために統計的に一貫したアルゴリズムが開発された。 ここでは、信頼という一般化された概念を考えると、未観測の因果変数で識別性は依然として達成可能であることを示す。 この結果から,潜在因果関係モデルを等価クラスまで復元し,無限データに制限された干渉の見当たらない組み合わせの効果を予測できることを確認した。 本研究では,自動符号化変分ベイズアルゴリズムを開発し,ゲノム学における組合せ摂動効果の予測問題に適用する。

Causal disentanglement aims to uncover a representation of data using latent variables that are interrelated through a causal model. Such a representation is identifiable if the latent model that explains the data is unique. In this paper, we focus on the scenario where unpaired observational and interventional data are available, with each intervention changing the mechanism of a latent variable. When the causal variables are fully observed, statistically consistent algorithms have been developed to identify the causal model under faithfulness assumptions. We here show that identifiability can still be achieved with unobserved causal variables, given a generalized notion of faithfulness. Our results guarantee that we can recover the latent causal model up to an equivalence class and predict the effect of unseen combinations of interventions, in the limit of infinite data. We implement our causal disentanglement framework by developing an autoencoding variational Bayes algorithm and apply it to the problem of predicting combinatorial perturbation effects in genomics.
翻訳日:2023-07-13 12:32:22 公開日:2023-07-12
# 拡散に基づくマルチエージェント逆追跡

Diffusion Based Multi-Agent Adversarial Tracking ( http://arxiv.org/abs/2307.06244v1 )

ライセンス: Link先を確認
Sean Ye, Manisha Natarajan, Zixuan Wu, Matthew Gombolay(参考訳) 標的追跡は現実世界のシナリオにおいて重要な役割を担い、特に麻薬取引の対話では敵の標的の位置に関する知識が限られている。 自律追跡システムの改善により、無人航空機、水上、および水中の車両は、有人表面、半潜水可能、および空中の船舶を使用する密輸業者の干渉を支援することができる。 無人ドローンの普及に伴い、安全と安全のためには正確な自律目標推定がさらに重要である。 本稿では, 従来のスパース状態情報を利用して, 敵位置の総合的予測を生成するアプローチである, CADENCE(Constrained Agent-based Diffusion for Enhanced Multi-Agent Tracking)を提案する。 本手法の有効性を評価するために, 拡散モデルのモンテカルロサンプリングを用いて, 単一目標および多目標追尾環境における予測を評価し, 生成する軌道の確率を推定する。 本稿では,制約に基づくサンプリングを用いて複数モーダルトラック仮説を生成するクロスアテンションベース拡散モデルを提案する。 我々の単一ターゲットモデルでは、平均変位誤差(ADE)上の全てのベースラインメソッドのパフォーマンスを超越し、全時間水平線での予測を行う。

Target tracking plays a crucial role in real-world scenarios, particularly in drug-trafficking interdiction, where the knowledge of an adversarial target's location is often limited. Improving autonomous tracking systems will enable unmanned aerial, surface, and underwater vehicles to better assist in interdicting smugglers that use manned surface, semi-submersible, and aerial vessels. As unmanned drones proliferate, accurate autonomous target estimation is even more crucial for security and safety. This paper presents Constrained Agent-based Diffusion for Enhanced Multi-Agent Tracking (CADENCE), an approach aimed at generating comprehensive predictions of adversary locations by leveraging past sparse state information. To assess the effectiveness of this approach, we evaluate predictions on single-target and multi-target pursuit environments, employing Monte-Carlo sampling of the diffusion model to estimate the probability associated with each generated trajectory. We propose a novel cross-attention based diffusion model that utilizes constraint-based sampling to generate multimodal track hypotheses. Our single-target model surpasses the performance of all baseline methods on Average Displacement Error (ADE) for predictions across all time horizons.
翻訳日:2023-07-13 12:32:05 公開日:2023-07-12
# C-VAEを用いた時空間データ再構成

Reconstructing Spatiotemporal Data with C-VAEs ( http://arxiv.org/abs/2307.06243v1 )

ライセンス: Link先を確認
Tiago F. R. Ribeiro, Fernando Silva, Rog\'erio Lu\'is de C. Costa(参考訳) 時空間データの連続表現は、通常、時間とともに形や位置が連続的に変化するエンティティを表現するために、‘textit{moving region} のような抽象データ型を使用する。 この表現を実世界のエンティティの離散スナップショットから作成するには、補間法を用いてデータ表現を計算し、任意の時間点における興味の対象の位置と形状を推定する必要がある。 既存の領域補間法は、しばしば領域の進化の滑らかで現実的な表現を生成できない。 しかし、近年の深層学習技術の進歩により、暗黙的特徴学習を通じて時空間的依存関係を捉えるために離散的な観察に基づいて訓練された深層モデルの可能性が明らかになった。 本研究では,移動領域の時空間的進化の滑らかで現実的な表現を生成する条件付き変分オートエンコーダ(c-vae)モデルの能力について検討する。 本研究は,森林火災の焼成域における微少なアノテートデータセットに対する提案手法の評価である。 データセットのサンプルに圧縮演算を適用し,c-vaeモデルと他の一般的な補間アルゴリズムを用いて領域間の表現を生成する。 提案手法の性能を評価するため,U-Netモデルにより生成された手動の注釈付きデータや領域と補間結果を比較した。 また,時間的整合性指標を考慮したデータ品質の評価を行った。 提案したC-VAEに基づくアプローチは、幾何学的類似度測定における競合結果を示す。 また、c-vaeモデルが2次元移動領域の時空間的進化のモデル化に有効な選択肢である可能性が示唆されている。

The continuous representation of spatiotemporal data commonly relies on using abstract data types, such as \textit{moving regions}, to represent entities whose shape and position continuously change over time. Creating this representation from discrete snapshots of real-world entities requires using interpolation methods to compute in-between data representations and estimate the position and shape of the object of interest at arbitrary temporal points. Existing region interpolation methods often fail to generate smooth and realistic representations of a region's evolution. However, recent advancements in deep learning techniques have revealed the potential of deep models trained on discrete observations to capture spatiotemporal dependencies through implicit feature learning. In this work, we explore the capabilities of Conditional Variational Autoencoder (C-VAE) models to generate smooth and realistic representations of the spatiotemporal evolution of moving regions. We evaluate our proposed approach on a sparsely annotated dataset on the burnt area of a forest fire. We apply compression operations to sample from the dataset and use the C-VAE model and other commonly used interpolation algorithms to generate in-between region representations. To evaluate the performance of the methods, we compare their interpolation results with manually annotated data and regions generated by a U-Net model. We also assess the quality of generated data considering temporal consistency metrics. The proposed C-VAE-based approach demonstrates competitive results in geometric similarity metrics. It also exhibits superior temporal consistency, suggesting that C-VAE models may be a viable alternative to modelling the spatiotemporal evolution of 2D moving regions.
翻訳日:2023-07-13 12:31:45 公開日:2023-07-12
# 新しい3次元および4次元トーリックとバースト誤り訂正量子符号

New Three and Four-Dimensional Toric and Burst-Error-Correcting Quantum Codes ( http://arxiv.org/abs/2307.06241v1 )

ライセンス: Link先を確認
Cibele Cristina Trinca, Reginaldo Palazzo Jr., Ricardo Augusto Watanabe, Clarice Dias de Albuquerque, Jos\'e Carmelo Interlando and Ant\^onio Aparecido de Andrade(参考訳) 進行中の研究と実験により、量子メモリは量子ビットの保存を実現することができる。 一方で、インターリーブ技術はエラーのバーストに対処するために使用される。 古典的な誤り訂正符号を用いて誤りのバーストに対処するための効果的なインターリーブ技術が文献にいくつか紹介されているが、我々の知る限り、トポロジカルな量子誤り訂正符号においてエラーのクラスタと戦うためのインターリーブ技術についてはほとんど知られていない。 そこで本研究では,格子符号を特徴とする3次元および4次元トーリック量子符号を新たに提示し,これら3次元および4次元トーリック量子符号に量子インターリーブ法を適用する。 このような手法を新しい符号に適用することにより、3次元および4次元の量子バーストエラー訂正符号を提供する。 その結果、文献から得られた3次元および4次元トーリック量子コードよりも優れた情報率を持つ新しい3次元および4次元トーリックおよびバーストエラー訂正量子コードが得られる。 これらの提案された3次元および4次元の量子バーストエラー訂正符号は、そのような情報レートを改善するとともに、位置するエラー、量子データ、メモリを持つ量子チャネルのバーストエラー訂正に使用できる。

Ongoing research and experiments have enabled quantum memory to realize the storage of qubits. On the other hand, interleaving techniques are used to deal with burst of errors. Effective interleaving techniques for combating burst of errors by using classical error-correcting codes have been proposed in several articles found in the literature, however, to the best of our knowledge, little is known regarding interleaving techniques for combating clusters of errors in topological quantum error-correcting codes. Motivated by that, in this work, we present new three and four-dimensional toric quantum codes which are featured by lattice codes and apply a quantum interleaving method to such new three and four-dimensional toric quantum codes. By applying such a method to these new codes we provide new three and four-dimensional quantum burst-error-correcting codes. As a consequence, new three and four-dimensional toric and burst-error-correcting quantum codes are obtained which have better information rates than those three and four-dimensional toric quantum codes from the literature. In addition to these proposed three and four-dimensional quantum burst-error-correcting codes improve such information rates, they can be used for burst-error-correction in errors which are located, quantum data stored and quantum channels with memory.
翻訳日:2023-07-13 12:31:20 公開日:2023-07-12
# patch n' pack:navit、あらゆるアスペクト比と解像度のためのビジョントランスフォーマー

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution ( http://arxiv.org/abs/2307.06304v1 )

ライセンス: Link先を確認
Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lu\v{c}i\'c, Neil Houlsby(参考訳) コンピュータビジョンモデルでイメージを処理する前に、画像を固定解像度に再サイズするという、ユビキタスで実証可能な準最適選択は、まだ成功していない。 しかし、ViT(Vision Transformer)のようなモデルはフレキシブルなシーケンスベースモデリングを提供し、したがって入力シーケンスの長さが変化する。 我々は、任意の解像度とアスペクト比の入力を処理するためにトレーニング中にシーケンスパッキングを使用するNaViT(Native Resolution ViT)を利用する。 フレキシブルモデルの使用に加えて、大規模教師付きおよびコントラスト付き画像テキスト事前学習のためのトレーニング効率の向上を示す。 NaViTは画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションといった標準的なタスクに効率的に移行することができ、ロバストネスとフェアネスベンチマークの結果を改善することができる。 推論時に、入力解像度の柔軟性を使用して、テストタイムのコストパフォーマンストレードオフをスムーズにナビゲートすることができる。 私たちは、NaViTが、ほとんどのコンピュータビジョンモデルで使われている標準のCNN設計、入出力、モデリングパイプラインから離れ、ViTにとって有望な方向性を示していると信じています。

The ubiquitous and demonstrably suboptimal choice of resizing images to a fixed resolution before processing them with computer vision models has not yet been successfully challenged. However, models such as the Vision Transformer (ViT) offer flexible sequence-based modeling, and hence varying input sequence lengths. We take advantage of this with NaViT (Native Resolution ViT) which uses sequence packing during training to process inputs of arbitrary resolutions and aspect ratios. Alongside flexible model usage, we demonstrate improved training efficiency for large-scale supervised and contrastive image-text pretraining. NaViT can be efficiently transferred to standard tasks such as image and video classification, object detection, and semantic segmentation and leads to improved results on robustness and fairness benchmarks. At inference time, the input resolution flexibility can be used to smoothly navigate the test-time cost-performance trade-off. We believe that NaViT marks a departure from the standard, CNN-designed, input and modelling pipeline used by most computer vision models, and represents a promising direction for ViTs.
翻訳日:2023-07-13 12:23:34 公開日:2023-07-12
# ディープニューラルネットワーク検証のための認証証明チェッカーを目指して

Towards a Certified Proof Checker for Deep Neural Network Verification ( http://arxiv.org/abs/2307.06299v1 )

ライセンス: Link先を確認
Remi Desmartin, Omri Isac, Grant Passmore, Kathrin Stark, Guy Katz and Ekaterina Komendantskaya(参考訳) 近年のディープニューラルネットワーク(dnn)の発展により、安全性クリティカルなシステムへの採用が進み、安全性の保証の必要性が高まっている。 これらのDNNの安全性特性は、検証コミュニティが開発したツールを用いて証明することができる。 しかし、これらのツール自体が実装バグや数値安定性の問題を起こしやすいため、信頼性が疑わしい。 これを解決するために、一部の検証者は、信頼できるチェッカーによってチェックできる結果の証明を生成する。 本稿では,DNN検証のための検証チェッカーの実装について述べる。 数値安定性と高い妥当性を提供することにより、既存の実装を改善する。 これを実現するために、工業的定理証明器であるimandraの2つの重要な能力、すなわち無限精度実数演算とその形式的検証基盤を活用した。 これまでのところ、我々はImandraに証明チェッカーを実装し、その正当性を規定し、チェッカーのコンプライアンスを検証し始めた。 現在進行中の作業は、チェッカーの正式な検証を完了し、パフォーマンスをさらに最適化することに集中しています。

Recent developments in deep neural networks (DNNs) have led to their adoption in safety-critical systems, which in turn has heightened the need for guaranteeing their safety. These safety properties of DNNs can be proven using tools developed by the verification community. However, these tools are themselves prone to implementation bugs and numerical stability problems, which make their reliability questionable. To overcome this, some verifiers produce proofs of their results which can be checked by a trusted checker. In this work, we present a novel implementation of a proof checker for DNN verification. It improves on existing implementations by offering numerical stability and greater verifiability. To achieve this, we leverage two key capabilities of Imandra, an industrial theorem prover: its support of infinite precision real arithmetic and its formal verification infrastructure. So far, we have implemented a proof checker in Imandra, specified its correctness properties and started to verify the checker's compliance with them. Our ongoing work focuses on completing the formal verification of the checker and further optimizing its performance.
翻訳日:2023-07-13 12:23:11 公開日:2023-07-12
# 弱構造保存と高コントラスト除去によるリアルタイム画像平滑化

Improved Real-time Image Smoothing with Weak Structures Preserved and High-contrast Details Removed ( http://arxiv.org/abs/2307.06298v1 )

ライセンス: Link先を確認
Shengchun Wang and Wencheng Wang and Fei Hou(参考訳) 画像の滑らか化は、ピクセル単位の勾配を小さくして詳細を滑らかにする。 既存の手法は常にスムーズな方法を決定するために勾配に依存するため、構造や詳細が重なり合う範囲が重なるため、構造や詳細を区別することは困難である。 したがって、特に弱い構造の保存と高コントラストの詳細の除去において、高品質な結果を達成することは依然として困難である。 本稿では,反復最小二乗(ILS)によるリアルタイム最適化手法の改善により,この問題に対処する。 私たちはそれを観察する 1)ilsは、平滑化の方法を決定するためのペナルティ関数において、独立変数として勾配を用いる。 2)ILSのフレームワークは,ペナルティ関数の勾配ではなくいくつかの値を使用する場合,画像の平滑化に有効である。 したがって、構造上の画素の特性に応じて、ペナルティ関数で使用するいくつかの値を計算して平滑化マナーを決定することにより、その勾配が高いか低いかにかかわらず、構造や詳細を識別的に扱うことができる。 その結果,弱い構造を保ちながら,高コントラストの細部を簡便に除去できる。 さらに、最適化計算を高速化するために、そのような値を調整できるので、元のILS法よりも少ないイテレーションを効率よく使用できる。 これにより、構造保存に役立つ構造の変更を減らすことができる。 実験の結果,既存の効率と品質の方法よりも優れた結果が得られた。

Image smoothing is by reducing pixel-wise gradients to smooth out details. As existing methods always rely on gradients to determine smoothing manners, it is difficult to distinguish structures and details to handle distinctively due to the overlapped ranges of gradients for structures and details. Thus, it is still challenging to achieve high-quality results, especially on preserving weak structures and removing high-contrast details. In this paper, we address this challenge by improving the real-time optimization-based method via iterative least squares (called ILS). We observe that 1) ILS uses gradients as the independent variable in its penalty function for determining smoothing manners, and 2) the framework of ILS can still work for image smoothing when we use some values instead of gradients in the penalty function. Thus, corresponding to the properties of pixels on structures or not, we compute some values to use in the penalty function to determine smoothing manners, and so we can handle structures and details distinctively, no matter whether their gradients are high or low. As a result, we can conveniently remove high-contrast details while preserving weak structures. Moreover, such values can be adjusted to accelerate optimization computation, so that we can use fewer iterations than the original ILS method for efficiency. This also reduces the changes onto structures to help structure preservation. Experimental results show our advantages over existing methods on efficiency and quality.
翻訳日:2023-07-13 12:22:55 公開日:2023-07-12
# インストラクションマイニング:大規模言語モデルのための高品質インストラクションデータ選択

Instruction Mining: High-Quality Instruction Data Selection for Large Language Models ( http://arxiv.org/abs/2307.06290v1 )

ライセンス: Link先を確認
Yihan Cao, Yanbin Kang, Lichao Sun(参考訳) 大規模な言語モデルは通常、事前学習と微調整の2つの訓練段階で行われる。 大規模な事前学習は、自然言語応答を生成する強力な能力を持つモデルに内在するが、これらの事前訓練されたモデルは、同時に人間の指示を理解できない可能性がある。 言語モデルが命令を解釈・応答する能力を高めるために,この領域では命令の微調整が重要な手法となっている。 最近の研究では、大規模な言語モデルは、少量の高品質な命令追従データでもうまく機能するように微調整できることがわかった。 しかし、微調整言語モデルのための高品質なデータセットの選択には、従うべき明確なガイドラインがない。 本稿では,データ品質評価のための線形規則であるインストラクタマイニングを提案する。 特定の自然言語指標を用いて指示を定式化する。 データ品質と指標との関係を調べるため、我々はさらに広範囲な微調整実験を行う。 実験結果は、InstructMiningのパラメータの推定に適用される。 その性能をさらに調査するため,我々はインストラクタを用いて,未知のデータセットから高品質なデータを選択する。 その結果、インストラクタマイニングは、様々な命令追従データセットから比較的高品質なサンプルを選択するのに役立つ。 非フィルタリングデータセットで微調整されたモデルと比較すると、選択したデータセットを微調整したモデルは42.5%のケースでパフォーマンスが向上する。

Large language models typically undergo two training stages, pretraining and finetuning. Despite that large-scale pretraining endows the model with strong capabilities to generate natural language responses, these pretrained models can still fail to understand human instructions at times. To enhance language models' ability of interpreting and responding to instructions, instruction finetuning has emerged as a critical method in this area. Recent studies found that large language models can be finetuned to perform well even with a small amount of high-quality instruction-following data. However, the selection of high-quality datasets for finetuning language models still lacks clear guidelines to follow. In this paper, we propose InstructMining, a linear rule for evaluating instruction-following data quality. We formulate InstructMining using specific natural language indicators. To investigate the relationship between data quality and these indicators, we further conduct extensive finetuning experiments. The experiment results are then applied to estimating parameters in InstructMining. To further investigate its performance, we use InstructMining to select high-quality data from unseen datasets. Results demonstrate that InstructMining can help select relatively high-quality samples from various instruction-following datasets. Compared to models finetuned on unfiltered datasets, models finetuned on InstructMining selected datasets perform better on 42.5% cases.
翻訳日:2023-07-13 12:22:31 公開日:2023-07-12
# 任意の次例外点近傍における固有状態幾何からの固有値感度

Eigenvalue sensitivity from eigenstate geometry near and beyond arbitrary-order exceptional points ( http://arxiv.org/abs/2307.06289v1 )

ライセンス: Link先を確認
Henning Schomerus(参考訳) 効果的な非エルミートハミルトニアン系では、パラメトリックおよび動的摂動に対する感度が向上する。 この感度は任意の順序の例外点(eps)に近い単純な漸近的な振る舞いを保ちながら、システムにおける追加状態の役割を捉えながら、一般的な代数的表現を導出する。 このことは、スペクトル的に十分に分離された状態であっても、そのような状態が直接効果を持つことを示した。 固有ベクトルから固有値の学派に従う代数的アプローチもまたEPに近い状態の幾何学に関する直接的な洞察を与える。 特に、感度を定量化する条件番号は準退化部分空間における顕著な同分原理に従うことを示す。

Systems with an effective non-Hermitian Hamiltonian display an enhanced sensitivity to parametric and dynamic perturbations. I derive a general and exact algebraic expression for this sensitivity that retains a simple asymptotic behaviour close to exceptional points (EPs) of any order, while capturing the role of additional states in the system. This reveals that such states can have a direct effect even if they are spectrally well separated. The employed algebraic approach, which follows the eigenvectors-from-eigenvalues school of thought, also provides direct insights into the geometry of the states near an EP. In particular, I show that the condition number quantifying the sensitivity follows a striking equipartition principle in the quasi-degenerate subspace.
翻訳日:2023-07-13 12:22:14 公開日:2023-07-12
# 合理的ニューラルネットワーク制御

Rational Neural Network Controllers ( http://arxiv.org/abs/2307.06287v1 )

ライセンス: Link先を確認
Matthew Newton and Antonis Papachristodoulou(参考訳) ニューラルネットワークは多くの機械学習関連のタスクで大きな成功を収めている。 近年の研究では、ニューラルネットワークをコントローラとして使用することで、制御システム(神経フィードバックループとして知られる)におけるニューラルネットワークの有効性が実証されている。 しかし、このアプローチの大きな課題の1つは、ニューラルネットワークが敵の攻撃に敏感であることが示されていることである。 これは、適切に設計されない限り、制御システムの重要な側面である堅牢性と不確実性の問題のため、コントローラの理想的な候補ではないことを意味する。 ニューラルネットワークコントローラを用いた動的システムの解析と設計の両面での堅牢性に関する初期の研究がある。 しかし、これらの方法の大きな問題のひとつは、従来の機械学習タスクに適した既存のニューラルネットワークアーキテクチャを使用していることだ。 これらの構造はニューラルネットワークコントローラには適さない可能性があり、代替アーキテクチャを検討することが重要である。 本稿では、有理性ニューラルネットワークを考察し、ニューラルフィードバックループのロバストネス問題に有効に使用できる新しい有理性活性化関数を提案する。 合理的活性化関数は、ニューラルネットワークのパラメータの凸である一般的な合理的ニューラルネットワーク構造に置き換えられる。 正方形化可能性テストの和から安定化制御器を回収する手法を提案する。 このアプローチは、SquaresプログラミングのSumとより互換性のある洗練された有理ニューラルネットワークに適用される。 数値的な例では、雑音やパラメトリック不確実性のある非線形植物を用いた神経フィードバックループに対する合理的ニューラルネットワーク制御器の安定化に成功できることが示されている。

Neural networks have shown great success in many machine learning related tasks, due to their ability to act as general function approximators. Recent work has demonstrated the effectiveness of neural networks in control systems (known as neural feedback loops), most notably by using a neural network as a controller. However, one of the big challenges of this approach is that neural networks have been shown to be sensitive to adversarial attacks. This means that, unless they are designed properly, they are not an ideal candidate for controllers due to issues with robustness and uncertainty, which are pivotal aspects of control systems. There has been initial work on robustness to both analyse and design dynamical systems with neural network controllers. However, one prominent issue with these methods is that they use existing neural network architectures tailored for traditional machine learning tasks. These structures may not be appropriate for neural network controllers and it is important to consider alternative architectures. This paper considers rational neural networks and presents novel rational activation functions, which can be used effectively in robustness problems for neural feedback loops. Rational activation functions are replaced by a general rational neural network structure, which is convex in the neural network's parameters. A method is proposed to recover a stabilising controller from a Sum of Squares feasibility test. This approach is then applied to a refined rational neural network which is more compatible with Sum of Squares programming. Numerical examples show that this method can successfully recover stabilising rational neural network controllers for neural feedback loops with non-linear plants with noise and parametric uncertainty.
翻訳日:2023-07-13 12:22:00 公開日:2023-07-12
# FLにおける計算的不均一性に対処する理論的考察

Tackling Computational Heterogeneity in FL: A Few Theoretical Insights ( http://arxiv.org/abs/2307.06283v1 )

ライセンス: Link先を確認
Adnan Ben Mansour, Gaia Carenini, Alexandre Duplessis(参考訳) 機械学習の未来は、データ収集とトレーニングをエッジに移すことにある。 フェデレーション学習(略してfl)は、この目標を達成するために最近提案されている。 このアプローチの原則は、多数の分散クライアント、すなわち環境からデータを収集するリソースに制約のあるモバイルデバイスで学んだモデルを集約し、より一般的なモデルを得ることである。 後者はその後、さらなるトレーニングのためにクライアントに再配布される。 フェデレーション学習とデータセンタベースの分散トレーニングを区別する重要な特徴は、固有の異質性である。 本研究では,ヘテロジニアスデータとローカル更新の両方の観点から,連帯最適化における計算の不均一性を形式化し,タックリングできる新しい集約フレームワークを紹介し,解析する。 提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。

The future of machine learning lies in moving data collection along with training to the edge. Federated Learning, for short FL, has been recently proposed to achieve this goal. The principle of this approach is to aggregate models learned over a large number of distributed clients, i.e., resource-constrained mobile devices that collect data from their environment, to obtain a new more general model. The latter is subsequently redistributed to clients for further training. A key feature that distinguishes federated learning from data-center-based distributed training is the inherent heterogeneity. In this work, we introduce and analyse a novel aggregation framework that allows for formalizing and tackling computational heterogeneity in federated optimization, in terms of both heterogeneous data and local updates. Proposed aggregation algorithms are extensively analyzed from a theoretical, and an experimental prospective.
翻訳日:2023-07-13 12:21:35 公開日:2023-07-12
# MMBench: マルチモーダルモデルはオールアラウンドプレイヤーか?

MMBench: Is Your Multi-modal Model an All-around Player? ( http://arxiv.org/abs/2307.06281v1 )

ライセンス: Link先を確認
Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin(参考訳) 大規模視覚言語モデルは近年顕著な進歩を遂げており、視覚情報に関する認識と推論能力を示している。 しかし、これらの大きな視覚言語モデルをどのように効果的に評価するかは大きな障害であり、将来のモデル開発を妨げる。 VQAv2やCOCO Captionのような従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非ロバスト評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 これらの課題に対応するために,新しいマルチモーダリティベンチマークMMBenchを提案する。 MMBenchは、主に2つの要素からなる包括的な評価パイプラインを方法論的に開発する。 第1の要素は厳密にキュレートされたデータセットで、既存の類似ベンチマークを、さまざまな評価質問や能力で上回る。 第2の要素は、新しいCircularEval戦略を導入し、ChatGPTの使用を取り入れている。 この実装は、フリーフォーム予測を事前定義された選択に変換するように設計されているので、モデルの予測をより堅牢な評価が容易になる。 mmbenchは視覚言語モデルの様々な能力を堅牢に評価するための体系的に設計された客観的ベンチマークである。 mmbenchが研究コミュニティのモデルの評価を改善し、この分野の今後の進歩を促進することを願っている。 プロジェクトページ: https://opencompass.org.cn/mmbench

Large vision-language models have recently achieved remarkable progress, exhibiting great perception and reasoning abilities concerning visual information. However, how to effectively evaluate these large vision-language models remains a major obstacle, hindering future model development. Traditional benchmarks like VQAv2 or COCO Caption provide quantitative performance measurements but suffer from a lack of fine-grained ability assessment and non-robust evaluation metrics. Recent subjective benchmarks, such as OwlEval, offer comprehensive evaluations of a model's abilities by incorporating human labor, but they are not scalable and display significant bias. In response to these challenges, we propose MMBench, a novel multi-modality benchmark. MMBench methodically develops a comprehensive evaluation pipeline, primarily comprised of two elements. The first element is a meticulously curated dataset that surpasses existing similar benchmarks in terms of the number and variety of evaluation questions and abilities. The second element introduces a novel CircularEval strategy and incorporates the use of ChatGPT. This implementation is designed to convert free-form predictions into pre-defined choices, thereby facilitating a more robust evaluation of the model's predictions. MMBench is a systematically-designed objective benchmark for robustly evaluating the various abilities of vision-language models. We hope MMBench will assist the research community in better evaluating their models and encourage future advancements in this domain. Project page: https://opencompass.org.cn/mmbench.
翻訳日:2023-07-13 12:21:20 公開日:2023-07-12
# 確率的光場ホログラフィ

Stochastic Light Field Holography ( http://arxiv.org/abs/2307.06277v1 )

ライセンス: Link先を確認
Florian Schiffers, Praneeth Chakravarthula, Nathan Matsuda, Grace Kuo, Ethan Tseng, Douglas Lanman, Felix Heide, Oliver Cossairt(参考訳) 視覚的チューリングテストはホログラフィックディスプレイの現実性を評価する究極の目標である。 従来の研究では,焦点体積の制限や画質などの課題に焦点をあててきたが,フル3次元ホログラムの観察経験に対する瞳孔サンプリングの効果は調査されていない。 本研究では,非コヒーレント光場とコヒーレントウィグナー関数光輸送のプロジェクション演算子をマッチングすることにより,新しいホログラム生成アルゴリズムを用いてこの問題に取り組む。 そこで,我々は合成写真を用いてホログラム計算を監督し,最適化中に確率的にサンプリングされた瞳孔状態から再焦点を合わせ,オンザフライで描画する。 提案手法は,視覚的チューリングテストに合格する上で重要である視差と焦点手がかりを正しホログラムを生成する。 提案手法は,Light Field と Focal Stack を用いた最先端の CGH アルゴリズムと良好に比較できる。 実験により,本アルゴリズムは様々な瞳孔状態に対する視聴体験のリアリズムを著しく改善することが示された。

The Visual Turing Test is the ultimate goal to evaluate the realism of holographic displays. Previous studies have focused on addressing challenges such as limited \'etendue and image quality over a large focal volume, but they have not investigated the effect of pupil sampling on the viewing experience in full 3D holograms. In this work, we tackle this problem with a novel hologram generation algorithm motivated by matching the projection operators of incoherent Light Field and coherent Wigner Function light transport. To this end, we supervise hologram computation using synthesized photographs, which are rendered on-the-fly using Light Field refocusing from stochastically sampled pupil states during optimization. The proposed method produces holograms with correct parallax and focus cues, which are important for passing the Visual Turing Test. We validate that our approach compares favorably to state-of-the-art CGH algorithms that use Light Field and Focal Stack supervision. Our experiments demonstrate that our algorithm significantly improves the realism of the viewing experience for a variety of different pupil states.
翻訳日:2023-07-13 12:20:31 公開日:2023-07-12
# 光沢間接照明のための神経自由視点照明

Neural Free-Viewpoint Relighting for Glossy Indirect Illumination ( http://arxiv.org/abs/2307.06335v1 )

ライセンス: Link先を確認
Nithin Raghavan, Yan Xiao, Kai-En Lin, Tiancheng Sun, Sai Bi, Zexiang Xu, Tzu-Mao Li, Ravi Ramamoorthi(参考訳) precomputed radiance transfer (prt) は光沢大域照明のような複雑な光輸送効果をリアルタイムにレンダリングするための魅力的なソリューションである。 事前計算後、リアルタイムで視点を変えながら、新しい環境マップでシーンをリライトすることができる。 しかし、実用的なPRT法は通常、低周波球面高調波照明に限られる。 ウェーブレットを用いた全周波数技術は有望だが、今のところ実用的影響はほとんどない。 次元の呪いと、はるかに高いデータ要求は、通常、固定された視点で照らすか、三重積積分を持つ直接照明のみに制限されている。 本稿では、光沢反射を含む高周波間接照明に対するハイブリッド型ニューラルウェーブレットPRTソリューションを、視界の変化によるリライティングのために実証する。 具体的には、ハールウェーブレット基底における光輸送関数の表現を試みる。 大域的な照明のために,空間的位置とウェーブレット指数の関数として特徴体に適用した小さな多層パーセプトロン(MLP)を用いて,反射方向と物質パラメータを他のMLP入力とするウェーブレット輸送を学習する。 照明条件や視聴条件の異なるシーンの複数の画像から特徴場(テンソル分解で表される)とMLPパラメータを最適化・学習する。 実時間(24 FPSで512 x 512、13 FPSで800 x 600)で、ビュー依存反射や因果関係を含む難解なシーンのレンダリングを事前に計算した。

Precomputed Radiance Transfer (PRT) remains an attractive solution for real-time rendering of complex light transport effects such as glossy global illumination. After precomputation, we can relight the scene with new environment maps while changing viewpoint in real-time. However, practical PRT methods are usually limited to low-frequency spherical harmonic lighting. All-frequency techniques using wavelets are promising but have so far had little practical impact. The curse of dimensionality and much higher data requirements have typically limited them to relighting with fixed view or only direct lighting with triple product integrals. In this paper, we demonstrate a hybrid neural-wavelet PRT solution to high-frequency indirect illumination, including glossy reflection, for relighting with changing view. Specifically, we seek to represent the light transport function in the Haar wavelet basis. For global illumination, we learn the wavelet transport using a small multi-layer perceptron (MLP) applied to a feature field as a function of spatial location and wavelet index, with reflected direction and material parameters being other MLP inputs. We optimize/learn the feature field (compactly represented by a tensor decomposition) and MLP parameters from multiple images of the scene under different lighting and viewing conditions. We demonstrate real-time (512 x 512 at 24 FPS, 800 x 600 at 13 FPS) precomputed rendering of challenging scenes involving view-dependent reflections and even caustics.
翻訳日:2023-07-13 12:14:50 公開日:2023-07-12
# 診断、フィードバック、適応: テスト時間ポリシー適応のためのヒューマン・イン・ザ・ループフレームワーク

Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for Test-Time Policy Adaptation ( http://arxiv.org/abs/2307.06333v1 )

ライセンス: Link先を確認
Andi Peng, Aviv Netanyahu, Mark Ho, Tianmin Shu, Andreea Bobu, Julie Shah, Pulkit Agrawal(参考訳) ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。 データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。 しかし、特に異なるエンドユーザーがタスクの実行方法に関して異なる好みを持っている場合、設計者はどの概念が優先順位と無関係であるかを知らない。 本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。 私たちのキーとなるアイデアは、ユーザがタスク関連で無関係な概念を素早く特定できる、反実的なデモを生成することです。 次にタスク非関連概念の知識を用いてデータ拡張を行い、パーソナライズされたユーザ目的に適合したポリシーを得る。 本稿では,実ユーザによる離散的および連続的制御タスクにおけるフレームワークの検証実験を行う。 提案手法は,エージェントのエラーをよりよく理解し,(2)微調整に必要なデモの数を削減し,(3)エージェントを個々のユーザタスクの好みに合わせて調整する。

Policies often fail due to distribution shift -- changes in the state and reward that occur when a policy is deployed in new environments. Data augmentation can increase robustness by making the model invariant to task-irrelevant changes in the agent's observation. However, designers don't know which concepts are irrelevant a priori, especially when different end users have different preferences about how the task is performed. We propose an interactive framework to leverage feedback directly from the user to identify personalized task-irrelevant concepts. Our key idea is to generate counterfactual demonstrations that allow users to quickly identify possible task-relevant and irrelevant concepts. The knowledge of task-irrelevant concepts is then used to perform data augmentation and thus obtain a policy adapted to personalized user objectives. We present experiments validating our framework on discrete and continuous control tasks with real human users. Our method (1) enables users to better understand agent failure, (2) reduces the number of demonstrations required for fine-tuning, and (3) aligns the agent to individual user task preferences.
翻訳日:2023-07-13 12:14:23 公開日:2023-07-12
# 二元的非周期的量子ウォークの拡散と絡み合いに及ぼすジェネリック量子コインの影響

Influence of generic quantum coins on the spreading and entanglement in binary aperiodic quantum walks ( http://arxiv.org/abs/2307.06332v1 )

ライセンス: Link先を確認
Tushar Kanti Bose(参考訳) 量子ウォークを様々な確率分布と量子絡み合いを生成するツールとして探究することは、現在の関心事である。 本研究では,Fibonacci,Thue-Morse,Rudin-Shapiro配列に基づく時間および位置依存型コイン操作と異なる二進法量子ウォークのハイブリッド絡み合いおよび拡散挙動に対する汎用量子コインの影響について,広範な数値シミュレーションを用いて検討する。 それぞれの歩行は異なるが、量子コインの選択に大きく影響されている。 動的フィボナッチウォークが特定のコインパラメータの局所的挙動を示すことを示す。 この振る舞いは動的コイン障害が果たす役割について新しい情報をもたらし、以前は常に非局所的な振る舞いの生成源と考えられていた。 また,コイン操作中にスピンアップ状態とスピンダウン状態の重ね合わせの性質を制御する特定のコインパラメータが果たす重要な役割を明らかにした。 パラメータは二元量子ウォークの広がりと絡み合いの振る舞いをはっきりと調整できることがわかった。 パラメータの値の増加は, 歩行者の位置分布の標準偏差と, ハイブリッド絡み合いの差を, コインやコイン操作の性質に応じて著しく低い値から著しく高い値に高めることができることを示す。 したがって、この研究は不均質な量子ウォークにおけるコインの役割を理解するための1つのステップと見なすことができる。

Exploring the quantum walk as a tool of generating various probability distributions and quantum entanglements is a topic of current interest. In the present work, we use extensive numerical simulations to investigate the influence of generic quantum coins on the hybrid entanglement and spreading behavior of different binary quantum walks with time and position dependent coin operations based on the Fibonacci, Thue-Morse and Rudin-Shapiro sequences. We find that each considered walk is differently but significantly influenced by the choice of quantum coins. We demonstrate that the dynamic Fibonacci walk exhibits localized behavior for certain coin parameters. This behavior brings new information about the role played by dynamic coin disorder, considered before as always a generator of non-localized behavior. We also reveal the significant role played by a specific coin parameter which controls the nature of superposition of spin up and spin down states during coin operation. We find that the parameter can distinctly tune the spreading and entanglement behavior of a binary quantum walk. We show that an increase in the value of the parameter can enhance both the the standard deviation of the position distribution of the walker and the hybrid entanglement from significantly low to significantly high values depending on the coin and the nature of coin operations. The present work may thus be considered as one step towards understanding the role of coins in inhomogeneous quantum walks.
翻訳日:2023-07-13 12:14:04 公開日:2023-07-12
# オフラインrlの予算削減

Budgeting Counterfactual for Offline RL ( http://arxiv.org/abs/2307.06328v1 )

ライセンス: Link先を確認
Yao Liu, Pratik Chaudhari, Rasool Fakoor(参考訳) データの制限があるオフライン強化学習の主な課題は、潜在的なアクションの領域における反事実的推論ジレンマの連続から生じる。 これらの状況はしばしば外挿誤差を引き起こし、問題地平線に指数関数的に蓄積する傾向がある。 したがって、すべての決定ステップが最終結果に等しく重要であるわけではなく、政策が外挿を制御するために行う反実的な決定の数を予算化することが重要である。 方針と価値関数の両方で正規化を使用する既存のアプローチとは対照的に、トレーニング中に分散アクションの量を明示的に制限するアプローチを提案する。 具体的には,動的プログラミングを用いて,行動方針とは異なる判断の上限を上限として,外挿すべき場所とすべきでない場所を決定する。 アウト・オブ・ディストリビューション行動による改善の可能性と、外挿によるエラーのリスクのバランスをとる。 理論的には、固定点解の制約された最適性により、我々のQ$更新規則を正当化する。 実験により,我々の手法の全体的な性能は,広く使用されているD4RLベンチマークのタスクにおける最先端のオフラインRL法よりも優れていることを示す。

The main challenge of offline reinforcement learning, where data is limited, arises from a sequence of counterfactual reasoning dilemmas within the realm of potential actions: What if we were to choose a different course of action? These circumstances frequently give rise to extrapolation errors, which tend to accumulate exponentially with the problem horizon. Hence, it becomes crucial to acknowledge that not all decision steps are equally important to the final outcome, and to budget the number of counterfactual decisions a policy make in order to control the extrapolation. Contrary to existing approaches that use regularization on either the policy or value function, we propose an approach to explicitly bound the amount of out-of-distribution actions during training. Specifically, our method utilizes dynamic programming to decide where to extrapolate and where not to, with an upper bound on the decisions different from behavior policy. It balances between the potential for improvement from taking out-of-distribution actions and the risk of making errors due to extrapolation. Theoretically, we justify our method by the constrained optimality of the fixed point solution to our $Q$ updating rules. Empirically, we show that the overall performance of our method is better than the state-of-the-art offline RL methods on tasks in the widely-used D4RL benchmarks.
翻訳日:2023-07-13 12:13:38 公開日:2023-07-12
# 長いステップを通したより高速なグラディエント染料

Provably Faster Gradient Descent via Long Steps ( http://arxiv.org/abs/2307.06324v1 )

ライセンス: Link先を確認
Benjamin Grimmer(参考訳) 本研究は, コンピュータ支援解析手法により, 勾配降下の収束速度を向上させる。 本理論は、多くの反復の全体的な効果を、ほとんどの一階法分析で使われる典型的な単文帰納法ではなく、一度に分析することにより、頻繁な長いステップでポリシーを段階化することを可能にする。 短期的に客観的な価値を高めるための長いステップは、長期的には確実により早く収束することを示している。 勾配降下のより高速な$O(1/T\log T)$レートを証明するための予想も、単純な数値検証と共に動機付けられる。

This work establishes provably faster convergence rates for gradient descent via a computer-assisted analysis technique. Our theory allows nonconstant stepsize policies with frequent long steps potentially violating descent by analyzing the overall effect of many iterations at once rather than the typical one-iteration inductions used in most first-order method analyses. We show that long steps, which may increase the objective value in the short term, lead to provably faster convergence in the long term. A conjecture towards proving a faster $O(1/T\log T)$ rate for gradient descent is also motivated along with simple numerical validation.
翻訳日:2023-07-13 12:13:20 公開日:2023-07-12
# tem画像からの結晶欠陥の深層学習:「十分なトレーニングデータ」の問題に対する解法

Deep Learning of Crystalline Defects from TEM images: A Solution for the Problem of "Never Enough Training Data" ( http://arxiv.org/abs/2307.06322v1 )

ライセンス: Link先を確認
Kishan Govind, Daniela Oliveros, Antonin Dlouhy, Marc Legros, Stefan Sandfeld(参考訳) 線状転位などの結晶欠陥は、多くの金属デバイスの性能と信頼性に重要な役割を果たす。 彼らの相互作用と進化は、材料科学と材料物理学に多くのオープンな疑問をもたらしている。 in-situ tem実験は転位がどのように振る舞うかに関する重要な洞察を提供する。 このような実験では、転位ミクロ構造はビデオの形で捉えられる。 個々のビデオフレームの分析は有用な洞察を提供することができるが、自動識別、デジタル化、曲線オブジェクトとしての変位の定量抽出の能力によって制限されている。 膨大な量のデータによって手動のアノテーションも非常に時間がかかり、Deep Learningベースの自動画像解析と転位マイクロ構造のセグメンテーションが制限される。 本研究では,転位セグメンテーションのための合成トレーニングデータを生成するパラメトリックモデルを開発した。 ドメイン科学者は、合成訓練画像は時として人工的すぎると否定することがあるが、この結果は、特に、異なるミクロ構造や撮像条件に関するディープラーニングモデルの一般化に関して、優れたパフォーマンスをもたらす可能性があることを示している。 さらに,重なり合うあるいは交差する転位線に最適化された拡張ディープラーニング手法を提案する。 このフレームワークを4つの異なる実データセットでテストした結果、私たちの合成トレーニングデータは、実画像でも高品質な結果を得ることができることが分かりました。

Crystalline defects, such as line-like dislocations, play an important role for the performance and reliability of many metallic devices. Their interaction and evolution still poses a multitude of open questions to materials science and materials physics. In-situ TEM experiments can provide important insights into how dislocations behave and move. During such experiments, the dislocation microstructure is captured in form of videos. The analysis of individual video frames can provide useful insights but is limited by the capabilities of automated identification, digitization, and quantitative extraction of the dislocations as curved objects. The vast amount of data also makes manual annotation very time consuming, thereby limiting the use of Deep Learning-based, automated image analysis and segmentation of the dislocation microstructure. In this work, a parametric model for generating synthetic training data for segmentation of dislocations is developed. Even though domain scientists might dismiss synthetic training images sometimes as too artificial, our findings show that they can result in superior performance, particularly regarding the generalizing of the Deep Learning models with respect to different microstructures and imaging conditions. Additionally, we propose an enhanced deep learning method optimized for segmenting overlapping or intersecting dislocation lines. Upon testing this framework on four distinct real datasets, we find that our synthetic training data are able to yield high-quality results also on real images-even more so if fine-tune on a few real images was done.
翻訳日:2023-07-13 12:13:09 公開日:2023-07-12
# 量子システムのモデル還元:離散時間量子ウォークとオープンマルコフダイナミクス

Model Reduction for Quantum Systems: Discrete-time Quantum Walks and Open Markov Dynamics ( http://arxiv.org/abs/2307.06319v1 )

ライセンス: Link先を確認
Tommaso Grigoletto and Francesco Ticozzi(参考訳) 離散時間量子系の幅広いクラスに対する還元モデルを得るための一般的なアプローチを提案する。 得られたモデルは与えられた量子モデルの出力を正確に再現するだけでなく、完全な肯定性と総確率の保存という物理的な制約を満たすことが保証される。 量子系の正確なモデル還元のための基本的な枠組みは、代数的手法、および有限次元における量子条件期待に関する新しい結果を利用する。 提案した還元アルゴリズムは,Groverのアルゴリズムを実現する量子ウォークなど,原典型例で実証・検証されている。

A general approach to obtain reduced models for a wide class of discrete-time quantum systems is proposed. The obtained models not only reproduce exactly the output of a given quantum model, but are also guaranteed to satisfy physical constraints, namely complete positivity and preservation of total probability. A fundamental framework for exact model reduction of quantum systems is constructed leveraging on algebraic methods, as well as novel results on quantum conditional expectations in finite-dimensions. The proposed reduction algorithm is illustrated and tested on prototypical examples, including the quantum walk realizing Grover's algorithm.
翻訳日:2023-07-13 12:12:49 公開日:2023-07-12
# 半教師型医用画像分割のための相互学習

Correlation-Aware Mutual Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2307.06312v1 )

ライセンス: Link先を確認
Shengbo Gao, Ziji Zhang, Jiechao Ma, Zihao Li and Shu Zhang(参考訳) 半教師付き学習は、大量のラベルのないデータを活用して追加情報を取り出す能力により、医療画像セグメンテーションで人気が高まっている。 しかし,既存の半教師付きセグメンテーション手法の多くは,ラベル付きデータから情報を抽出することのみに集中しており,ラベル付きデータの可能性を無視して,モデルの性能をさらに向上させている。 本稿では,ラベル付きデータを利用してラベル付きデータから情報の抽出を誘導する新しい相関認識相互学習(CAML)フレームワークを提案する。 本手法は,CMA(Cross-sample Mutual Attention Module)とOCC(Omni-Correlation Consistency Module)の2つのモジュールを組み込んだ相互学習戦略に基づいている。 CMAモジュールはサンプル群間の密接なクロスサンプル相関を確立し、ラベル前の知識をラベル付きデータに転送することを可能にする。 occモジュールはラベル付きデータセットとラベル付きデータセットの間の全相関を構築し、各サブモデルの全相関行列を一貫性を持たせることで双対モデルを定式化する。 Atrial Segmentation Challengeデータセットの実験では、提案手法は最先端の手法よりも優れており、医用画像分割タスクにおける我々のフレームワークの有効性を強調している。 コード、事前訓練された重量、データは公開されている。

Semi-supervised learning has become increasingly popular in medical image segmentation due to its ability to leverage large amounts of unlabeled data to extract additional information. However, most existing semi-supervised segmentation methods only focus on extracting information from unlabeled data, disregarding the potential of labeled data to further improve the performance of the model. In this paper, we propose a novel Correlation Aware Mutual Learning (CAML) framework that leverages labeled data to guide the extraction of information from unlabeled data. Our approach is based on a mutual learning strategy that incorporates two modules: the Cross-sample Mutual Attention Module (CMA) and the Omni-Correlation Consistency Module (OCC). The CMA module establishes dense cross-sample correlations among a group of samples, enabling the transfer of label prior knowledge to unlabeled data. The OCC module constructs omni-correlations between the unlabeled and labeled datasets and regularizes dual models by constraining the omni-correlation matrix of each sub-model to be consistent. Experiments on the Atrial Segmentation Challenge dataset demonstrate that our proposed approach outperforms state-of-the-art methods, highlighting the effectiveness of our framework in medical image segmentation tasks. The codes, pre-trained weights, and data are publicly available.
翻訳日:2023-07-13 12:12:38 公開日:2023-07-12
# パーソナライズされたジェネレータによる顔の再現

Facial Reenactment Through a Personalized Generator ( http://arxiv.org/abs/2307.06307v1 )

ライセンス: Link先を確認
Ariel Elazary, Yotam Nitzan, Daniel Cohen-Or(参考訳) 近年,顔の再現における画像生成モデルの役割が着実に増大している。 このようなモデルは一般的に主題に依存しず、ドメインワイドデータセットに基づいて訓練される。 再現された個体の外観は単一の画像から学習されるため、個体の外観の広さは完全には捉えられず、これらの手法は不信な幻覚に頼っている。 近年の進歩により、特定の個人に特化したパーソナライズされた生成モデルを訓練することが可能になった。 本稿では,パーソナライズされたジェネレータを用いた顔再現法を提案する。 我々は、簡単なコモディティカメラで撮影した短いが多様な自己スキャンビデオからフレームを使って、ジェネレータを訓練する。 パーソナライズされたジェネレータによって合成された画像は、アイデンティティを保持するために保証される。 本研究の前提は, 頭部のポーズや表情を正確に模倣することで, 再現の作業を減らすことである。 この目的のために、注意深い設計による潜在最適化を用いて、パーソナライズされたジェネレータの潜在空間に所望のフレームを配置する。 広範囲な評価を通じて,顔の再現に対する最先端の性能を示す。 さらに, セマンティックな潜在空間で再演を行うため, 後処理においてセマンティックな編集やスタイル化が可能であることを示す。

In recent years, the role of image generative models in facial reenactment has been steadily increasing. Such models are usually subject-agnostic and trained on domain-wide datasets. The appearance of the reenacted individual is learned from a single image, and hence, the entire breadth of the individual's appearance is not entirely captured, leading these methods to resort to unfaithful hallucination. Thanks to recent advancements, it is now possible to train a personalized generative model tailored specifically to a given individual. In this paper, we propose a novel method for facial reenactment using a personalized generator. We train the generator using frames from a short, yet varied, self-scan video captured using a simple commodity camera. Images synthesized by the personalized generator are guaranteed to preserve identity. The premise of our work is that the task of reenactment is thus reduced to accurately mimicking head poses and expressions. To this end, we locate the desired frames in the latent space of the personalized generator using carefully designed latent optimization. Through extensive evaluation, we demonstrate state-of-the-art performance for facial reenactment. Furthermore, we show that since our reenactment takes place in a semantic latent space, it can be semantically edited and stylized in post-processing.
翻訳日:2023-07-13 12:12:15 公開日:2023-07-12
# 確率的ポリークステップサイズによる局所適応型フェデレーション学習

Locally Adaptive Federated Learning via Stochastic Polyak Stepsizes ( http://arxiv.org/abs/2307.06306v1 )

ライセンス: Link先を確認
Sohom Mukherjee, Nicolas Loizou, Sebastian U. Stich(参考訳) fedavgのような最先端のフェデレーション学習アルゴリズムは、最高のパフォーマンスを達成するために注意深く調整されたステップを必要とする。 既存の適応フェデレーション手法によって提案された改善は、運動量パラメータなどの追加のハイパーパラメータのチューニングを含み、サーバアグリゲーションラウンドのみに適応性を考慮するが、局所的ではない。 これらの方法は、ハイパーパラメータの過度なチューニングを必要とし、局所的な幾何学的情報をキャプチャしないため、多くの実践シナリオでは非効率である。 本研究では,最近提案された確率的Polyak Stepize(SPS)をフェデレーション学習環境に拡張し,局所適応型でパラメータフリーに近い分散SPS変種(FedSPS,FedDecSPS)を提案する。 補間条件(オーバーパラメトリゼーション)が満たされた場合、FedSPSは強い凸に線形に収束し、凸設定でサブリニアに収束し、一般の場合、解の近傍に収束することを示す。 我々は提案手法を段階化バージョンであるFedDecSPSに拡張し、補間条件が保たない場合も収束する。 実測凸実験により理論的主張を検証した。 提案アルゴリズムは,FedAvgの最適化性能を,i.d.の場合で最高のチューニングハイパーパラメータと一致させ,i.d.の場合ではFedAvgより優れる。

State-of-the-art federated learning algorithms such as FedAvg require carefully tuned stepsizes to achieve their best performance. The improvements proposed by existing adaptive federated methods involve tuning of additional hyperparameters such as momentum parameters, and consider adaptivity only in the server aggregation round, but not locally. These methods can be inefficient in many practical scenarios because they require excessive tuning of hyperparameters and do not capture local geometric information. In this work, we extend the recently proposed stochastic Polyak stepsize (SPS) to the federated learning setting, and propose new locally adaptive and nearly parameter-free distributed SPS variants (FedSPS and FedDecSPS). We prove that FedSPS converges linearly in strongly convex and sublinearly in convex settings when the interpolation condition (overparametrization) is satisfied, and converges to a neighborhood of the solution in the general case. We extend our proposed method to a decreasing stepsize version FedDecSPS, that converges also when the interpolation condition does not hold. We validate our theoretical claims by performing illustrative convex experiments. Our proposed algorithms match the optimization performance of FedAvg with the best tuned hyperparameters in the i.i.d. case, and outperform FedAvg in the non-i.i.d. case.
翻訳日:2023-07-13 12:11:54 公開日:2023-07-12
# 空間文脈拡張のための潜在グラフ注意

Latent Graph Attention for Enhanced Spatial Context ( http://arxiv.org/abs/2307.04149v2 )

ライセンス: Link先を確認
Ayush Singh, Yash Bhambhu, Himanshu Buckchash, Deepak K. Gupta, Dilip K. Prasad(参考訳) 画像のグローバルコンテキストは、画像から画像への翻訳問題で非常に有用である。 従来のアテンションベースモデルとグラフベースモデルは、グローバルコンテキストをかなり捉えているが、これらは計算コストが高い。 さらに、既存のアプローチは、画像上の任意の2点間のペアワイズ意味関係を学習することのみに限られる。 本稿では、LGA(Latent Graph Attention)を、計算コストが低く(ノード数に比例して)、かつ、既存のアーキテクチャにグローバルコンテキストを組み込むための、安定的でモジュール化されたフレームワークとして提案する。 lgaは局所連結グラフのネットワークを用いて空間的に情報を伝達し、中間画素の影響も考慮した2つの空間的距離点間の意味的にコヒーレントな関係の構築を容易にする。 さらに、グラフネットワークの深さを利用して、ターゲットデータセットへのコンテキスト拡散の程度を調整し、追加の計算コストを明示的に制御することができる。 また,LGAの学習機構を向上するために,LGAモジュールを計算負荷の最小化を犠牲にして,元のアーキテクチャとうまく結合するのに役立つ新しい対照的な損失項を導入する。 LGAを取り入れることで、透明なオブジェクトセグメンテーション、デハジングのための画像復元、光フロー推定という3つの難解なアプリケーションの性能が向上することを示す。

Global contexts in images are quite valuable in image-to-image translation problems. Conventional attention-based and graph-based models capture the global context to a large extent, however, these are computationally expensive. Moreover, the existing approaches are limited to only learning the pairwise semantic relation between any two points on the image. In this paper, we present Latent Graph Attention (LGA) a computationally inexpensive (linear to the number of nodes) and stable, modular framework for incorporating the global context in the existing architectures, especially empowering small-scale architectures to give performance closer to large size architectures, thus making the light-weight architectures more useful for edge devices with lower compute power and lower energy needs. LGA propagates information spatially using a network of locally connected graphs, thereby facilitating to construct a semantically coherent relation between any two spatially distant points that also takes into account the influence of the intermediate pixels. Moreover, the depth of the graph network can be used to adapt the extent of contextual spread to the target dataset, thereby being able to explicitly control the added computational cost. To enhance the learning mechanism of LGA, we also introduce a novel contrastive loss term that helps our LGA module to couple well with the original architecture at the expense of minimal additional computational load. We show that incorporating LGA improves the performance on three challenging applications, namely transparent object segmentation, image restoration for dehazing and optical flow estimation.
翻訳日:2023-07-13 10:32:54 公開日:2023-07-12
# 副詞型認識のためのビデオクリップにおける物体の挙動に関する推論

Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition ( http://arxiv.org/abs/2307.04132v2 )

ライセンス: Link先を確認
Amrit Diggavi Seshadri, Alessandra Russo(参考訳) 本稿では,シーン系列を記述した副詞が,高レベルなオブジェクト・ビヘイビアの概念を推論することによって最も識別されるという直感に従い,生のビデオクリップから抽出されたオブジェクト・ビヘイビアを理由とする新しいフレームワークの設計を提案し,クリップの対応する副詞タイプを認識する。 本手法は,ビデオクリップのアクションタイプが不明なより一般的な問題設定において,従来のシーンの副詞認識では,アクションタイプに基づくクリップの知識を前提としていたが,本手法は直接的に適用可能である。 具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案し、これら抽出された事実を操作して副詞型を識別する新しいシンボルと変換器に基づく推論手法を提案する。 実験の結果,提案手法は従来の技術に対して好適に機能することが示された。 さらに,シンボリックビデオ処理の取り組みをサポートするために,生のビデオクリップから抽出したオブジェクトビヘイビアファクトの2つの新しいデータセット,msr-vtt-asp と activitynet-asp データセットをリリースする。

In this work, following the intuition that adverbs describing scene-sequences are best identified by reasoning over high-level concepts of object-behavior, we propose the design of a new framework that reasons over object-behaviours extracted from raw-video-clips to recognize the clip's corresponding adverb-types. Importantly, while previous works for general scene adverb-recognition assume knowledge of the clips underlying action-types, our method is directly applicable in the more general problem setting where the action-type of a video-clip is unknown. Specifically, we propose a novel pipeline that extracts human-interpretable object-behaviour-facts from raw video clips and propose novel symbolic and transformer based reasoning methods that operate over these extracted facts to identify adverb-types. Experiment results demonstrate that our proposed methods perform favourably against the previous state-of-the-art. Additionally, to support efforts in symbolic video-processing, we release two new datasets of object-behaviour-facts extracted from raw video clips - the MSR-VTT-ASP and ActivityNet-ASP datasets.
翻訳日:2023-07-13 10:32:27 公開日:2023-07-12
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v3 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, and Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-07-13 10:31:43 公開日:2023-07-12
# UOD: 解剖学的ランドマークのユニバーサルワンショット検出

UOD: Universal One-shot Detection of Anatomical Landmarks ( http://arxiv.org/abs/2306.07615v4 )

ライセンス: Link先を確認
Heqin Zhu, Quan Quan, Qingsong Yao, Zaiyi Liu, S. kevin Zhou(参考訳) ワンショット医療ランドマーク検出は、多くの注目を集め、ラベル効率の良いトレーニングプロセスで大きな成功を収める。 しかし、既存のワンショット学習手法は、単一のドメインに高度に特化しており、マルチドメイン未ラベルデータの状況において、ドメインの嗜好を著しく損なう。 さらに、ワンショット学習は、サブ最適イメージにアノテートした場合のパフォーマンス低下に直面するほど堅牢ではない。 これらの課題に対処するために,Universal One-shot Detection (UOD) という,多領域の医療画像を扱うためのドメイン適応型ワンショットランドマーク検出フレームワークを開発する。 UODは、ドメイン固有モジュールとドメイン共有モジュールの組み合わせとして設計された、2つのステージと2つの対応するユニバーサルモデルから構成される。 第1段階では、ドメイン適応畳み込みモデルが学習され、擬似ランドマークラベルを生成する。 第2段階では、ドメイン優先を排除し、マルチドメインデータのグローバルコンテキストを構築するために、ドメイン適応変換器を設計する。 各ドメインからの注釈付きサンプルは1つしかトレーニングできないが、ドメイン共有モジュールはUODがすべての一発サンプルを集約し、より堅牢で正確なランドマークを検出するのに役立つ。 解剖学的領域(頭,手,胸など)で広く利用されている3つの公開X線データセットの質的,定量的に検討し,各領域における最先端の成果を得た。 コードはhttps://github.com/heqin-zhu/uod_universal_oneshot_detectionで入手できる。

One-shot medical landmark detection gains much attention and achieves great success for its label-efficient training process. However, existing one-shot learning methods are highly specialized in a single domain and suffer domain preference heavily in the situation of multi-domain unlabeled data. Moreover, one-shot learning is not robust that it faces performance drop when annotating a sub-optimal image. To tackle these issues, we resort to developing a domain-adaptive one-shot landmark detection framework for handling multi-domain medical images, named Universal One-shot Detection (UOD). UOD consists of two stages and two corresponding universal models which are designed as combinations of domain-specific modules and domain-shared modules. In the first stage, a domain-adaptive convolution model is self-supervised learned to generate pseudo landmark labels. In the second stage, we design a domain-adaptive transformer to eliminate domain preference and build the global context for multi-domain data. Even though only one annotated sample from each domain is available for training, the domain-shared modules help UOD aggregate all one-shot samples to detect more robust and accurate landmarks. We investigated both qualitatively and quantitatively the proposed UOD on three widely-used public X-ray datasets in different anatomical domains (i.e., head, hand, chest) and obtained state-of-the-art performances in each domain. The code is available at https://github.com/heqin-zhu/UOD_universal_oneshot_detection.
翻訳日:2023-07-13 10:30:35 公開日:2023-07-12
# 小型量子コンピュータを用いた高次元量子機械学習

High Dimensional Quantum Machine Learning With Small Quantum Computers ( http://arxiv.org/abs/2203.13739v4 )

ライセンス: Link先を確認
Simon C. Marshall, Casper Gyurik and Vedran Dunjko(参考訳) 量子コンピュータは機械学習を強化するという大きな約束を持っているが、現在の量子ビット数は、この約束の実現を制限する。 この制限を定式化するために、この制限技術は、必要な回路よりも少ないキュービットのマシンを用いて量子回路を評価するために適用することができる。 これらの手法は、小さなマシン上の多数の小さな回路を評価し、それを多項式に組み合わせてより大きなマシンの出力を再現する。 この方式は一般的な回路よりも多くの回路評価を必要とする。 しかし,これらのサブ回路の多くは超流動的であり,全回路を見積もるのに十分な総和が十分である可能性について検討する。 我々は、回路評価をはるかに少なくして、より大きな回路の出力を近似できる機械学習モデルを構築する。 データ次元よりもはるかに小さいシミュレーション量子コンピュータを用いて、我々のモデルを数値認識のタスクに適用することに成功した。 このモデルは、5量子ビットコンピュータへのシミュレーションアクセスでランダムな10量子PQCを近似するタスクにも適用され、比較的控えめな数の回路であっても、ニューラルネットワークの試みよりも10量子PQCの出力を正確に近似することができる。 提案手法は, NISQ 時代を通じて大規模データに量子モデルを実装するのに有用である。

Quantum computers hold great promise to enhance machine learning, but their current qubit counts restrict the realisation of this promise. In an attempt to placate this limitation techniques can be applied for evaluating a quantum circuit using a machine with fewer qubits than the circuit naively requires. These techniques work by evaluating many smaller circuits on the smaller machine, that are then combined in a polynomial to replicate the output of the larger machine. This scheme requires more circuit evaluations than are practical for general circuits. However, we investigate the possibility that for certain applications many of these subcircuits are superfluous, and that a much smaller sum is sufficient to estimate the full circuit. We construct a machine learning model that may be capable of approximating the outputs of the larger circuit with much fewer circuit evaluations. We successfully apply our model to the task of digit recognition, using simulated quantum computers much smaller than the data dimension. The model is also applied to the task of approximating a random 10 qubit PQC with simulated access to a 5 qubit computer, even with only relatively modest number of circuits our model provides an accurate approximation of the 10 qubit PQCs output, superior to a neural network attempt. The developed method might be useful for implementing quantum models on larger data throughout the NISQ era.
翻訳日:2023-07-13 10:29:37 公開日:2023-07-12
# My3DGen:軽量パーソナライズされた3D生成モデルの構築

My3DGen: Building Lightweight Personalized 3D Generative Model ( http://arxiv.org/abs/2307.05468v2 )

ライセンス: Link先を確認
Luchao Qi, Jiaye Wu, Shengze Wang, Soumyadip Sengupta(参考訳) 本稿では,10枚の画像を用いてパーソナライズされた軽量な3d生成システムmy3dgenを提案する。 My3DGenは、入力されたテスト画像から多視点一貫した画像を再構成し、同一人物の任意の2つの画像を補間することにより、新しい外観を生成する。 近年の研究では、高品質な2次元像再構成と合成を創出する上で、パーソナライズド・ジェネレーティブ・プレファレンスの有効性が実証されているが、私たちの知る限りでは、パーソナライズド・ジェネレーティブ・プレファレンスの開発は初めてである。 パーソナライズを実現するために,数百万のパラメータで事前学習された大規模生成モデルを微調整する代わりに,パラメータ効率のよい手法を提案する。 提案手法では,各畳み込み層と完全連結層における重みの低ランク分解により,個別の個別化事前を訓練しながら,固定重み付き事前学習モデルを利用する。 しかし、パラメーター効率の良いマイナルショットの微調整は、しばしば過剰フィッティングに繋がる。 そこで本研究では,人間の顔の対称性に基づく正規化手法を提案する。 この正規化は、対称的なポーズからレンダリングされたトレーニングサンプルの新しいビューレンダリングが同一のアイデンティティを示すことを強制する。 この対称性を事前に組み込むことにより、特に非面的(プロファイル)顔に対して、再構成と合成の質を高める。 我々の最終システムは低ランク微調整と対称性の正則化を組み合わせ、例えばEG3Dのような事前学習モデルの性能を大幅に上回る。 1単位あたりのパラメータはわずか0.6百万で、オリジナルのモデルの完全な微調整は31百万である。 その結果, 生成した3次元面の品質を犠牲にすることなく, モデルサイズを50倍に削減できることがわかった。 コードはこちらのプロジェクトページから利用できます。

Our paper presents My3DGen, a practical system for creating a personalized and lightweight 3D generative prior using as few as 10 images. My3DGen can reconstruct multi-view consistent images from an input test image, and generate novel appearances by interpolating between any two images of the same individual. While recent studies have demonstrated the effectiveness of personalized generative priors in producing high-quality 2D portrait reconstructions and syntheses, to the best of our knowledge, we are the first to develop a personalized 3D generative prior. Instead of fine-tuning a large pre-trained generative model with millions of parameters to achieve personalization, we propose a parameter-efficient approach. Our method involves utilizing a pre-trained model with fixed weights as a generic prior, while training a separate personalized prior through low-rank decomposition of the weights in each convolution and fully connected layer. However, parameter-efficient few-shot fine-tuning on its own often leads to overfitting. To address this, we introduce a regularization technique based on symmetry of human faces. This regularization enforces that novel view renderings of a training sample, rendered from symmetric poses, exhibit the same identity. By incorporating this symmetry prior, we enhance the quality of reconstruction and synthesis, particularly for non-frontal (profile) faces. Our final system combines low-rank fine-tuning with symmetry regularization and significantly surpasses the performance of pre-trained models, e.g. EG3D. It introduces only approximately 0.6 million additional parameters per identity compared to 31 million for full finetuning of the original model. As a result, our system achieves a 50-fold reduction in model size without sacrificing the quality of the generated 3D faces. Code will be available at our project page: https://luchaoqi.github.io/my3dgen.
翻訳日:2023-07-13 10:24:15 公開日:2023-07-12
# 走行不確実性:自動運転車の安全における短期軌道予測の役割

Navigating Uncertainty: The Role of Short-Term Trajectory Prediction in Autonomous Vehicle Safety ( http://arxiv.org/abs/2307.05288v2 )

ライセンス: Link先を確認
Sushil Sharma, Ganesh Sistu, Lucie Yahiaoui, Arindam Das, Mark Halton, Ciar\'an Eising(参考訳) 自動運転車は安全かつ効率的な運転のために、正確で信頼性の高い短期軌道予測を必要とする。 ほとんどの商用自動運転車は、現在軌道予測にステートマシンベースのアルゴリズムを使用しているが、最近の取り組みはエンドツーエンドのデータ駆動システムに焦点を当てている。 これらのモデルの設計は、一般的に一般的なシナリオに限定されるデータセットの可用性によって制限されることが多い。 この制限に対処するために,carlaシミュレータを用いた短期軌道予測タスクのための合成データセットを開発した。 このデータセットには複雑なシナリオ – 道路を横断する歩行者,車両のオーバーテイク – が組み込まれており,対応するIMUを備えた6000の視点ビューイメージと,フレーム毎の計測情報を備えている。 さらに,畳み込みニューラルネットワーク(CNN)と長寿命メモリ(LSTM)を用いた終端から終端までの短期軌道予測モデルも開発されている。 このモデルは、シマウマの交差点付近の減速や、歩行者が道路を横断するときに、周囲の環境を明示的にエンコードすることなく停止するといったコーナーケースを扱うことができる。 この研究を加速し、他の人を助けるために、私たちはデータセットとモデルを研究コミュニティにリリースします。 データセットはhttps://github.com/sharmasushil/Navigating-Uncertainty-Trajectory-Predictionで公開されています。

Autonomous vehicles require accurate and reliable short-term trajectory predictions for safe and efficient driving. While most commercial automated vehicles currently use state machine-based algorithms for trajectory forecasting, recent efforts have focused on end-to-end data-driven systems. Often, the design of these models is limited by the availability of datasets, which are typically restricted to generic scenarios. To address this limitation, we have developed a synthetic dataset for short-term trajectory prediction tasks using the CARLA simulator. This dataset is extensive and incorporates what is considered complex scenarios - pedestrians crossing the road, vehicles overtaking - and comprises 6000 perspective view images with corresponding IMU and odometry information for each frame. Furthermore, an end-to-end short-term trajectory prediction model using convolutional neural networks (CNN) and long short-term memory (LSTM) networks has also been developed. This model can handle corner cases, such as slowing down near zebra crossings and stopping when pedestrians cross the road, without the need for explicit encoding of the surrounding environment. In an effort to accelerate this research and assist others, we are releasing our dataset and model to the research community. Our datasets are publicly available on https://github.com/sharmasushil/Navigating-Uncertainty-Trajectory-Prediction .
翻訳日:2023-07-13 10:23:42 公開日:2023-07-12
# 雑音量子コンピューティングデバイスにおける高精度画像生成

Precise Image Generation on Current Noisy Quantum Computing Devices ( http://arxiv.org/abs/2307.05253v2 )

ライセンス: Link先を確認
Florian Rehm, Sofia Vallecorsa, Kerstin Borras, Michele Grossi, Dirk Kruecker, Valle Varo(参考訳) 量子アングルジェネレータ(QAG)は、現在のノイズ中間スケール(NISQ)量子デバイス上で正確な画像を生成するために設計された、新しいフル量子機械学習モデルである。 変動量子回路はQAGモデルのコアを形成し、様々な回路アーキテクチャを評価する。 いわゆるMERA-upsamplingアーキテクチャと組み合わせて、QAGモデルは優れた結果を得ることができ、詳細な分析と評価を行う。 我々の知る限り、量子モデルがそのような正確な結果を得たのはこれが初めてである。 モデルから雑音へのロバスト性を調べるために、広範囲な量子ノイズ研究を行う。 本稿では,物理量子デバイスでトレーニングしたモデルがハードウェアのノイズ特性を学習し,優れた結果が得られることを示す。 トレーニング中に最大8%の量子ハードウェアマシンキャリブレーションが変更しても、十分に許容できることが確認された。 このモデルは、粒子エネルギーを測定するために必要となる高エネルギー物理学における不必要なシミュレーションや、最終的にCERNの大型ハドロン衝突型加速器で未知の粒子を発見するために用いられる。

The Quantum Angle Generator (QAG) is a new full Quantum Machine Learning model designed to generate accurate images on current Noise Intermediate Scale (NISQ) Quantum devices. Variational quantum circuits form the core of the QAG model, and various circuit architectures are evaluated. In combination with the so-called MERA-upsampling architecture, the QAG model achieves excellent results, which are analyzed and evaluated in detail. To our knowledge, this is the first time that a quantum model has achieved such accurate results. To explore the robustness of the model to noise, an extensive quantum noise study is performed. In this paper, it is demonstrated that the model trained on a physical quantum device learns the noise characteristics of the hardware and generates outstanding results. It is verified that even a quantum hardware machine calibration change during training of up to 8% can be well tolerated. For demonstration, the model is employed in indispensable simulations in high energy physics required to measure particle energies and, ultimately, to discover unknown particles at the Large Hadron Collider at CERN.
翻訳日:2023-07-13 10:23:09 公開日:2023-07-12
# 非教師なしセンシングアルゴリズムと3次元拡張現実を用いた太陽電池モジュールの劣化領域の検出と解析

Unveiling the Invisible: Enhanced Detection and Analysis of Deteriorated Areas in Solar PV Modules Using Unsupervised Sensing Algorithms and 3D Augmented Reality ( http://arxiv.org/abs/2307.05136v2 )

ライセンス: Link先を確認
Adel Oulefki, Yassine Himeur, Thaweesak Trongtiraku, Kahina Amara, Sos Agaian, Samir Benbelkacem, Mohamed Amine Guerroudji, Mohamed Zemmouri, Sahla Ferhat, Nadia Zenati, Shadi Atalla, Wathiq Mansoor(参考訳) 太陽光発電(pv)は、エネルギー安全保障の世界的な懸念に対処するためにますます使われている。 しかし、主にクレークに起因するPVモジュールのホットスポットとスネールトレイルは、効率と電力容量を低下させる。 本稿では,太陽太陽光発電(PV)モジュールにおけるホットスポットやスネールトレイルなどの異常を自動的に検出し,解析する基盤となる手法について述べる。 従来の診断法と修復法を変換することにより,効率を高めるだけでなく,PVシステムのメンテナンスコストを大幅に削減する。 提案手法は,コンピュータシミュレーションと実世界の画像データセットを用いて検証し,太陽電池モジュールの電力容量を最適化する上での定期的なメンテナンスの重要性を強調する。 当面の目標は、ドローン技術を利用してソーラーパネルの自動検出を行い、pvメンテナンスの有効性を大幅に向上させることです。 提案手法は太陽電池の保守に革命をもたらす可能性があり、人間の介入なしに迅速かつ正確な異常検出を可能にする。 これは大幅なコスト削減、エネルギー生産の強化、ソーラーPVシステム全体の性能向上をもたらす可能性がある。 さらに、教師なしセンシングアルゴリズムと3次元AR可視化アルゴリズムを組み合わせることで、太陽電池のメンテナンスにおけるさらなる研究と開発のための新たな機会がもたらされる。

Solar Photovoltaic (PV) is increasingly being used to address the global concern of energy security. However, hot spot and snail trails in PV modules caused mostly by crakes reduce their efficiency and power capacity. This article presents a groundbreaking methodology for automatically identifying and analyzing anomalies like hot spots and snail trails in Solar Photovoltaic (PV) modules, leveraging unsupervised sensing algorithms and 3D Augmented Reality (AR) visualization. By transforming the traditional methods of diagnosis and repair, our approach not only enhances efficiency but also substantially cuts down the cost of PV system maintenance. Validated through computer simulations and real-world image datasets, the proposed framework accurately identifies dirty regions, emphasizing the critical role of regular maintenance in optimizing the power capacity of solar PV modules. Our immediate objective is to leverage drone technology for real-time, automatic solar panel detection, significantly boosting the efficacy of PV maintenance. The proposed methodology could revolutionize solar PV maintenance, enabling swift, precise anomaly detection without human intervention. This could result in significant cost savings, heightened energy production, and improved overall performance of solar PV systems. Moreover, the novel combination of unsupervised sensing algorithms with 3D AR visualization heralds new opportunities for further research and development in solar PV maintenance.
翻訳日:2023-07-13 10:22:49 公開日:2023-07-12
# 自然言語推論のための複合合成知識評価のための合成データセット

Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference ( http://arxiv.org/abs/2307.05034v2 )

ライセンス: Link先を確認
Sushma Anand Akoju, Robert Vacareanu, Haris Riaz, Eduardo Blanco, Mihai Surdeanu(参考訳) 本稿では,SICCK(Sentences Involving Complex Compositional Knowledge)と呼ばれる合成データセットと,自然言語推論(NLI)モデルの性能を解析して,論理における構成性を理解する新しい分析手法を提案する。 SICKデータセット(Marelli et al., 2014)から15個の例を修正して1,304個の文対を生成する。 この目的のために,自然論理 (nl) における普遍量化子,存在量化子,否定,その他の概念修飾子に対応する修飾子 (maccartney, 2009) の組を用いて原文を修正した。 我々はこれらのフレーズを用いて、前提と仮説の主題、動詞、および対象部分を変更する。 最後に、これらの修正テキストに、NLルールに従って対応するエンテーメントラベルをアノテートする。 我々は、ゼロショットと微調整の両方のシナリオにおいて、ニューラルネットワークNLIモデルによって構造的および意味的構成の変化がどの程度うまく捉えられるかを予備検証する。 ゼロショット設定下でのnliモデルの性能は,特に否定文と存在量化子を用いた修正文では低かった。 このデータセットを微調整した後、モデルが否定、存在的、普遍的な修飾子よりも性能が低いことを観察する。

We introduce a synthetic dataset called Sentences Involving Complex Compositional Knowledge (SICCK) and a novel analysis that investigates the performance of Natural Language Inference (NLI) models to understand compositionality in logic. We produce 1,304 sentence pairs by modifying 15 examples from the SICK dataset (Marelli et al., 2014). To this end, we modify the original texts using a set of phrases - modifiers that correspond to universal quantifiers, existential quantifiers, negation, and other concept modifiers in Natural Logic (NL) (MacCartney, 2009). We use these phrases to modify the subject, verb, and object parts of the premise and hypothesis. Lastly, we annotate these modified texts with the corresponding entailment labels following NL rules. We conduct a preliminary verification of how well the change in the structural and semantic composition is captured by neural NLI models, in both zero-shot and fine-tuned scenarios. We found that the performance of NLI models under the zero-shot setting is poor, especially for modified sentences with negation and existential quantifiers. After fine-tuning this dataset, we observe that models continue to perform poorly over negation, existential and universal modifiers.
翻訳日:2023-07-13 10:22:28 公開日:2023-07-12
# ビデオストリームにおけるテスト時間トレーニング

Test-Time Training on Video Streams ( http://arxiv.org/abs/2307.05014v2 )

ライセンス: Link先を確認
Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang(参考訳) テスト時間トレーニング(TTT)は、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークである。 各テストインスタンスで予測を行う前に、モデルは同じインスタンス上で、マスク付きオートエンコーダによるイメージ再構成などの自己監督タスクを使用してトレーニングされる。 TTTをストリーミング設定に拡張し、複数のテストインスタンス(私たちの場合はビデオフレーム)が一時的な順序で到着します。 現在のモデルは、以前のモデルから初期化され、その後、現在のフレームと、直前に小さなフレームのウィンドウでトレーニングされます。 オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。 相対的な改善は、例えばパンオプティカルセグメンテーションの45%と66%である。 驚いたことに、オンラインtttはオフライン版よりも多くの情報にアクセスし、時間順に関わらずテストビデオ全体から全てのフレームをトレーニングする。 これは以前の合成ビデオによる発見とは異なる。 我々は、オフラインTTTよりもオンラインの方が有利であると概念化している。 アブレーションによる局所性の役割とバイアス分散トレードオフに基づく理論を解析した。

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.
翻訳日:2023-07-13 10:22:04 公開日:2023-07-12
# 安全強化学習のための確率的対外ガイダンス(拡張版)

Probabilistic Counterexample Guidance for Safer Reinforcement Learning (Extended Version) ( http://arxiv.org/abs/2307.04927v2 )

ライセンス: Link先を確認
Xiaotong Ji and Antonio Filieri(参考訳) セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。 外部知識を取り入れたり、安全でない状態の探索を制限するために近位センサーデータを使用する方法がいくつか存在する。 しかし、エージェントが探索中に安全の脅威を発見する必要がある未知の環境での探索のリスクを減らすことは依然として困難である。 本稿では,安全要件の反例で訓練を指導することにより,安全探索の課題を対象とする。 本手法は,連続状態空間系と離散状態空間系の両方を,探索中にエージェントが取得した安全関連知識を表すコンパクトな抽象モデルに抽象化する。 次に、確率的逆例生成を利用して、安全要件違反を誘発する最小限のシミュレーションサブモデルを構築し、エージェントはオフライントレーニングを効率よく行え、その後のオンライン探索における安全性違反のリスクを最小限に抑えるためのポリシーを洗練することができる。 予備実験におけるオンライン探索における安全性侵害の低減効果を,qlおよびdqn標準アルゴリズムと比較して平均40.3%,従来と比べ29.1%で実証し,非制限探索と代替アプローチに関して同等の累積報酬を得た。

Safe exploration aims at addressing the limitations of Reinforcement Learning (RL) in safety-critical scenarios, where failures during trial-and-error learning may incur high costs. Several methods exist to incorporate external knowledge or to use proximal sensor data to limit the exploration of unsafe states. However, reducing exploration risks in unknown environments, where an agent must discover safety threats during exploration, remains challenging. In this paper, we target the problem of safe exploration by guiding the training with counterexamples of the safety requirement. Our method abstracts both continuous and discrete state-space systems into compact abstract models representing the safety-relevant knowledge acquired by the agent during exploration. We then exploit probabilistic counterexample generation to construct minimal simulation submodels eliciting safety requirement violations, where the agent can efficiently train offline to refine its policy towards minimising the risk of safety violations during the subsequent online exploration. We demonstrate our method's effectiveness in reducing safety violations during online exploration in preliminary experiments by an average of 40.3% compared with QL and DQN standard algorithms and 29.1% compared with previous related work, while achieving comparable cumulative rewards with respect to unrestricted exploration and alternative approaches.
翻訳日:2023-07-13 10:21:48 公開日:2023-07-12
# VampNet:masked Acoustic Token Modelingによる音楽生成

VampNet: Music Generation via Masked Acoustic Token Modeling ( http://arxiv.org/abs/2307.04686v2 )

ライセンス: Link先を確認
Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo(参考訳) 本稿では,音楽合成,圧縮,インパインティング,変奏に対するマスク音響トークンモデリング手法であるvampnetを紹介する。 トレーニング中に,様々なマスキング手法(プロンプトと呼ばれる)を適用することで,モデルからコヒーレントな音楽のサンプリングを可能にする可変マスキングスケジュールを使用する。 VampNetは非自己回帰的であり、フォワードパス内のすべてのトークンに対応する双方向トランスフォーマーアーキテクチャを活用する。 わずか36回のサンプリングパスで、VampNetはコヒーレントな高忠実な音楽波形を生成することができる。 様々な方法でvampnetを起動することで、音楽圧縮、インペインティング、アウトペインティング、継続、可変ループ(vamping)といったタスクに適用できることを示します。 当然のことながら、VampNetは音楽のスタイル、ジャンル、楽器、その他のハイレベルな側面を維持できる。 この柔軟なプロンプト機能により、VampNetは強力な音楽共同制作ツールとなる。 コードとオーディオサンプルはオンラインで入手できる。

We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
翻訳日:2023-07-13 10:21:25 公開日:2023-07-12
# 弱教師付き位置コントラスト学習 : 硬変分類への応用

Weakly-supervised positional contrastive learning: application to cirrhosis classification ( http://arxiv.org/abs/2307.04617v2 )

ライセンス: Link先を確認
Emma Sarfati and Alexandre B\^one and Marc-Michel Roh\'e and Pietro Gori and Isabelle Bloch(参考訳) 大規模な医療画像データセットは、低信頼で弱いラベル(例えば、放射能スコア)で安価かつ迅速に注釈付けできる。 組織学に基づく診断のような高信頼なラベルへのアクセスは稀で費用がかかる。 コントラスト学習(cl)法のような事前学習戦略は、ラベル付きまたは弱い注釈付きデータセットを活用できる。 これらの手法は通常、大きなバッチサイズを必要とするが、GPUメモリが限られているため、大規模な3D画像のフル解像度化が難しい。 それでも、2次元スライスの空間的文脈に関する体積的位置情報は、医療応用において非常に重要である。 本研究では,2次元スライスの空間的文脈と弱ラベルを汎用的なカーネルベース損失関数で統合する,wsp(weak-supervised positional)コントラスト学習戦略を提案する。 本手法は,多数の弱いラベル付き画像,すなわちラジオロジカル低信頼アノテーション,および小さな強いラベル付き(すなわち高信頼)データセットを用いて肝硬変の予測を行う。 提案モデルでは,内部データセットのベースラインモデルに対してAUCの分類を5%改善し,がんゲノムアトラスのLIHCデータセットでは26%改善した。 コードは、https://github.com/Guerbet-AI/wsp-contrastive.comで入手できる。

Large medical imaging datasets can be cheaply and quickly annotated with low-confidence, weak labels (e.g., radiological scores). Access to high-confidence labels, such as histology-based diagnoses, is rare and costly. Pretraining strategies, like contrastive learning (CL) methods, can leverage unlabeled or weakly-annotated datasets. These methods typically require large batch sizes, which poses a difficulty in the case of large 3D images at full resolution, due to limited GPU memory. Nevertheless, volumetric positional information about the spatial context of each 2D slice can be very important for some medical applications. In this work, we propose an efficient weakly-supervised positional (WSP) contrastive learning strategy where we integrate both the spatial context of each 2D slice and a weak label via a generic kernel-based loss function. We illustrate our method on cirrhosis prediction using a large volume of weakly-labeled images, namely radiological low-confidence annotations, and small strongly-labeled (i.e., high-confidence) datasets. The proposed model improves the classification AUC by 5% with respect to a baseline model on our internal dataset, and by 26% on the public LIHC dataset from the Cancer Genome Atlas. The code is available at: https://github.com/Guerbet-AI/wsp-contrastive.
翻訳日:2023-07-13 10:21:09 公開日:2023-07-12
# 意味の計算モデルについて:感情に絡み合った身体的認知

On the Computational Modeling of Meaning: Embodied Cognition Intertwined with Emotion ( http://arxiv.org/abs/2307.04518v2 )

ライセンス: Link先を確認
Casey Kennington(参考訳) この文書は、言語習得に特に焦点をあて、それが言語理解のモデルにとってどのような意味を持つのか、言葉がどのように彼らが何をするのかを探求する著者の試みを詳述している。 なぜなら、私はそれらを発見したときと、そのアイデアが後の私の考えにどのように影響したかに基づいてアイデアを合成するからです。 具体的・抽象的な概念の知識を含む世界において、具体化が知覚し、実践できることがいかに重要であるか、そして、感情と認知が、言語学習プロセスと相互にどのように関連しているかを説明する。 最後に、子どもと同じような環境で言語を学ぶ言語学習エージェントの要求事項をいくつか挙げます。 本稿ではモデリング言語における現在および将来の研究のガイドとして機能する。

This document chronicles this author's attempt to explore how words come to mean what they do, with a particular focus on child language acquisition and what that means for models of language understanding.\footnote{I say \emph{historical} because I synthesize the ideas based on when I discovered them and how those ideas influenced my later thinking.} I explain the setting for child language learning, how embodiment -- being able to perceive and enact in the world, including knowledge of concrete and abstract concepts -- is crucial, and how emotion and cognition relate to each other and the language learning process. I end with what I think are some of the requirements for a language-learning agent that learns language in a setting similar to that of children. This paper can act as a potential guide for ongoing and future work in modeling language.
翻訳日:2023-07-13 10:20:48 公開日:2023-07-12