このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230117となっている論文です。

PDF登録状況(公開日: 20230117)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子状態の非破壊的ゼロ知識証明と隠れGHZ状態の多人数生成

Non-Destructive Zero-Knowledge Proofs on Quantum States, and Multi-Party Generation of Authorized Hidden GHZ States ( http://arxiv.org/abs/2104.04742v3 )

ライセンス: Link先を確認
L\'eo Colisson and Fr\'ed\'eric Grosshans and Elham Kashefi(参考訳) 量子言語(nizkoqs)への非対話的ゼロ知識証明(nizk)の最初の一般化を提案し、非破壊的かつ非対話的に受信された量子状態の高度な特性を証明するプロトコルを提供する(証明者から検証者へ1つのメッセージが送信される)。 第2の直交的貢献では、従来の量子チャネル(これは我々のnizkoqsプロトコルの中心である)を偽装するコストのかかる遠隔状態準備プロトコル(cckw18,cckw19,gv19]を改善し、単一重ね合わせからマルチ量子ビット状態を作成する方法を示します。 最後に、これらの結果をマルチパーティに一般化し、複数の当事者が匿名でghz状態の分散が可能であることを証明し、秘密のクレデンシャルを知っている参加者だけがこの状態を共有できるようにし、量子匿名送信、量子秘密共有、量子オニオンルーティングなどに応用することができる。

We propose the first generalization of the famous Non-Interactive Zero-Knowledge (NIZK) proofs to quantum languages (NIZKoQS) and we provide a protocol to prove advanced properties on a received quantum state non-destructively and non-interactively (a single message being sent from the prover to the verifier). In our second orthogonal contribution, we improve the costly Remote State Preparation protocols [CCKW18,CCKW19,GV19] that can classically fake a quantum channel (this is at the heart of our NIZKoQS protocol) by showing how to create a multi-qubits state from a single superposition. Finally, we generalize these results to a multi-party setting and prove that multiple parties can anonymously distribute a GHZ state in such a way that only participants knowing a secret credential can share this state, which could have applications to quantum anonymous transmission, quantum secret sharing, quantum onion routing and more.
翻訳日:2023-04-04 05:35:41 公開日:2023-01-17
# 衛星ベースの量子情報ネットワーク:ユースケース,アーキテクチャ,ロードマップ

Satellite-based Quantum Information Networks: Use cases, Architecture, and Roadmap ( http://arxiv.org/abs/2202.01817v3 )

ライセンス: Link先を確認
Laurent de Forges de Parny (1), Olivier Alibart (2), Julien Debaud (3), Sacha Gressani (3), Alek Lagarrigue (2,1,4), Anthony Martin (2), Alexandre Metrat (3), Matteo Schiavon (5), Tess Troisi (2,1), Eleni Diamanti (5), Patrick G\'elard (4), Erik Kerstel (3), S\'ebastien Tanzilli (2) and Mathias Van Den Bossche (1) ((1) Thales Alenia Space, (2) Universit\'e C\^ote d'Azur, (3) Universit\'e Grenoble Alpes, (4) Centre National d'Etudes Spatiales, (5) Sorbonne Universit\'e)(参考訳) 量子情報ネットワーク(QIN)は、量子デバイスを長距離接続可能にすることで、その本質的なコンピューティング、センシング、セキュリティ機能を大幅に強化するため、関心が高まる。 QINの中核となるメカニズムは量子状態のテレポーテーションであり、量子エンタングルメントを消費する。 ここでは、ネットワーク要求への参照として、主要なパフォーマンス目標を含む活動セクターごとのユースケースを特定する。 次に、主要な設計要素と重要な要素を特定することを目的として、スペースセグメントのアーキテクチャに焦点を当てる前に、一般的なQINの高レベルアーキテクチャを定義する。 標準化に関する問題と同様に、これらの重要な要素の現状を調査する。 最後に、最初のQIN開発へのロードマップを説明し、すでに完了している第1ステップ、空間間絡み分布実証器の設計と数値シミュレーションについて詳述する。

Quantum Information Networks (QINs) attract increasing interest, as they enable connecting quantum devices over long distances, thus greatly enhancing their intrinsic computing, sensing, and security capabilities. The core mechanism of a QIN is quantum state teleportation, consuming quantum entanglement, which can be seen in this context as a new kind of network resource. Here we identify use cases per activity sector, including key performance targets, as a reference for the network requirements. We then define a high-level architecture of a generic QIN, before focusing on the architecture of the Space segment, with the aim of identifying the main design drivers and critical elements. A survey of the state-of-the-art of these critical elements is presented, as are issues related to standardisation. Finally, we explain our roadmap to developing the first QINs and detail the already concluded first step, the design and numerical simulation of a Space-to-ground entanglement distribution demonstrator.
翻訳日:2023-02-26 22:47:30 公開日:2023-01-17
# 量子コンピューティングによる金属-有機構造上の炭素捕獲のモデル化

Modelling Carbon Capture on Metal-Organic Frameworks with Quantum Computing ( http://arxiv.org/abs/2203.15546v2 )

ライセンス: Link先を確認
Gabriel Greene-Diniz, David Zsolt Manrique, Wassil Sennane, Yann Magnin, Elvira Shishenina, Philippe Cordier, Philip Llewellyn, Michal Krompiec, Marko J. Ran\v{c}i\'c, and David Mu\~noz Ramo(参考訳) 近年の化学における量子計算アルゴリズムの進歩にもかかわらず、物質科学の応用、特に次世代の吸収物質が気候変動に対処するために緊急に必要とされるエネルギー分野に焦点を絞った量子計算シミュレーションが数多く存在する。 量子コンピューティングは、al-フマレート金属-有機系フレームワークにおけるco$_2$の吸着問題に適用される。 密度行列埋め込み理論に基づくフラクメンテーション戦略を適用し、変分量子アルゴリズムをフラグメントソルバとして使用し、量子ビット数を最小化するアクティブスペース選択を行う。 異なるフラグメンテーション戦略と解法を調べることで、co$_2$分子と相互作用するフマレートに量子コンピューティングを適用する方法を提案し、複雑な多孔質系を量子コンピューティングの具体的応用として扱う可能性を示す。 我々の研究は、より効率的な炭素捕獲と変換の用途のために、置換剤の最適化を追求する上で、量子コンピューティング技術の利用の道を開いた。

Despite the recent progress in quantum computational algorithms for chemistry, there is a dearth of quantum computational simulations focused on material science applications, especially for the energy sector, where next generation sorbing materials are urgently needed to battle climate change. To drive their development, quantum computing is applied to the problem of CO$_2$ adsorption in Al-fumarate Metal-Organic Frameworks. Fragmentation strategies based on Density Matrix Embedding Theory are applied, using a variational quantum algorithm as a fragment solver, along with active space selection to minimise qubit number. By investigating different fragmentation strategies and solvers, we propose a methodology to apply quantum computing to Al-fumarate interacting with a CO$_2$ molecule, demonstrating the feasibility of treating a complex porous system as a concrete application of quantum computing. Our work paves the way for the use of quantum computing techniques in the quest of sorbents optimisation for more efficient carbon capture and conversion applications.
翻訳日:2023-02-20 09:25:26 公開日:2023-01-17
# ランダム粒子エンタングルメント蒸留における局所運転と古典通信(LOCC)のラウンドコンプレックス

The Round Complexity of Local Operations and Classical Communication (LOCC) in Random-Party Entanglement Distillation ( http://arxiv.org/abs/2204.00781v2 )

ライセンス: Link先を確認
Guangkuo Liu, Ian George, Eric Chitambar(参考訳) 分散量子情報処理のための強力な操作パラダイムは、局所演算と古典通信(locc)による事前共有の絡み合いを操作することである。 与えられたタスクのLOCCラウンドの複雑さは、タスクを完了するために古典的なコミュニケーションのラウンドがいくつ必要かを記述する。 1ラウンドと2ラウンドのプロトコルを分離した結果もあるが、より高いラウンドの複雑さについてはほとんど知られていない。 本稿では,LOCCラウンド複雑性の興味深い特徴を明らかにする手段として,一発ランダムパーティー蒸留の課題を再考する。 まず, 3 キュービットのランダムな蒸留において, 最適なプロトコルで必要とされる通信ラウンドの数は, 使用する絡み合いの度合いに依存し, 同じ固定状態の場合, 絡み合いの度合いを最大化するためには2ラウンドしか必要としない。 そこで我々は,実装に無拘束なラウンド数を必要とするLOCC楽器群を構築した。 次に,蒸留成功確率の関数として,LOCCラウンド番号の厳密な下限を証明した。 計算結果から,fortescue と lo による w-state random distillation protocol はラウンド複雑性の点で本質的に最適であることがわかった。

A powerful operational paradigm for distributed quantum information processing involves manipulating pre-shared entanglement by local operations and classical communication (LOCC). The LOCC round complexity of a given task describes how many rounds of classical communication are needed to complete the task. Despite some results separating one-round versus two-round protocols, very little is known about higher round complexities. In this paper, we revisit the task of one-shot random-party entanglement distillation as a way to highlight some interesting features of LOCC round complexity. We first show that for random-party distillation in three qubits, the number of communication rounds needed in an optimal protocol depends on the entanglement measure used; for the same fixed state some entanglement measures need only two rounds to maximize whereas others need an unbounded number of rounds. In doing so, we construct a family of LOCC instruments that require an unbounded number of rounds to implement. We then prove explicit tight lower bounds on the LOCC round number as a function of distillation success probability. Our calculations show that the original W-state random distillation protocol by Fortescue and Lo is essentially optimal in terms of round complexity.
翻訳日:2023-02-20 00:43:02 公開日:2023-01-17
# 材料特性予測モデルにおける適用可能性の領域

Outlier-Based Domain of Applicability Identification for Materials Property Prediction Models ( http://arxiv.org/abs/2302.06454v1 )

ライセンス: Link先を確認
Gihan Panapitiya and Emily Saldanha(参考訳) 機械学習モデルは材料特性予測に広く応用されている。 しかし、これらのモデルの実用的応用は、これまで見つからなかった種類の材料でどのように機能するかに関する情報の不足によって妨げられる。 機械学習モデル予測は、利用可能なトレーニングデータの品質に依存するため、材料特徴空間の異なる領域は、そのようなモデルによって異なる精度で予測される。 これらのドメインを識別する能力により、各予測の信頼性レベルを見つけ出し、異なるタスクの予測精度要求に応じてモデルがいつどのように使われるべきかを判断し、エラーの高いドメインのモデルを改善することができる。 本研究では,大きな特徴空間を用いた適用性ドメインの探索手法を提案し,検出されたドメインとサブドメインについてより深い洞察を得る分析手法を提案する。

Machine learning models have been widely applied for material property prediction. However, practical application of these models can be hindered by a lack of information about how well they will perform on previously unseen types of materials. Because machine learning model predictions depend on the quality of the available training data, different domains of the material feature space are predicted with different accuracy levels by such models. The ability to identify such domains enables the ability to find the confidence level of each prediction, to determine when and how the model should be employed depending on the prediction accuracy requirements of different tasks, and to improve the model for domains with high errors. In this work, we propose a method to find domains of applicability using a large feature space and also introduce analysis techniques to gain more insight into the detected domains and subdomains.
翻訳日:2023-02-19 14:20:55 公開日:2023-01-17
# FAIR+実装サーベイツール(FAIRIST)による研究者との交流とFAIRとオープンサイエンスの意識向上

Engaging with Researchers and Raising Awareness of FAIR and Open Science through the FAIR+ Implementation Survey Tool (FAIRIST) ( http://arxiv.org/abs/2301.10236v1 )

ライセンス: Link先を確認
Christine R. Kirkpatrick, Kevin L. Coakley, Julie Christopher, Ines Dutra(参考訳) FAIRに関する論文が発表されてから6年後、研究者はまだFAIRの実装方法を理解するのに苦労している。 多くの研究者にとってfairは、短期的な努力に対する長期的な利益を約束し、まだ獲得されていないスキルを必要としている。 必要な人や、FAIR研究の実践に時間を割かなければならないと確信している人であっても、科学的なアーティファクトやプロセスに適切に匹敵するジャスト・イン・タイムのアドバイスが好まれます。 最も公平な実施指導の汎用性のため、研究者が状況に合わせてアドバイスを調整することは困難である。 特に人工知能(AI)と機械学習(ML)の分野での技術進歩は、研究者としてのFAIRの採用を複雑にし、データスチュワードは、ソフトウェアやワークフロー、モデルFAIRを再現可能なものにする方法を考える。 FAIR+実装調査ツール(FAIRIST)は、研究要件と研究提案を体系的な方法で統合することで問題を緩和する。 FAIRISTは、ナノパブリケーションやノートブックなどの新たな学術出力、AI研究(データ、モデル、ワークフロー、ベンチマーク)に関連するさまざまな研究成果に影響を及ぼす。 研究者たちは、セルフサービス調査プロセスを通過して、DMPおよび/または作業計画で使用可能なテーブルを受け取ると同時に、FAIR原則とオープンサイエンスの概念を認識します。 FAIRISTは、提案プロセスの一部をアウトリーチし、FAIRの次元と考慮への意識を高め、競争力のある提案に対してジャスト・イン・タイムの支援を提供するためのモデルである。

Six years after the seminal paper on FAIR was published, researchers still struggle to understand how to implement FAIR. For many researchers FAIR promises long-term benefits for near-term effort, requires skills not yet acquired, and is one more thing in a long list of unfunded mandates and onerous requirements on scientists. Even for those required to or who are convinced they must make time for FAIR research practices, the preference is for just-in-time advice properly sized to the scientific artifacts and process. Because of the generality of most FAIR implementation guidance, it is difficult for a researcher to adjust the advice to their situation. Technological advances, especially in the area of artificial intelligence (AI) and machine learning (ML), complicate FAIR adoption as researchers and data stewards ponder how to make software, workflows, and models FAIR and reproducible. The FAIR+ Implementation Survey Tool (FAIRIST) mitigates the problem by integrating research requirements with research proposals in a systematic way. FAIRIST factors in new scholarly outputs such as nanopublications and notebooks, and the various research artifacts related to AI research (data, models, workflows, and benchmarks). Researchers step through a self-serve survey process and receive a table ready for use in their DMP and/or work plan while gaining awareness of the FAIR Principles and Open Science concepts. FAIRIST is a model that uses part of the proposal process as a way to do outreach, raise awareness of FAIR dimensions and considerations, while providing just-in-time assistance for competitive proposals.
翻訳日:2023-02-19 13:51:04 公開日:2023-01-17
# appealmod: モデレーターからユーザへのアピールへの取り組み

AppealMod: Shifting Effort from Moderators to Users Making Appeals ( http://arxiv.org/abs/2301.07163v1 )

ライセンス: Link先を確認
Shubham Atreja, Jane Im, Paul Resnick, Libby Hemphill(参考訳) コンテンツモデレーションがすべてのソーシャルメディアプラットフォームやオンラインコミュニティの中心となるにつれ、モデレーションの決定を逆らう方法への関心が高まっている。 個々のコミュニティが自身の活動を穏健化させるソーシャルメディアプラットフォームでは、ユーザアピールに対処する責任はコミュニティ内のボランティアに負う。 ボランティアモデレーターの作業の理解と支援を専門とする作業が増えているが、ユーザのアピールを扱うプラクティスについてはほとんど知られていない。 Redditモデレーターとの協調的かつ反復的なデザインプロセスを通じて、モデレーターはユーザー禁止の訴えの調査に多大な努力を払っており、各決定に対して直接ユーザーと関わり、エージェンシーを維持したいと願っていることがわかった。 ニーズを満たすために、私たちは、ユーザに対して、人間のモデレーターが訴求をレビューする前に、追加情報を提供することで、訴求により多くの努力をするよう求めるシステム、 appealmodを設計し、構築しました。 モデレーターにより多くの情報を与えるのに加えて、訴求プロセスにおける摩擦はユーザーの間で選択効果をもたらし、多くの不誠実で有毒な訴求は人間のモデレーターから注目を集める前に放棄されると予想した。 このシステムを評価するために、Redditコミュニティで4ヶ月にわたって2900万人以上のユーザーを対象にフィールド実験を行った。 選考効果の結果、モデレーターは最初の上訴の30-%、有毒な言葉による上訴の10-%未満しか見つからなかったが、ほぼ同じ数の上訴を認めた。 全体として,本システムはモデレーターの作業量を削減し,有害コンテンツへの曝露を最小限に抑えつつ,直接のエンゲージメントや代理店へのアピールを尊重する。

As content moderation becomes a central aspect of all social media platforms and online communities, interest has grown in how to make moderation decisions contestable. On social media platforms where individual communities moderate their own activities, the responsibility to address user appeals falls on volunteers from within the community. While there is a growing body of work devoted to understanding and supporting the volunteer moderators' workload, little is known about their practice of handling user appeals. Through a collaborative and iterative design process with Reddit moderators, we found that moderators spend considerable effort in investigating user ban appeals and desired to directly engage with users and retain their agency over each decision. To fulfill their needs, we designed and built AppealMod, a system that asks users to put more effort in their appeals, by providing additional information, before their appeals are reviewed by human moderators. In addition to giving moderators more information, we expected the friction in the appeal process would lead to a selection effect among users, with many insincere and toxic appeals being abandoned before getting any attention from human moderators. To evaluate our system, we conducted a field experiment in a Reddit community of over 29 million users that lasted for four months. As a result of the selection effect, moderators viewed only 30\% of initial appeals and less than 10\% of the toxically worded appeals; yet they granted roughly the same number of appeals. Overall, our system is effective at reducing moderator workload and minimizing their exposure to toxic content while honoring their preference for direct engagement and agency in appeals.
翻訳日:2023-02-19 13:39:41 公開日:2023-01-17
# 未来のためのコンピュータサイエンス -- ホーハンブルクのコンピュータサイエンスコースにおける持続可能性と気候保護-

Computer Science for Future -- Sustainability and Climate Protection in the Computer Science Courses of the HAW Hamburg ( http://arxiv.org/abs/2301.06885v1 )

ライセンス: Link先を確認
Elina Eickst\"adt and Martin Becke and Martin Kohler and Julia Padberg(参考訳) computer science for future (cs4f) は、ホーハンブルクにあるコンピュータ科学のイニシアチブである。 このイニシアチブの目的は、コンピュータ科学の分野におけるパラダイムシフトであり、それによって持続可能性目標が教育と研究の第一の動機として確立される。 最も有望な乗算器は大学の学生であるため、教育に焦点が当てられている。 教育の変化は、我々の研究、ビジネスと市民社会への移転、そして我々の機関の変化に影響を及ぼす。 本稿では,コンピュータ科学の変革プロセスにおいて,学生が増幅器として果たす役割を中心に,CS4Fのイニシアティブを紹介する。

Computer Science for Future (CS4F) is an initiative in the Department of Computer Science at HAW Hamburg. The aim of the initiative is a paradigm shift in the discipline of computer science, thus establishing sustainability goals as a primary leitmotif for teaching and research. The focus is on teaching since the most promising multipliers are the students of a university. The change in teaching influences our research, the transfer to business and civil society as well as the change in our own institution. In this article, we present the initiative CS4F and reflect primarily on the role of students as amplifiers in the transformation process of computer science.
翻訳日:2023-02-19 13:39:11 公開日:2023-01-17
# Feynman Propagatorの符号と可逆性

Sign of the Feynman Propagator and Irreversibility ( http://arxiv.org/abs/2204.06928v2 )

ライセンス: Link先を確認
Allan Tameshtit(参考訳) 相互作用するファインマン伝達体 $ \delta_{f,int}(x,y) $ of scalar electrodynamics に対して、符号特性 $ \operatorname{re} i\delta_{f,int} \geq 0 $ は時間発展の可逆性にかかっていることを示す。 対照的に、$ \operatorname{Im} i\Delta_{F,int} $ は不確定である。 弱い結合近似の下で還元力学に切り替えるとき、時間進化を支配するクラウス作用素に厳しい制限を課さない限り、$ \operatorname{Re} i\Delta_{F,int} $ の正半定符号は一般的に失われる。 もう一つの近似である回転波近似では、ある条件下でテスト関数を指数関数に制限することで符号を回復することができる。

For the interacting Feynman propagator $ \Delta_{F,int}(x,y) $ of scalar electrodynamics, we show that the sign property, $ \operatorname{Re} i\Delta_{F,int} \geq 0 $, hinges on the reversibility of time evolution. In contrast, $ \operatorname{Im} i\Delta_{F,int} $ is indeterminate. When we switch to reduced dynamics under the weak coupling approximation, the positive semidefinite sign of $ \operatorname{Re} i\Delta_{F,int} $ is generally lost, unless we impose severe restrictions on the Kraus operators that govern time evolution. With another approximation, the rotating wave approximation, we may recover the sign by restricting the test functions to exponentials under certain conditions.
翻訳日:2023-02-17 00:17:48 公開日:2023-01-17
# フロッケ原子光学を用いた原子干渉

Atom Interferometry with Floquet Atom Optics ( http://arxiv.org/abs/2205.06965v3 )

ライセンス: Link先を確認
Thomas Wilkason, Megan Nantel, Jan Rudolph, Yijun Jiang, Benjamin E. Garber, Hunter Swan, Samuel P. Carman, Mahiro Abe, Jason M. Hogan(参考訳) floquet engineeringは、周期駆動システムの時間発展を設計するための説得力のあるアプローチを提供する。 周期的な原子-光結合を実装し、strontium ${}^1\! S_0\,\text{-}\, {}^3\! P_1$トランジション。 これらの原子光学は、光と原子共鳴の間の幅広い周波数オフセットに対して99.4\%以上のパルス効率に達する。 さらに、Floquet atom optics を用いて、大きな運動量移動原子干渉計における差動ドップラーシフトを補償し、400〜\hbar k$を超える最先端の運動量分離を実現する。 この手法は任意の結合強度の任意の2レベルシステムに適用でき、コヒーレント量子制御において広く応用できる。

Floquet engineering offers a compelling approach for designing the time evolution of periodically driven systems. We implement a periodic atom-light coupling to realize Floquet atom optics on the strontium ${}^1\!S_0\,\text{-}\, {}^3\!P_1$ transition. These atom optics reach pulse efficiencies above $99.4\%$ over a wide range of frequency offsets between light and atomic resonance, even under strong driving where this detuning is on the order of the Rabi frequency. Moreover, we use Floquet atom optics to compensate for differential Doppler shifts in large momentum transfer atom interferometers and achieve state-of-the-art momentum separation in excess of $400~\hbar k$. This technique can be applied to any two-level system at arbitrary coupling strength, with broad application in coherent quantum control.
翻訳日:2023-02-13 04:30:26 公開日:2023-01-17
# コマンドラインインタフェースのリスクモデリング

Command Line Interface Risk Modeling ( http://arxiv.org/abs/2302.01749v1 )

ライセンス: Link先を確認
Dr Anthony L. Faulds(参考訳) 機密データを保護することは、クラウドコンピューティングにおけるセキュリティの重要な部分である。 しかし、特定の特権を持つ個人だけがこのデータを見たり操作したりできるため、これらの個人にも依存してソフトウェアをメンテナンスすることは不可能である。 これに対する解決策は、非私有の個人がこれらのシステムにアクセスできるようにすることである。 この目的のために,センシティブなデータでフィールドを予測・再現する機械学習モデルを構築した。 この作業はazure powershellに集中し、他のコマンドラインインターフェースやapiへの適用方法を示している。 重み付きメトリクスとしてf5-scoreを使用して、未知のフィールドから自然言語処理のよく研究された領域へこの問題をマッピングする様々な変換技術を示す。

Protecting sensitive data is an essential part of security in cloud computing. However, only specific privileged individuals have access to view or interact with this data; therefore, it is unscalable to depend on these individuals also to maintain the software. A solution to this is to allow non-privileged individuals access to maintain these systems but mask sensitive information from egressing. To this end, we have created a machine-learning model to predict and redact fields with sensitive data. This work concentrates on Azure PowerShell, showing how it applies to other command-line interfaces and APIs. Using the F5-score as a weighted metric, we demonstrate different transformation techniques to map this problem from an unknown field to the well-researched area of natural language processing.
翻訳日:2023-02-12 13:12:43 公開日:2023-01-17
# 中心スピン系の量子相関と速度限界

Quantum correlations and speed limit of central spin system ( http://arxiv.org/abs/2205.13195v2 )

ライセンス: Link先を確認
Devvrat Tiwari and K. G. Paulson and Subhashish Banerjee(参考訳) 本稿では,スピン浴と相互作用する単一および2量子中心スピン系について考察し,その力学特性について考察する。 相互作用性および非相互作用性スピン浴の事例を考察し,進化の量子速度限界(QSL)時間について検討する。 単一量子ビット中心スピンモデルの量子速度限界に対するスピン浴の大きさの影響を解析した。 我々は、(非)相互作用する2つの中心スピン量子ビットの量子相関を推定し、その動的挙動と様々な条件下でのQSL時間との比較を行う。 量子相関のダイナミクスを解析するためにqsl時間をどのように活用するかを示す。

In this article, we consider single, and two-qubit central spin systems interacting with spin baths and discuss their dynamical properties. We consider the cases of interacting and non-interacting spin baths and investigate the quantum speed limit (QSL) time of evolution. The impact of the size of the spin bath on the quantum speed limit for a single qubit central spin model is analyzed. We estimate the quantum correlations for (non-)interacting two central spin qubits and compare their dynamical behaviour with that of QSL time under various conditions. We show how QSL time could be availed to analyze the dynamics of quantum correlations.
翻訳日:2023-02-11 16:47:08 公開日:2023-01-17
# 空間及び時間量子チャネルの回路

Circuits of space and time quantum channels ( http://arxiv.org/abs/2206.12155v3 )

ライセンス: Link先を確認
Pavel Kos, Georgios Styliaris(参考訳) 多体系の相互作用における厳密な解は、動力学に関する洞察を提供するため、少ないが極めて有用である。 双対ユニタリモデルは、これが可能な1つの空間次元の例である。 これらのブロックウォール量子回路は局所ゲートで構成されており、これは時間だけでなく空間方向に沿った進化と解釈されるときにも一元的に残る。 しかし、このユニタリダイナミクスの設定は、不完全な分離のために現実世界のシステムに直接適用されず、二重ユニタリダイナミクスに対するノイズの影響とその正確な解法性を考えることが不可欠である。 本研究では,各ユニタリゲートを局所的な量子チャネルで置き換えるノイズ量子回路において,双対ユニタリ性の概念を一般化し,正確な解を求める。 正確な解は、ノイズゲートが時間内に有効な量子チャネルを与えるだけでなく、空間方向の一方または両方に沿った進化として解釈されるとき、おそらくは時間に逆向きに現れるように要求することで得られる。 これにより、空間と時間方向に沿ったユニタリ性制約の異なる組み合わせを満たすモデルの新たなファミリーが生まれる。 我々は、時空間相関関数の正確な解、量子クエンチ後の空間相関、およびこれらのモデルの族に対する定常状態の構造を提供する。 双対ユニタリ性に強い反する場合でも、双対ユニタリ族周辺の雑音が正確に解けるモデルをもたらすことを示す。 我々は、空間と時間の両方の方向における任意のチャネルユニタリは、特定の二重ユニタリゲートのクラスに対するアフィン結合として書けることを証明する。 最後に、可解初期状態の定義を行列積密度作用素に拡張する。 テンソルが局所的な精製を許すとき、完全に分類します。

Exact solutions in interacting many-body systems are scarce but extremely valuable since they provide insights into the dynamics. Dual-unitary models are examples in one spatial dimension where this is possible. These brick-wall quantum circuits consist of local gates, which remain unitary not only in time, but also when interpreted as evolutions along the spatial directions. However, this setting of unitary dynamics does not directly apply to real-world systems due to their imperfect isolation, and it is thus imperative to consider the impact of noise to dual-unitary dynamics and its exact solvability. In this work we generalise the ideas of dual-unitarity to obtain exact solutions in noisy quantum circuits, where each unitary gate is substituted by a local quantum channel. Exact solutions are obtained by demanding that the noisy gates yield a valid quantum channel not only in time, but also when interpreted as evolutions along one or both of the spatial directions and possibly backwards in time. This gives rise to new families of models that satisfy different combinations of unitality constraints along the space and time directions. We provide exact solutions for the spatio-temporal correlation functions, spatial correlations after a quantum quench, and the structure of steady states for these families of models. We show that noise unbiased around the dual-unitary family leads to exactly solvable models, even if dual-unitarity is strongly violated. We prove that any channel unital in both space and time directions can be written as an affine combination of a particular class of dual-unitary gates. Finally, we extend the definition of solvable initial states to matrix-product density operators. We completely classify them when their tensor admits a local purification.
翻訳日:2023-02-08 04:39:07 公開日:2023-01-17
# 量子アニーリング:概要

Quantum Annealing: An Overview ( http://arxiv.org/abs/2207.01827v4 )

ライセンス: Link先を確認
Atanu Rajak, Sei Suzuki, Amit Dutta, and Bikas K. Chakrabarti(参考訳) 本稿では、量子アニーリング(または断熱量子計算)の背後にある基本的な物理概念を提示した後、最近の理論の概要と、まだ議論されている問題を示す実験的発展について述べる。 連続的および不連続な量子相転移の基本的な考え方に関する簡単な議論で、量子臨界点を越えて量子多体系の隆起に続く欠陥生成のkibble-zurekスケーリングについて論じる。 その過程で、純および無秩序の両方の関連するモデルについて議論し、量子アニーリングプロトコルの実装と最近の応用に光を当てた。 さらに, 環境結合が量子アニールに及ぼす影響についても検討する。 クローズドシステムにおけるアニーリングプロトコルを高速化するいくつかの可能な方法は、特に、エネルギーギャップがシステムサイズとともに指数関数的に消失するいくつかのモデルで生じる不連続な量子相転移を避けるためのレシピに焦点を当てている。

In this review, after providing the basic physical concept behind quantum annealing (or adiabatic quantum computation), we present an overview of some recent theoretical as well as experimental developments pointing to the issues which are still debated. With a brief discussion on the fundamental ideas of continuous and discontinuous quantum phase transitions, we discuss the Kibble-Zurek scaling of defect generation following a ramping of a quantum many body system across a quantum critical point. In the process, we discuss associated models, both pure and disordered, and shed light on implementations and some recent applications of the quantum annealing protocols. Furthermore, we discuss the effect of environmental coupling on quantum annealing. Some possible ways to speed up the annealing protocol in closed systems are elaborated upon: We especially focus on the recipes to avoid discontinuous quantum phase transitions occurring in some models where energy gaps vanish exponentially with the system size.
翻訳日:2023-02-06 12:56:52 公開日:2023-01-17
# 位相空間における量子力学:序論

Quantum Mechanics in Phase Space: An introduction ( http://arxiv.org/abs/2208.08682v4 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez(参考訳) 位相空間と基本ガウス量子力学に量子力学を導入する講義ノートのインフォーマルコレクション。

Informal collection of lecture notes introducing quantum mechanics in phase space and basic Gaussian quantum mechanics.
翻訳日:2023-01-30 17:58:44 公開日:2023-01-17
# 脳の力学の量子古典モデル

A Quantum-Classical Model of Brain Dynamics ( http://arxiv.org/abs/2301.09569v1 )

ライセンス: Link先を確認
Alessandro Sergi, Antonino Messina, Gabriel Hanna, Carmelo M. Vicario, Gabriella Martino(参考訳) 本稿では、混合ワイル記号の量子古典力学を用いて脳過程を研究するためのアプローチを提案する。 混合ワイル記号は、顕微鏡レベルでの脳のプロセスを記述するために使われ、適切なアンサンブルで平均すると、メソスコープスケールで測定された結果へのリンクを提供する。 このアプローチには、脳の電磁場理論、組織化された目的還元理論、脳の散逸量子モデルという、よく知られた3つのアプローチの特徴が組み込まれている。 このアプローチでは、量子変数(核スピンや電子スピン、双極子粒子、電子励起状態、トンネル自由度など)はスピノルで表されうるが、一方、プロセスに関わる電磁場やフォノンモードは、量子零点揺らぎも考慮して古典的または半古典的に扱われる。 提案手法では,nos\'e-hooverチェインサーモスタットとの結合により各フィールドモードの温度を制御することで,ゼロポイント量子効果を数値シミュレーションに組み込むことができる。 各サーモスタットの温度は、正準アンサンブルで量子統計を再現するために選択される。 QCプロセスの観点から脳を見ることは、臨床心理学の理論と、その実践への潜在的影響に影響を及ぼす。

In this article, we posit an approach to study brain processes by means of the quantum-classical dynamics of a Mixed Weyl symbol. The Mixed Weyl symbol is used to describe brain processes at the microscopic level and, when averaged over an appropriate ensemble, provides a link to the results of measurements made at the mesoscopic scale. The approach incorporates features of three well-known approaches (which are also reviewed in this paper), namely the electromagnetic field theory of the brain, orchestrated objective reduction theory, and the dissipative quantum model of the brain. Within this approach, quantum variables (such as nuclear and electron spins, dipolar particles, electron excited states, and tunnelling degrees of freedom) may be represented by spinors while while the electromagnetic fields and phonon modes involved in the processes are treated either classically or semiclassicaly, by also considering quantum zero-point fluctuations. In the proposed computation scheme, zero-point quantum effects can be incorporated into numerical simulations by controlling the temperature of each field mode via coupling to a dedicated Nos\`e-Hoover chain thermostat. The temperature of each thermostat is chosen in order to reproduce quantum statistics in the canonical ensemble. Viewing the brain in terms of QC processes has consequences on the theory of clinical psychology and potential implications for its practice.
翻訳日:2023-01-29 13:50:47 公開日:2023-01-17
# 半教師付きセンシングレート学習による集団内の信頼データ収集によるcovid-19対策cmab

A Semi-supervised Sensing Rate Learning based CMAB Scheme to Combat COVID-19 by Trustful Data Collection in the Crowd ( http://arxiv.org/abs/2301.08563v1 )

ライセンス: Link先を確認
Jianheng Tang, Kejia Fan, Wenxuan Xie, Luomin Zeng, Feijiang Han, Guosheng Huang, Tian Wang, Anfeng Liu, Shaobo Zhang(参考訳) モバイルクラウドセンシング(MCS)は、大量の労働者を駆使して参加的な方法でデータを収集し、新型コロナウイルスとの戦いのようなコスト効率の高い方法で大規模アプリケーションを構築するための有望なパラダイムとして認識されている。 信頼性と質の高い労働者の採用は、MCSにとって重要な研究課題である。 以前の研究では、労働者の質は事前に分かっているか、あるいは収集されたデータを受け取ると、プラットフォームは労働者の質を知っていると仮定している。 実際、コストを削減し収益を最大化するために、多くの戦略労働者はセンシングタスクを正直に実行せず、プラットフォームに偽のデータを報告します。 したがって、プラットフォームが受信したデータの真正性を評価することは極めて困難である。 本稿では、MCSにおける複数の未知の戦略的労働者の求人問題を解決するために、セミスーパービジョンベースの Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) というインセンティブメカニズムを提案する。 まず,マルチアームバンディット逆オークション問題として労働者採用をモデル化し,採用労働者のセンサレート(SR)をバンディットの利得として考慮し,UCBに基づく探索と搾取を分離するアルゴリズムを設計する。 次に,SSRL(Semi-supervised Sensing Rate Learning)アプローチを提案し,労働者のSRを迅速かつ正確に取得する。 最後に, SCMABAは, SRs獲得機構とマルチアーム・バンドイット・リバース・オークションを有機的に組み合わせて設計し, 探索には教師付きSR学習, 搾取には自己教師付きSR学習を用いる。 我々は、SCMABAが真理性と個人的合理性を達成することを証明している。 さらに,実世界のデータトレースの詳細なシミュレーションを通じて,SCMABA機構の優れた性能を示す。

Mobile CrowdSensing (MCS), through employing considerable workers to sense and collect data in a participatory manner, has been recognized as a promising paradigm for building many large-scale applications in a cost-effective way, such as combating COVID-19. The recruitment of trustworthy and high-quality workers is an important research issue for MCS. Previous studies assume that the qualities of workers are known in advance, or the platform knows the qualities of workers once it receives their collected data. In reality, to reduce their costs and thus maximize revenue, many strategic workers do not perform their sensing tasks honestly and report fake data to the platform. So, it is very hard for the platform to evaluate the authenticity of the received data. In this paper, an incentive mechanism named Semi-supervision based Combinatorial Multi-Armed Bandit reverse Auction (SCMABA) is proposed to solve the recruitment problem of multiple unknown and strategic workers in MCS. First, we model the worker recruitment as a multi-armed bandit reverse auction problem, and design an UCB-based algorithm to separate the exploration and exploitation, considering the Sensing Rates (SRs) of recruited workers as the gain of the bandit. Next, a Semi-supervised Sensing Rate Learning (SSRL) approach is proposed to quickly and accurately obtain the workers' SRs, which consists of two phases, supervision and self-supervision. Last, SCMABA is designed organically combining the SRs acquisition mechanism with multi-armed bandit reverse auction, where supervised SR learning is used in the exploration, and the self-supervised one is used in the exploitation. We prove that our SCMABA achieves truthfulness and individual rationality. Additionally, we exhibit outstanding performances of the SCMABA mechanism through in-depth simulations of real-world data traces.
翻訳日:2023-01-29 13:49:32 公開日:2023-01-17
# Certified-GANとNeural Architecture Searchを用いた発作性心房細動の高精度検出

Accurate Detection of Paroxysmal Atrial Fibrillation with Certified-GAN and Neural Architecture Search ( http://arxiv.org/abs/2301.10173v1 )

ライセンス: Link先を確認
Mehdi Asadi and Fatemeh Poursalim and Mohammad Loni and Masoud Daneshtalab and Mikael Sj\"odin and Arash Gharehbaghi(参考訳) 本稿では,心電図(ecg)の病的特徴である発作性心房細動(pxaf)を検出するための新しい機械学習フレームワークを提案する。 学習プロセスを強化するため、データ準備と分類器最適化フェーズにおいて、GAN(Generative Adversarial Network)とNAS(Neural Architecture Search)が組み込まれている。 GANは、PxAFクラス用の合成ECGを認定方法で生成することにより、トレーニングデータのクラス不均衡を克服するために革新的に呼び出される。 認定ganの効果は統計的に検証される。 汎用分類器を使う代わりに、NASはPxAF分類タスク用にカスタマイズされた高精度な畳み込みニューラルネットワークアーキテクチャを自動設計する。 実験の結果,提案手法の精度は99%で,最大5.1%向上しただけでなく,広く認識されている2つのベースライン法であるresnet-18とauto-sklearnの分類性能を2.2%,6.1%向上させた。

This paper presents a novel machine learning framework for detecting Paroxysmal Atrial Fibrillation (PxAF), a pathological characteristic of Electrocardiogram (ECG) that can lead to fatal conditions such as heart attack. To enhance the learning process, the framework involves a Generative Adversarial Network (GAN) along with a Neural Architecture Search (NAS) in the data preparation and classifier optimization phases. The GAN is innovatively invoked to overcome the class imbalance of the training data by producing the synthetic ECG for PxAF class in a certified manner. The effect of the certified GAN is statistically validated. Instead of using a general-purpose classifier, the NAS automatically designs a highly accurate convolutional neural network architecture customized for the PxAF classification task. Experimental results show that the accuracy of the proposed framework exhibits a high value of 99% which not only enhances state-of-the-art by up to 5.1%, but also improves the classification performance of the two widely-accepted baseline methods, ResNet-18, and Auto-Sklearn, by 2.2% and 6.1%.
翻訳日:2023-01-29 13:32:49 公開日:2023-01-17
# 市場変化予測のための視覚言語モデルの利用

Leveraging Vision-Language Models for Granular Market Change Prediction ( http://arxiv.org/abs/2301.10166v1 )

ライセンス: Link先を確認
Christopher Wimmer, Navid Rekabsaz(参考訳) 歴史的データを用いた株式市場の将来方向の予測は、金融予測の基本的な要素となっている。 この履歴データには、開店、閉店、最低値、最高値など、特定の期間ごとの在庫の情報が含まれている。 このデータを活用することで、長期記憶ネットワークのような様々な時系列モデルを用いて、市場の将来的な方向性を予測できる。 本稿では,最近導入されたビジョンランゲージモデルで処理されたストックデータの画像およびバイト単位の数値表現を利用して,市場の動きのモデル化と予測を行う。 我々は、ドイツ株指数の時間毎の株価データに関する大規模な実験を行い、過去の株価データを用いて株価予測の様々なアーキテクチャを評価した。 様々な指標を用いて総合的な評価を行い、様々な手法の実際の性能を正確に表現する。 評価の結果,ストックデータのテキスト(バイト)表現に基づく新しい手法が,画像の深層学習ベースラインを著しく上回ることがわかった。

Predicting future direction of stock markets using the historical data has been a fundamental component in financial forecasting. This historical data contains the information of a stock in each specific time span, such as the opening, closing, lowest, and highest price. Leveraging this data, the future direction of the market is commonly predicted using various time-series models such as Long-Short Term Memory networks. This work proposes modeling and predicting market movements with a fundamentally new approach, namely by utilizing image and byte-based number representation of the stock data processed with the recently introduced Vision-Language models. We conduct a large set of experiments on the hourly stock data of the German share index and evaluate various architectures on stock price prediction using historical stock data. We conduct a comprehensive evaluation of the results with various metrics to accurately depict the actual performance of various approaches. Our evaluation results show that our novel approach based on representation of stock data as text (bytes) and image significantly outperforms strong deep learning-based baselines.
翻訳日:2023-01-29 13:31:18 公開日:2023-01-17
# センサ強化クイックドリューの配向に基づくスポーツクライミングにおける下降検出

Lowering Detection in Sport Climbing Based on Orientation of the Sensor Enhanced Quickdraw ( http://arxiv.org/abs/2301.10164v1 )

ライセンス: Link先を確認
Sadaf Moaveninejad, Andrea Janes(参考訳) 登山者の活動を追跡してサービスを改善し、インフラを最大限に活用することは、登山ジムの関心事である。 各クライミングセッションは、登山者の開始から下降まで分析されなければならない。 したがって、上昇がいつ終わるかを示すため、下降する登山者を見つけることが重要である。 この問題は登山者のプライバシーと利便性とジムの費用を保ちながら対処しなければならない。 この目的のために,クライミングロープをボルトアンカーに接続するクイックドリューと呼ばれる壁に取り付けられたクライミング機器に取り付けられた加速度センサを用いて,データを収集するハードウェアプロトタイプを開発した。 対応するセンサはエネルギー効率がよいように構成されており、登山ジムで大量に使用する場合の費用や代替の時間消費の観点から実用的になる。 本稿では、ハードウェア仕様、超低電力モードでセンサが測定したデータ、異なる経路におけるセンサの向きパターンを検出し、低電力モードを特定するための教師ありアプローチを開発する。

Tracking climbers' activity to improve services and make the best use of their infrastructure is a concern for climbing gyms. Each climbing session must be analyzed from beginning till lowering of the climber. Therefore, spotting the climbers descending is crucial since it indicates when the ascent has come to an end. This problem must be addressed while preserving privacy and convenience of the climbers and the costs of the gyms. To this aim, a hardware prototype is developed to collect data using accelerometer sensors attached to a piece of climbing equipment mounted on the wall, called quickdraw, that connects the climbing rope to the bolt anchors. The corresponding sensors are configured to be energy-efficient, hence become practical in terms of expenses and time consumption for replacement when using in large quantity in a climbing gym. This paper describes hardware specifications, studies data measured by the sensors in ultra-low power mode, detect sensors' orientation patterns during lowering different routes, and develop an supervised approach to identify lowering.
翻訳日:2023-01-29 13:31:02 公開日:2023-01-17
# マルチソース受動センシングデータによる睡眠行動認識と特性評価

Sleep Activity Recognition and Characterization from Multi-Source Passively Sensed Data ( http://arxiv.org/abs/2301.10156v1 )

ライセンス: Link先を確認
Mar\'ia Mart\'inez-Garc\'ia, Fernando Moreno-Pino, Pablo M. Olmos, Antonio Art\'es-Rodr\'iguez(参考訳) 睡眠は、人間の健康、パフォーマンス、生活の質の鍵となる指標である。 睡眠不足は、様々な精神・代謝障害の発症、発達、悪化に長く関係しており、異なる健康状態の予防、評価、治療に不可欠なマーカーとなっている。 睡眠行動認識法は、被験者の睡眠覚醒サイクルを評価し、監視し、特徴付けし、行動変化を検出する指標を提供することができる。 本研究では,スマートフォンから受動的に検出されたデータを継続的に操作し,睡眠を特徴付け,有意な睡眠エピソードを識別する一般的な手法を提案する。 これらのデバイスは、通常、侵入的および主観的手順に依存する伝統的な睡眠評価方法とは対照的に、連続的で客観的で非侵襲的な方法で被験者の生体リズムをプロファイルするための優れた代替データ源となっている。 不均一隠れマルコフモデルを用いて、睡眠活動認識タスクに関連する離散潜伏変動過程を自己監督的にモデル化する。 本研究は,テストウェアラブルが報告した睡眠測定値について検証し,提案手法の有効性を実証し,信頼性の高い情報源のない睡眠評価に用いることを提唱する。

Sleep constitutes a key indicator of human health, performance, and quality of life. Sleep deprivation has long been related to the onset, development, and worsening of several mental and metabolic disorders, constituting an essential marker for preventing, evaluating, and treating different health conditions. Sleep Activity Recognition methods can provide indicators to assess, monitor, and characterize subjects' sleep-wake cycles and detect behavioral changes. In this work, we propose a general method that continuously operates on passively sensed data from smartphones to characterize sleep and identify significant sleep episodes. Thanks to their ubiquity, these devices constitute an excellent alternative data source to profile subjects' biorhythms in a continuous, objective, and non-invasive manner, in contrast to traditional sleep assessment methods that usually rely on intrusive and subjective procedures. A Heterogeneous Hidden Markov Model is used to model a discrete latent variable process associated with the Sleep Activity Recognition task in a self-supervised way. We validate our results against sleep metrics reported by tested wearables, proving the effectiveness of the proposed approach and advocating its use to assess sleep without more reliable sources.
翻訳日:2023-01-29 13:30:27 公開日:2023-01-17
# 量子加速因果トモグラフィ:バイオインフォマティクスとアギへの応用のための回路検討

Quantum Accelerated Causal Tomography: Circuit Considerations For Applications In Bioinformatics and AGI ( http://arxiv.org/abs/2209.02016v3 )

ライセンス: Link先を確認
Tamal Acharya, Akash Kundu, Aritra Sarkar(参考訳) 本研究では,因果推論を加速するために量子コンピューティングアルゴリズムを研究する。 具体的には,[nat. commun. 10, 1472 (2019)]で提示された実用シナリオのための因果仮説テストの定式化を拡張する。 実装可能なアルゴリズムを用いて,先行研究で導入された誤差確率が修正を必要とすることを示す。 IBM Qiskit上でのスケーラブルな量子ゲートベースのアルゴリズムとして,理論記述に続く実践シナリオを構築した。 我々は,因果仮説を組み込んだオラクルの回路構成と関連するゲート複合体を評価する。 さらに,シミュレータプラットフォームを用いた実験により,予測速度の検証が可能となった。 本稿では,バイオインフォマティクスと人工知能における因果推論の応用について論じる。

In this work, we study quantum computing algorithms for accelerating causal inference. Specifically, we extend the formulation of causal hypothesis testing presented in [Nat. Commun. 10, 1472 (2019)] for practical scenarios. Through an implementable algorithm, we show that the error probability introduced in the previous work requires modification. The practical scenario which is followed by a theoretical description is constructed as a scalable quantum gate-based algorithm on IBM Qiskit. We present the circuit construction of the oracle embedding the causal hypothesis and assess the associated gate complexities. Additionally, our experiments on a simulator platform validate the predicted speedup. We discuss applications of this framework for causal inference use cases in bioinformatics and artificial general intelligence.
翻訳日:2023-01-27 20:58:17 公開日:2023-01-17
# ボソニックガウスチャネルにおける主要化ラダー

Majorization ladder in bosonic Gaussian channels ( http://arxiv.org/abs/2209.08384v2 )

ライセンス: Link先を確認
Zacharie Van Herstraeten, Michael G. Jabbour, Nicolas J. Cerf(参考訳) すなわち、$n\text{th}$ energy eigenstate (Fock state) から生じるチャネル出力が$(n\!)から生じるチャネル出力を最大化することを示す。 +\! 1)\text{th}$ energy eigenstate (Fock state)。 これは、チャネルの入力におけるエネルギーと、その出力における障害関係との間の顕著な関係を、偏化理論によって捉えたものである。 この結果は、以前は純損失チャネルと量子制限増幅器の特別なケースで知られており、ここでは任意の単モード位相共変(あるいは-共変)ボソニックガウスチャネルへの非自明な一般化を達成している。 この証明の鍵は、入力で続く2つのフォック状態に対するチャネルの出力を関連付けるコラム・スタキスティック行列の明示的な構成である。 これは、ガウスユニタリー(M. G. Jabbour と N. J. Cerf, Phys. Rev. Research 3, 043065 (2021)))の多光子遷移確率に関する最近発見された再帰関係を利用することによって可能となった。 これらの結果の一般化と含意について論じる。

We show the existence of a majorization ladder in bosonic Gaussian channels, that is, we prove that the channel output resulting from the $n\text{th}$ energy eigenstate (Fock state) majorizes the channel output resulting from the $(n\!+\!1)\text{th}$ energy eigenstate (Fock state). This reflects a remarkable link between the energy at the input of the channel and a disorder relation at its output as captured by majorization theory. This result was previously known in the special cases of a pure-loss channel and quantum-limited amplifier, and we achieve here its nontrivial generalization to any single-mode phase-covariant (or -contravariant) bosonic Gaussian channel. The key to our proof is the explicit construction of a column-stochastic matrix that relates the outputs of the channel for any two subsequent Fock states at its input. This is made possible by exploiting a recently found recurrence relation on multiphoton transition probabilities for Gaussian unitaries [M. G. Jabbour and N. J. Cerf, Phys. Rev. Research 3, 043065 (2021)]. Possible generalizations and implications of these results are then discussed.
翻訳日:2023-01-26 06:58:24 公開日:2023-01-17
# 重力光学:グラビトン交換による光子-マター絡み合い

Gravitational Optomechanics: Photon-Matter Entanglement via Graviton Exchange ( http://arxiv.org/abs/2209.09273v3 )

ライセンス: Link先を確認
Dripto Biswas, Sougato Bose, Anupam Mazumdar, Marko Toro\v{s}(参考訳) 太陽の重力場における光の偏向は、一般的な相対性理論の最も基本的な結果の1つであり、1世紀前にエディントンが行った古典的な実験の1つである。 しかし、現代物理学における中心的な役割にもかかわらず、物質と光の両方が古典的な特徴を示す量子状態において、実験は行われていない。 この論文は、光曲げを引き起こす相互作用は、重力や物質が量子力学と同等に扱われる限り、光子と物質の絡み合いも引き起こすことを示す。 摂動的量子重力の枠組みにおける量子光-曲げ相互作用は、この点を強調し、この絡み合った状態が、重力子交換によって誘導される非線形結合を利用した光と物質のコヒーレントな状態で既に生成可能であることを示した。 さらに、量子光曲げ相互作用はスピン-2とスピン-0グラビトンを区別することができるため、短距離および量子レベルでの重力の代替理論のテストも提供する。 線形エントロピーを用いて生じるエンタングルメントの等級を推定して結論付ける。 特に、半径0.25$mのリング空洞が150ドルHz(0.1ドルHz)で作動する10ドルkgの機械振動子の周りに置かれており、光波長のペタワット(メガワット)レーザー源を用いて順序ユニトロピーの線形エントロピーを生成することができる。

The deflection of light in the gravitational field of the Sun is one of the most fundamental consequences for general relativity as well as one of its classical tests first performed by Eddington a century ago. However, despite its center stage role in modern physics, no experiment has tested it in an ostensibly quantum regime where both matter and light exhibit non-classical features. This paper shows that the interaction which gives rise to the light-bending also induces photon-matter entanglement as long as gravity and matter are treated at par with quantum mechanics. The quantum light-bending interaction within the framework of perturbative quantum gravity highlights this point by showing that the entangled states can be generated already with coherent states of light and matter exploiting the non-linear coupling induced by graviton exchange. Furthermore, the quantum light-bending interaction is capable of discerning between the spin-2 and spin-0 gravitons thus also providing a test for alternative theories of gravity at short distances and at the quantum level. We will conclude by estimating the order of magnitude of the entanglement generated by employing the linear entropy. In particular, we find that a ring cavity of radius $0.25$ m placed around a $10$ kg mechanical oscillator operating at $150$ Hz ($0.1$ Hz), could be used to generate linear entropy of order unity using a petawatt (megawatt) laser source at optical wavelengths.
翻訳日:2023-01-26 02:05:15 公開日:2023-01-17
# 量子コンピューティングによる支払システムの効率化

Improving the Efficiency of Payments Systems Using Quantum Computing ( http://arxiv.org/abs/2209.15392v3 )

ライセンス: Link先を確認
Christopher McMahon and Donald McGillivray and Ajit Desai and Francisco Rivadeneyra and Jean-Paul Lam and Thomas Lo and Danica Marsden and Vladimir Skavysh(参考訳) 高価値支払いシステム(hvpss)は通常、支払い要求が細分化され、総じて決済されるため流動性が高い。 これらのシステムの流動性効率を最大化するために支払いを処理すべき正しい順序を見つけることは、np$-hard combinatorial optimization問題であり、量子アルゴリズムは有意義なスケールで対処できるかもしれない。 そこで我々はアルゴリズムを開発し,それをハイブリッド量子アニール解法で実行し,支払い遅延を大幅に増大させることなくシステム流動性を低下させる支払いの順序を求める。 今日の量子コンピュータのサイズと速度の制限にもかかわらず、我々のアルゴリズムは30日間のトランザクションデータのサンプルを使用してカナダのHVPSに適用した場合、定量的な効率の改善を提供した。 70の支払いのバッチを順番に並べ替えることで、平均で1日あたりの流動性貯蓄額が2億4000万ドルに達し、決済遅延は約90秒になった。 サンプルの数日の間、流動性の貯蓄は10億ドルを超えた。 このアルゴリズムは、リスク管理モデルに根本的な変更を加えることなく、既存のHVPSに集中型プリプロセッサとして組み込むことができる。

High-value payment systems (HVPSs) are typically liquidity-intensive as the payment requests are indivisible and settled on a gross basis. Finding the right order in which payments should be processed to maximize the liquidity efficiency of these systems is an $NP$-hard combinatorial optimization problem, which quantum algorithms may be able to tackle at meaningful scales. We developed an algorithm and ran it on a hybrid quantum annealing solver to find an ordering of payments that reduced the amount of system liquidity necessary without substantially increasing payment delays. Despite the limitations in size and speed of today's quantum computers, our algorithm provided quantifiable efficiency improvements when applied to the Canadian HVPS using a 30-day sample of transaction data. By reordering each batch of 70 payments as they entered the queue, we achieved an average of C\$240 million in daily liquidity savings, with a settlement delay of approximately 90 seconds. For a few days in the sample, the liquidity savings exceeded C\$1 billion. This algorithm could be incorporated as a centralized preprocessor into existing HVPS without entailing a fundamental change to their risk management models.
翻訳日:2023-01-26 01:56:41 公開日:2023-01-17
# 中性ネオジムの分光知識の向上

Improving the spectroscopic knowledge of neutral Neodymium ( http://arxiv.org/abs/2209.15479v3 )

ライセンス: Link先を確認
Gohar Hovhannesyan, Maxence Lepers(参考訳) ランタニドのレーザー冷却とトラップは、例えば固体物理学の量子シミュレーションのように、超低温の双極子気体による新しい実験を行う可能性を開く。 レーザー冷却に適した新しい候補を特定するためには、原子の正確な分光学的知識を考慮に入れることが重要である。 この方向に沿って、ランタニド列の左部分に属する元素である中性ネオジム(Nd)のエネルギー準位を詳細にモデル化する。 コーワンのコードスイートに実装された半経験的手法を用いて、我々は特に、両方のパリティに属するNISTデータベースの200以上の実験レベルを解釈することができる。 最小二乗フィッティングステップ後に得られる原子パラメータの最適セットは、将来の放射遷移確率を計算するのに役立つ。

Laser cooling and trapping of lanthanides has opened the possibility to carry out new experiments with ultracold dipolar gases, for example for quantum simulation of solid state physics. To identify new suitable candidates for laser-cooling, it is important to have a precise spectroscopic knowledge of the atom under consideration. Along this direction, we present here a detailed modeling of the energy levels of neutral neodymium (Nd), an element belonging to the left part of the lanthanide row, which has not yet been considered for laser-cooling. Using the semi-empirical method implemented in the Cowan suite of codes, we are in particular able to interpret more than 200 experimental levels of the NIST database belonging to both parities. The optimal set of atomic parameters obtained after the least-square fitting step can serve to calculate radiative transition probabilities in the future.
翻訳日:2023-01-24 07:39:35 公開日:2023-01-17
# マルチキュービットゲートのベンチマーク --i:metrological aspects

Benchmarking multi-qubit gates -- I: Metrological aspects ( http://arxiv.org/abs/2210.04330v2 )

ライセンス: Link先を確認
Bharath Hebbe Madhusudhana(参考訳) 大規模量子システムの正確かつ正確な制御は、量子デバイスにおいて実用的な利点を達成するために最重要である。 そのため、近年、量子コンピュータにおけるハードウェアエラーのベンチマークが注目されている。 既存のデジタル量子コンピュータのベンチマークでは、大規模な量子回路上でのグローバル忠実度を平均化し、そのためアナログ量子演算で使用される特定のマルチキュービットゲートには適さない。 さらに、平均的グローバル忠実度は、局所観測可能な多体物理学の研究など、マルチキュービットゲートやアナログデバイスに特有の応用のいくつかに最適ではない。 本稿では,演算の縮小したChoi行列に基づいて,マルチキュービット量子ゲートに適した新しい乗算器を開発する。 まず、削減されたChoi行列を完全に特徴付ける、効率的でスケーラブルなプロトコルを開発する。 縮小されたチョイ行列の測定においてサンプリング誤差の2つの源を同定し、標準量子極限とハイゼンベルク極限に類似したサンプリング誤差の収束率に根本的な制限が存在することを示す。 サンプリングエラーの緩やかな収束速度は、多数の実験ショットを必要とすることを意味します。 本研究では, 状態形成時のサンプリング誤差の収束率を早めるために, 量子情報スクランブルを用いたプロトコルを開発するとともに, 測定時のサンプリング誤差の収束率を高めるために, 圧縮および絡み合い初期状態を用いたプロトコルを開発し, メロジカルに拡張されたプロセストモグラフィプロトコルを実現する。

Accurate and precise control of large quantum systems is paramount to achieve practical advantages on quantum devices. Therefore, benchmarking the hardware errors in quantum computers has drawn significant attention lately. Existing benchmarks for digital quantum computers involve averaging the global fidelity over a large set of quantum circuits and are therefore unsuitable for specific multi-qubit gates used in analog quantum operations. Moreover, average global fidelity is not the optimal figure-of-merit for some of the applications specific to multi-qubit gates and analog devices , such as the study of many-body physics, which often use local observables. In this two-part paper, we develop a new figure-of-merit suitable for multi-qubit quantum gates based on the reduced Choi matrix of the operation. In the first part, we develop an efficient, scalable protocol to completely characterize the reduced Choi matrix. We identify two sources of sampling errors in measurements of the reduced Choi matrix and we show that there are fundamental limits to the rate of convergence of the sampling errors, analogous to the standard quantum limit and Heisenberg limit. A slow convergence rate of sampling errors would mean that we need a large number of experimental shots. We develop protocols using quantum information scrambling, which has been observed in disordered systems for e.g., to speed up the rate of convergence of the sampling error at state preparation Moreover, we develop protocols using squeezed and entangled initial states to enhance the convergence rate of the sampling error at measurement, which results in a metrologically enhanced reduced process tomography protocol.
翻訳日:2023-01-23 03:26:04 公開日:2023-01-17
# 量子エントロピーのマトリックス凸性と強部分付加性について

Ruminations on Matrix Convexity and the Strong Subadditivity of Quantum Entropy ( http://arxiv.org/abs/2210.10729v4 )

ライセンス: Link先を確認
Michael Aizenman and Giorgio Cipolloni(参考訳) レゾルベント計算と組み合わせた凸性に関する馴染みのある第二導関数検定は、凸行列値関数の研究に有用なツールであることが示されている。 この分野における多くの定理に対するこのアプローチの適用性を示す。 これらは、リーブ・ルスカイの量子エントロピーの強い部分付加性の証明において重要な役割を果たす凸原理を含む。

The familiar second derivative test for convexity, combined with resolvent calculus, is shown to yield a useful tool for the study of convex matrix-valued functions. We demonstrate the applicability of this approach on a number of theorems in this field. These include convexity principles which play an essential role in the Lieb-Ruskai proof of the strong subadditivity of quantum entropy.
翻訳日:2023-01-22 01:35:00 公開日:2023-01-17
# ジョセフソンパラメトリック発振器のノイズ特性

Noise properties of a Josephson parametric oscillator ( http://arxiv.org/abs/2210.15116v2 )

ライセンス: Link先を確認
Gopika Lakshmi Bhai, Hiroto Mukai, Tsuyoshi Yamamoto and Jaw-Shen Tsai(参考訳) マイクロ波ホモダイン干渉測定方式を用いてジョセフソンパラメトリック発振器(JPO)の雑音分光を行う。 単発計測において, JPOの自励出力場の変動を10秒間隔で観測し, 位相と振幅雑音を特徴付ける。 さらに, ポンプ強度がJPOの出力雑音パワースペクトルに及ぼす影響について検討した。 その結果, 位相雑音パワースペクトルの1/f^2$特性を有する位相変動が強く, ポンプ強度の増加により抑制されることがわかった。

We perform the noise spectroscopy of a Josephson parametric oscillator (JPO) by implementing a microwave homodyne interferometric measurement scheme. We observe the fluctuations in the self-oscillating output field of the JPO for a long 10 s time interval in a single shot measurement and characterize the phase and amplitude noise. Furthermore, we investigate the effects of the pump strength on the output noise power spectra of the JPO. We found strong fluctuations in the phase with a $1/f^2$ characteristics in the phase noise power spectrum, which is suppressed by increasing the pump strength.
翻訳日:2023-01-21 08:27:36 公開日:2023-01-17
# EPiC-GAN: 粒子噴流の同変点雲生成

EPiC-GAN: Equivariant Point Cloud Generation for Particle Jets ( http://arxiv.org/abs/2301.08128v1 )

ライセンス: Link先を確認
Erik Buhmann, Gregor Kasieczka, Jesse Thaler(参考訳) 現在および将来の高エネルギーコライダー実験の膨大なデータ収集能力により、計算効率のよいシミュレーションへの需要が高まっている。 生成機械学習モデルは、高速なイベント生成を可能にするが、今のところこれらのアプローチは、固定データ構造と固い検出器ジオメトリに大きく制約されている。 本稿では, EPiC-GAN - 同変点雲生成対数ネットワーク - を導入し, 可変多重性を持つ点雲を生成する。 この柔軟な枠組みは深層集合に基づいており、ジェットと呼ばれる粒子の噴霧をシミュレートするのに適している。 ジェネレータと判別器は、解釈可能なグローバル潜在ベクトルを持つ複数のEPiC層を利用する。 重要なことに、EPiC層は粒子間の情報共有に頼らず、より複雑な関係図を持つグラフおよびトランスフォーマーベースのアプローチよりも大幅にスピードアップする。 我々は, EPiC-GAN が大規模粒子乗数によく対応し, ベンチマークジェット生成タスクにおける高次忠実度を実現することを実証した。

With the vast data-collecting capabilities of current and future high-energy collider experiments, there is an increasing demand for computationally efficient simulations. Generative machine learning models enable fast event generation, yet so far these approaches are largely constrained to fixed data structures and rigid detector geometries. In this paper, we introduce EPiC-GAN - equivariant point cloud generative adversarial network - which can produce point clouds of variable multiplicity. This flexible framework is based on deep sets and is well suited for simulating sprays of particles called jets. The generator and discriminator utilize multiple EPiC layers with an interpretable global latent vector. Crucially, the EPiC layers do not rely on pairwise information sharing between particles, which leads to a significant speed-up over graph- and transformer-based approaches with more complex relation diagrams. We demonstrate that EPiC-GAN scales well to large particle multiplicities and achieves high generation fidelity on benchmark jet generation tasks.
翻訳日:2023-01-20 14:50:32 公開日:2023-01-17
# 協調型ヒューマンAIタスクのためのユーザ中心戦略推薦システムの設計に向けて

Towards the design of user-centric strategy recommendation systems for collaborative Human-AI tasks ( http://arxiv.org/abs/2301.08144v1 )

ライセンス: Link先を確認
Lakshita Dodeja, Pradyumna Tambwekar, Erin Hedlund-Botti, Matthew Gombolay(参考訳) 人工知能は、捜索や救助、製造などの複雑なタスクを協調的に解決するために、人間が採用している。 効率的なチームワークは、ユーザの好みを理解し、特定のタスクを解決するためのさまざまな戦略を推奨することで実現できます。 以前の仕事は、eコマースやソーシャルネットワークの文脈において、比較的よく理解されているタスクのためのレコメンデーションシステムのパーソナライズに焦点を当てていた。 本稿では,意思決定のためのユーザ中心戦略レコメンデーションシステムの設計において考慮すべき重要な要素について考察する。 異なるパーソナリティタイプを持つユーザの戦略推薦システムに対する好みを測定するためのヒューマン・サブジェクション実験(n=60)を行った。 本研究は,(1)単一戦略勧告,(2)類似した複数の勧告,(3)多種多様な勧告,(4)すべての可能な戦略勧告の4種類の戦略勧告にまたがって実施した。 これらの戦略レコメンデーションスキームは,従来から独立して検討されてきたが,戦略レコメンデーションの文脈において,これら全てを同時に活用することで,異なる戦略レコメンデーションシステムに対する認識の深い概要を提供することができる。 ある種の性格特性、例えば良心性は、特定の種類のシステムに対する嗜好に特に影響を与えている(p < 0.01)。 最後に、ユーザビリティ、アライメント、知覚インテリジェンスとの興味深い関係を報告し、リコメンデーションのアライメントが自分の好みとより高い認知インテリジェンス(p < 0.01)と高いユーザビリティ(p < 0.01)に繋がることを示した。

Artificial Intelligence is being employed by humans to collaboratively solve complicated tasks for search and rescue, manufacturing, etc. Efficient teamwork can be achieved by understanding user preferences and recommending different strategies for solving the particular task to humans. Prior work has focused on personalization of recommendation systems for relatively well-understood tasks in the context of e-commerce or social networks. In this paper, we seek to understand the important factors to consider while designing user-centric strategy recommendation systems for decision-making. We conducted a human-subjects experiment (n=60) for measuring the preferences of users with different personality types towards different strategy recommendation systems. We conducted our experiment across four types of strategy recommendation modalities that have been established in prior work: (1) Single strategy recommendation, (2) Multiple similar recommendations, (3) Multiple diverse recommendations, (4) All possible strategies recommendations. While these strategy recommendation schemes have been explored independently in prior work, our study is novel in that we employ all of them simultaneously and in the context of strategy recommendations, to provide us an in-depth overview of the perception of different strategy recommendation systems. We found that certain personality traits, such as conscientiousness, notably impact the preference towards a particular type of system (p < 0.01). Finally, we report an interesting relationship between usability, alignment and perceived intelligence wherein greater perceived alignment of recommendations with one's own preferences leads to higher perceived intelligence (p < 0.01) and higher usability (p < 0.01).
翻訳日:2023-01-20 14:39:01 公開日:2023-01-17
# 量子力学における非エルミートハミルトン変形

Non-Hermitian Hamiltonian Deformations in Quantum Mechanics ( http://arxiv.org/abs/2211.05437v2 )

ライセンス: Link先を確認
Apollonas S. Matsoukas-Roubeas, Federico Roccati, Julien Cornelius, Zhenyu Xu, Aurelia Chenu, Adolfo del Campo(参考訳) 量子力学における積分可能な$T\bar{T}$変形と関連するハミルトン変形を考慮し、正確に解けるモデルの構築が最近進んでいる。 我々は、非相対論的設定において、非エルミートハミルトン変形のより広いクラスを導入し、例えば、量子ジャンプの欠如に条件付けられた任意のマルコフ進化を含む、広い種類のオープン量子システムを記述する。 我々は、時間発展作用素と時間進化密度行列を、特定のカーネルを持つ積分変換の観点から非変形および変形理論に関連付ける。 非エルミートハミルトン変形は、時間発展の追跡に用いられる実時計の時間維持誤差から量子系で生じるエネルギー拡散の記述に自然に現れる。 後者は逆の$T\bar{T}$変形と純粋に虚変形パラメータを関連付けることができることを示す。 この場合、積分変換は、初期状態がコヒーレントギブス状態または熱場二重状態であるときに特に単純な形式を取る。 量子系の散逸進化は、リウヴィル空間において便利に説明できるので、さらに、リウヴィリアンのスペクトル特性、すなわち変形した理論に関連する動的生成子について論じる。 本稿では,ランダム行列ハミルトニアンの非エルミート変形とsachdev-ye-kitaevモデルにおけるデコヒーレンスと量子カオスの相互作用について考察する。

The construction of exactly-solvable models has recently been advanced by considering integrable $T\bar{T}$ deformations and related Hamiltonian deformations in quantum mechanics. We introduce a broader class of non-Hermitian Hamiltonian deformations in a nonrelativistic setting, to account for the description of a large class of open quantum systems, which includes, e.g., arbitrary Markovian evolutions conditioned to the absence of quantum jumps. We relate the time evolution operator and the time-evolving density matrix in the undeformed and deformed theories in terms of integral transforms with a specific kernel. Non-Hermitian Hamiltonian deformations naturally arise in the description of energy diffusion that emerges in quantum systems from time-keeping errors in a real clock used to track time evolution. We show that the latter can be related to an inverse $T\bar{T}$ deformation with a purely imaginary deformation parameter. In this case, the integral transforms take a particularly simple form when the initial state is a coherent Gibbs state or a thermofield double state, as we illustrate by characterizing the purity, R\'enyi entropies, logarithmic negativity, and the spectral form factor. As the dissipative evolution of a quantum system can be conveniently described in Liouville space, we further discuss the spectral properties of the Liouvillians, i.e., the dynamical generators associated with the deformed theories. As an application, we discuss the interplay between decoherence and quantum chaos in non-Hermitian deformations of random matrix Hamiltonians and the Sachdev-Ye-Kitaev model.
翻訳日:2023-01-19 19:43:22 公開日:2023-01-17
# kagome rydberg原子配列における創発的ガラス状挙動

Emergent glassy behavior in a kagome Rydberg atom array ( http://arxiv.org/abs/2301.07127v1 )

ライセンス: Link先を確認
Zheng Yan, Yan-Cheng Wang, Rhine Samajdar, Subir Sachdev, and Zi Yang Meng(参考訳) 我々は,カゴメ格子Rydberg原子アレイの現実的ハミルトニアン上での大規模量子モンテカルロシミュレーション結果を示す。 本システムには本態性障害はないが, 興味深いことに, 2つの原子価結合固体相の間に位置するパラメータ空間の領域において, 大規模システムサイズにおける静的および動的特性の解析を行った。 このガラス状領域の範囲はエドワーズ=アンダーソン秩序パラメータを用いて境界づけられ、その相転移は2つの近位価結合固体(英語版)、および自明な常磁性相への交差が同定される。 我々は、ガラス相の奥深くで本質的に遅い(想像上の)時間ダイナミクスを実証し、ほとんど縮退した局所最小値の量子乱れ位相を検出するための実験的考察を議論する。 提案手法は, 実時間ガラス現象の研究への新たな経路を開拓し, 現行のリドバーグプラットフォームにおける固体や液体以外の量子物質の相の量子シミュレーションの可能性を強調した。

We present large-scale quantum Monte Carlo simulation results on a realistic Hamiltonian of kagome-lattice Rydberg atom arrays. Although the system has no intrinsic disorder, intriguingly, our analyses of static and dynamic properties on large system sizes reveal \textit{emergent} glassy behavior in a region of parameter space located between two valence bond solid phases. The extent of this glassy region is demarcated using the Edwards-Anderson order parameter, and its phase transitions to the two proximate valence bond solids -- as well as the crossover towards a trivial paramagnetic phase -- are identified. We demonstrate the intrinsically slow (imaginary) time dynamics deep inside the glassy phase and discuss experimental considerations for detecting such a quantum disordered phase with numerous nearly degenerate local minima. Our proposal paves a new route to the study of real-time glassy phenomena and highlights the potential for quantum simulation of a distinct phase of quantum matter beyond solids and liquids in current-generation Rydberg platforms.
翻訳日:2023-01-19 17:42:07 公開日:2023-01-17
# 量子コンピュータ上の量子軌道の熱力学

Thermodynamics of quantum trajectories on a quantum computer ( http://arxiv.org/abs/2301.07124v1 )

ライセンス: Link先を確認
Marcel Cech, Igor Lesanovsky, Federico Carollo(参考訳) 量子コンピュータは最近、ノイズの多い中間スケール量子デバイスとして利用可能になった。 これらの機械はすでに量子システムや力学の研究に有用な環境を生み出している。 この機会を生かし、興味あるシステムをアンシラに結合することで量子コンピュータ上でシミュレートされるオープンシステムダイナミクスについて検討する。 各相互作用の後、アンシラは測定され、測定のシーケンスは量子軌道を定義する。 マイクロ状態として軌道を識別する熱力学的アナロジーを用いて,量子軌道と望ましい特性,例えば特定のパターンや時間相関の確率を高めるために,開システムのダイナミクスを制御する方法を示す。 このような偏りのある(一般に非マルコフ的)ダイナミクスがユニタリなゲートベースの量子コンピュータにどのように実装され、公開アクセス可能な \texttt{ibm\_oslo} マシン上で原理実証結果を示すかについて議論する。 本研究は小型システムのみを対象として行われるが,デジタル量子コンピュータ上でのオープンシステムのダイナミクスの複雑な側面を制御する上での課題を浮き彫りにする。

Quantum computers have recently become available as noisy intermediate-scale quantum devices. Already these machines yield a useful environment for research on quantum systems and dynamics. Building on this opportunity, we investigate open-system dynamics that are simulated on a quantum computer by coupling a system of interest to an ancilla. After each interaction the ancilla is measured and the sequence of measurements defines a quantum trajectory. Using a thermodynamic analogy, which identifies trajectories as microstates, we show how to control the dynamics of the open system in order to enhance the probability of quantum trajectories with desired properties, e.g., particular patterns or temporal correlations. We discuss how such biased -- generally non-Markovian -- dynamics can be implemented on a unitary, gate-based quantum computer and show proof-of-principle results on the publicly accessible \texttt{ibm\_oslo} machine. While our study is solely conducted on small systems, it highlights the challenges in controlling complex aspects of open-system dynamics on digital quantum computers.
翻訳日:2023-01-19 17:41:50 公開日:2023-01-17
# 絡み合いブートストラップからのリモート検出 I:Kirbyのトーラストリック

Remote detectability from entanglement bootstrap I: Kirby's torus trick ( http://arxiv.org/abs/2301.07119v1 )

ライセンス: Link先を確認
Bowen Shi, Jin-Long Huang, John McGreevy(参考訳) リモート検出可能性はしばしば位相秩序系の研究における物理的仮定として捉えられ、位相量子場理論の数学的枠組みの中心的な公理である。 遠距離検出性は必要となる性質である,すなわち定理として導出する,という絡み合いブートストラップのアプローチを導出する。 絡み合うブートストラップ公理を満たす位相的自明な領域上の単一波動関数から始め、閉多様体上の状態を構築することができる。 重要な技術は、曲がりくねった多様体をトポロジカルに自明な領域に浸し、その穴を癒すことである。 これはカービーのトーラスのトリックに似ている。 次にそのような多様体の特別なクラスを分析し、ペア多様体と呼ぶ。 2つの励起のクラスを対にする各ペアリング多様体に対して、位相 s-行列のアナログを同定する。 この対行列はユニタリであり、2種類の励起の間のリモート検出可能性を意味する。 これらの行列は一般に多様体の写像類群に関連付けられない。 副産物として、励起型(例えば、3+1dのグラフ励起)を数えることができる。 ペアリング現象は、異なる次元の系を含む多くの物理的文脈において、ガッピング境界の有無にかかわらず発生する。 その範囲を説明するために、さまざまな例を提供しています。

Remote detectability is often taken as a physical assumption in the study of topologically ordered systems, and it is a central axiom of mathematical frameworks of topological quantum field theories. We show under the entanglement bootstrap approach that remote detectability is a necessary property; that is, we derive it as a theorem. Starting from a single wave function on a topologically-trivial region satisfying the entanglement bootstrap axioms, we can construct states on closed manifolds. The crucial technique is to immerse the punctured manifold into the topologically trivial region and then heal the puncture. This is analogous to Kirby's torus trick. We then analyze a special class of such manifolds, which we call pairing manifolds. For each pairing manifold, which pairs two classes of excitations, we identify an analog of the topological S-matrix. This pairing matrix is unitary, which implies remote detectability between two classes of excitations. These matrices are in general not associated with the mapping class group of the manifold. As a by-product, we can count excitation types (e.g., graph excitations in 3+1d). The pairing phenomenon occurs in many physical contexts, including systems in different dimensions, with or without gapped boundaries. We provide a variety of examples to illustrate its scope.
翻訳日:2023-01-19 17:41:30 公開日:2023-01-17
# マルチキュービットゲートのベンチマーク-II:計算的側面

Benchmarking multi-qubit gates -- II: Computational aspects ( http://arxiv.org/abs/2301.07109v1 )

ライセンス: Link先を確認
Bharath Hebbe Madhusudhana(参考訳) マルチキュービットゲートの開発における重要なステップは、それらのための効率的なベンチマークプロトコルを構築することである。 先程の論文 (arXiv: 2210.04330) では, 縮小されたChoi行列,すなわち, 量子ビットのサブセットS上で誘導される正のCP写像をマルチキュービットゲートで測定するためのメトロジープロトコルを開発した。 ここでは、Choi行列がマルチキュービットユニタリの減少である場合に満足する古典的検証可能な性質の集合を示し、それらをベンチマークの開発に利用する。 我々は,その数学的特性と物理的起源に基づいて,マルチキュービットユニタリの実装に影響を与える3種類の誤差を同定する。 ターゲットのマルチ量子ビットゲートはユニタリ作用素であるが、エラーはそれを一般完全正(cp)写像に変換する。 熱浴とのカップリングによる誤差により、マルチキュービットゲートはCP可変(マルコフアン)となり、ユニタリから逸脱する。 マルチキュービットゲートの縮小チェイ行列は二重確率性(英語版)と呼ばれる性質を持ち、マルコフ誤差の存在によって破られる。 二重確率性違反を用いたベンチマークを構築し, 有限温度における任意の熱浴とのカップリングに敏感であることを示す。 さらに、ショットからショットへのゆらぎによる誤差は、非マルコフ、すなわちcp不可分量子過程をもたらす。 我々は新しい性質を証明し、還元されたChoi行列の \rank 特性(これは CP-可分誤差を意味する)と呼ぶ。 エラーの第3のカテゴリは、マルチキュービットゲートの実装の体系から来ており、ユニタリティーからの逸脱は生じない。 これをユニタリエラーと呼ぶ。 これはベンチマークの最も難しいタイプのエラーに対応する。 応用されるマルチキュービットゲートの対称性を用いた部分ベンチマークプロトコルを開発した。

An important step in developing multi-qubit gates is to construct efficient benchmarking protocols for them. In our previous paper (arXiv: 2210.04330), we developed metrological protocols to measure the reduced Choi matrix i.e., the completely positive (CP) maps induced on a subset S of the qubits, by the multi-qubit gate. Here, we show a set of classically verifiable properties that the Choi matrix satisfies if it is a reduction of a multi-qubit unitary and use them to develop benchmarks. We identify three types of errors that affect the implementation of a multi-qubit unitary, based on their mathematical properties and physical origin. Although a target multi-qubit gate is a unitary operator, errors turn it into a general completely positive (CP) map. Errors due to coupling to a thermal bath result in the multi-qubit gate being a CP-divisible (Markovian), deviating from a unitary. The reduced Choi matrix of a multi-qubit gate has a property known as double stochasticity, which is violated in the presence of Markovian errors. We construct a benchmark using double-stochasticity violation and show that it is sensitive to coupling to any thermal bath at a finite temperature. Further, errors due to shot-to-shot fluctuations result in a non-markovian, i.e., CP-indivisible quantum process. We prove a new property, which we call the \rank property of the reduced Choi matrix, the violation of which implies a CP-indivisible error. A third category of errors comes from systematics in the implementation of a multi-qubit gate, resulting in no deviation from unitarity. We refer to this as unitary errors. This corresponds to the most challenging type of error to benchmark. We develop a partial-benchmarking protocol for such errors using symmetries of the multi-qubit gate being applied.
翻訳日:2023-01-19 17:41:09 公開日:2023-01-17
# ブラウンシックの複雑性による量子誤差補正

Quantum Error Correction from Complexity in Brownian SYK ( http://arxiv.org/abs/2301.07108v1 )

ライセンス: Link先を確認
Vijay Balasubramanian, Arjun Kar, Cathy Li, Onkar Parrikar, Harshit Rajgadia(参考訳) ブラウンSYKモデルにより生成された符号の1パラメータアンサンブルにおける量子誤差補正のロバスト性について検討し,そのパラメータが符号化複雑性を定量化する。 量子コードによる誤り訂正のロバスト性は、コード部分空間とエラーチャネルの等尺拡張における環境の間のある絡み合った状態の「相互純度」によって上限され、密度行列 $\rho_{ab}$ の相互純度は、$\mathcal{f}_\rho (a:b) \equiv \mathrm{tr}\;\rho_{ab}^2\mathrm{tr}\;\rho_a^2\;\mathrm{tr}\;\rho_b^2$である。 エンコーディングの複雑さが小さい場合、少数のキュービット(すなわちエンコーディングは脆弱である)の消去のために相互純度が$o(1)$であることを示す。 しかし、この量は指数関数的に減少し、$o(1/n)$ for $o(\log n)$ encoding complexity となる。 さらに、多項式符号化複雑性において、相互純度は$O(e^{-N})$に飽和する。 また, 符号化複雑性の増加に伴い, 定量的ではあるが定性的ではない相互純度に対する寄与を導出する塔に付随する複雑性尺度の階層化も見いだす。 AdS/CFTの文脈では,エンコーディングの複雑さが十分高い一般境界部分領域$A$の絡み合いは,エンコーディングマップに事前アクセスすることなく,$A$に作用する低ランクエラーに対して堅牢に保護されていることが示唆された。 大まかに見れば、そのような大まかな自由度は、コード化されているにもかかわらず、A$の領域から因果的にアクセスできないと期待している。

We study the robustness of quantum error correction in a one-parameter ensemble of codes generated by the Brownian SYK model, where the parameter quantifies the encoding complexity. The robustness of error correction by a quantum code is upper bounded by the "mutual purity" of a certain entangled state between the code subspace and environment in the isometric extension of the error channel, where the mutual purity of a density matrix $\rho_{AB}$ is the difference $\mathcal{F}_\rho (A:B) \equiv \mathrm{Tr}\;\rho_{AB}^2 - \mathrm{Tr}\;\rho_A^2\;\mathrm{Tr}\;\rho_B^2$. We show that when the encoding complexity is small, the mutual purity is $O(1)$ for the erasure of a small number of qubits (i.e., the encoding is fragile). However, this quantity decays exponentially, becoming $O(1/N)$ for $O(\log N)$ encoding complexity. Further, at polynomial encoding complexity, the mutual purity saturates to a plateau of $O(e^{-N})$. We also find a hierarchy of complexity scales associated to a tower of subleading contributions to the mutual purity that quantitatively, but not qualitatively, adjust our error correction bound as encoding complexity increases. In the AdS/CFT context, our results suggest that any portion of the entanglement wedge of a general boundary subregion $A$ with sufficiently high encoding complexity is robustly protected against low-rank errors acting on $A$ with no prior access to the encoding map. From the bulk point of view, we expect such bulk degrees of freedom to be causally inaccessible from the region $A$ despite being encoded in it.
翻訳日:2023-01-19 17:40:38 公開日:2023-01-17
# 腹膜透析患者に対する適応的特徴量補正による死亡予測--実世界縦断追跡データセットを用いたディープラーニングによる検討

Mortality Prediction with Adaptive Feature Importance Recalibration for Peritoneal Dialysis Patients: a deep-learning-based study on a real-world longitudinal follow-up dataset ( http://arxiv.org/abs/2301.07107v1 )

ライセンス: Link先を確認
Liantao Ma, Chaohe Zhang, Junyi Gao, Xianfeng Jiao, Zhihao Yu, Xinyu Ma, Yasha Wang, Wen Tang, Xinju Zhao, Wenjie Ruan, and Tao Wang(参考訳) 目的:腹膜透析(PD)は末期腎疾患(ESRD)患者において最も広く用いられている生命維持療法の1つである。 エレクトロニック・メディカル・レコード(EMR)で収集された死亡リスクの予測と修正可能なリスク要因の同定は、パーソナライズド・メディカルや早期介入において非常に重要である。 本稿では,リアルタイム,個別化,解釈可能な死亡予測モデル - AICare のためのディープラーニングモデルを開発することを目的とする。 方法と材料:本提案モデルは,マルチチャネル特徴抽出モジュールと適応的特徴重要再調整モジュールから構成される。 AICareは、患者が個別に埋め込まれた健康状態を構築するための結果予測を強く示す重要な特徴を明確に特定する。 本研究は656 PD患者13,091 人の臨床経過と統計データを収集した。 応用の普遍性を検証するため,本研究では,1,363回の血液透析(HD)の4,789回の訪問を,予測性能をテストするための追加実験データセットとして収集した。 結果 1) aicareはpd/hdデータセットにおける1年間の死亡予測タスクに対して81.6%/74.3% aurocと47.2%/32.5% auprcを達成した。 2)本研究は,エンド・ツー・エンドのディープラーニングモデルに基づき,pd患者の死亡原因と臨床特徴との関係を包括的に解明する。 3) 本研究は,まず,組み込み解釈可能性に基づく死亡予測における各特徴の重要性の変動パターンを明らかにする。 4)患者の健康状態とリスク指標の軌跡を可視化する実践的なAI-Doctorインタラクションシステムを開発した。

Objective: Peritoneal Dialysis (PD) is one of the most widely used life-supporting therapies for patients with End-Stage Renal Disease (ESRD). Predicting mortality risk and identifying modifiable risk factors based on the Electronic Medical Records (EMR) collected along with the follow-up visits are of great importance for personalized medicine and early intervention. Here, our objective is to develop a deep learning model for a real-time, individualized, and interpretable mortality prediction model - AICare. Method and Materials: Our proposed model consists of a multi-channel feature extraction module and an adaptive feature importance recalibration module. AICare explicitly identifies the key features that strongly indicate the outcome prediction for each patient to build the health status embedding individually. This study has collected 13,091 clinical follow-up visits and demographic data of 656 PD patients. To verify the application universality, this study has also collected 4,789 visits of 1,363 hemodialysis dialysis (HD) as an additional experiment dataset to test the prediction performance, which will be discussed in the Appendix. Results: 1) Experiment results show that AICare achieves 81.6%/74.3% AUROC and 47.2%/32.5% AUPRC for the 1-year mortality prediction task on PD/HD dataset respectively, which outperforms the state-of-the-art comparative deep learning models. 2) This study first provides a comprehensive elucidation of the relationship between the causes of mortality in patients with PD and clinical features based on an end-to-end deep learning model. 3) This study first reveals the pattern of variation in the importance of each feature in the mortality prediction based on built-in interpretability. 4) We develop a practical AI-Doctor interaction system to visualize the trajectory of patients' health status and risk indicators.
翻訳日:2023-01-19 17:39:55 公開日:2023-01-17
# 皮膚疾患同定のための構造化プロンプトを用いた大規模テキスト・画像モデル

Using Large Text-to-Image Models with Structured Prompts for Skin Disease Identification: A Case Study ( http://arxiv.org/abs/2301.07178v1 )

ライセンス: Link先を確認
Sajith Rajapaksa, Jean Marie Uwabeza Vianney, Renell Castro, Farzad Khalvati, Shubhra Aich(参考訳) 本稿では,大容量テキスト・ツー・イメージ(LTI)モデルを用いて,少数の皮膚疾患や注釈付きデータセットの欠如を自動診断する可能性について検討する。 LTIモデルへの入力として、標準医学教科書から条件付き物語を注意深く観察するために設計された汎用的だが簡潔なプロンプト構造のターゲットインスタンス化を提供する。 そこで本研究では,LTIモデルのレンズを通して,データ不足を伴う条件の自動診断のために,アクセス可能な教科書記述を利用する方法を提案する。 実験は、感染領域のより優れた局在化を含む提案された枠組みの有効性を示す。 さらに、医療サブドメインにまたがる広範な一般化の可能性があり、データ不足の問題を緩和するだけでなく、広範囲にわたる人種バイアスから自動診断を逸脱する。

This paper investigates the potential usage of large text-to-image (LTI) models for the automated diagnosis of a few skin conditions with rarity or a serious lack of annotated datasets. As the input to the LTI model, we provide the targeted instantiation of a generic but succinct prompt structure designed upon careful observations of the conditional narratives from the standard medical textbooks. In this regard, we pave the path to utilizing accessible textbook descriptions for automated diagnosis of conditions with data scarcity through the lens of LTI models. Experiments show the efficacy of the proposed framework, including much better localization of the infected regions. Moreover, it has the immense possibility for generalization across the medical sub-domains, not only to mitigate the data scarcity issue but also to debias automated diagnostics from the all-pervasive racial biases.
翻訳日:2023-01-19 17:32:58 公開日:2023-01-17
# 香港・ウーマンデル間干渉デモ

An Easier-To-Align Hong-Ou-Mandel Interference Demonstration ( http://arxiv.org/abs/2301.07161v1 )

ライセンス: Link先を確認
Nicholas S. DiBrita and Enrique J. Galvez(参考訳) 香港・ウー・マンデル干渉実験は、古典的でない干渉の基本的な実証であり、多くの量子情報の研究の基礎となっている。 この実験は対称ビームスプリッターに到達する2つの光子の干渉を含む。 光子をあらゆる方法で区別不能にすると、量子振幅の干渉によって両方の光子が常に同じビームスプリッター出力ポートを離れる。 これにより、ビームスプリッタに到達した光子の到達時間差などの識別可能なパラメータのスキャンは、ビームスプリッタの出力で測定された一致でディップを生成する。 学部の研究室として実施する主な課題は、ビームスプリッターにおける光子経路のアライメントである。 市販繊維カップリングビームスプリッタを用いて, この課題を克服する。 さらに、偏光状態によって光子の識別可能性を変化させるために、波面を用いる。 本稿では,2種類の実験の入門量子力学レベルでの理論的記述に加えて,装置のアライメントと必要な部品の一覧について考察する。

The Hong-Ou-Mandel interference experiment is a fundamental demonstration of nonclassical interference and a basis for many investigations of quantum information. This experiment involves the interference of two photons reaching a symmetric beamsplitter. When the photons are made indistinguishable in all possible ways, an interference of quantum amplitudes results in both photons always leaving the same beamsplitter output port. Thus, a scan of distinguishable parameters, such as the arrival time difference of the photons reaching the beamsplitter, produces a dip in the coincidences measured at the outputs of the beamsplitter. The main challenge for its implementation as an undergraduate laboratory is the alignment of the photon paths at the beamsplitter. We overcome this difficulty by using a pre-aligned commercial fiber-coupled beamsplitter. In addition, we use waveplates to vary the distinguishability of the photons by their state of polarization. We present a theoretical description at the introductory quantum mechanics level of the two types of experiments, plus a discussion of the apparatus alignment and list of parts needed.
翻訳日:2023-01-19 17:32:45 公開日:2023-01-17
# 電気自動車の充電ステーション選択のための組合せ半帯域アプローチ

A Combinatorial Semi-Bandit Approach to Charging Station Selection for Electric Vehicles ( http://arxiv.org/abs/2301.07156v1 )

ライセンス: Link先を確認
Niklas {\AA}kerblom, Morteza Haghir Chehreghani(参考訳) 本研究では,目的の目的地に到達するために1つ以上の充電セッションが必要となるバッテリ電気自動車(bev)の長距離ナビゲーションの問題に対処する。 充電ステーションの可用性と性能は未知かつ確率的であると考え,道路網を探索して待ち行列時間と充電電力分布のパラメータを学習するための組込みセミバンドフレームワークを開発した。 このフレームワークではまず,制約付き組合せ最適化問題を効率的に処理するためのロードネットワークグラフの事前処理について概説する。 次に, 前処理グラフに対して, 確率的エッジ重みのモデル化にベイズ的手法を用いて, 1 パラメータ指数関数分布と 2 パラメータガンマ分布の共役前置法を応用し, 後者は多腕バンディット文献に新規である。 最後に,Thompson Sampling, BayesUCB, Epsilon-greedy の組合せ版をこの問題に適用する。 本研究では,ノルウェー,スウェーデン,フィンランドの道路網における長距離航法問題事例を対象としたシミュレーション実験を行った。

In this work, we address the problem of long-distance navigation for battery electric vehicles (BEVs), where one or more charging sessions are required to reach the intended destination. We consider the availability and performance of the charging stations to be unknown and stochastic, and develop a combinatorial semi-bandit framework for exploring the road network to learn the parameters of the queue time and charging power distributions. Within this framework, we first outline a pre-processing for the road network graph to handle the constrained combinatorial optimization problem in an efficient way. Then, for the pre-processed graph, we use a Bayesian approach to model the stochastic edge weights, utilizing conjugate priors for the one-parameter exponential and two-parameter gamma distributions, the latter of which is novel to multi-armed bandit literature. Finally, we apply combinatorial versions of Thompson Sampling, BayesUCB and Epsilon-greedy to the problem. We demonstrate the performance of our framework on long-distance navigation problem instances in country-sized road networks, with simulation experiments in Norway, Sweden and Finland.
翻訳日:2023-01-19 17:32:29 公開日:2023-01-17
# 効率的な探索とスマートシーン記述のためのエンボディードエージェント

Embodied Agents for Efficient Exploration and Smart Scene Description ( http://arxiv.org/abs/2301.07150v1 )

ライセンス: Link先を確認
Roberto Bigazzi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara(参考訳) 自然言語で人間とコミュニケーションできるエンボディエージェントの開発は、人間の人口の多い環境におけるロボットプラットフォームの拡散を促進するため、ここ数年で関心が高まっている。 この目的に向けて、本研究では、自律エージェントが見えない屋内環境を探索し、マップし、興味深いシーンを自然言語による記述で表現する必要がある視覚ナビゲーションの設定に取り組む。 本研究では,エージェントと環境の相互作用によって生成する画像の視覚ロボット探索とキャプションの最近の進歩を組み合わせる手法を提案し,評価する。 提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートシーン記述を生成する。 さらに、これらの記述は、探査中に遭遇した顕著な物体とそれら間の相関を強調することにより、ロボットの環境表現に対するユーザ理解可能な洞察を提供する。 提案手法の性能を定量的に評価するために,探索スキルと説明スキルの両方を考慮した特定のスコアを考案する。 実世界とフォトリアリスティックシミュレート環境の両方で行った実験により,本手法は探索中にロボットの視点を効果的に表現し,その観察の人間フレンドリーな解釈性を向上させることができることを示した。

The development of embodied agents that can communicate with humans in natural language has gained increasing interest over the last years, as it facilitates the diffusion of robotic platforms in human-populated environments. As a step towards this objective, in this work, we tackle a setting for visual navigation in which an autonomous agent needs to explore and map an unseen indoor environment while portraying interesting scenes with natural language descriptions. To this end, we propose and evaluate an approach that combines recent advances in visual robotic exploration and image captioning on images generated through agent-environment interaction. Our approach can generate smart scene descriptions that maximize semantic knowledge of the environment and avoid repetitions. Further, such descriptions offer user-understandable insights into the robot's representation of the environment by highlighting the prominent objects and the correlation between them as encountered during the exploration. To quantitatively assess the performance of the proposed approach, we also devise a specific score that takes into account both exploration and description skills. The experiments carried out on both photorealistic simulated environments and real-world ones demonstrate that our approach can effectively describe the robot's point of view during exploration, improving the human-friendly interpretability of its observations.
翻訳日:2023-01-19 17:32:09 公開日:2023-01-17
# COVINS-G:コラボレーション型ビジュアル慣性SLAMのための汎用バックエンド

COVINS-G: A Generic Back-end for Collaborative Visual-Inertial SLAM ( http://arxiv.org/abs/2301.07147v1 )

ライセンス: Link先を確認
Manthan Patel, Marco Karrer, Philipp B\"anninger and Margarita Chli(参考訳) 協調的なslamは、ロボットチームの共通参照フレームにおけるコローカライゼーションを可能にするため、マルチロボットシステムにおける認識の核心である。 集中型アーキテクチャのパラダイムは確立されており、例えば、キーフレーム(KF)のような関連するデータを中央のバックエンド(サーバ)に通信しながら、視覚慣性オドメトリー(VIO)を搭載中のロボット(エージェント)が統合し、エージェントの関節マップを最適化する。 これらのフレームワークは成功したことが証明されているが、その能力と性能はVIOフロントエンドの選択に大きく依存しているため、柔軟性が制限される。 本研究では,COVINSフレームワークをベースとした汎用バックエンドビルディングであるCOVINS-Gを紹介し,例えばRealsense T265のようなオドメトリ機能を備えたオフザシェルカメラを含む任意のVIOフロントエンドとのサーババックエンドの互換性を実現する。 COVINS-Gバックエンドは、ループ閉鎖制約を計算するためのマルチカメラ相対ポーズ推定アルゴリズムをデプロイし、システムは2D画像データ上で純粋に動作する。 実験評価では,最先端のマルチセッション・コラボレーティブslamシステムと同等の精度を示すとともに,同一ミッション内で異なるフロントエンドを連携エージェントとして使用することにより,我々のアプローチの柔軟性と汎用性を実証した。 COVINS-Gコードベースと一般化されたフロントエンドラッパーは、提案された共同バックエンドと組み合わせて、既存のVIOフロントエンドを簡単に使用できるようにする。 ビデオ: https://youtu.be/FoJfXCfaYDw

Collaborative SLAM is at the core of perception in multi-robot systems as it enables the co-localization of the team of robots in a common reference frame, which is of vital importance for any coordination amongst them. The paradigm of a centralized architecture is well established, with the robots (i.e. agents) running Visual-Inertial Odometry (VIO) onboard while communicating relevant data, such as e.g. Keyframes (KFs), to a central back-end (i.e. server), which then merges and optimizes the joint maps of the agents. While these frameworks have proven to be successful, their capability and performance are highly dependent on the choice of the VIO front-end, thus limiting their flexibility. In this work, we present COVINS-G, a generalized back-end building upon the COVINS framework, enabling the compatibility of the server-back-end with any arbitrary VIO front-end, including, for example, off-the-shelf cameras with odometry capabilities, such as the Realsense T265. The COVINS-G back-end deploys a multi-camera relative pose estimation algorithm for computing the loop-closure constraints allowing the system to work purely on 2D image data. In the experimental evaluation, we show on-par accuracy with state-of-the-art multi-session and collaborative SLAM systems, while demonstrating the flexibility and generality of our approach by employing different front-ends onboard collaborating agents within the same mission. The COVINS-G codebase along with a generalized front-end wrapper to allow any existing VIO front-end to be readily used in combination with the proposed collaborative back-end is open-sourced. Video: https://youtu.be/FoJfXCfaYDw
翻訳日:2023-01-19 17:31:47 公開日:2023-01-17
# 太陽系外惑星集団における質量・ラディウス関係の再検討--機械学習による考察

Revisiting mass-radius relationships for exoplanet populations: a machine learning insight ( http://arxiv.org/abs/2301.07143v1 )

ライセンス: Link先を確認
Mahdiyar Mousavi-Sadr, Davood M. Jassur, Ghassem Gozaliasl(参考訳) ますます多くの太陽系外惑星発見と機械学習技術の進歩により、太陽系以外の新しい世界の特性を発見し、探求し、理解することができる。 効率的な機械学習手法を用いて762個の太陽系外惑星と8つの太陽系惑星のデータセットを分析した。 異なる教師なしクラスタリングアルゴリズムを採用することにより、データは2つの主要なクラスに分けられる:$\log R_{p}\leq0.91R_{\oplus}$と$\log M_{p}\leq1.72M_{\oplus}$と$\log R_{p}>0.91R_{\oplus}$と$\log M_{p}>1.72M_{\oplus}$。 様々な回帰モデルを用いて、物理パラメータ間の相関を明らかにし、それらの性能を評価する。 惑星の質量、軌道周期、恒星の質量は、太陽系外惑星半径の予測に先駆的な役割を果たすことが判明した。 検証指標(RMSE、MAE、および$R^{2}$)は、支持ベクトル回帰は他のモデルよりも大きく、より優れた性能を持ち、惑星半径を得るための有望なモデルであることを示している。 対数空間の予測精度を改善するだけでなく、M5P法とマルコフ・チェイン・モンテカルロ法を用いてパラメトリック方程式を導出する。 クラス1の惑星は正の線形質量半径関係と一致していることが示され、クラス2の惑星では、惑星半径は主星の質量と強い相関関係を示す。

The growing number of exoplanet discoveries and advances in machine learning techniques allow us to find, explore, and understand characteristics of these new worlds beyond our Solar System. We analyze the dataset of 762 confirmed exoplanets and eight Solar System planets using efficient machine-learning approaches to characterize their fundamental quantities. By adopting different unsupervised clustering algorithms, the data are divided into two main classes: planets with $\log R_{p}\leq0.91R_{\oplus}$ and $\log M_{p}\leq1.72M_{\oplus}$ as class 1 and those with $\log R_{p}>0.91R_{\oplus}$ and $\log M_{p}>1.72M_{\oplus}$ as class 2. Various regression models are used to reveal correlations between physical parameters and evaluate their performance. We find that planetary mass, orbital period, and stellar mass play preponderant roles in predicting exoplanet radius. The validation metrics (RMSE, MAE, and $R^{2}$) suggest that the Support Vector Regression has, by and large, better performance than other models and is a promising model for obtaining planetary radius. Not only do we improve the prediction accuracy in logarithmic space, but also we derive parametric equations using the M5P and Markov Chain Monte Carlo methods. Planets of class 1 are shown to be consistent with a positive linear mass-radius relation, while for planets of class 2, the planetary radius represents a strong correlation with their host stars' masses.
翻訳日:2023-01-19 17:31:14 公開日:2023-01-17
# チャネル量子臨界

Channeling quantum criticality ( http://arxiv.org/abs/2301.07141v1 )

ライセンス: Link先を確認
Yijian Zou, Shengqi Sang, Timothy H. Hsieh(参考訳) 我々は、局所的な量子チャネルによってモデル化されたデコヒーレンスが量子臨界状態に与える影響を分析し、結果の混合状態の絡み合いの普遍的性質をシステムと環境の両方とシステム内の両方で見出す。 Renyi entropies は、共形場理論 (CFT) において ``$g$-function'' で支配される減算定数を持つ体積法スケーリングを示し、量子チャネル間の再正規化群 (RG) フロー (または '`相転移') の概念を定義することができる。 また、デコヒード状態におけるサブシステムのエントロピーは、サブシステムサイズに比例したサブリード対数スケーリングを持ち、CFTにおける境界条件変化作用素の相関関数と関連付ける。 最後に、混合状態内の量子相関の尺度であるサブシステム絡み合いネガティビティもログスケーリングを示すことができることを見出した。 これらの現象を横磁場イジングモデルの臨界基底状態に適用し, 4つのデファスチャネルの不動点を同定し, rg流を数値的に検証する。 この結果は,ノイズ量子シミュレータで実現される量子臨界状態と関係しており,予測したエンタングルメントスケーリングはシャドートモグラフィ法を用いて検証できる。

We analyze the effect of decoherence, modelled by local quantum channels, on quantum critical states and we find universal properties of the resulting mixed state's entanglement, both between system and environment and within the system. Renyi entropies exhibit volume law scaling with a subleading constant governed by a ``$g$-function'' in conformal field theory (CFT), allowing us to define a notion of renormalization group (RG) flow (or ``phase transitions'') between quantum channels. We also find that the entropy of a subsystem in the decohered state has a subleading logarithmic scaling with subsystem size, and we relate it to correlation functions of boundary condition changing operators in the CFT. Finally, we find that the subsystem entanglement negativity, a measure of quantum correlations within mixed states, can also exhibit log scaling. We illustrate these phenomena for the critical ground state of the transverse-field Ising model, in which we identify four RG fixed points of dephasing channels and verify the RG flow numerically. Our results are relevant to quantum critical states realized on noisy quantum simulators, in which our predicted entanglement scaling can be probed via shadow tomography methods.
翻訳日:2023-01-19 17:30:40 公開日:2023-01-17
# 不均一型マルチロボット強化学習

Heterogeneous Multi-Robot Reinforcement Learning ( http://arxiv.org/abs/2301.07137v1 )

ライセンス: Link先を確認
Matteo Bettini, Ajay Shankar, Amanda Prorok(参考訳) 協調型マルチロボットタスクは、ロボットの身体的および行動的特性の多様性の恩恵を受ける。 それにもかかわらず、従来のマルチエージェント強化学習(marl)フレームワークは、ポリシーの不均一性を明示的に受け入れる能力がなく、通常、エージェントがニューラルネットワークパラメータを共有することを制限している。 この強制された均質性は、タスクが異質な振る舞いから恩恵を受ける場合に応用を制限する。 本稿では,MARL政策における不均一性の役割を結晶化する。 そこで本研究では,グラフニューラルネットワークを用いたエージェント間通信の学習手法であるヘテロジニアス・ニューラル・ネットワーク・近近政策最適化(hetgppo)を提案する。 HetGPPOは、コミュニケーションエージェントが不均一な振る舞いを学習し、部分的に観察可能な環境で完全に分散化されたトレーニングを可能にする。 我々はこれを、以前同定されたより異質なクラスを明らかにする分類学的概要で補完する。 モデルの必要性を動機づけるために、同質モデルが不均一な振る舞いをエミュレートできる手法の特性を示し、この「透明な不均一性」が現実の環境でどのように脆弱であるかを示す。 シミュレーションと実世界の実験を通して、私たちはこう示します。 i) 強い異種要求により同種メソッドが失敗すると、HetGPPOは成功し、 二 均質な手法が明らかに異質な振る舞いを学べる場合、HetGPPOは訓練と展開騒音の両方に対して高い弾力性を達成する。

Cooperative multi-robot tasks can benefit from heterogeneity in the robots' physical and behavioral traits. In spite of this, traditional Multi-Agent Reinforcement Learning (MARL) frameworks lack the ability to explicitly accommodate policy heterogeneity, and typically constrain agents to share neural network parameters. This enforced homogeneity limits application in cases where the tasks benefit from heterogeneous behaviors. In this paper, we crystallize the role of heterogeneity in MARL policies. Towards this end, we introduce Heterogeneous Graph Neural Network Proximal Policy Optimization (HetGPPO), a paradigm for training heterogeneous MARL policies that leverages a Graph Neural Network for differentiable inter-agent communication. HetGPPO allows communicating agents to learn heterogeneous behaviors while enabling fully decentralized training in partially observable environments. We complement this with a taxonomical overview that exposes more heterogeneity classes than previously identified. To motivate the need for our model, we present a characterization of techniques that homogeneous models can leverage to emulate heterogeneous behavior, and show how this "apparent heterogeneity" is brittle in real-world conditions. Through simulations and real-world experiments, we show that: (i) when homogeneous methods fail due to strong heterogeneous requirements, HetGPPO succeeds, and, (ii) when homogeneous methods are able to learn apparently heterogeneous behaviors, HetGPPO achieves higher resilience to both training and deployment noise.
翻訳日:2023-01-19 17:30:00 公開日:2023-01-17
# 二次元キラル位相液体の多成分絡み合い

Multipartite entanglement in two-dimensional chiral topological liquids ( http://arxiv.org/abs/2301.07130v1 )

ライセンス: Link先を確認
Yuhan Liu, Yuya Kusuki, Jonah Kudler-Flam, Ramanjit Sohal, Shinsei Ryu(参考訳) 2次元位相の基底状態に対する多部絡み合い構造は、よく理解されていない興味深い問題である。 バルク境界対応を利用して、2次元位相相における三部構造絡みの計算は、空間領域間の界面の境界条件によって定義される頂点状態の計算に還元することができる。 本稿では,領域律項,コーナー貢献,位相的ピースを含む頂点状態における絡み合い測度の計算や,付加的な1次寄与の計算を行う。 これは、3頂点状態におけるマルコフギャップ $h = \frac{c}{3} \ln 2$ の以前の観察を説明し、この結果を $p$-vertex 状態、一般合理共形場理論、さらにサブシステムの選択に一般化する。 最後に,数値的証拠による予測を支持し,正確な一致を見いだす。

The multipartite entanglement structure for the ground states of two dimensional topological phases is an interesting albeit not well understood question. Utilizing the bulk-boundary correspondence, the calculation of tripartite entanglement in 2d topological phases can be reduced to that of the vertex state, defined by the boundary conditions at the interfaces between spatial regions. In this paper, we use the conformal interface technique to calculate entanglement measures in the vertex state, which include area law terms, corner contributions, and topological pieces, and a possible additional order one contribution. This explains our previous observation of the Markov gap $h = \frac{c}{3} \ln 2$ in the 3-vertex state, and generalizes this result to the $p$-vertex state, general rational conformal field theories, and more choices of subsystems. Finally, we support our prediction by numerical evidence, finding precise agreement.
翻訳日:2023-01-19 17:29:31 公開日:2023-01-17
# 量子非破壊測定による量子勾配評価

Quantum gradient evaluation through quantum non-demolition measurements ( http://arxiv.org/abs/2301.07128v1 )

ライセンス: Link先を確認
Paolo Solinas, Simone Caletti and Giovanni Minuto(参考訳) コスト関数の導関数を量子コンピュータで推定するためのQNDM(Quantum Non-Demolition Measurement)プロトコルについて議論する。 % これは変分量子回路の実装における重要なステップである。 コスト関数は古典的に評価が難しいと考えられており、量子作用素の平均値と関連付けられている。 次に、量子コンピュータを用いて、いわゆる変分量子回路を用いてシステムを進化させることにより、関数とその導関数に関する情報を効率的に抽出する。 この目的のために、観測可能な、すなわちコスト関数の微分の導関数を直接推定できる量子検出器の使用を提案する。 標準的直接測定アプローチに関しては、変分量子回路を実行するのに必要な回路イテレーションの数を減らすことに繋がる。 より高階微分を推定したい場合、利点は増大する。 また,提案手法は,変分量子回路を実行するのに必要な論理ゲートの総数という観点で,さらなるアドバンテージをもたらすことができることを示した。 これらの結果からQNDMは変分量子回路の実装の代替となる。

We discuss a Quantum Non-Demolition Measurement (QNDM) protocol to estimate the derivatives of a cost function with a quantum computer. %This is a key step for the implementation of variational quantum circuits. The cost function, which is supposed to be classically hard to evaluate, is associated with the average value of a quantum operator. Then a quantum computer is used to efficiently extract information about the function and its derivative by evolving the system with a so-called variational quantum circuit. To this aim, we propose to use a quantum detector that allows us to directly estimate the derivatives of an observable, i.e., the derivative of the cost function. With respect to the standard direct measurement approach, this leads to a reduction of the number of circuit iterations needed to run the variational quantum circuits. The advantage increases if we want to estimate the higher-order derivatives. We also show that the presented approach can lead to a further advantage in terms of the number of total logical gates needed to run the variational quantum circuits. These results make the QNDM a valuable alternative to implementing the variational quantum circuits.
翻訳日:2023-01-19 17:29:14 公開日:2023-01-17
# 多言語視覚質問応答のためのカリキュラムスクリプト蒸留

Curriculum Script Distillation for Multilingual Visual Question Answering ( http://arxiv.org/abs/2301.07227v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Alborz Geramifard(参考訳) デュアルエンコーダとクロスエンコーダを併用した事前学習モデルでは,ビジュアル質問応答(VQA)における視覚と言語におけるいくつかのタスクのランドスケープを推し進めることに成功した。 しかし、ゴールドアノテートされたデータの要求によって制限されているため、これらの進歩のほとんどは英語以外の言語では日の出を見ることができない。 我々は、下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入することで、この問題に対処することを目指している。 実験の結果,これらのモデルの性能においてスクリプトが重要な役割を担っていることが示された。 具体的には、同じスクリプトを共有するターゲット言語が他の言語よりも良く(約6%)、混合スクリプトでコード交換された言語の方が同等(約5-12%)であることを示す。

Pre-trained models with dual and cross encoders have shown remarkable success in propelling the landscape of several tasks in vision and language in Visual Question Answering (VQA). However, since they are limited by the requirements of gold annotated data, most of these advancements do not see the light of day in other languages beyond English. We aim to address this problem by introducing a curriculum based on the source and target language translations to finetune the pre-trained models for the downstream task. Experimental results demonstrate that script plays a vital role in the performance of these models. Specifically, we show that target languages that share the same script perform better (~6%) than other languages and mixed-script code-switched languages perform better than their counterparts (~5-12%).
翻訳日:2023-01-19 17:23:18 公開日:2023-01-17
# 特異マイクロ波空洞における半ポアソン統計機構におけるエンハンスメント因子の検討

Investigation of the enhancement factor in the regime of semi-Poisson statistics in a singular microwave cavity ( http://arxiv.org/abs/2301.07214v1 )

ライセンス: Link先を確認
Ma{\l}gorzata Bia{\l}ous and Leszek Sirko(参考訳) 特異ビリヤード,すなわち点状(ゼロレンジ)摂動を含む量子ビリヤードの性質について検討した。 単発ビリヤードは、単発散乱体として機能するワイヤアンテナを介してマイクロ波パワーと結合した矩形マイクロ波フラット共振器によって実験的にシミュレートされた。 正規性からの離脱は、poisson と semi-poisson の統計値に対してそれぞれ$$$ と$$$$ の値を取る短距離プラズマモデルによって定量的に推定された。 半ポアソン統計の体系において、実験パワースペクトルと2番目の近傍スペーシング分布である$P(2,s)$は、理論的な予測とよく一致していることを示す。 さらに, 2ポート散乱行列の測定により, 全吸収係数 $\gamma^{tot}$ の関数として, 半ポアソン統計系における拡張係数 $f(\gamma^{tot})$ を実験的に評価することができた。 実験結果は,本論文で評価した$F(\gamma^{tot})$の解析式と比較した。 実験と理論の一致は良好です。

We investigated properties of a singular billiard, that is, a quantum billiard which contains a pointlike (zero-range) perturbation. A singular billiard was simulated experimentally by a rectangular microwave flat resonator coupled to microwave power via wire antennas which act as singular scatterers. The departure from regularity was quantitatively estimated by the short-range plasma model in which the parameter $\eta$ takes the values $1$ and $2$ for the Poisson and semi-Poisson statistics, respectively. We show that in the regime of semi-Poisson statistics the experimental power spectrum and the second nearest-neighbor spacing distribution $P(2,s)$ are in good agreement with their theoretical predictions. Furthermore, the measurement of the two-port scattering matrix allowed us to evaluate experimentally the enhancement factor $F(\gamma^{tot})$ in the regime of the semi-Poisson statistics as a function of the total absorption factor $\gamma^{tot}$. The experimental results were compared with the analytical formula for $F(\gamma^{tot})$ evaluated in this article. The agreement between the experiment and theory is good.
翻訳日:2023-01-19 17:23:01 公開日:2023-01-17
# SCARP:Arbitrary Posesにおける3次元形状補完によるグラッピングの改善

SCARP: 3D Shape Completion in ARbitrary Poses for Improved Grasping ( http://arxiv.org/abs/2301.07213v1 )

ライセンス: Link先を確認
Bipasha Sen, Aditya Agarwal, Gaurav Singh, Brojeshwar B., Srinath Sridhar, Madhava Krishna(参考訳) 部分的な観察から完全な3d形状を回復することは、コンピュータビジョンコミュニティで広く取り組まれている課題である。 多くのディープラーニング手法は、3D形状生成ネットワークをトレーニングし、完全な3D形状について事前学習することでこの問題に対処する。 このトレーニングシステムでは、入力が固定された正準形式であると予測され、3次元形状に対して有効な事前学習を行なわなかった。 本稿では,Arbitrary Posesで形状補完を行うモデルであるSCARPを提案する。 オブジェクトの部分的な点クラウドが与えられたとき、SCARPは、回転同変ポーズ特徴と、マルチタスク目的を用いて訓練された幾何学的形状特徴に頼って、ポーズと形状の歪んだ特徴表現を学習する。 外部の正準化に依存する既存の手法とは異なり、SCARPは単一のネットワークで正準化、ポーズ推定、形状補完を行い、既存のベースラインよりも45%性能が向上する。 本研究では,表上オブジェクトに対する把持提案の改善にscarpを用いる。 観測されたポーズで部分テーブルトップオブジェクトを直接完了させることで、scarpは部分的な形状でsatagrave提案ネットワークを71.2%改善することができる。 プロジェクトページ: https://bipashasen.github.io/scarp

Recovering full 3D shapes from partial observations is a challenging task that has been extensively addressed in the computer vision community. Many deep learning methods tackle this problem by training 3D shape generation networks to learn a prior over the full 3D shapes. In this training regime, the methods expect the inputs to be in a fixed canonical form, without which they fail to learn a valid prior over the 3D shapes. We propose SCARP, a model that performs Shape Completion in ARbitrary Poses. Given a partial pointcloud of an object, SCARP learns a disentangled feature representation of pose and shape by relying on rotationally equivariant pose features and geometric shape features trained using a multi-tasking objective. Unlike existing methods that depend on an external canonicalization, SCARP performs canonicalization, pose estimation, and shape completion in a single network, improving the performance by 45% over the existing baselines. In this work, we use SCARP for improving grasp proposals on tabletop objects. By completing partial tabletop objects directly in their observed poses, SCARP enables a SOTA grasp proposal network improve their proposals by 71.2% on partial shapes. Project page: https://bipashasen.github.io/scarp
翻訳日:2023-01-19 17:22:45 公開日:2023-01-17
# ヘラルドデフォーカスイメージングによる2重励起シードナノロッドの放出遷移双極子モーメントの解明

Resolving the emission transition dipole moments of single doubly-excited seeded nanorods via heralded defocused imaging ( http://arxiv.org/abs/2301.07211v1 )

ライセンス: Link先を確認
Daniel Amgar, Gur Lubin, Gaoling Yang, Freddy T. Rabouw, and Dan Oron(参考訳) 半導体ナノ結晶発光偏光はナノ結晶物理学の重要なプローブであり、ナノ結晶技術にとって重要な要素である。 最低励起状態から基底状態遷移への遷移双極子モーメントは良好に特徴づけられるが、高い多励起遷移の双極子モーメントはほとんどの分光法で到達できない。 本研究では,二重励起状態緩和遷移双極子をヘラルドデフォーカスイメージングにより直接キャラクタリゼーションする。 デフォーカスイメージングは、双極子放出パターンを高速単光子アバランシェダイオード検出器アレイにマッピングし、双極子放出カスケードから放出される光子対のポスト選択を可能にし、遷移双極子モーメントの違いを解決する。 I1/2型シードナノロッドは, 励起子-励起子遷移の異方性が高い。 対照的に、II型シードナノロッドはバイエクシトン放出異方性の低下を示す。 これらの知見は、屈折率の過渡的ダイナミクスと励起微細構造との相互作用の観点から合理的である。

Semiconductor nanocrystal emission polarization is a crucial probe of nanocrystal physics and an essential factor for nanocrystal-based technologies. While the transition dipole moment of the lowest excited state to ground state transition is well characterized, the dipole moment of higher multiexcitonic transitions is inaccessible via most spectroscopy techniques. Here, we realize direct characterization of the doubly-excited state relaxation transition dipole by heralded defocused imaging. Defocused imaging maps the dipole emission pattern onto a fast single-photon avalanche diode detector array, allowing the post-selection of photon pairs emitted from the biexciton-exciton emission cascade and resolving the differences in transition dipole moments. Type-I1/2 seeded nanorods exhibit higher anisotropy of the biexciton-to-exciton transition compared to the exciton-to-ground state transition. In contrast, type-II seeded nanorods display a reduction of biexciton emission anisotropy. These findings are rationalized in terms of an interplay between transient dynamics of the refractive index and the excitonic fine structure.
翻訳日:2023-01-19 17:22:24 公開日:2023-01-17
# デジタル双生児の因果偽造

Causal Falsification of Digital Twins ( http://arxiv.org/abs/2301.07210v1 )

ライセンス: Link先を確認
Rob Cornish, Muhammad Faaiz Taufiq, Arnaud Doucet, Chris Holmes(参考訳) デジタル双生児は多くのアプリケーションで大きな可能性を秘めているが、その正確性を評価する厳格な手順は、安全クリティカルな環境での展開に不可欠である。 因果推論の枠組みの中でこのタスクを定式化することにより、実世界の観測データを用いて双子が「正しい」ことを証明できないことを示す。 これらの仮定を避けるために、双子が正しくないケースを見つけることを目的とした評価戦略を提案し、多種多様なアプリケーションや双子モデルにまたがって使用されるようにするための汎用統計手法を提案する。 このアプローチは、実世界の観測のi.i.d.データセットのみを仮定して、双生児について信頼できる、かつ実行可能な情報を導き出す。 ICU患者のMIMIC-IIIデータセットを用いて,Pulse Physiology Engine内のセシスモデリングを含む大規模ケーススタディにより,本手法の有効性を実証した。

Digital twins hold substantial promise in many applications, but rigorous procedures for assessing their accuracy are essential for their widespread deployment in safety-critical settings. By formulating this task within the framework of causal inference, we show it is not possible to certify that a twin is "correct" using real-world observational data unless potentially tenuous assumptions are made about the data-generating process. To avoid these assumptions, we propose an assessment strategy that instead aims to find cases where the twin is not correct, and present a general-purpose statistical procedure for doing so that may be used across a wide variety of applications and twin models. Our approach yields reliable and actionable information about the twin under only the assumption of an i.i.d. dataset of real-world observations, and in particular remains sound even in the presence of arbitrary unmeasured confounding. We demonstrate the effectiveness of our methodology via a large-scale case study involving sepsis modelling within the Pulse Physiology Engine, which we assess using the MIMIC-III dataset of ICU patients.
翻訳日:2023-01-19 17:22:04 公開日:2023-01-17
# 形式性を考慮した日本語文表現の学習

Learning a Formality-Aware Japanese Sentence Representation ( http://arxiv.org/abs/2301.07209v1 )

ライセンス: Link先を確認
Henry Li Xinyuan and Ray Lee and Jerry Chen and Kelly Marchisio(参考訳) エンコーダ-デコーダシーケンス-シーケンス間のモデルで中間表現を生成する方法は、通常、入力文のセマンティクスを保存できるが、形式のような入力特徴は残される。 一方、翻訳のような下流のタスクは、意味論に加えて形式性を保持する文表現で作業することで、適切なレベルの社会的フォーマル性を持つ文を生成することができる。 本稿では,入力文の原文表現に文生成条件を付与する日本語文の形式性認識表現と,形式性情報を保存するために文表現を導く側制約を学習するためのシーケンス・ツー・シーケンス法を提案する。 さらに,下流課題における形式表現の抽出を容易にする形式表現の学習による文表現の強化を提案する。 本稿では, 日本語文の手続き形式分類に関する先行研究を適応させることにより, 形式的注釈付き並列データの欠如に対処する。 実験の結果, 提案手法は, デコーダが入力文の形式性を回復するだけでなく, 入力文のセマンティクスの保存性も向上することが示唆された。

While the way intermediate representations are generated in encoder-decoder sequence-to-sequence models typically allow them to preserve the semantics of the input sentence, input features such as formality might be left out. On the other hand, downstream tasks such as translation would benefit from working with a sentence representation that preserves formality in addition to semantics, so as to generate sentences with the appropriate level of social formality -- the difference between speaking to a friend versus speaking with a supervisor. We propose a sequence-to-sequence method for learning a formality-aware representation for Japanese sentences, where sentence generation is conditioned on both the original representation of the input sentence, and a side constraint which guides the sentence representation towards preserving formality information. Additionally, we propose augmenting the sentence representation with a learned representation of formality which facilitates the extraction of formality in downstream tasks. We address the lack of formality-annotated parallel data by adapting previous works on procedural formality classification of Japanese sentences. Experimental results suggest that our techniques not only helps the decoder recover the formality of the input sentence, but also slightly improves the preservation of input sentence semantics.
翻訳日:2023-01-19 17:21:45 公開日:2023-01-17
# dual-spls : 波長可変スパースを用いた特徴選択と予測のための2つのスパース部分最小二乗回帰の族 : シミュレーションおよび近赤外(nir)データによる評価

Dual-sPLS: a family of Dual Sparse Partial Least Squares regressions for feature selection and prediction with tunable sparsity; evaluation on simulated and near-infrared (NIR) data ( http://arxiv.org/abs/2301.07206v1 )

ライセンス: Link先を確認
Louna Alsouki and Laurent Duval and Cl\'ement Marteau and Rami El Haddad and Fran\c{c}ois Wahl(参考訳) 化学量論において、変数の集合 X を応答 y に関連付けることが重要である。 定量的予測の目的は、例えば最も影響力のある特徴を特定することで、定性的データ解釈によって富むことができる。 高次元の問題が発生すると次元縮小技術が用いられる。 最も注目すべきは、投影(例えば、部分最小二乗やpls)または可変選択(例えばラッソ)である。 スパース部分最小二乗は、変数選択をPSSにブレンドすることで、両方の戦略を組み合わせる。 本稿では,従来のPLS1アルゴリズムを一般化したDual-sPLSを提案する。 正確な予測と効率的な解釈のバランスを提供する。 これは古典的回帰法(lasso, group lasso, least squares, ridge)に着想を得たペナリゼーションに基づいており、双対ノルムの概念を用いる。 その結果の空間性は直感的縮小比パラメータによって強制される。 Dual-sPLSは、シミュレーションおよび実化学データにおいて、類似の回帰法と好意的に比較する。 コードはRのオープンソースパッケージとして提供される: \url{https://CRAN.R-project.org/package=dual.spls}。

Relating a set of variables X to a response y is crucial in chemometrics. A quantitative prediction objective can be enriched by qualitative data interpretation, for instance by locating the most influential features. When high-dimensional problems arise, dimension reduction techniques can be used. Most notable are projections (e.g. Partial Least Squares or PLS ) or variable selections (e.g. lasso). Sparse partial least squares combine both strategies, by blending variable selection into PLS. The variant presented in this paper, Dual-sPLS, generalizes the classical PLS1 algorithm. It provides balance between accurate prediction and efficient interpretation. It is based on penalizations inspired by classical regression methods (lasso, group lasso, least squares, ridge) and uses the dual norm notion. The resulting sparsity is enforced by an intuitive shrinking ratio parameter. Dual-sPLS favorably compares to similar regression methods, on simulated and real chemical data. Code is provided as an open-source package in R: \url{https://CRAN.R-project.org/package=dual.spls}.
翻訳日:2023-01-19 17:21:26 公開日:2023-01-17
# インテリジェントリアルタイム仮想iOCTボリュームスライシングによる網膜下注入のためのロボットナビゲーションオートノミー

Robotic Navigation Autonomy for Subretinal Injection via Intelligent Real-Time Virtual iOCT Volume Slicing ( http://arxiv.org/abs/2301.07204v1 )

ライセンス: Link先を確認
Shervin Dehghani, Michael Sommersperger, Peiyao Zhang, Alejandro Martin-Gomez, Benjamin Busam, Peter Gehlbach, Nassir Navab, M. Ali Nasseri and Iulian Iordachita(参考訳) 過去10年間で、繊細な網膜手術をサポートする様々なロボットプラットフォームが導入された。 同時に,手術領域のセマンティックな理解を提供するため,顕微鏡統合型術中光コヒーレント・トモグラフィ(iOCT)と高分解能3D画像の近像化が可能となった。 ロボット工学と意味理解の組み合わせは、網膜下注射などのロボット網膜手術におけるタスク自律性を可能にする。 この方法には治療成績に正確な針挿入が必要である。 しかし、ロボットシステムとioctの融合は新たな課題をもたらす。 これらは、データ処理速度や処理中のシステムの動的登録に対する高い要求に限定されるものではない。 本研究では,iOCTボリュームのインテリジェントリアルタイム処理に基づく,網膜下注入のための自律型ロボットナビゲーションフレームワークを提案する。 本手法は、機器ポーズ推定方法と、ロボットとioctシステムとのオンライン登録と、噴射目標へのナビゲーション用に調整された軌道計画とからなる。 また,畳み込みニューラルネットワーク(cnns)によって実現される高速楽器ポーズ推定のためのボリュームスライシング手法であるintelligent virtual b-scansを導入する。 ブタ前眼の精度と再現性について実験を行った。 最後に,本研究における課題を考察し,システム開発のための潜在的な解決策を提案する。

In the last decade, various robotic platforms have been introduced that could support delicate retinal surgeries. Concurrently, to provide semantic understanding of the surgical area, recent advances have enabled microscope-integrated intraoperative Optical Coherent Tomography (iOCT) with high-resolution 3D imaging at near video rate. The combination of robotics and semantic understanding enables task autonomy in robotic retinal surgery, such as for subretinal injection. This procedure requires precise needle insertion for best treatment outcomes. However, merging robotic systems with iOCT introduces new challenges. These include, but are not limited to high demands on data processing rates and dynamic registration of these systems during the procedure. In this work, we propose a framework for autonomous robotic navigation for subretinal injection, based on intelligent real-time processing of iOCT volumes. Our method consists of an instrument pose estimation method, an online registration between the robotic and the iOCT system, and trajectory planning tailored for navigation to an injection target. We also introduce intelligent virtual B-scans, a volume slicing approach for rapid instrument pose estimation, which is enabled by Convolutional Neural Networks (CNNs). Our experiments on ex-vivo porcine eyes demonstrate the precision and repeatability of the method. Finally, we discuss identified challenges in this work and suggest potential solutions to further the development of such systems.
翻訳日:2023-01-19 17:21:08 公開日:2023-01-17
# 学習文脈依存性ゲーティングを用いた人工神経アンサンブル

Artificial Neuronal Ensembles with Learned Context Dependent Gating ( http://arxiv.org/abs/2301.07187v1 )

ライセンス: Link先を確認
Matthew James Tilley, Michelle Miller, David Freedman(参考訳) 生物学的ニューラルネットワークは、異なる記憶をエンコードするために異なるニューロンセットをリクルートすることができる。 しかしながら、一連のタスクでニューラルネットワークをトレーニングする場合、通常、これらのニューロンアンサンブルに似たものを選択的に生成するメカニズムは用いられない。 さらに、ニューラルネットワークは、タスクが順次学習されるにつれて、ネットワークのパフォーマンスが急速に低下する、破滅的な忘れに苦しむ。 対照的に、一連の学習は様々な生物に対して可能である。 学習文脈依存ゲーティング (lxdg) は, 特定のネットワーク構造と新しい正規化項を用いて, 「人工ニューロンアンサンブル」を柔軟にアロケート・リコールする手法である。 ネットワークの隠れた層におけるアクティビティは、トレーニング中に動的に生成されるゲートによって変調される。 ゲートはネットワーク自体の出力であり、シグモノイド出力の活性化で訓練される。 我々が導入した正規化用語は、生物学的神経細胞アンサンブルによって示される性質に対応する。 第1項は低ゲートスパーシティを罰し、ネットワークの特定割合のみを使用することを保証する。 第2の用語は、ネットワークが以前に学習されたタスクから入力されたときに、事前に学習されたゲートがリコールされることを保証する。 最後に、新しいタスクが以前使用されていたものから可能な限り直交するゲートにエンコードされることを保証するための正規化用語が存在する。 本手法は,連続学習ベンチマークにおける破滅的な忘れを緩和する能力を示す。 新しい正規化用語がElastic Weight Consolidation (EWC)とともにモデルに含まれると、ベンチマークの"permuted MNIST"のパフォーマンスはEWC単独よりも向上する。 ベンチマークの「rotated mnist」は、同様のタスクが人工ニューロンアンサンブルに類似したニューロンをリクルートする方法を示しています。

Biological neural networks are capable of recruiting different sets of neurons to encode different memories. However, when training artificial neural networks on a set of tasks, typically, no mechanism is employed for selectively producing anything analogous to these neuronal ensembles. Further, artificial neural networks suffer from catastrophic forgetting, where the network's performance rapidly deteriorates as tasks are learned sequentially. By contrast, sequential learning is possible for a range of biological organisms. We introduce Learned Context Dependent Gating (LXDG), a method to flexibly allocate and recall `artificial neuronal ensembles', using a particular network structure and a new set of regularization terms. Activities in the hidden layers of the network are modulated by gates, which are dynamically produced during training. The gates are outputs of networks themselves, trained with a sigmoid output activation. The regularization terms we have introduced correspond to properties exhibited by biological neuronal ensembles. The first term penalizes low gate sparsity, ensuring that only a specified fraction of the network is used. The second term ensures that previously learned gates are recalled when the network is presented with input from previously learned tasks. Finally, there is a regularization term responsible for ensuring that new tasks are encoded in gates that are as orthogonal as possible from previously used ones. We demonstrate the ability of this method to alleviate catastrophic forgetting on continual learning benchmarks. When the new regularization terms are included in the model along with Elastic Weight Consolidation (EWC) it achieves better performance on the benchmark `permuted MNIST' than with EWC alone. The benchmark `rotated MNIST' demonstrates how similar tasks recruit similar neurons to the artificial neuronal ensemble.
翻訳日:2023-01-19 17:20:45 公開日:2023-01-17
# 実測値と量子不確かさ

Real-Valued Observables and Quantum Uncertainty ( http://arxiv.org/abs/2301.07185v1 )

ライセンス: Link先を確認
Stanley Gudder(参考訳) まず、ロバートソン・ハイゼンベルクの不確実性原理の一般化を示す。 この一般化は混合状態に適用され、共分散項を含む。 忠実な状態に対しては、不確かさの不等式が等しいときに特徴づける。 次に、実数値観測値に対する不確実性原理版を示す。 実数値観測値のシャープバージョンと共役について考察する。 この理論はディコトミック観測の例で示される。 我々は実価値粗粒化の議論を締めくくった。

We first present a generalization of the Robertson-Heisenberg uncertainty principle. This generalization applies to mixed states and contains a covariance term. For faithful states, we characterize when the uncertainty inequality is an equality. We next present an uncertainty principle version for real-valued observables. Sharp versions and conjugates of real-valued observables are considered. The theory is illustrated with examples of dichotomic observables. We close with a discussion of real-valued coarse graining.
翻訳日:2023-01-19 17:20:15 公開日:2023-01-17
# The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge 2022 System Description

The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge 2022 System Description ( http://arxiv.org/abs/2301.07491v1 )

ライセンス: Link先を確認
Yannis Tevissen (ARMEDIA-SAMOVAR), J\'er\^ome Boudy (ARMEDIA-SAMOVAR), Fr\'ed\'eric Petitpont(参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC 2022)の話者ダイアリゼーショントラックで使用するシステムについて述べる。 我々のソリューションは、複数のシステムの強度を利用する音声活動検出アルゴリズムの新たな組み合わせに基づいて設計されている。 分類器エントロピーに基づく決定プロトコルを用いた新しいマルチストリーム手法を提案する。 我々は,この手法をマルチストリーム音声活動検出と呼び,標準のベースラインダイアリゼーション埋め込み,クラスタリング,再分割で使用した。 本研究は,強いベースラインを用いて,音声活動検出のみに取り組むことで,最先端の成果に近い結果が得られることを示した。

We describe the system used by our team for the VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC 2022) in the speaker diarization track. Our solution was designed around a new combination of voice activity detection algorithms that uses the strengths of several systems. We introduce a novel multi stream approach with a decision protocol based on classifiers entropy. We called this method a multi-stream voice activity detection and used it with standard baseline diarization embeddings, clustering and resegmentation. With this work, we successfully demonstrated that using a strong baseline and working only on voice activity detection, one can achieved close to state-of-theart results.
翻訳日:2023-01-19 15:59:13 公開日:2023-01-17
# 対人ロバスト深層強化学習はロバスト性を再定義する必要がある

Adversarial Robust Deep Reinforcement Learning Requires Redefining Robustness ( http://arxiv.org/abs/2301.07487v1 )

ライセンス: Link先を確認
Ezgi Korkmaz(参考訳) 与えられた環境とのインタラクションによる生の高次元データからの学習は、ディープニューラルネットワークの利用によって効果的に実現されている。 しかし、高感度方向(すなわち逆行性摂動)に沿った過度な最悪の政策依存翻訳によって引き起こされる政策性能の低下は、深層強化学習政策の堅牢性に懸念を生じさせる。 本稿では,これらの高感度方向が特定の最悪ケース方向に沿ってのみ存在するのではなく,深層神経政策の状況においてより豊富であり,ブラックボックス設定においてより自然な手段で探索できることを示す。 さらに,バニラの訓練技術は,最先端の対向訓練技術を用いて学習した政策よりも,より強固な方針を学べることにも興味をそそる。 我々の研究は、深層強化学習政策多様体の興味深い特性を明らかにし、その結果が堅牢で一般化可能な深層強化学習政策の構築に役立つと信じている。

Learning from raw high dimensional data via interaction with a given environment has been effectively achieved through the utilization of deep neural networks. Yet the observed degradation in policy performance caused by imperceptible worst-case policy dependent translations along high sensitivity directions (i.e. adversarial perturbations) raises concerns on the robustness of deep reinforcement learning policies. In our paper, we show that these high sensitivity directions do not lie only along particular worst-case directions, but rather are more abundant in the deep neural policy landscape and can be found via more natural means in a black-box setting. Furthermore, we show that vanilla training techniques intriguingly result in learning more robust policies compared to the policies learnt via the state-of-the-art adversarial training techniques. We believe our work lays out intriguing properties of the deep reinforcement learning policy manifold and our results can help to build robust and generalizable deep reinforcement learning policies.
翻訳日:2023-01-19 15:58:41 公開日:2023-01-17
# 保証ニューラルネットワークモデルを用いたニューラルネットワーク制御系の安全性検証

Safety Verification of Neural Network Control Systems Using Guaranteed Neural Network Model Reduction ( http://arxiv.org/abs/2301.07531v1 )

ライセンス: Link先を確認
Weiming Xiang and Zhongzhu Shao(参考訳) 本稿では,ニューラルネットワークモデル削減手法の開発により,ニューラルネットワーク制御システムの安全性検証の計算効率を向上させることを目的とする。 まず、ニューラルネットワークの出力と縮小サイズバージョンの間の保証された距離を記述するために、モデル縮小精度の概念を提案する。 モデルの精度を精度良く計算するために,到達性に基づくアルゴリズムを提案する。 次に、小型ニューラルネットワークコントローラをクローズドループシステムに置換することにより、元のシステムの到達可能な集合を計算するアルゴリズムを開発し、より計算効率のよい安全性検証プロセスを支援する。 最後に、ニューラルネットワークコントローラを用いた適応クルーズ制御システムのケーススタディに適用し、安全性検証の計算時間を著しく短縮し、本手法の有効性を検証した。

This paper aims to enhance the computational efficiency of safety verification of neural network control systems by developing a guaranteed neural network model reduction method. First, a concept of model reduction precision is proposed to describe the guaranteed distance between the outputs of a neural network and its reduced-size version. A reachability-based algorithm is proposed to accurately compute the model reduction precision. Then, by substituting a reduced-size neural network controller into the closed-loop system, an algorithm to compute the reachable set of the original system is developed, which is able to support much more computationally efficient safety verification processes. Finally, the developed methods are applied to a case study of the Adaptive Cruise Control system with a neural network controller, which is shown to significantly reduce the computational time of safety verification and thus validate the effectiveness of the method.
翻訳日:2023-01-19 15:51:58 公開日:2023-01-17
# 保険における敵対的AI:広範性とレジリエンス

Adversarial AI in Insurance: Pervasiveness and Resilience ( http://arxiv.org/abs/2301.07520v1 )

ライセンス: Link先を確認
Elisa Luciano and Matteo Cattaneo and Ron Kenett(参考訳) 人工知能(AI)と機械学習(ML)の急速かつダイナミックなペースは、保険セクターに革命をもたらしている。 aiは保険会社にとって重要な、非常に歓迎される利点を提供し、顧客中心の戦略の基盤である。 また、プロジェクトと実装フェーズにおいて、課題も生じます。 その中でも,aiシステムを欺いて偽の出力を生成するために,修正入力データを生成する敵攻撃について検討する。 我々は、保険aiアプリケーションに対する攻撃の例を示し、それらを分類し、防御方法と予防システムについて議論する。 関心が高まっている関連するトピックは、AIとMLコンポーネントを組み込んだシステムの検証と検証である。 本論文の様々なセクションでこれらのトピックについて論じる。

The rapid and dynamic pace of Artificial Intelligence (AI) and Machine Learning (ML) is revolutionizing the insurance sector. AI offers significant, very much welcome advantages to insurance companies, and is fundamental to their customer-centricity strategy. It also poses challenges, in the project and implementation phase. Among those, we study Adversarial Attacks, which consist of the creation of modified input data to deceive an AI system and produce false outputs. We provide examples of attacks on insurance AI applications, categorize them, and argue on defence methods and precautionary systems, considering that they can involve few-shot and zero-shot multilabelling. A related topic, with growing interest, is the validation and verification of systems incorporating AI and ML components. These topics are discussed in various sections of this paper.
翻訳日:2023-01-19 15:50:30 公開日:2023-01-17
# メッシュ適応型直接探索アルゴリズムによるディープネットワークのスケーリング

Scaling Deep Networks with the Mesh Adaptive Direct Search algorithm ( http://arxiv.org/abs/2301.06641v1 )

ライセンス: Link先を確認
Dounia Lakhmiri, Mahdi Zolnouri, Vahid Partovi Nia, Christophe Tribes, S\'ebastien Le Digabel(参考訳) ディープニューラルネットワークはますます大きくなっている。 edgeとiotデバイスでの彼らの実装はますます難しくなり、コミュニティは同様のパフォーマンスでより軽量なバージョンを設計するようになった。 emph{reinforcement learning} や \emph{evolutionary computing} のような標準的な自動設計ツールは、客観的関数の安価な評価に依存している。 ニューラルネットワーク設計の文脈では、この目的はトレーニング後の精度であり、コストが高く、評価に時間がかかる。 我々は,制約が存在する場合でも,設計空間を探索する目的関数の高価なブラックボックスの性質を効果的に説明できる,成熟した微分自由度最適化法である<emph{Mesh Adaptive Direct Search(MADS)アルゴリズムを用いて,画像分類のための軽量ディープニューラルネットワークの設計を自動化する。

Deep neural networks are getting larger. Their implementation on edge and IoT devices becomes more challenging and moved the community to design lighter versions with similar performance. Standard automatic design tools such as \emph{reinforcement learning} and \emph{evolutionary computing} fundamentally rely on cheap evaluations of an objective function. In the neural network design context, this objective is the accuracy after training, which is expensive and time-consuming to evaluate. We automate the design of a light deep neural network for image classification using the \emph{Mesh Adaptive Direct Search}(MADS) algorithm, a mature derivative-free optimization method that effectively accounts for the expensive blackbox nature of the objective function to explore the design space, even in the presence of constraints.Our tests show competitive compression rates with reduced numbers of trials.
翻訳日:2023-01-18 15:15:26 公開日:2023-01-17
# 科学発見の入り口としての人工知能:網膜基底像の特徴を明らかにする

Artificial intelligence as a gateway to scientific discovery: Uncovering features in retinal fundus images ( http://arxiv.org/abs/2301.06675v1 )

ライセンス: Link先を確認
Parsa Delavari, Gulcenur Ozturan, Ozgur Yilmaz, Ipek Oruc(参考訳) 目的:畳み込みニューラルネットワークは、眼底写真に基づいて様々な状態や患者の特徴を検出するように訓練することができる。 本稿では,CNNがラベルの予測に成功しているメカニズムを明らかにするために,基礎画像の分類方法を提案する。 提案手法を検証するために,患者セックスを用いたケーススタディを行った。 アプローチ: まず, トレーニング, 検証, テストパーティションを含む4746基の画像を用いて, 性別分類タスクで事前学習したCNNを微調整した。 次に、深層学習説明可能性ツールを用いて、網膜の表現における性差の仮説を立てた。 画像分割により, 仮説に関連する多数の網膜特性を測定し, 男女間で有意差が認められた。 複数の比較問題に対処するため, 微調整に使用する画像と異なる100基の画像に対して, パラメータをショートリスト化した。 最後に、前セットに含まれていない追加の400枚の画像を使用して、網膜の有意な性差を明らかにしました。 結果: 毛細血管周囲は雌(p=.023, d=.243$)に比べ, 雄の方が暗い。 また,男性の網膜血管ネットワークは,血管グラフの枝数(p=.016,d=.272$)とノード数(p=.014,d=.299$)および枝総長(p=.045,d=.206$)が増加した。 また、男性の網膜の上側頭四分域では、女性に比べて血管面積が広い(p=0.048, d=.194$)。 結論:本手法では,現在不明だが専門家にとって有意義な特徴をcnnが予測できる眼底写真における網膜の特徴を明らかにする。

Purpose: Convolutional neural networks can be trained to detect various conditions or patient traits based on retinal fundus photographs, some of which, such as the patient sex, are invisible to the expert human eye. Here we propose a methodology for explainable classification of fundus images to uncover the mechanism(s) by which CNNs successfully predict the labels. We used patient sex as a case study to validate our proposed methodology. Approach: First, we used a set of 4746 fundus images, including training, validation and test partitions, to fine-tune a pre-trained CNN on the sex classification task. Next, we utilized deep learning explainability tools to hypothesize possible ways sex differences in the retina manifest. We measured numerous retinal properties relevant to our hypotheses through image segmentation to identify those significantly different between males and females. To tackle the multiple comparisons problem, we shortlisted the parameters by testing them on a set of 100 fundus images distinct from the images used for fine-tuning. Finally, we used an additional 400 images, not included in any previous set, to reveal significant sex differences in the retina. Results: We observed that the peripapillary area is darker in males compared to females ($p=.023, d=.243$). We also observed that males have richer retinal vasculature networks by showing a higher number of branches ($p=.016, d=.272$) and nodes ($p=.014, d=.299$) and a larger total length of branches ($p=.045, d=.206$) in the vessel graph. Also, vessels cover a greater area in the superior temporal quadrant of the retina in males compared to females ($p=0.048, d=.194$). Conclusions: Our methodology reveals retinal features in fundus photographs that allow CNNs to predict traits currently unknown, but meaningful to experts.
翻訳日:2023-01-18 15:06:41 公開日:2023-01-17
# 深部畳み込みニューラルネットワークを用いた多要素代理モデルによる温度場予測

Multi-fidelity surrogate modeling for temperature field prediction using deep convolution neural network ( http://arxiv.org/abs/2301.06674v1 )

ライセンス: Link先を確認
Yunyang Zhang and Zhiqiang Gong and Weien Zhou and Xiaoyu Zhao and Xiaohu Zheng and Wen Yao(参考訳) 温度場予測はシステム工学の熱設計において非常に重要であり,サロゲートモデルの構築はその作業に有効な方法である。 一般に、サロゲートモデルの優れた予測性能、特により多くのパラメータと表現能力を有するディープラーニングモデルを保証するためには、大量のラベル付きデータが必要である。 しかし、ラベル付きデータ、特に忠実度の高いラベル付きデータは通常、取得が高価であり、時には不可能である。 そこで本研究では,低忠実度データを利用した温度場予測のためのpithy deep multi-fidelity model (dmfm)を提案する。 第一に, DMFMにおいて, 低忠実度および高忠実度データをトレーニングするために, 事前学習と微調整のパラダイムが開発され, 深部代理モデルの複雑さを著しく低減する。 次に,工学系の物理特性を十分に活用し,学習過程における大量のラベル付き低忠実度データへの依存を低減する,物理駆動型深層多忠実度モデル(PD-DMFM)の自己教師付き学習手法を提案する。 DMFMとPD-DMFMの有効性を検証するために, 2つの異なる温度場予測問題を構築した。

Temperature field prediction is of great importance in the thermal design of systems engineering, and building the surrogate model is an effective way for the task. Generally, large amounts of labeled data are required to guarantee a good prediction performance of the surrogate model, especially the deep learning model, which have more parameters and better representational ability. However, labeled data, especially high-fidelity labeled data, are usually expensive to obtain and sometimes even impossible. To solve this problem, this paper proposes a pithy deep multi-fidelity model (DMFM) for temperature field prediction, which takes advantage of low-fidelity data to boost the performance with less high-fidelity data. First, a pre-train and fine-tune paradigm are developed in DMFM to train the low-fidelity and high-fidelity data, which significantly reduces the complexity of the deep surrogate model. Then, a self-supervised learning method for training the physics-driven deep multi-fidelity model (PD-DMFM) is proposed, which fully utilizes the physics characteristics of the engineering systems and reduces the dependence on large amounts of labeled low-fidelity data in the training process. Two diverse temperature field prediction problems are constructed to validate the effectiveness of DMFM and PD-DMFM, and the result shows that the proposed method can greatly reduce the dependence of the model on high-fidelity data.
翻訳日:2023-01-18 15:06:06 公開日:2023-01-17
# polypセグメンテーションのためのマルチカーネル位置埋め込みconvnext

Multi Kernel Positional Embedding ConvNeXt for Polyp Segmentation ( http://arxiv.org/abs/2301.06673v1 )

ライセンス: Link先を確認
Trong-Hieu Nguyen Mau, Quoc-Huy Trinh, Nhat-Tan Bui, Minh-Triet Tran, Hai-Dang Nguyen(参考訳) 医用画像分割は、特に大腸癌において、医師の診察を助け、正確な診断を行う技術である。 特に、症例の増加に伴い、多くの患者にとって診断と診断はより迅速かつ正確に行う必要があり、内視鏡画像では、ポリープの位置やシステム内のアッシュを正確に識別するのを助けるために、セグメンテーションタスクが不可欠である。 その結果,ポリプセグメンテーションの自動化に深層学習を適用し,その多くがU字構造の改善に寄与した。 しかし、UNetの単純なスキップ接続方式は、エンコーダとデコーダの機能マップ間のセマンティックギャップやコンテキスト情報の不足につながる。 この問題に対処するために,ConvNeXtバックボーンとマルチカーネル位置埋め込みブロックからなる新しいフレームワークを提案する。 提案したモジュールにより,本手法はポリープ分割タスクにおいて,精度の向上と一般化を実現することができる。 Kvasir-SEG データセット上で,我々のモデルではDice 係数 0.8818 と IOU スコア 0.8163 が得られた。 さらに,様々なデータセットにおいて,従来の最先端手法と競合する結果を得る。

Medical image segmentation is the technique that helps doctor view and has a precise diagnosis, particularly in Colorectal Cancer. Specifically, with the increase in cases, the diagnosis and identification need to be faster and more accurate for many patients; in endoscopic images, the segmentation task has been vital to helping the doctor identify the position of the polyps or the ache in the system correctly. As a result, many efforts have been made to apply deep learning to automate polyp segmentation, mostly to ameliorate the U-shape structure. However, the simple skip connection scheme in UNet leads to deficient context information and the semantic gap between feature maps from the encoder and decoder. To deal with this problem, we propose a novel framework composed of ConvNeXt backbone and Multi Kernel Positional Embedding block. Thanks to the suggested module, our method can attain better accuracy and generalization in the polyps segmentation task. Extensive experiments show that our model achieves the Dice coefficient of 0.8818 and the IOU score of 0.8163 on the Kvasir-SEG dataset. Furthermore, on various datasets, we make competitive achievement results with other previous state-of-the-art methods.
翻訳日:2023-01-18 15:05:41 公開日:2023-01-17
# プライバシー制約下でのグラフトポロジ学習

Graph Topology Learning Under Privacy Constraints ( http://arxiv.org/abs/2301.06662v1 )

ライセンス: Link先を確認
Xiang Zhang. Qiao Wang(参考訳) 高次元データの背後にあるトポロジーを推論することを目的としたグラフ学習が注目されている。 本研究では,プライバシに敏感で分離したクライアント(デバイスや組織)にデータを配置する実用的なシナリオを検討することで,グラフ学習に新たな光を当てた。 このシナリオにおけるグラフの学習の難しさは、プライバシの懸念のためにデータがローカルクライアントを離れることを許されていないため、中央サーバですべてのデータを処理できないことです。 異種データのためのグローバルグラフを学ぶのは理不尽であるため、異なるクライアントのデータが非iidの場合、問題はより困難になる。 これらの問題に対処するために、各クライアントのパーソナライズされたグラフとコンセンサスグラフを連携して学習する新しいフレームワークを提案する。 具体的には、提案するフェデレーションアルゴリズムにおいて、生データの代わりにモデル更新を中央サーバに送信する。 証明可能な収束解析は、アルゴリズムが$\mathcal{O}(1/T)$収束率を楽しむことを示している。 プライバシをさらに強化するため,モデル更新時に生データの情報が漏洩するのを防止するために,遅延プライバシアルゴリズムを設計する。 アルゴリズムが差分プライバシーを満たすことを確実にする方法に関する理論的ガイダンスが提供される。 また,差分プライバシーがアルゴリズムの収束に与える影響についても分析した。 最後に,提案するモデルとアルゴリズムを検証するために,合成データと実世界データの両方について広範な実験を行った。 実験の結果,本フレームワークは対象シナリオでグラフを効果的に学習できることが判明した。

Graph learning, which aims to infer the underlying topology behind high dimension data, has attracted intense attention. In this study, we shed a new light on graph learning by considering a pragmatic scenario where data are privacy sensitive and located in separated clients (devices or organizations). The main difficulty in learning graphs in this scenario is that we cannot process all the data in a central server, because the data are not allowed to leave the local clients due to privacy concerns. The problem becomes more challenging when data of different clients are non-IID, since it is unreasonable to learn a global graph for heterogeneous data. To address these issues, we propose a novel framework in which a personalized graph for each client and a consensus graph are jointly learned in a federated fashion. Specifically, we commute model updates instead of raw data to the central server in the proposed federated algorithm. A provable convergence analysis shows that the algorithm enjoys $\mathcal{O}(1/T)$ convergence rate. To further enhance privacy, we design a deferentially privacy algorithm to prevent the information of the raw data from being leaked when transferring model updates. A theoretical guidance is provided on how to ensure that the algorithm satisfies differential privacy. We also analyze the impact of differential privacy on the convergence of our algorithm. Finally, extensive experiments on both synthetic and real world data are carried out to validate the proposed models and algorithms. Experimental results illustrate that our framework is able to learn graphs effectively in the target scenario.
翻訳日:2023-01-18 15:05:19 公開日:2023-01-17
# vaxxhesitancy:twitter上でのcovid-19ワクチン接種に対するhesitancy研究のためのデータセット

VaxxHesitancy: A Dataset for Studying Hesitancy Towards COVID-19 Vaccination on Twitter ( http://arxiv.org/abs/2301.06660v1 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Charlie Grimshaw, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) おそらくワクチンが作られ、ソーシャルメディアの普及とともに、人々は予防接種や反ワクチンコンテンツを投稿する人たちと並んで、オンラインでワクチンに関する懸念を表明し始めたためである。 新型コロナウイルス(COVID-19)ワクチンの最初の言及以来、ソーシャルメディアのユーザーは、彼らの恐怖や懸念や、これらの急速に発展するワクチンの有効性に対する支持や信念について投稿してきた。 ワクチン接種拡大を目標に、住民により良い情報提供を行うための行動を開発する必要がある政策マーカーにとって、新型コロナウイルスワクチンに対する公衆の執着の背景にある理由を特定・理解することが重要である。 ワクチンの急速な発展が反vaxx情報の成長に密接に反映された新型コロナウイルスの場合、予防接種に対する市民の態度を検出する自動的な手段が必要となった。 これは、目の前の現象を深く理解するためにデータ分析を必要とする重要な計算社会科学タスクである。 注釈付きデータは、予防接種に対する態度をより微妙な分析のためにデータ駆動モデルの訓練にも必要である。 この目的のために、新型コロナウイルス(covid-19)予防接種(stance)に対するユーザーの態度にアノテートされた3,101以上のツイートのコレクションを作成しました。 また,ドメイン固有言語モデル(VaxxBERT)を開発し,ベースラインの頑健なセットと比較して,最高の予測性能(73.0精度,69.3F1スコア)を実現する。 私たちの知る限りでは、ワクチンのヘシタシーを、予防的および抗ワクチン的スタンスとは異なるカテゴリとしてモデル化する最初のデータセットとモデルです。

Vaccine hesitancy has been a common concern, probably since vaccines were created and, with the popularisation of social media, people started to express their concerns about vaccines online alongside those posting pro- and anti-vaccine content. Predictably, since the first mentions of a COVID-19 vaccine, social media users posted about their fears and concerns or about their support and belief into the effectiveness of these rapidly developing vaccines. Identifying and understanding the reasons behind public hesitancy towards COVID-19 vaccines is important for policy markers that need to develop actions to better inform the population with the aim of increasing vaccine take-up. In the case of COVID-19, where the fast development of the vaccines was mirrored closely by growth in anti-vaxx disinformation, automatic means of detecting citizen attitudes towards vaccination became necessary. This is an important computational social sciences task that requires data analysis in order to gain in-depth understanding of the phenomena at hand. Annotated data is also necessary for training data-driven models for more nuanced analysis of attitudes towards vaccination. To this end, we created a new collection of over 3,101 tweets annotated with users' attitudes towards COVID-19 vaccination (stance). Besides, we also develop a domain-specific language model (VaxxBERT) that achieves the best predictive performance (73.0 accuracy and 69.3 F1-score) as compared to a robust set of baselines. To the best of our knowledge, these are the first dataset and model that model vaccine hesitancy as a category distinct from pro- and anti-vaccine stance.
翻訳日:2023-01-18 15:04:57 公開日:2023-01-17
# 有効外乱スーパービジョン生成のためのフリーランチ

Free Lunch for Generating Effective Outlier Supervision ( http://arxiv.org/abs/2301.06657v1 )

ライセンス: Link先を確認
Sen Pei, Jiaxi Sun, Richard Yi Da Xu, Bin Fan, Shiming Xiang, and Gaofeng Meng(参考訳) 実用的なアプリケーションでデプロイされると、コンピュータビジョンシステムは多数の予期せぬイメージに遭遇する("\emph{{i.e.}}, out-of-distribution data")。 安全性のリスクが高まる可能性があるため、前述の未確認データは慎重に識別され、処理されるべきである。 一般に、OODの特徴と分類器が抽出したIDデータとの統計的差異に主に焦点をあてて、OODのアウト・オブ・ディストリビューション(OOD)検出に対処する既存のアプローチである。 これらのスキームの多くは、オープンセット画像を処理する際の偽陽性率(FPR)を減少させるなど、大幅な性能向上をもたらしたが、信頼性のある理論的解析や一般化保証は欠如している。 そこで,本研究では,ベイズ則に基づくood検出問題を調査し,従来の分類器が遭遇する故障の原因について説得力のある説明を行う。 具体的には,バニラニューラルネットワークが生み出す確率分布の精製がOOD検出に必要であり,OODデータに高い信頼度を割り当てるという問題を緩和する。 これを実現するために, ほぼ現実的な外部監視を実現するための超効率的な手法を提案する。 大規模なベンチマーク実験により,提案した「texttt{BayesAug}」は,従来の手法に比べてFPR95を12.50倍以上削減し,機械学習システムの信頼性を高めた。 コードは公開される予定だ。

When deployed in practical applications, computer vision systems will encounter numerous unexpected images (\emph{{i.e.}}, out-of-distribution data). Due to the potentially raised safety risks, these aforementioned unseen data should be carefully identified and handled. Generally, existing approaches in dealing with out-of-distribution (OOD) detection mainly focus on the statistical difference between the features of OOD and in-distribution (ID) data extracted by the classifiers. Although many of these schemes have brought considerable performance improvements, reducing the false positive rate (FPR) when processing open-set images, they necessarily lack reliable theoretical analysis and generalization guarantees. Unlike the observed ways, in this paper, we investigate the OOD detection problem based on the Bayes rule and present a convincing description of the reason for failures encountered by conventional classifiers. Concretely, our analysis reveals that refining the probability distribution yielded by the vanilla neural networks is necessary for OOD detection, alleviating the issues of assigning high confidence to OOD data. To achieve this effortlessly, we propose an ultra-effective method to generate near-realistic outlier supervision. Extensive experiments on large-scale benchmarks reveal that our proposed \texttt{BayesAug} significantly reduces the FPR95 over 12.50\% compared with the previous schemes, boosting the reliability of machine learning systems. The code will be made publicly available.
翻訳日:2023-01-18 15:04:33 公開日:2023-01-17
# 原子放出中心をナノフォトニックキャビティに埋め込むことによる全シリコン量子光源

All-silicon quantum light source by embedding an atomic emissive center in a nanophotonic cavity ( http://arxiv.org/abs/2301.06654v1 )

ライセンス: Link先を確認
Walid Redjem, Yertay Zhiyenbayev, Wayesh Qarony, Vsevolod Ivanov, Christos Papapanos, Wei Liu, Kaushalya Jhuria, Zakaria Al Balushi, Scott Dhuey, Adam Schwartzberg, Liang Tan, Thomas Schenkel, Boubacar Kant\'e(参考訳) シリコンは最もスケーラブルな光電子材料であり、多くの点で私たちの生活に革命をもたらした。 シリコンにおける量子光学の展望は、量子科学とテクノロジーが直面する最も差し迫った問題であるスケーリングと統合の課題に対処する可能性を持っているため、エキサイティングな道のりである。 シリコン系ナノフォトニックキャビティに埋め込まれた1つの原子放出中心に基づく、最初の全シリコン量子光源について報告する。 我々は、発光の30倍以上の増強、原子空洞結合効率の近さ、量子中心からの放出の8倍の加速を観察した。 本研究は, 量子通信, センシング, イメージング, 計算における大規模統合された全シリコン空洞量子電磁力学および量子光子界面への道を開く。

Silicon is the most scalable optoelectronic material, and it has revolutionized our lives in many ways. The prospect of quantum optics in silicon is an exciting avenue because it has the potential to address the scaling and integration challenges, the most pressing questions facing quantum science and technology. We report the first all-silicon quantum light source based on a single atomic emissive center embedded in a silicon-based nanophotonic cavity. We observe a more than 30-fold enhancement of luminescence, a near unity atom-cavity coupling efficiency, and an 8-fold acceleration of the emission from the quantum center. Our work opens avenues for large-scale integrated all-silicon cavity quantum electrodynamics and quantum photon interfaces with applications in quantum communication, sensing, imaging, and computing.
翻訳日:2023-01-18 15:04:06 公開日:2023-01-17
# 動的回帰による深層交通予測モデルの強化

Enhancing Deep Traffic Forecasting Models with Dynamic Regression ( http://arxiv.org/abs/2301.06650v1 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Seongjin Choi, Lijun Sun(参考訳) ディープラーニングに基づく多変量および多段トラヒック時系列予測モデルにおける一般的な仮定は、残差が独立で等方的であり、空間と時間には無関係であるということである。 この仮定は直接的な損失関数(MAE/MSEなど)を提供するが、残留過程が強い自己相関と構造的時空間相関を示すことは避けられない。 本稿では、構造化仕様と残差プロセスの学習を通じて、既存の深層交通予測フレームワークを強化するための補完的動的回帰(DR)フレームワークを提案する。 具体的には、ベースモデル(例えば、よく発達した交通予測モデル)の残差を行列式季節性自己回帰(AR)モデルで制御し、全体の損失関数を再設計することで、トレーニングプロセスにシームレスに統合することができると仮定する。 DRフレームワークのパラメータは、ベースモデルと共同で学習することができる。 提案手法の有効性を,速度と流速の両方のデータセット上で,最先端の深層交通予測モデルを強化する上で評価した。 実験の結果, drフレームワークは既存のトラヒック予測モデルを改善するだけでなく, 解釈可能な回帰係数と時空間共分散行列を提供することがわかった。

A common assumption in deep learning-based multivariate and multistep traffic time series forecasting models is that residuals are independent, isotropic, and uncorrelated in space and time. While this assumption provides a straightforward loss function (such as MAE/MSE), it is inevitable that residual processes will exhibit strong autocorrelation and structured spatiotemporal correlation. In this paper, we propose a complementary dynamic regression (DR) framework to enhance existing deep multistep traffic forecasting frameworks through structured specifications and learning for the residual process. Specifically, we assume the residuals of the base model (i.e., a well-developed traffic forecasting model) are governed by a matrix-variate seasonal autoregressive (AR) model, which can be seamlessly integrated into the training process by redesigning the overall loss function. Parameters in the DR framework can be jointly learned with the base model. We evaluate the effectiveness of the proposed framework in enhancing several state-of-the-art deep traffic forecasting models on both speed and flow datasets. Our experiment results show that the DR framework not only improves existing traffic forecasting models but also offers interpretable regression coefficients and spatiotemporal covariance matrices.
翻訳日:2023-01-18 15:03:53 公開日:2023-01-17
# yelan: 総合的なモーション・トゥ・イベントシミュレータを用いた挑戦的環境での3次元人物ポーズ推定

YeLan: Event Camera-Based 3D Human Pose Estimation for Technology-Mediated Dancing in Challenging Environments with Comprehensive Motion-to-Event Simulator ( http://arxiv.org/abs/2301.06648v1 )

ライセンス: Link先を確認
Zhongyang Zhang, Kaidong Chai, Haowen Yu, Ramzi Majaj, Francesca Walsh, Edward Wang, Upal Mahbub, Hava Siegelmann, Donghyun Kim, Tauhidur Rahman(参考訳) 世界中で愛されるスポーツとして、ダンスは伝統的なバーチャルリアリティーベースのゲームプラットフォームに統合されつつある。 テクノロジーが媒介するダンススペースに新たな機会を開く。 これらのプラットフォームは主に、入力キャプチャメカニズムとして、受動的かつ連続的な人間のポーズ推定に依存している。 既存のソリューションは主にダンスゲーム用のRGBまたはRGB-Depthカメラに基づいている。 前者は動きのぼやけや感度の低さにより低照度状態に苦しむが、後者は電力不足であり、フレームレートが低く、作業距離が限られている。 超低レイテンシ、エネルギー効率、広いダイナミックレンジ特性により、イベントカメラはこれらの欠点を克服するための有望なソリューションである。 本稿では,イベントカメラを用いた3次元人物ポーズ推定(hpe)システムであるyelanを提案する。 我々は、世界初のイベントカメラダンスデータセットを収集し、完全にカスタマイズ可能な物理認識シミュレータを開発した。 YeLanは、これらの挑戦的な条件下でベースラインモデルより優れており、さまざまなタイプの衣服、背景の動き、視角、閉塞、照明変動に対して堅牢性を示している。

As a beloved sport worldwide, dancing is getting integrated into traditional and virtual reality-based gaming platforms nowadays. It opens up new opportunities in the technology-mediated dancing space. These platforms primarily rely on passive and continuous human pose estimation as an input capture mechanism. Existing solutions are mainly based on RGB or RGB-Depth cameras for dance games. The former suffers in low-lighting conditions due to the motion blur and low sensitivity, while the latter is too power-hungry, has a low frame rate, and has limited working distance. With ultra-low latency, energy efficiency, and wide dynamic range characteristics, the event camera is a promising solution to overcome these shortcomings. We propose YeLan, an event camera-based 3-dimensional human pose estimation(HPE) system that survives low-lighting and dynamic background contents. We collected the world's first event camera dance dataset and developed a fully customizable motion-to-event physics-aware simulator. YeLan outperforms the baseline models in these challenging conditions and demonstrated robustness against different types of clothing, background motion, viewing angle, occlusion, and lighting fluctuations.
翻訳日:2023-01-18 15:03:32 公開日:2023-01-17
# Async-HFL:階層型IoTネットワークにおける効率的でロバストな非同期フェデレーション学習

Async-HFL: Efficient and Robust Asynchronous Federated Learning in Hierarchical IoT Networks ( http://arxiv.org/abs/2301.06646v1 )

ライセンス: Link先を確認
Xiaofan Yu, Ludmila Cherkasova, Harsh Vardhan, Quanling Zhao, Emily Ekaireb, Xiyuan Zhang, Arya Mazumdar, Tajana Rosing(参考訳) フェデレーテッド・ラーニング(FL)は近年,デバイス上での分散学習パラダイムとして関心が高まっている。 しかし、現実のIoT(Internet-of-Things)ネットワークにFLを階層的にデプロイする上で、いくつかの課題に対処する必要がある。 既存の研究では、データの異種性、システムの異種性、予期せぬストラグラー、および可視性など、さまざまなアプローチが提案されているが、階層的かつ信頼性の低いIoTネットワークにおけるすべての課題に対処する体系的なソリューションは、いずれも提供されていない。 本稿では,一般的な3層IoTネットワークアーキテクチャでFLを実行するための非同期かつ階層的なフレームワーク(Async-HFL)を提案する。 遅延が大きく異なるため、async-hflはゲートウェイとクラウドの両方で非同期集約を使用するため、待ち時間を回避することができる。 システム不均一性とストラグラー下での収束速度におけるAsync-HFLの可能性を完全に解き放つために,ゲートウェイレベルでのデバイス選択と,クラウドレベルでのデバイスゲートウェイアソシエーションを設計する。 デバイス選択はエッジデバイスを選択してリアルタイムにローカルトレーニングをトリガーし、デバイスゲートウェイアソシエーションは複数のクラウドエポックの後に定期的にネットワークトポロジを決定する。 ns-3とNYCMeshのネットワークトポロジに基づく大規模シミュレーションを用いてAsync-HFLの収束速度を評価する。 その結果,Async-HFLは壁面時間で1.08-1.31倍早く収束し,最先端の非同期FLアルゴリズムと比較して通信コストを最大21.6%削減できることがわかった。 さらに, Async-HFLを物理配置で検証し, 予期せぬストラグラー下での堅牢な収束を観察する。

Federated Learning (FL) has gained increasing interest in recent years as a distributed on-device learning paradigm. However, multiple challenges remain to be addressed for deploying FL in real-world Internet-of-Things (IoT) networks with hierarchies. Although existing works have proposed various approaches to account data heterogeneity, system heterogeneity, unexpected stragglers and scalibility, none of them provides a systematic solution to address all of the challenges in a hierarchical and unreliable IoT network. In this paper, we propose an asynchronous and hierarchical framework (Async-HFL) for performing FL in a common three-tier IoT network architecture. In response to the largely varied delays, Async-HFL employs asynchronous aggregations at both the gateway and the cloud levels thus avoids long waiting time. To fully unleash the potential of Async-HFL in converging speed under system heterogeneities and stragglers, we design device selection at the gateway level and device-gateway association at the cloud level. Device selection chooses edge devices to trigger local training in real-time while device-gateway association determines the network topology periodically after several cloud epochs, both satisfying bandwidth limitation. We evaluate Async-HFL's convergence speedup using large-scale simulations based on ns-3 and a network topology from NYCMesh. Our results show that Async-HFL converges 1.08-1.31x faster in wall-clock time and saves up to 21.6% total communication cost compared to state-of-the-art asynchronous FL algorithms (with client selection). We further validate Async-HFL on a physical deployment and observe robust convergence under unexpected stragglers.
翻訳日:2023-01-18 15:03:14 公開日:2023-01-17
# 住宅ispネットワークにおけるiotトラフィック推定における概念ドリフトの影響の定量化と管理

Quantifying and Managing Impacts of Concept Drifts on IoT Traffic Inference in Residential ISP Networks ( http://arxiv.org/abs/2301.06695v1 )

ライセンス: Link先を確認
Aarman Pashamokhtari and Norihiro Okui and Masataka Nakahara and Ayumu Kubota and Gustavo Batista and Hassan Habibi Gharakheili(参考訳) ホームネットワークにおける何百万もの脆弱な消費者向けIoTデバイスは、ユーザーのプライバシーとインターネットセキュリティを危険にさらすサイバー犯罪の有効性である。 インターネットサービスプロバイダ(ISP)は、家庭ごとのアクティブなIoTデバイスを自動推論し、脆弱なデバイスをユーザに通知することで、リスク軽減に重要な役割を果たしている。 数千のホームネットワークで堅牢に実行できるスケーラブルな推論手法の開発は、非常に簡単な作業です。 本稿では、デバイス動作のラベル付きデータに制限がある場合のデータ駆動推論モデルの開発と適用の課題と、時間と空間領域におけるデータ変化(概念ドリフト)の分布に焦点を当てる。 Our contributions are three-fold: (1) We collect and analyze network traffic of 24 types of consumer IoT devices from 12 real homes over six weeks to highlight the challenge of temporal and spatial concept drifts in network behavior of IoT devices; (2) We analyze the performance of two inference strategies, namely "global inference" (a model trained on a combined set of all labeled data from training homes) and "contextualized inference" (several models each trained on the labeled data from a training home) in the presence of concept drifts; and (3) To manage concept drifts, we develop a method that dynamically applies the ``closest'' model (from a set) to network traffic of unseen homes during the testing phase, yielding better performance in 20% of scenarios.

Millions of vulnerable consumer IoT devices in home networks are the enabler for cyber crimes putting user privacy and Internet security at risk. Internet service providers (ISPs) are best poised to play key roles in mitigating risks by automatically inferring active IoT devices per household and notifying users of vulnerable ones. Developing a scalable inference method that can perform robustly across thousands of home networks is a non-trivial task. This paper focuses on the challenges of developing and applying data-driven inference models when labeled data of device behaviors is limited and the distribution of data changes (concept drift) across time and space domains. Our contributions are three-fold: (1) We collect and analyze network traffic of 24 types of consumer IoT devices from 12 real homes over six weeks to highlight the challenge of temporal and spatial concept drifts in network behavior of IoT devices; (2) We analyze the performance of two inference strategies, namely "global inference" (a model trained on a combined set of all labeled data from training homes) and "contextualized inference" (several models each trained on the labeled data from a training home) in the presence of concept drifts; and (3) To manage concept drifts, we develop a method that dynamically applies the ``closest'' model (from a set) to network traffic of unseen homes during the testing phase, yielding better performance in 20% of scenarios.
翻訳日:2023-01-18 14:57:46 公開日:2023-01-17
# Audio2 Gestures: オーディオからさまざまなジェスチャーを生成する

Audio2Gestures: Generating Diverse Gestures from Audio ( http://arxiv.org/abs/2301.06690v1 )

ライセンス: Link先を確認
Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Linchao Bao, Zhenyu He(参考訳) 人々は同じ文章を話すとき、様々な精神的・身体的要因の影響を受ける多様なジェスチャーを行う。 この1対多の関係は、音声から音声の合成を特に困難にする。 従来のcnn/rnnは1対1のマッピングを仮定しており、可能なすべてのターゲット動作の平均を予測する傾向がある。 そこで我々は,クロスモーダル潜在コードを共有コードと動作固有コードに分割して,一対一のオーディオ-モーションマッピングを明示的にモデル化することを提案する。 共有コードは、音声とより相関の深い動き成分に責任を負うことが期待され、モーション固有コードは、オーディオとは独立な多様な動き情報をキャプチャすることが期待される。 しかし、潜在コードを2つの部分に分割することは、追加のトレーニング困難をもたらす。 リラックスした運動の損失、自転車の制約、多様性の喪失など、いくつかの重要な訓練損失/戦略は、VAEの訓練を改善するために設計されている。 3Dと2Dの両方のモーションデータセットの実験により、我々の手法は従来の最先端手法よりもリアルで多様な動きを定量的に、質的に生成することを確認した。 さらに、我々の定式化は離散コサイン変換(DCT)モデリングや他の一般的なバックボーン(\textit{i.e.} RNN, Transformer)と互換性がある。 運動損失と定量的運動評価に関しては、時間的および空間的文脈を考慮した構造的損失/メトリック(例えば、stft)が、最も一般的に使用される点的損失(例えば、pck)を補完し、運動ダイナミクスとより微妙な動き詳細をもたらす。 最後に,提案手法を用いて,ユーザが特定した動画クリップをタイムライン上で生成できることを示す。

People may perform diverse gestures affected by various mental and physical factors when speaking the same sentences. This inherent one-to-many relationship makes co-speech gesture generation from audio particularly challenging. Conventional CNNs/RNNs assume one-to-one mapping, and thus tend to predict the average of all possible target motions, easily resulting in plain/boring motions during inference. So we propose to explicitly model the one-to-many audio-to-motion mapping by splitting the cross-modal latent code into shared code and motion-specific code. The shared code is expected to be responsible for the motion component that is more correlated to the audio while the motion-specific code is expected to capture diverse motion information that is more independent of the audio. However, splitting the latent code into two parts poses extra training difficulties. Several crucial training losses/strategies, including relaxed motion loss, bicycle constraint, and diversity loss, are designed to better train the VAE. Experiments on both 3D and 2D motion datasets verify that our method generates more realistic and diverse motions than previous state-of-the-art methods, quantitatively and qualitatively. Besides, our formulation is compatible with discrete cosine transformation (DCT) modeling and other popular backbones (\textit{i.e.} RNN, Transformer). As for motion losses and quantitative motion evaluation, we find structured losses/metrics (\textit{e.g.} STFT) that consider temporal and/or spatial context complement the most commonly used point-wise losses (\textit{e.g.} PCK), resulting in better motion dynamics and more nuanced motion details. Finally, we demonstrate that our method can be readily used to generate motion sequences with user-specified motion clips on the timeline.
翻訳日:2023-01-18 14:57:26 公開日:2023-01-17
# dqnas:強化学習を用いたニューラルアーキテクチャ探索

DQNAS: Neural Architecture Search using Reinforcement Learning ( http://arxiv.org/abs/2301.06687v1 )

ライセンス: Link先を確認
Anshumaan Chauhan, Siddhartha Bhattacharyya, S. Vadivel(参考訳) 畳み込みニューラルネットワークは、ImageNetの競合によって人気が高まり、さまざまな画像関連アプリケーションで使用されている。 畳み込みニューラルネットワークは、顔認識、移動ターゲットの検出と追跡、カロリーに基づく食品の分類など、多くの応用において顕著な結果を示している。 畳み込みニューラルネットワークの設計には、クロスドメインの知識を持つ専門家が必要であり、既存のアーキテクチャの異なる構成を考慮すると同時に、異なるハイパーパラメータの異なる値をテストするのに多くの時間を要する。 ニューラルネットワーク(neural architecture)検索は、ニューラルネットワークアーキテクチャを生成する自動化方法であり、研究者があらゆる力テストのトラブルから救うが、多くの計算リソースを長時間消費するという欠点がある。 本稿では,強化学習の原則とワンショットトレーニングを併用した自動ニューラルネットワーク検索フレームワークDQNASを提案する。

Convolutional Neural Networks have been used in a variety of image related applications after their rise in popularity due to ImageNet competition. Convolutional Neural Networks have shown remarkable results in applications including face recognition, moving target detection and tracking, classification of food based on the calorie content and many more. Designing of Convolutional Neural Networks requires experts having a cross domain knowledge and it is laborious, which requires a lot of time for testing different values for different hyperparameter along with the consideration of different configurations of existing architectures. Neural Architecture Search is an automated way of generating Neural Network architectures which saves researchers from all the brute-force testing trouble, but with the drawback of consuming a lot of computational resources for a prolonged period. In this paper, we propose an automated Neural Architecture Search framework DQNAS, guided by the principles of Reinforcement Learning along with One-shot Training which aims to generate neural network architectures that show superior performance and have minimum scalability problem.
翻訳日:2023-01-18 14:56:48 公開日:2023-01-17
# ゼロショットスケッチに基づく画像検索のための配向特徴クラスタリング

Distribution Aligned Feature Clustering for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2301.06685v1 )

ライセンス: Link先を確認
Yuchen Wu, Kun Song, Fangzheng Zhao, Jiansheng Chen, Huimin Ma(参考訳) Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR)は、クロスモーダル検索の課題である。 先行技術では、問合せスケッチとギャラリー内の各画像との間の距離をソートして検索を行う。 しかし、ドメインギャップとゼロショット設定により、ニューラルネットワークの一般化が困難になる。 本稿では,ギャラリー画像機能の利用という新たな視点から課題に取り組む。 本稿では,ギャラリーイメージ上でクラスタリングを行い,クラスタセンタを検索のプロキシとして使用するクラスタレトリーブ(clusterretri)手法を提案する。 さらに,画像とスケッチの特徴を共通のガウス分布にアライメントするために分布アライメント損失を提案し,領域ギャップを低減した。 その単純さにもかかわらず、提案手法は、一般的なデータセット、例えばSketchyおよびTU-BerlinデータセットにおけるmAP@allの31%と39%の相対的な改善において、最先端の手法よりも優れている。

Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) is a challenging cross-modal retrieval task. In prior arts, the retrieval is conducted by sorting the distance between the query sketch and each image in the gallery. However, the domain gap and the zero-shot setting make neural networks hard to generalize. This paper tackles the challenges from a new perspective: utilizing gallery image features. We propose a Cluster-then-Retrieve (ClusterRetri) method that performs clustering on the gallery images and uses the cluster centroids as proxies for retrieval. Furthermore, a distribution alignment loss is proposed to align the image and sketch features with a common Gaussian distribution, reducing the domain gap. Despite its simplicity, our proposed method outperforms the state-of-the-art methods by a large margin on popular datasets, e.g., up to 31% and 39% relative improvement of mAP@all on the Sketchy and TU-Berlin datasets.
翻訳日:2023-01-18 14:56:33 公開日:2023-01-17
# 外科的アグリゲーション:多様なタスクで分散データセットを調和させるための連合学習フレームワーク

Surgical Aggregation: A Federated Learning Framework for Harmonizing Distributed Datasets with Diverse Tasks ( http://arxiv.org/abs/2301.06683v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) AIによる胸部X線の評価(CXR)は、多くの臨床応用において大きなメリットをもたらす可能性がある。 多くの大規模公開CXRデータセットは、ディープラーニングを用いて異常を検出するためにキュレーションされている。 しかし、これらのデータセットは、CXRに存在する可能性のある疾患ラベルのサブセットを検出することに集中しており、臨床効果を制限している。 さらに、これらのデータセットの分散的な性質とデータ共有規則は、病気ラベルの完全な表現の共有と作成を困難にしている。 異なる疾患ラベルを持つ分散データセットから知識を'グローバル'なディープラーニングモデルに集約する,統合学習フレームワークである外科的アグリゲーションを提案する。 NIH Chest X-Ray 14データセットをトレーニング(70%)、検証(10%)、テスト(20%)にランダムに分割し、2つの実験を行った。 最初の実験では、11のラベルと8のラベルを含む2つの「toy」データセットを4つのラベルを重ね合わせて作成した。 2つ目の実験では、病気のラベルを刈り取って、それぞれ7つのラベルを持つ2つの“toy”データセットを作成しました。 その結果,全疾患ラベルをトレーニングした「ベースライン」モデルと比較して,外科的に集約した「グローバル」モデルが両実験とも優れた成績を示した。 重なり合う実験と解離実験はそれぞれ0.87のAUROCと0.86のAUROCを持つ。 NIH Chest X-Ray 14 と CheXpert のデータセットを,AUROC 0.85 と 0.83 の「グローバル」モデルに調和させた。 以上より,多種多様な課題を伴う分散データセットから知識を集約することで,臨床上有用な深層学習モデルの開発に外科的アグリゲーションが活用できる可能性が示唆された。

AI-assisted characterization of chest x-rays (CXR) has the potential to provide substantial benefits across many clinical applications. Many large-scale public CXR datasets have been curated for detection of abnormalities using deep learning. However, each of these datasets focus on detecting a subset of disease labels that could be present in a CXR, thus limiting their clinical utility. Furthermore, the distributed nature of these datasets, along with data sharing regulations, make it difficult to share and create a complete representation of disease labels. We propose surgical aggregation, a federated learning framework for aggregating knowledge from distributed datasets with different disease labels into a 'global' deep learning model. We randomly divided the NIH Chest X-Ray 14 dataset into training (70%), validation (10%), and test (20%) splits with no patient overlap and conducted two experiments. In the first experiment, we pruned the disease labels to create two 'toy' datasets containing 11 and 8 labels respectively with 4 overlapping labels. For the second experiment, we pruned the disease labels to create two disjoint 'toy' datasets with 7 labels each. We observed that the surgically aggregated 'global' model resulted in excellent performance across both experiments when compared to a 'baseline' model trained on complete disease labels. The overlapping and disjoint experiments had an AUROC of 0.87 and 0.86 respectively, compared to the baseline AUROC of 0.87. We used surgical aggregation to harmonize the NIH Chest X-Ray 14 and CheXpert datasets into a 'global' model with an AUROC of 0.85 and 0.83 respectively. Our results show that surgical aggregation could be used to develop clinically useful deep learning models by aggregating knowledge from distributed datasets with diverse tasks, a step forward towards bridging the gap from bench to bedside.
翻訳日:2023-01-18 14:56:16 公開日:2023-01-17
# 光音響CTにおける非教師付きクロスドメイン再構成

Cross-domain Unsupervised Reconstruction with Equivariance for Photoacoustic Computed Tomography ( http://arxiv.org/abs/2301.06681v1 )

ライセンス: Link先を確認
Hengrong Lan, Lijie Huang, Liming Nie, Jianwen Luo(参考訳) 光音響CT(PACT)では正確な画像再構成が重要である。 近年,高画質画像を基底的真理ラベルとして要求する教師付きスキームを用いて,pa画像の再構成にディープラーニングが用いられている。 実際には、より多くのチャネルを使用することはより多くの測定値にアクセスするための高価な戦略であるため、コストとパフォーマンスの間に避けられないトレードオフがある。 本稿では,限られたpa測定値から基底真理ラベルの欠如を克服する,純粋トランスフォーマーモデルを用いたクロスドメイン非教師なし再構成(cdur)戦略を提案する。 提案手法はPACTの等価性を利用して,少ないチャネル数で高い性能を実現する。 モデルに基づく自己教師型再構築を実現する。 また,異なるチャネルをランダムにマスキングすることで,計測されたPAデータの3つの分割に対して,その測定と画像の一貫性を強制する。 例えば80%のチャネルを動的にマスキングすると、画像領域と信号領域の両方において非自明な自己スーパーバイザが得られ、擬似解の多重度を減少させ、画像の最小誤差で少ないPA測定値から画像を効率的に再構成する。 マウスのin-vivo PACTデータセットの実験結果は、我々の教師なしフレームワークの可能性を示している。 さらに,本手法は, 教師付きスキーム (0.77 SSIM, 16チャンネル) に近く, 極端なスパースの場合において高い性能 (0.83 構造類似度指数 (SSIM) を示す。 あらゆる利点に加えて、我々の方法はエンドツーエンドで異なるトレーニング可能なモデルにデプロイされるかもしれない。

Accurate image reconstruction is crucial for photoacoustic (PA) computed tomography (PACT). Recently, deep learning has been used to reconstruct the PA image with a supervised scheme, which requires high-quality images as ground truth labels. In practice, there are inevitable trade-offs between cost and performance since the use of more channels is an expensive strategy to access more measurements. Here, we propose a cross-domain unsupervised reconstruction (CDUR) strategy with a pure transformer model, which overcomes the lack of ground truth labels from limited PA measurements. The proposed approach exploits the equivariance of PACT to achieve high performance with a smaller number of channels. We implement a self-supervised reconstruction in a model-based form. Meanwhile, we also leverage the self-supervision to enforce the measurement and image consistency on three partitions of measured PA data, by randomly masking different channels. We find that dynamically masking a high proportion of the channels, e.g., 80%, yields nontrivial self-supervisors in both image and signal domains, which decrease the multiplicity of the pseudo solution to efficiently reconstruct the image from fewer PA measurements with minimum error of the image. Experimental results on in-vivo PACT dataset of mice demonstrate the potential of our unsupervised framework. In addition, our method shows a high performance (0.83 structural similarity index (SSIM) in the extreme sparse case with 13 channels), which is close to that of supervised scheme (0.77 SSIM with 16 channels). On top of all the advantages, our method may be deployed on different trainable models in an end-to-end manner.
翻訳日:2023-01-18 14:55:42 公開日:2023-01-17
# DIGITOUR:不動産不動産の自動デジタルツアー

DIGITOUR: Automatic Digital Tours for Real-Estate Properties ( http://arxiv.org/abs/2301.06680v1 )

ライセンス: Link先を確認
Prateek Chhikara, Harshul Kuhar, Anil Goyal, Chirag Sharma(参考訳) 仮想またはデジタルツアーは、ユーザーが特定の場所をリモートで体験できる仮想現実技術の一種である。 現在、これらの仮想ツアーは2段階の戦略に従って作成されている。 まず、写真家が360度の正方形画像をクリックすると、アノテータのチームが手動でこれらの画像を“ウォークスルー”ユーザ体験にリンクする。 仮想ツアーの大量導入における大きな課題は、画像の手動アノテーション/リンクにかかわる時間とコストである。 そこで本稿では,等角形状画像を用いた3次元仮想ツアーの自動生成のためのエンドツーエンドパイプラインを提案する。 360度カメラで等方形画像をクリックする前に、異なる場所に配置する必要がある紙タグに対する新しいHSVベースの色付け手法を提案する。 これらのタグには2つの特徴があります 一 撮影者がタグを順次配置するのを手伝うために番号が付けられていること。 二 画像におけるタグ検出(yolov5アーキテクチャを使用)及び(独自のmobilenetアーキテクチャを使用した)デジット認識のよりよい学習を可能にするバイカラー。 最後に、検出されたタグに基づいて、すべての等角像をリンク/接続する。 housing.comデータベースから収集した実世界等角画像データセット上で,提案パイプラインの有効性を示す。

A virtual or digital tour is a form of virtual reality technology which allows a user to experience a specific location remotely. Currently, these virtual tours are created by following a 2-step strategy. First, a photographer clicks a 360 degree equirectangular image; then, a team of annotators manually links these images for the "walkthrough" user experience. The major challenge in the mass adoption of virtual tours is the time and cost involved in manual annotation/linking of images. Therefore, this paper presents an end-to-end pipeline to automate the generation of 3D virtual tours using equirectangular images for real-estate properties. We propose a novel HSV-based coloring scheme for paper tags that need to be placed at different locations before clicking the equirectangular images using 360 degree cameras. These tags have two characteristics: i) they are numbered to help the photographer for placement of tags in sequence and; ii) bi-colored, which allows better learning of tag detection (using YOLOv5 architecture) in an image and digit recognition (using custom MobileNet architecture) tasks. Finally, we link/connect all the equirectangular images based on detected tags. We show the efficiency of the proposed pipeline on a real-world equirectangular image dataset collected from the Housing.com database.
翻訳日:2023-01-18 14:55:14 公開日:2023-01-17
# ネットワーク奥行き-幅トレードオフによる軽量サルエント物体検出の再考

Rethinking Lightweight Salient Object Detection via Network Depth-Width Tradeoff ( http://arxiv.org/abs/2301.06679v1 )

ライセンス: Link先を確認
Jia Li, Shengye Qiao, Zhirui Zhao, Chenxi Xie, Xiaowu Chen and Changqun Xia(参考訳) 既存の有能な物体検出法では、より深くより広いネットワークを用いて性能を向上し、計算負荷と推論速度を遅くする。 これは、効率と正確さのバランスを良好にするために、サリエンシー検出を再考することを促します。 この目的のために,競争精度を維持しつつ軽量なフレームワークを設計する。 具体的には,U字型構造を3つの相補的な分岐に分解し,意味的文脈の解消,空間構造の喪失,境界詳細の欠如に対処する,新しい3方向デコーダフレームワークを提案する。 3つの分枝の融合とともに、粗い分節結果は構造の詳細と境界品質において徐々に洗練される。 さらに,学習可能なパラメータを追加することなく,マルチスケール・レセプティブ・ファイリングを得るためのスケール適応型プーリングモジュールを提案する。 特に,この枠組みを継承することを前提として,ネットワーク奥行き幅トレードオフによる精度,パラメータ,速度の関係を再考する。 このような洞察に富んだ考察により,軽量sodの最大ポテンシャルを探求するために,より浅く狭いモデルを包括的に設計する。 私たちのモデルは、異なるアプリケーション環境向けに作られています。 1)リソース制約デバイス用の小さなバージョンCTD-S(1.7M,125FPS)。 2)高速版CTD-M(12.6M、158FPS)。 3 高性能プラットフォーム向けの標準版CTD-L (26.5M, 84FPS)。 5つのベンチマークで効率と精度のバランスを良くする手法の優位性を検証する。

Existing salient object detection methods often adopt deeper and wider networks for better performance, resulting in heavy computational burden and slow inference speed. This inspires us to rethink saliency detection to achieve a favorable balance between efficiency and accuracy. To this end, we design a lightweight framework while maintaining satisfying competitive accuracy. Specifically, we propose a novel trilateral decoder framework by decoupling the U-shape structure into three complementary branches, which are devised to confront the dilution of semantic context, loss of spatial structure and absence of boundary detail, respectively. Along with the fusion of three branches, the coarse segmentation results are gradually refined in structure details and boundary quality. Without adding additional learnable parameters, we further propose Scale-Adaptive Pooling Module to obtain multi-scale receptive filed. In particular, on the premise of inheriting this framework, we rethink the relationship among accuracy, parameters and speed via network depth-width tradeoff. With these insightful considerations, we comprehensively design shallower and narrower models to explore the maximum potential of lightweight SOD. Our models are purposed for different application environments: 1) a tiny version CTD-S (1.7M, 125FPS) for resource constrained devices, 2) a fast version CTD-M (12.6M, 158FPS) for speed-demanding scenarios, 3) a standard version CTD-L (26.5M, 84FPS) for high-performance platforms. Extensive experiments validate the superiority of our method, which achieves better efficiency-accuracy balance across five benchmarks.
翻訳日:2023-01-18 14:54:53 公開日:2023-01-17
# 個々のk\=ak\=aを識別するための特徴量に基づく画像マッチング

Feature-based Image Matching for Identifying Individual K\=ak\=a ( http://arxiv.org/abs/2301.06678v1 )

ライセンス: Link先を確認
Fintan O'Sullivan, Kirita-Rose Escott, Rachael Shaw, Andrew Lensen(参考訳) 本報告は,個々のk\=ak\=aを識別する新しい応用のための教師なし,特徴ベース画像マッチングパイプラインについて検討する。 クラスタリングに類似性ネットワークを適用したこの手法は、新しい個体の集団への導入に苦慮している個体を同定する現在の監督されたアプローチの弱点に対処する。 本手法では,オブジェクトローカライズを用いて画像中のk\=ak\=aを同定し,回転やスケールに不変な局所特徴を抽出する。 これらの特徴は、近傍のマッチング技術とミスマッチ除去とで一致し、画像マッチング比較の類似点を生成する。 その結果、画像マッチングパイプラインで得られるマッチングは、真のマッチングの精度が高いことがわかった。 機能ベースの画像マッチングは、既存の教師付きアプローチに代わる実行可能な代替手段を提供するために、類似ネットワークで使用できると結論付けた。

This report investigates an unsupervised, feature-based image matching pipeline for the novel application of identifying individual k\=ak\=a. Applied with a similarity network for clustering, this addresses a weakness of current supervised approaches to identifying individual birds which struggle to handle the introduction of new individuals to the population. Our approach uses object localisation to locate k\=ak\=a within images and then extracts local features that are invariant to rotation and scale. These features are matched between images with nearest neighbour matching techniques and mismatch removal to produce a similarity score for image match comparison. The results show that matches obtained via the image matching pipeline achieve high accuracy of true matches. We conclude that feature-based image matching could be used with a similarity network to provide a viable alternative to existing supervised approaches.
翻訳日:2023-01-18 14:54:30 公開日:2023-01-17
# インテリジェントデジタル双生児のための説明可能な、解釈可能な、信頼できるAI:有用生活の継続を事例として

Explainable, Interpretable & Trustworthy AI for Intelligent Digital Twin: Case Study on Remaining Useful Life ( http://arxiv.org/abs/2301.06676v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Bader Almutairi, Md Nazmus Sakib, Souvik Chakraborty, Syed B. Alam(参考訳) 機械学習(ML)と人工知能(AI)は、エネルギーとエンジニアリングシステムでますます使われているが、これらのモデルは公平で偏見がなく、説明可能である必要がある。 AIの信頼性に自信を持つことは重要だ。 ML技術は重要なパラメータの予測とモデル性能の向上に有用である。 しかし、これらのAI技術が意思決定に有用であるためには、監査、説明、理解しやすくする必要がある。 したがって、説明可能なAI(XAI)と解釈可能な機械学習(IML)の使用は、デジタルツインシステムにおいて有用な生命(RUL)を保ちながら、AIモデルが意思決定プロセスにおいて透明であり、それが生成する予測がユーザによって理解され、信頼されるようにするための、正確な予測に不可欠である。 説明可能で、解釈可能で、信頼できるaiを使用することで、インテリジェントなデジタルツインシステムはrulをより正確に予測し、メンテナンスと修復計画の改善、最終的にはシステムパフォーマンスの向上につながる。 本研究の目的は,XAI と IML の考え方を理解し,予測をよりよく理解するために必要な Digital Twin フレームワークおよびコンポーネントにおける ML/AI の重要な役割を正当化することである。 本稿では、RUL予測に信頼できるML/AIアプリケーションの使用を保証するため、ローカル・グローバル両面におけるXAIとIMLの重要性を説明する。 本稿では,XAI と IML の研究に RUL 予測を用い,PiML (Interpretable Machine Learning) に統合された python ツールボックスを利用した。

Machine learning (ML) and Artificial Intelligence (AI) are increasingly used in energy and engineering systems, but these models must be fair, unbiased, and explainable. It is critical to have confidence in AI's trustworthiness. ML techniques have been useful in predicting important parameters and improving model performance. However, for these AI techniques to be useful for making decisions, they need to be audited, accounted for, and easy to understand. Therefore, the use of Explainable AI (XAI) and interpretable machine learning (IML) is crucial for the accurate prediction of prognostics, such as remaining useful life (RUL) in a digital twin system to make it intelligent while ensuring that the AI model is transparent in its decision-making processes and that the predictions it generates can be understood and trusted by users. By using AI that is explainable, interpretable, and trustworthy, intelligent digital twin systems can make more accurate predictions of RUL, leading to better maintenance and repair planning and, ultimately, improved system performance. The objective of this paper is to understand the idea of XAI and IML and justify the important role of ML/AI in the Digital Twin framework and components, which requires XAI to understand the prediction better. This paper explains the importance of XAI and IML in both local and global aspects to ensure the use of trustworthy ML/AI applications for RUL prediction. This paper used the RUL prediction for the XAI and IML studies and leveraged the integrated python toolbox for interpretable machine learning (PiML).
翻訳日:2023-01-18 14:54:17 公開日:2023-01-17
# マラヤラムにおける開語彙音声認識のための助詞トークン

Syllable Subword Tokens for Open Vocabulary Speech Recognition in Malayalam ( http://arxiv.org/abs/2301.06736v1 )

ライセンス: Link先を確認
Kavya Manohar, A. R. Jayan, Rajeev Rajan(参考訳) ハイブリッド自動音声認識(ASR)システムでは、発音辞書(PL)と言語モデル(LM)が音声単語列を正しく検索するのに不可欠である。 形態的に複雑な言語であるため、マラヤラム語の語彙は非常に巨大であり、様々な単語形式をカバーするplとlmを構築することは不可能である。 PLとLMを構築するためにサブワードトークンを使用し、デコード後に単語を形成するためにそれらを組み合わせて、多くの語彙単語の回復を可能にする。 本研究は,マラヤラム語asrにおける単語の代わりに音節を副単語トークンとして用いることの影響を調査し,語彙サイズ,モデルメモリ要件,単語誤り率の相対的改善を評価する。

In a hybrid automatic speech recognition (ASR) system, a pronunciation lexicon (PL) and a language model (LM) are essential to correctly retrieve spoken word sequences. Being a morphologically complex language, the vocabulary of Malayalam is so huge and it is impossible to build a PL and an LM that cover all diverse word forms. Usage of subword tokens to build PL and LM, and combining them to form words after decoding, enables the recovery of many out of vocabulary words. In this work we investigate the impact of using syllables as subword tokens instead of words in Malayalam ASR, and evaluate the relative improvement in lexicon size, model memory requirement and word error rate.
翻訳日:2023-01-18 14:48:40 公開日:2023-01-17
# 統一ストリーミングと非ストリーミングトランスデューサにおける文脈バイアスのための2段階文脈単語フィルタリング

Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer ( http://arxiv.org/abs/2301.06735v1 )

ライセンス: Link先を確認
Zhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie(参考訳) エンドツーエンド(E2E)のASRシステムでは、トレーニングデータに頻繁に現れる名前付きエンティティなどの単語を認識することは困難である。 この問題を軽減するために広く使われている方法は、音響モデルに文脈情報を供給することである。 コンテキストワードリストが必要であり、可能なすべてのコンテキストワード候補をリストアップする。 以前の著作では、リストのサイズと品質が重要であることが証明されている。 コンパクトで正確なリストは、パフォーマンスを大幅に向上させることができる。 本稿では,ストリーミングおよび非ストリーミング型コンフォーマトランスデューサ(c-t)モデルにおいて,高品質な文脈単語リストを得るための効率的な手法を提案する。 具体的には、電話レベルのストリーミング出力を用いて、事前に定義された文脈単語リストをフィルタリングする。 その後の非ストリーミング推論では、フィルタされたリスト内の単語は、非カジュアルエンコーダとデコーダに融合して最終認識結果を生成するコンテキスト情報とみなされる。 提案手法では,ストリーミング認識仮説の活用,文脈的ASRシステムの精度の向上,推論プロセスの高速化などが可能である。 2つのデータセットの実験では、ベースラインシステムと比較して20%以上の文字誤り率(CERR)が減少している。 文脈的単語リストのサイズが6,000を超えると、我々のシステムのRTFは0.15未満で安定できる。

It is difficult for an end-to-end (E2E) ASR system to recognize words such as named entities appearing infrequently in the training data. A widely used method to mitigate this issue is feeding contextual information into the acoustic model. A contextual word list is necessary, which lists all possible contextual word candidates. Previous works have proven that the size and quality of the list are crucial. A compact and accurate list can boost the performance significantly. In this paper, we propose an efficient approach to obtain a high quality contextual word list for a unified streaming and non-streaming based Conformer-Transducer (C-T) model. Specifically, we make use of the phone-level streaming output to first filter the predefined contextual word list. During the subsequent non-streaming inference, the words in the filtered list are regarded as contextual information fused into non-casual encoder and decoder to generate the final recognition results. Our approach can take advantage of streaming recognition hypothesis, improve the accuracy of the contextual ASR system and speed up the inference process as well. Experiments on two datasets demonstrates over 20% relative character error rate reduction (CERR) comparing to the baseline system. Meanwile, the RTF of our system can be stabilized within 0.15 when the size of the contextual word list grows over 6,000.
翻訳日:2023-01-18 14:48:27 公開日:2023-01-17
# 階層的デカップリングによる顔逆レンダリング

Face Inverse Rendering via Hierarchical Decoupling ( http://arxiv.org/abs/2301.06733v1 )

ライセンス: Link先を確認
Meng Wang, Xiaojie Guo, Wenjing Dai, and Jiawan Zhang(参考訳) 以前の顔の逆レンダリング法は、しばしば地上の真実と/または照明ステージのような専門的な装置の合成データを必要とする。 しかしながら、合成データや事前定義された照明前処理を使って訓練されたモデルは、通常、合成データ/照明前処理と実データとのギャップのため、実世界の状況でうまく一般化できない。 さらに、一般ユーザにとって、プロの機器とスキルは、タスクを高価かつ複雑にします。 本稿では,野生の顔画像から対応するアルベド成分,正常成分,照明成分を分離する深層学習フレームワークを提案する。 具体的には、任意の視点から取得した画像対を入力として、階層的な分割戦略で分解ネットワークを構築する。 このようにして、このアプローチはデータ準備のプレッシャーを大幅に軽減し、顔逆レンダリングの適用性を大幅に広げることができます。 我々の設計の有効性を実証し、他の最先端技術よりも優れた照準性能を示すため、広範囲な実験を行った。 私たちのコードは \url{https://github.com/autohdr/hd-net.git}} で利用可能です。

Previous face inverse rendering methods often require synthetic data with ground truth and/or professional equipment like a lighting stage. However, a model trained on synthetic data or using pre-defined lighting priors is typically unable to generalize well for real-world situations, due to the gap between synthetic data/lighting priors and real data. Furthermore, for common users, the professional equipment and skill make the task expensive and complex. In this paper, we propose a deep learning framework to disentangle face images in the wild into their corresponding albedo, normal, and lighting components. Specifically, a decomposition network is built with a hierarchical subdivision strategy, which takes image pairs captured from arbitrary viewpoints as input. In this way, our approach can greatly mitigate the pressure from data preparation, and significantly broaden the applicability of face inverse rendering. Extensive experiments are conducted to demonstrate the efficacy of our design, and show its superior performance in face relighting over other state-of-the-art alternatives. {Our code is available at \url{https://github.com/AutoHDR/HD-Net.git}}
翻訳日:2023-01-18 14:48:06 公開日:2023-01-17
# コンピュータビジョンとLSTMニューラルネットワークを用いたコロナホール解析と予測

Coronal Hole Analysis and Prediction using Computer Vision and LSTM Neural Network ( http://arxiv.org/abs/2301.06732v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 人類が宇宙を探索し始めるにつれ、宇宙の天気の重要性が明らかになってきた。 宇宙天気現象の一種であるコロナホールが、航空機や衛星の運用に影響を与えることが確立されている。 コロナホール(英: coronal hole)は、オープン磁場線と比較的低温を特徴とする太陽上の領域であり、太陽風を平均より高い速度で放出する。 本研究では,地球へのコロナホールの影響に備えるために,コンピュータビジョンを用いてコロナホール領域を検出し,太陽動力学観測所(sdo)の画像に基づいてその大きさを計算する。 次に, 深層学習, 特にLong Short-Term Memory (LSTM) 手法を実装し, コロナホール領域データの傾向を解析し, 7日間にわたる異なる太陽領域におけるそのサイズを予測する。 本研究は, コロナホール領域の時系列データを解析することにより, コロナホールの挙動のパターンや傾向を同定し, 宇宙気象事象にどのように影響するかを理解することを目的とする。 この研究は、地球と技術システムに影響を与える宇宙天気イベントを予測し、準備する能力を改善するための重要なステップである。

As humanity has begun to explore space, the significance of space weather has become apparent. It has been established that coronal holes, a type of space weather phenomenon, can impact the operation of aircraft and satellites. The coronal hole is an area on the sun characterized by open magnetic field lines and relatively low temperatures, which result in the emission of the solar wind at higher than average rates. In this study, To prepare for the impact of coronal holes on the Earth, we use computer vision to detect the coronal hole region and calculate its size based on images from the Solar Dynamics Observatory (SDO). We then implement deep learning techniques, specifically the Long Short-Term Memory (LSTM) method, to analyze trends in the coronal hole area data and predict its size for different sun regions over 7 days. By analyzing time series data on the coronal hole area, this study aims to identify patterns and trends in coronal hole behavior and understand how they may impact space weather events. This research represents an important step towards improving our ability to predict and prepare for space weather events that can affect Earth and technological systems.
翻訳日:2023-01-18 14:47:49 公開日:2023-01-17
# Bag of States: ビデオベースエンゲージメント計測における非逐次的アプローチ

Bag of States: A Non-sequential Approach to Video-based Engagement Measurement ( http://arxiv.org/abs/2301.06730v1 )

ライセンス: Link先を確認
Ali Abedi, Chinchu Thomas, Dinesh Babu Jayagopi, and Shehroz S. Khan(参考訳) 学生のエンゲージメントの自動測定は、教師が学習プログラムの目標を満たし、プログラム配信を個別化するのに役立つ情報を提供する。 学生の行動状態と感情状態は、エンゲージメントのレベルを測定するために、きめ細かい時間スケールで分析する必要がある。 既存の多くのアプローチは、ビデオから学生のエンゲージメントを測定するために、繰り返しニューラルネットワーク、時間的畳み込みネットワーク、三次元畳み込みニューラルネットワークなどの逐次的および時空間モデルを開発した。 これらのモデルは、学生の行動と感情の順番をビデオ分析に取り入れ、エンゲージメントのレベルを出力するように訓練されている。 本稿では, 教育心理学を基盤として, 学生の行動・感情の順序をモデル化する必要性について疑問を呈する。 学生の行動状態や感情状態の出現のみをモデル化し,その発生順序ではなく分析する,言葉の袋型モデルを開発した。 ビデオから行動的・情緒的特徴を抽出し,提案モデルを用いて分析し,順序出力分類におけるエンゲージメントのレベルを決定する。 既存のエンゲージメント測定の逐次的および時空間的アプローチと比較して、提案手法は最先端の結果を改善する。 実験結果から,3TB Online SEデータセットのエンゲージメントレベル分類精度は,シーケンシャルモデルと比較して26%向上し,DAiSEE学生エンゲージメントデータセットでは66.58%のエンゲージメントレベル分類精度を達成した。

Automatic measurement of student engagement provides helpful information for instructors to meet learning program objectives and individualize program delivery. Students' behavioral and emotional states need to be analyzed at fine-grained time scales in order to measure their level of engagement. Many existing approaches have developed sequential and spatiotemporal models, such as recurrent neural networks, temporal convolutional networks, and three-dimensional convolutional neural networks, for measuring student engagement from videos. These models are trained to incorporate the order of behavioral and emotional states of students into video analysis and output their level of engagement. In this paper, backed by educational psychology, we question the necessity of modeling the order of behavioral and emotional states of students in measuring their engagement. We develop bag-of-words-based models in which only the occurrence of behavioral and emotional states of students is modeled and analyzed and not the order in which they occur. Behavioral and affective features are extracted from videos and analyzed by the proposed models to determine the level of engagement in an ordinal-output classification setting. Compared to the existing sequential and spatiotemporal approaches for engagement measurement, the proposed non-sequential approach improves the state-of-the-art results. According to experimental results, our method significantly improved engagement level classification accuracy on the IIITB Online SE dataset by 26% compared to sequential models and achieved engagement level classification accuracy as high as 66.58% on the DAiSEE student engagement dataset.
翻訳日:2023-01-18 14:47:28 公開日:2023-01-17
# 計算レキシケース選択確率はNP-Hardである

Calculating lexicase selection probabilities is NP-Hard ( http://arxiv.org/abs/2301.06724v1 )

ライセンス: Link先を確認
Emily Dolson(参考訳) レキシケース選択下で選択される個々の解の確率を計算することは、進化的計算における最先端の親選択アルゴリズムであるレキシケース選択のより深い理論的理解を開発する上で重要な問題である。 この問題に対する高速な解決策を見つけることは、レキシケース選択の実際的な改善を開発するための努力にも意味がある。 ここでは、lex-probと呼ばれるこの問題がNP-Hardであることを証明する。 この証明は、よく知られたNP-Complete問題であるSATを多項式時間でlex-probに還元することで達成する。 この還元には、一般的なレキシケース選択であるepsilon-lexicase選択を標準レキシケース選択に還元する中間段階が含まれる。 この証明は、レキシケース選択の下で選択される個々の解の確率を計算する高速な計算方法を必要とする人に重要な実践的意味を持つ。 多項式時間で行うことは、完全に不可能ではないとしても、信じられないほど難しい。 したがって、ブルート・フォース・ソリューションを高速化するための近似アルゴリズムや実用的な最適化を見つけることは、おそらく価値がある。 この結果は、epsilon-lexicase selectionとlexicase selectionの関係と、lex-probと他のNP-Hard問題との関係について深い理論的意味を持つ。

Calculating the probability of an individual solution being selected under lexicase selection is an important problem in attempts to develop a deeper theoretical understanding of lexicase selection, a state-of-the art parent selection algorithm in evolutionary computation. Discovering a fast solution to this problem would also have implications for efforts to develop practical improvements to lexicase selection. Here, I prove that this problem, which I name lex-prob, is NP-Hard. I achieve this proof by reducing SAT, a well-known NP-Complete problem, to lex-prob in polynomial time. This reduction involves an intermediate step in which a popular variant of lexicase selection, epsilon-lexicase selection, is reduced to standard lexicase selection. This proof has important practical implications for anyone needing a fast way of calculating the probabilities of individual solutions being selected under lexicase selection. Doing so in polynomial time would be incredibly challenging, if not all-together impossible. Thus, finding approximation algorithms or practical optimizations for speeding up the brute-force solution is likely more worthwhile. This result also has deeper theoretical implications about the relationship between epsilon-lexicase selection and lexicase selection and the relationship between lex-prob and other NP-Hard problems.
翻訳日:2023-01-18 14:47:02 公開日:2023-01-17
# FemtoDet: エネルギーバーサス性能トレードオフのためのオブジェクト検出ベースライン

FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs ( http://arxiv.org/abs/2301.06719v1 )

ライセンス: Link先を確認
Peng Tu, Xu Xie, Ming Ling, Min Yang, Guo AI, Yawen Huang, Yefeng Zheng(参考訳) エッジデバイスの効率的な検出器は、しばしばパラメータや速度カウントなどの指標に最適化され、検出器のエネルギーとの相関が弱いままである。 しかし、畳み込みニューラルネットワーク(CNN)の視覚的応用では、常時オンの監視カメラなど一部のものはエネルギー制約に欠かせない。 本稿では,2つの視点からエネルギーと性能のトレードオフに到達するための検出器を設計し,ベースラインとして機能することを目的とする。 1) 活性化関数の選択, 畳み込み演算子, ネック上の特徴融合構造などの低エネルギーアーキテクチャを同定するために, 様々なCNNを広範囲に分析する。 これらの未承認の詳細は、検出器のエネルギー消費に深刻な影響を及ぼす。 2) 二段式エネルギー性能問題を打破するために,低エネルギー成分であるtextit{FemtoDet} を用いた平衡検出器を提案する。 新たな構成に加えて,畳み込みとトレーニング戦略最適化を考慮し,FemtoDetをさらに改良する。 具体的には,様々な空間表現におけるcnnの限られた容量と検出タスクの矛盾を克服する畳み込み最適化のための新しいインスタンス境界拡張(ibe)モジュールを開発し,一般の増補で生成されたデータシフトを考慮した軽量検出器のサブ最適化から逃れるトレーニング戦略を最適化する再帰的ウォームリスタート(recwr)を提案する。 その結果、68.77kのパラメータしか持たないFemtoDetは、PASCAL VOCで46.3 AP50、RTX 3090で7.83Wの競争スコアを達成した。 COCOとTJU-DHDデータセットの大規模な実験は、提案手法が多様な場面で競合する結果をもたらすことを示している。

Efficient detectors for edge devices are often optimized for metrics like parameters or speed counts, which remain weak correlation with the energy of detectors. However, among vision applications of convolutional neural networks (CNNs), some, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including the selection of activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past works seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we further improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors, considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and power of 7.83W on RTX 3090. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.
翻訳日:2023-01-18 14:46:41 公開日:2023-01-17
# SwinDepth:Swin TransformerとDensely Cascaded Networkによる単分子系列を用いた教師なし深さ推定

SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via Swin Transformer and Densely Cascaded Network ( http://arxiv.org/abs/2301.06715v1 )

ライセンス: Link先を確認
Dongseok Shim, H. Jin Kim(参考訳) 単眼深度推定は、ローカライゼーション、マッピング、三次元物体検出などの様々なコンピュータビジョンやロボティクスの応用において重要な役割を果たす。 近年,学習に基づくアルゴリズムは,教師付き方式で大量のデータを持つ訓練モデルにより,深度推定に大きな成功を収めている。 しかし, 教師付き訓練のための深度深度ラベルの取得は困難であり, 単分子配列を用いた教師なし深度推定が有望な代替手段として現れる。 残念なことに、教師なし深度推定のほとんどの研究は損失関数や閉塞マスクを探索しており、ConvNetベースのエンコーダデコーダ構造が深度推定のデファクト標準となるモデルアーキテクチャにはほとんど変化がない。 本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。 また,すべての機能マップを,トップダウンカスケード経路を介して,他の機能マップと直接接続するマルチスケールネットワーク(dcmnet)を提案する。 この密結合は、復号層間の相互接続を強化し、高品質なマルチスケール深度出力を生成する。 KITTIとMake3Dの2つの異なるデータセットに対する実験により,提案手法が既存の最先端の教師なしアルゴリズムより優れていることを示す。

Monocular depth estimation plays a critical role in various computer vision and robotics applications such as localization, mapping, and 3D object detection. Recently, learning-based algorithms achieve huge success in depth estimation by training models with a large amount of data in a supervised manner. However, it is challenging to acquire dense ground truth depth labels for supervised training, and the unsupervised depth estimation using monocular sequences emerges as a promising alternative. Unfortunately, most studies on unsupervised depth estimation explore loss functions or occlusion masks, and there is little change in model architecture in that ConvNet-based encoder-decoder structure becomes a de-facto standard for depth estimation. In this paper, we employ a convolution-free Swin Transformer as an image feature extractor so that the network can capture both local geometric features and global semantic features for depth estimation. Also, we propose a Densely Cascaded Multi-scale Network (DCMNet) that connects every feature map directly with another from different scales via a top-down cascade pathway. This densely cascaded connectivity reinforces the interconnection between decoding layers and produces high-quality multi-scale depth outputs. The experiments on two different datasets, KITTI and Make3D, demonstrate that our proposed method outperforms existing state-of-the-art unsupervised algorithms.
翻訳日:2023-01-18 14:46:10 公開日:2023-01-17
# グローバー・ミート・サイモン・アルゴリズムの可能性分析

Feasibility Analysis of Grover-meets-Simon Algorithm ( http://arxiv.org/abs/2301.06706v1 )

ライセンス: Link先を確認
Qianru Zhu, Huiqin Xie, Qiqing Xia, Li Yang(参考訳) 量子アルゴリズムは暗号解析の重要なツールである。 現在、量子コンピューティングの下で暗号アルゴリズムのセキュリティをさらに分析するために、強力な量子アルゴリズムを構築し、量子アルゴリズムの可能性を活用することにコミットしている。 古典量子アルゴリズムの再結合は、量子アルゴリズムを構築する現在のアイデアの1つである。 しかし、それらを組み合わせることは容易ではなく、量子アルゴリズムの実現には量子環境におけるさらなる分析が必要である。 本稿では、遅延測定の原理の観点から、既存の組合せアルゴリズムであるGrover-meets-Simonアルゴリズムを再解析する。 まず、測定によって生じる崩壊問題により、Grover-meets-Simonアルゴリズムのプロセス中にSimonのアルゴリズムの測定プロセスが無効になる。 第二に、未測定のサイモンアルゴリズムの出力は方程式の量子線形系であるので、方程式の量子線形系の解を議論し、並列サイモンアルゴリズムの遅延測定のみを考えることは可能である。 最後に、Grover-meets-Simonアルゴリズムは反復的な問題を含むため、最後に複数の測定値を置く際のアルゴリズムの有効性を再考する。 この結果から,Grover-meets-Simonアルゴリズムの終了時の反復処理にSimonアルゴリズムの測定処理を組み込む場合,Grover-meets-Simonアルゴリズムは効果的な攻撃アルゴリズムではないことがわかった。

Quantum algorithm is a key tool for cryptanalysis. At present, people are committed to building powerful quantum algorithms and tapping the potential of quantum algorithms, so as to further analyze the security of cryptographic algorithms under quantum computing. Recombining classical quantum algorithms is one of the current ideas to construct quantum algorithms. However, they cannot be easily combined, the feasibility of quantum algorithms needs further analysis in quantum environment. This paper reanalyzes the existing combined algorithm Grover-meets-Simon algorithm in terms of the principle of deferred measurement. First of all, due to the collapse problem caused by the measurement, we negate the measurement process of Simon's algorithm during the process of the Grover-meets-Simon algorithm. Second, since the output of the unmeasured Simon algorithm is quantum linear systems of equations, we discuss the solution of quantum linear systems of equations and find it feasible to consider the deferred measurement of the parallel Simon algorithm alone. Finally, since the Grover-meets-Simon algorithm involves an iterative problem, we reconsider the feasibility of the algorithm when placing multiple measurements at the end. According to the maximum probability of success and query times, we get that the Grover-meets-Simon algorithm is not an effective attack algorithm when putting the measurement process of the Simon algorithm in the iterative process at the end of Grover-meets-Simon algorithm.
翻訳日:2023-01-18 14:45:45 公開日:2023-01-17
# ディジタル双対・複雑工学システムのためのニューラル演算子フレームワーク

Neural Operator Framework for Digital Twin and Complex Engineering Systems ( http://arxiv.org/abs/2301.06701v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, James Daniell, Syed B. Alam(参考訳) 現代の計算技術の進歩と統計解析手法により、機械学習アルゴリズムはエンジニアリングモデリングの重要な部分となっている。 ニューラルネットワーク(neural operator networks, onets)は、偏微分方程式(pdes)に対する解を近似するための"より高速なサロゲート(faster surrogate)"としての新たな機械学習アルゴリズムである。 onets は有限次元入力を無限次元空間に写像する普遍近似定理(universal approximation theorem)を用いる。 onetsは物理システムとデジタルツイン(dt)開発におけるサロゲートモデリングの重要なニッチを占めることが期待されている。 1次元常微分方程式 (ODE) や一般拡散系, 対流拡散系 (Burger) など, 演算子近似のためのオネットを用いた3つのテストケースの評価を行った。 ODEと拡散システムの解は正確で信頼性の高い結果(R2>0.95)を得る一方、バーガーシステムの解はONetアルゴリズムのさらなる改良が必要である。

With modern computational advancements and statistical analysis methods, machine learning algorithms have become a vital part of engineering modeling. Neural Operator Networks (ONets) is an emerging machine learning algorithm as a "faster surrogate" for approximating solutions to partial differential equations (PDEs) due to their ability to approximate mathematical operators versus the direct approximation of Neural Networks (NN). ONets use the Universal Approximation Theorem to map finite-dimensional inputs to infinite-dimensional space using the branch-trunk architecture, which encodes domain and feature information separately before using a dot product to combine the information. ONets are expected to occupy a vital niche for surrogate modeling in physical systems and Digital Twin (DT) development. Three test cases are evaluated using ONets for operator approximation, including a 1-dimensional ordinary differential equations (ODE), general diffusion system, and convection-diffusion (Burger) system. Solutions for ODE and diffusion systems yield accurate and reliable results (R2>0.95), while solutions for Burger systems need further refinement in the ONet algorithm.
翻訳日:2023-01-18 14:45:26 公開日:2023-01-17
# 協調オンライン行動の時間的ダイナミクス:安定性、アーチタイプおよび影響

Temporal Dynamics of Coordinated Online Behavior: Stability, Archetypes, and Influence ( http://arxiv.org/abs/2301.06774v1 )

ライセンス: Link先を確認
Serena Tardelli, Leonardo Nizzoli, Maurizio Tesconi, Mauro Conti, Preslav Nakov, Giovanni Da San Martino, Stefano Cresci(参考訳) 悪質であろうとなかろうが、大規模なオンラインキャンペーンには参加者間のかなりの調整が必要であり、オンライン行動の協調研究への興味が高まった。 協調行動検出のための最先端手法は、協調の時間的ダイナミクスを無視して静的解析を行う。 ここでは,協調行動の最初の動的解析を行う。 目標を達成するために,複数の時間的ネットワークを構築し,動的コミュニティ検出を行い,協調行動を示すユーザのグループを時間内に識別する。 私たちの斬新なアプローチのおかげで (i)調整された共同体は、時間的不安定度の変動を特徴とする。 (II)このような不安定性を考慮するためには動的解析が必要であり、静的解析の結果は信頼性が低く不安定なコミュニティをほとんど代表していない。 (iii)一部の利用者は、重要な実用的意義を有する異なる旧型的行動を示す。 (iv)コンテンツとネットワークの特徴は、ユーザがなぜ退社し、連携したコミュニティに参加するのかを説明するのに寄与する。 本研究は,動的な分析の利点を示し,オンライン討論の展開,協調型コミュニティの戦略,オンライン影響力のパターンに関する研究の新たな方向性を明らかにした。

Large-scale online campaigns, malicious or otherwise, require a significant degree of coordination among participants, which sparked interest in the study of coordinated online behavior. State-of-the-art methods for detecting coordinated behavior perform static analyses, disregarding the temporal dynamics of coordination. Here, we carry out the first dynamic analysis of coordinated behavior. To reach our goal we build a multiplex temporal network and we perform dynamic community detection to identify groups of users that exhibited coordinated behaviors in time. Thanks to our novel approach we find that: (i) coordinated communities feature variable degrees of temporal instability; (ii) dynamic analyses are needed to account for such instability, and results of static analyses can be unreliable and scarcely representative of unstable communities; (iii) some users exhibit distinct archetypal behaviors that have important practical implications; (iv) content and network characteristics contribute to explaining why users leave and join coordinated communities. Our results demonstrate the advantages of dynamic analyses and open up new directions of research on the unfolding of online debates, on the strategies of coordinated communities, and on the patterns of online influence.
翻訳日:2023-01-18 14:38:44 公開日:2023-01-17
# 加速電子からのunruh放射の測定

Measuring Unruh radiation from accelerated electrons ( http://arxiv.org/abs/2301.06772v1 )

ライセンス: Link先を確認
Gianluca Gregori, Giacomo Marocco, Subir Sarkar, Robert Bingham, Charles Wang(参考訳) 加速電子からの熱unruh放射を検出することは、技術的な困難だけでなく、実験室の観察者が実際に何を見ているのかという概念的な明確さの欠如から、驚くべき課題となった。 我々は、アンルー効果と2レベル原子系の放射の類似性に基づく、より単純なヒューリスティックな記述とともに、現在の解釈の要約を述べる。 本研究では,加速電子からの熱光子が放出されるかどうかを一意的に検証する実験を提案する。

Detecting thermal Unruh radiation from accelerated electrons has presented a formidable challenge due not only to technical difficulties but also for lack of conceptual clarity about what is actually seen by a laboratory observer. We give a summary of the current interpretations along with a simpler heuristic description that draws on the analogy between the Unruh effect and radiation from a two-level atomic system. We propose a possible experiment that can be used to uniquely test whether there is emission of thermal photons from an accelerated electron.
翻訳日:2023-01-18 14:38:26 公開日:2023-01-17
# 反射結合によるSGLDの幾何学的エルゴディディティ

Geometric ergodicity of SGLD via reflection coupling ( http://arxiv.org/abs/2301.06769v1 )

ライセンス: Link先を確認
Lei Li, Jian-Guo Liu and Yuliang Wang(参考訳) 非凸条件下での確率勾配ランゲヴィンダイナミクス(SGLD)の幾何学的エルゴディディティを考察する。 反射結合の技法により、目標分布がコンパクトな集合の外側のみに対数展開されているとき、SGLDのワッサーシュタイン収縮を証明できる。 SGLDにおける時間離散化とミニバッチは、条件付き予測の一連の注意深く見積もられたリフレクション結合の適用においていくつかの困難をもたらす。 直系として、一定のステップサイズを持つSGLDは不変分布を持ち、その幾何学的エルゴディディティを$W_1$距離で得ることができる。 非勾配ドリフトへの一般化も含む。

We consider the geometric ergodicity of the Stochastic Gradient Langevin Dynamics (SGLD) algorithm under nonconvexity settings. Via the technique of reflection coupling, we prove the Wasserstein contraction of SGLD when the target distribution is log-concave only outside some compact set. The time discretization and the minibatch in SGLD introduce several difficulties when applying the reflection coupling, which are addressed by a series of careful estimates of conditional expectations. As a direct corollary, the SGLD with constant step size has an invariant distribution and we are able to obtain its geometric ergodicity in terms of $W_1$ distance. The generalization to non-gradient drifts is also included.
翻訳日:2023-01-18 14:38:17 公開日:2023-01-17
# FedCliP: クライアントプランニングによるフェデレーション学習

FedCliP: Federated Learning with Client Pruning ( http://arxiv.org/abs/2301.06768v1 )

ライセンス: Link先を確認
Beibei Li, Zerui Shao, Ao Liu, Peiran Wang(参考訳) Federated Learning(FL)は、新たに登場した分散学習パラダイムで、多数の参加するクライアントが、データの分散とデータの共有を伴わずに、機械学習モデルを協調的にトレーニングすることができる。 FLの基本的なボトルネックの1つは、分散クライアントと中央サーバの間の高次元モデルの通信オーバーヘッドである。 従来の作業はしばしば、通信制限を克服するために、勾配圧縮または蒸留によってモデルをコンパクトなフォーマットに凝縮する。 これとは対照的に,FedCliPはマクロの観点から最初のコミュニケーション効率の良いFLトレーニングフレームワークであり,FLに参加する有効なクライアントを迅速かつ常に冗長なクライアントに配置することができる。 具体的には、まず、クライアントのプルーニングを測定する指標として、トレーニング損失とモデル分岐に基づく信頼性スコアを算出する。 本稿では,gsm(gaussian scale mixed)モデルを用いた信頼度スコアに基づく有効クライアント決定近似フレームワークを提案する。 さらに,FLシナリオにおける通信効率のよいクライアントプルーニング訓練手法を開発した。 mnistデータセットを用いた実験の結果、fedexlipは収束モデルの通信コストが最大で10%~70%であり、精度が0.2%低下していることがわかった。

Federated learning (FL) is a newly emerging distributed learning paradigm that allows numerous participating clients to train machine learning models collaboratively, each with its data distribution and without sharing their data. One fundamental bottleneck in FL is the heavy communication overheads of high-dimensional models between the distributed clients and the central server. Previous works often condense models into compact formats by gradient compression or distillation to overcome communication limitations. In contrast, we propose FedCliP in this work, the first communication efficient FL training framework from a macro perspective, which can position valid clients participating in FL quickly and constantly prune redundant clients. Specifically, We first calculate the reliability score based on the training loss and model divergence as an indicator to measure the client pruning. We propose a valid client determination approximation framework based on the reliability score with Gaussian Scale Mixture (GSM) modeling for federated participating clients pruning. Besides, we develop a communication efficient client pruning training method in the FL scenario. Experimental results on MNIST dataset show that FedCliP has up to 10%~70% communication costs for converged models at only a 0.2% loss in accuracy.
翻訳日:2023-01-18 14:38:04 公開日:2023-01-17
# 自動用語抽出の最近の進歩:調査

The Recent Advances in Automatic Term Extraction: A survey ( http://arxiv.org/abs/2301.06767v1 )

ライセンス: Link先を確認
Hanh Thi Hong Tran, Matej Martinc, Jaya Caporusso, Antoine Doucet, Senja Pollak(参考訳) 自動項抽出(ATE)は自然言語処理(NLP)タスクであり、候補語のリストを提供することで、ドメイン固有のコーパスから単語を手動で識別する作業を容易にする。 特定の専門分野における知識の単位として、抽出された用語はいくつかの用語的タスクに有用であるだけでなく、情報検索、機械翻訳、トピック検出、感情分析などの複雑な下流タスクもサポートし改善する。 ATEシステムは、注釈付きデータセットとともに、数十年にわたって研究され、広く開発されてきたが、最近、手元にあるタスクのための新しいニューラルネットワークの急増を観察した。 ATEに関する多くの新しい研究にもかかわらず、新しい神経アプローチに関する体系的な調査は不足している。 本稿では,トランスフォーマーに基づくニューラルモデルに着目し,ディープラーニングに基づくateアプローチの包括的調査を行う。 この研究は、機能工学と非神経教師あり学習アルゴリズムに基づく、これらのシステムと以前のATEアプローチの比較も提供する。

Automatic term extraction (ATE) is a Natural Language Processing (NLP) task that eases the effort of manually identifying terms from domain-specific corpora by providing a list of candidate terms. As units of knowledge in a specific field of expertise, extracted terms are not only beneficial for several terminographical tasks, but also support and improve several complex downstream tasks, e.g., information retrieval, machine translation, topic detection, and sentiment analysis. ATE systems, along with annotated datasets, have been studied and developed widely for decades, but recently we observed a surge in novel neural systems for the task at hand. Despite a large amount of new research on ATE, systematic survey studies covering novel neural approaches are lacking. We present a comprehensive survey of deep learning-based approaches to ATE, with a focus on Transformer-based neural models. The study also offers a comparison between these systems and previous ATE approaches, which were based on feature engineering and non-neural supervised learning algorithms.
翻訳日:2023-01-18 14:37:45 公開日:2023-01-17
# エンタングルメント収穫の最適化はブラックホールの極値とnonextremalityに依存する

Optimization of entanglement harvesting depends on the extremality and nonextremality of a black hole ( http://arxiv.org/abs/2301.06764v1 )

ライセンス: Link先を確認
Subhajit Barman, Bibhas Ranjan Majhi(参考訳) この研究は、質量を持たない最小結合のスカラー場と相互作用する2つのウンルー・デウィット検出器を1+1$次元レイスナー・ノルドストロームブラックホール時空で考える。 特に、$alice$に対応する検出器の1つは、出力するヌル軌道に沿って移動していると考えられる。 ただし$bob$が持つ他の検出器は静的である。 このセットアップにより、非極端および極端シナリオにおける絡み付け条件と収穫エンタングルメント、コンカレンスの測定について検討する。 興味深いことに,この2つのシナリオ間の絡み合いの特徴の質的類似性が示唆された。 単一検出器遷移確率と比較すると、幅広いブラックホール電荷のnonextremalとextremal concurrenceにおいて、特定の一貫した定量的特徴を見出すことができる。 比較的大きな検出器遷移エネルギーを持つため、極端の背景は常にnonextremalよりも大きな収穫を担っている。 対照的に、低検出器遷移エネルギーでは、非極端背景での収穫がより大きい。 また,収穫エンタングルメントの起源,すなわち真の収穫かコミュニケーションベースかを調査し,本研究の成果をnonextremalとextremalのシナリオで議論した。

This work considers two Unruh-DeWitt detectors interacting with a massless, minimally coupled scalar field in a $(1+1)$ dimensional Reissner-Nordstr\"om black hole spacetime. In particular, we consider that one of the detectors, corresponding to $Alice$, is moving along an outgoing null trajectory. While the other detector carried by $Bob$ is static. With this set-up, we investigate the entanglement harvesting condition and the measure of the harvested entanglement, concurrence, in the nonextremal and extremal scenarios. Interestingly, our observations suggest a qualitative similarity in characteristics of the harvested entanglement between these two scenarios. Compared to the single detector transition probabilities, one can find a specific and consistent quantitative feature in the nonextremal and extremal concurrence for a broad range of black hole charges. With moderately large detector transition energy, the extremal background always accounts for the larger harvesting than the nonextremal one. In contrast, with low detector transition energy, harvesting on the nonextremal background can be greater. We also study the origin of the harvested entanglement, i.e., whether it is true harvesting or communication based, and discuss our findings in the nonextremal and extremal scenarios.
翻訳日:2023-01-18 14:37:28 公開日:2023-01-17
# サポートベクトルマシンによるウイットネス演算子による絡み合い分類

Entanglement Classification via Witness Operators generated by Support Vector Machine ( http://arxiv.org/abs/2301.06759v1 )

ライセンス: Link先を確認
Claudio Sanavio and Edoardo Tignone and Elisa Ercolessi(参考訳) 絡み合いは多くの計算や情報プロトコルにおいて量子アドバンテージに到達するための基本的な資源であるが、低次元システムや高次元システムでは解析結果が得られず、普遍的な検出方法が欠如している。 本研究では,多項式カーネルを持つサポートベクトルマシンである機械学習アルゴリズムを用いて,分離可能な状態と絡み合った状態の分類を行う。 2量子ビットおよび3量子ビットシステムに適用し、トレーニング後、サポートベクターマシンは、ランダムな状態が2量子ビットシステムで最大92%、最大98%の精度で絡み合っているかどうかを認識できることを示した。 また, サポートベクトルマシンアルゴリズムが, 状態の多くのコピーに適用された絡み込み目撃者演算子の評価を, どのような状況で実装できるかを述べるとともに, この手順を量子回路に変換する方法について述べる。

Although entanglement is a basic resource for reaching quantum advantange in many computation and information protocols, we lack a universal recipe for detecting it, with analytical results obtained for low dimensional systems and few special cases of higher dimensional systems. In this work, we use a machine learning algorithm, the support vector machine with polynomial kernel, to classify separable and entangled states. We apply it to two-qubit and three-qubit systems, and we show that, after training, the support vector machine is able to recognize if a random state is entangled with an accuracy up to 92% for the two-qubit system and up to 98% for the three-qubit system. We also describe why and in what regime the support vector machine algorithm is able to implement the evaluation of an entanglement witness operator applied to many copies of the state, and we describe how we can translate this procedure into a quantum circuit.
翻訳日:2023-01-18 14:37:07 公開日:2023-01-17
# ニューラル数学問題解における中間値の追跡と操作

Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers ( http://arxiv.org/abs/2301.06758v1 )

ライセンス: Link先を確認
Yuta Matsumoto, Benjamin Heinzerling, Masashi Yoshikawa, Kentaro Inui(参考訳) 複数の推論ステップを必要とする複雑な入力を処理する言語モデルは、よく理解されていない。 従来の研究では、これらの入力の中間値に関する情報はモデルのアクティベーションから抽出できることが示されているが、その情報がどこにエンコードされているか、その情報が実際に推論中に使われているかは定かではない。 本稿では,単純な算術問題とその中間値に着目し,トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。 中間値に関する情報がどこに符号化されているかを追跡するために、主成分分析(PCA)を用いて、中間値とモデルの活性化の相関を計測する。 そして,モデルウェイトを操作することで因果介入を行う。 この介入は、トレーシングによって同定された重みが単に中間値と相関しているだけでなく、モデル予測と因果関係にあることを示している。 その結果,モデルには中間値の局所性があり,モデルの解釈可能性を高めるのに有用であることがわかった。

How language models process complex input that requires multiple steps of inference is not well understood. Previous research has shown that information about intermediate values of these inputs can be extracted from the activations of the models, but it is unclear where that information is encoded and whether that information is indeed used during inference. We introduce a method for analyzing how a Transformer model processes these inputs by focusing on simple arithmetic problems and their intermediate values. To trace where information about intermediate values is encoded, we measure the correlation between intermediate values and the activations of the model using principal component analysis (PCA). Then, we perform a causal intervention by manipulating model weights. This intervention shows that the weights identified via tracing are not merely correlated with intermediate values, but causally related to model predictions. Our findings show that the model has a locality to certain intermediate values, and this is useful for enhancing the interpretability of the models.
翻訳日:2023-01-18 14:36:49 公開日:2023-01-17
# BERT-ERC:会話における感情認識に十分な微調整BERT

BERT-ERC: Fine-tuning BERT is Enough for Emotion Recognition in Conversation ( http://arxiv.org/abs/2301.06745v1 )

ライセンス: Link先を確認
Xiangyu Qin, Zhiyu Wu, Jinshi Cui, Tingting Zhang, Yanran Li, Jian Luan, Bin Wang, Li Wang(参考訳) 会話における感情認識(ERC)に関するこれまでの研究は、2段階のパラダイムに従っており、まず、微調整事前学習言語モデル(PLM)を用いて文脈に依存しない特徴を生成し、抽出した特徴のうちの文脈情報と対話構造情報を解析することができる。 しかし、このパラダイムにはいくつかの制限がある。 そこで,本稿では,文脈情報と対話構造情報を微調整段階に探索し,入力テキスト,分類構造,学習戦略の観点から,PRMをERCタスクに適用する新しいパラダイムを提案する。 さらに,提案するパラダイムに従ってモデルbert-ercを開発し,提案文,細粒度分類モジュール,二段階学習という3つの側面からercの性能を向上させる。 既存の手法と比較して、BERT-ERCは4つのデータセットを大幅に改善し、その有効性と一般化能力を示している。 また,実世界のシナリオを近似するために,限られたリソースシナリオとオンライン予測シナリオを設定した。 広範な実験により、提案するパラダイムが以前のパラダイムを大きく上回り、様々な場面に適応できることが示されている。

Previous works on emotion recognition in conversation (ERC) follow a two-step paradigm, which can be summarized as first producing context-independent features via fine-tuning pretrained language models (PLMs) and then analyzing contextual information and dialogue structure information among the extracted features. However, we discover that this paradigm has several limitations. Accordingly, we propose a novel paradigm, i.e., exploring contextual information and dialogue structure information in the fine-tuning step, and adapting the PLM to the ERC task in terms of input text, classification structure, and training strategy. Furthermore, we develop our model BERT-ERC according to the proposed paradigm, which improves ERC performance in three aspects, namely suggestive text, fine-grained classification module, and two-stage training. Compared to existing methods, BERT-ERC achieves substantial improvement on four datasets, indicating its effectiveness and generalization capability. Besides, we also set up the limited resources scenario and the online prediction scenario to approximate real-world scenarios. Extensive experiments demonstrate that the proposed paradigm significantly outperforms the previous one and can be adapted to various scenes.
翻訳日:2023-01-18 14:36:32 公開日:2023-01-17
# 素因数分解のためのHUBOモデルとQUBOモデル

HUBO and QUBO models for Prime factorization ( http://arxiv.org/abs/2301.06738v1 )

ライセンス: Link先を確認
Kyungtaek Jun(参考訳) RSA暗号システムのセキュリティは、N=p*q を満たす素数 p と q に大数 N を分解することの難しさに基づいている。 本稿では,rsa暗号を脅かすd波量子コンピュータを用いた素因数分解法を提案する。 この方法の出発点は非常に単純で、2つの素数を量子ビットとして表す。 次に、qubitsとnで表される2つの素数の積の差をコスト関数として設定し、コスト関数が最小になったときに解を見つける。 D-Waveの量子アニールは、任意の二次問題の最小値を見つけることができる。 しかし、コスト関数は2階またはそれ以上の項を含むため、高階非制約最適化(HUBO)モデルである。 我々は、-wave ocean software development kit (sdk) が提供するハイブリッドソルバとdimodパッケージを使用して、hubo問題を解決した。 また,論理キュービット26個で102,454,763個を分解した。 さらに,距離依存ハミルトンアルゴリズムを用いて1000,070,001,221の因子を推定した。

The security of the RSA cryptosystem is based on the difficulty of factoring a large number N into prime numbers p and q satisfying N=p*q . This paper presents a prime factoriaation method using D-Wave quantum computer that can threaten the RSA cryptosystem. The starting point for this method is very simple, representing two prime numbers as qubits. Then, set the difference between the product of two prime numbers expressed in qubits and N as a cost function, and find the solution when the cost function becomes the minimum. D-Wave's quantum annealer can find the minimum value of any quadratic problem. However, the cost function is to be a higher-order unconstrained optimiaation (HUBO) model because it contains the second or higher order terms. We used a hybrid solver and dimod package provided by -Wave Ocean software development kit (SDK) to solve the HUBO problem. We also successfully factoriaed 102,454,763 with 26 logical qubits. In addition, we factoriaed 1,000,070,001,221 using the range dependent Hamiltonian algorithm.
翻訳日:2023-01-18 14:36:11 公開日:2023-01-17
# サブグラフの集中化:グラフ異常検出に必要なステップ

Subgraph Centralization: A Necessary Step for Graph Anomaly Detection ( http://arxiv.org/abs/2301.06794v1 )

ライセンス: Link先を確認
Zhong Zhuang, Kai Ming Ting, Guansong Pang and Shuaibin Song(参考訳) グラフ異常検出は、最近多くの関心を集めている。 彼らの成功にもかかわらず、既存の検出器には3つの弱点のうち少なくとも2つがある。 (a)小規模ネットワークのみに限定される高い計算コスト b) サブグラフの既存の処理は、副最適検出精度を生じさせ、 (c) ノードが異常であると特定されると、なぜ異常なのかを説明できないこと。 これらの弱点の根本原因は,サブグラフに対する適切な治療の欠如である。 グラフ異常検出のための部分グラフ集中化(Subgraph Centralization)と呼ばれる処理は、上記の弱点に対処するために提案される。 その重要性は2つの点で示される。 まず,グラフ中心異常検出(GCAD)と呼ばれる簡易かつ効果的な新しいフレームワークを提案する。 ディープラーニング検出器を含む既存の検出器に対するGCADの主な利点は次のとおりである。 (i)より良い異常検出精度 (ii)ノード数に関する線形時間複雑性、及び (iii)ネットワーク内のノード異常を検出するために,既存の点異常検出装置を使用可能な汎用フレームワークである。 第2に、上記の弱点を克服するために、サブグラフ集中化を既存の2つの検出器に組み込むことができることを示す。

Graph anomaly detection has attracted a lot of interest recently. Despite their successes, existing detectors have at least two of the three weaknesses: (a) high computational cost which limits them to small-scale networks only; (b) existing treatment of subgraphs produces suboptimal detection accuracy; and (c) unable to provide an explanation as to why a node is anomalous, once it is identified. We identify that the root cause of these weaknesses is a lack of a proper treatment for subgraphs. A treatment called Subgraph Centralization for graph anomaly detection is proposed to address all the above weaknesses. Its importance is shown in two ways. First, we present a simple yet effective new framework called Graph-Centric Anomaly Detection (GCAD). The key advantages of GCAD over existing detectors including deep-learning detectors are: (i) better anomaly detection accuracy; (ii) linear time complexity with respect to the number of nodes; and (iii) it is a generic framework that admits an existing point anomaly detector to be used to detect node anomalies in a network. Second, we show that Subgraph Centralization can be incorporated into two existing detectors to overcome the above-mentioned weaknesses.
翻訳日:2023-01-18 14:30:13 公開日:2023-01-17
# 3次元畳み込みニューラルネットワークを用いた非コントラストct画像の急性期脳梗塞病変分割

Acute ischemic stroke lesion segmentation in non-contrast CT images using 3D convolutional neural networks ( http://arxiv.org/abs/2301.06793v1 )

ライセンス: Link先を確認
A.V.Dobshik, S.K. Verbitskiy, I.A. Pestunov, K.M. Sherman, Yu.N. Sinyavskiy, A.A. Tulupov, V.B. Berikov(参考訳) 本稿では,非コントラストct脳3d画像における急性脳梗塞病変のボリューム分割を目的とした自動アルゴリズムを提案する。 我々のディープラーニングアプローチは、一般的な3D U-Net畳み込みニューラルネットワークアーキテクチャに基づいている。 セグメンテーション精度を向上させるため,堅牢な前処理手法が実装された。 さらに,医療画像の大規模化,クラス不均衡問題の影響の円滑化,ニューラルネットワークトレーニングの安定化のために,パッチサンプリング戦略を用いた。 急性期脳卒中と診断された81例の非コントラストct容積脳スキャンを含むデータセット上で,5倍のクロスバリデーションを行った。 2人の放射線医学の専門家が手動で画像を分割し、その結果を不一致で検証した。 提案アルゴリズムと得られたセグメンテーションの定量的結果は,Dice類似度係数,感度,特異度および精度測定値を用いて測定した。 提案モデルでは,平均Diceは0.628\pm0.033$,感度は0.699\pm0.039$,特異度は0.9965\pm0.0016$,精度は0.619\pm0.036$,有望なセグメンテーション結果を示す。

In this paper, an automatic algorithm aimed at volumetric segmentation of acute ischemic stroke lesion in non-contrast computed tomography brain 3D images is proposed. Our deep-learning approach is based on the popular 3D U-Net convolutional neural network architecture, which was modified by adding the squeeze-and-excitation blocks and residual connections. Robust pre-processing methods were implemented to improve the segmentation accuracy. Moreover, a specific patches sampling strategy was used to address the large size of medical images, to smooth out the effect of the class imbalance problem and to stabilize neural network training. All experiments were performed using five-fold cross-validation on the dataset containing non-contrast computed tomography volumetric brain scans of 81 patients diagnosed with acute ischemic stroke. Two radiology experts manually segmented images independently and then verified the labeling results for inconsistencies. The quantitative results of the proposed algorithm and obtained segmentation were measured by the Dice similarity coefficient, sensitivity, specificity and precision metrics. Our proposed model achieves an average Dice of $0.628\pm0.033$, sensitivity of $0.699\pm0.039$, specificity of $0.9965\pm0.0016$ and precision of $0.619\pm0.036$, showing promising segmentation results.
翻訳日:2023-01-18 14:30:00 公開日:2023-01-17
# 注入ロックによるジョセフソンパラメトリック発振器の雑音低減

Mitigation of noise in Josephson parametric oscillator by injection locking ( http://arxiv.org/abs/2301.06791v1 )

ライセンス: Link先を確認
Gopika Lakshmi Bhai, Hiroto Mukai, Jaw-Shen Tsai(参考訳) 射出ロック(inject locking)は、光学や固体デバイスで広く使われている、ノイズの効率的な抑制技術である。 本稿では、JPO(Josephson parametric oscillator)の位相雑音を緩和する射出ロック信号(ILS)の効果を分光学的に評価し、その出力発振位相は対称$\theta \rightarrow{\theta+\pi}$の双安定状態間の決定論的切替を行う。 弱いロック信号の注入により、異なるロック信号強度に対する自己持続型発振器出力状態の位相雑音パワースペクトル密度を測定する。 インジェクションロックによる位相雑音の抑制を観察した。 ILS強度が数光子を超えると、出力状態はILSのロックフェーズに完全に固定され、状態の切替によるランダムな電信ノイズは著しく抑制される。

Injection locking is a well-established technique widely used in optics as well as solid-state devices for efficient suppression of noise. We present the spectroscopic characterization of the effect of the injection-locking signal (ILS) in mitigating the phase noise of a Josephson parametric oscillator (JPO), whose output oscillating phase undergoes indeterministic switching between the bistable states with symmetry $\theta \rightarrow{\theta+\pi}$. With the injection of a weak locking signal, we measure the phase noise power spectral density of the self-sustained oscillator output state for different locking signal strengths. We observed suppression of phase noise by injection locking. As the ILS strength surpasses more than a few photons, the output state stays completely pinned to the locking phase of the ILS, and the random telegraphic noise due to the switching of the states is significantly suppressed.
翻訳日:2023-01-18 14:29:37 公開日:2023-01-17
# スイス、2022年にドイツで2度目となるテキスト共有タスクを実施

2nd Swiss German Speech to Standard German Text Shared Task at SwissText 2022 ( http://arxiv.org/abs/2301.06790v1 )

ライセンス: Link先を確認
Michel Pl\"uss, Yanick Schraner, Christian Scheller, Manfred Vogel(参考訳) スイスText 2022における標準ドイツ語テキスト共有タスクにおける第2スイスドイツ語スピーチの結果と結果について述べる。 参加者はグリソンズ方言に特化した標準ドイツ語のテキストシステムに、スイスドイツ語の文レベルのスピーチを構築するよう求められた。 目的は、グリソンズスピーチのテストセットでbleuスコアを最大化することであった。 3チームが参加し、最高成績のシステムは70.1点を記録した。

We present the results and findings of the 2nd Swiss German speech to Standard German text shared task at SwissText 2022. Participants were asked to build a sentence-level Swiss German speech to Standard German text system specialized on the Grisons dialect. The objective was to maximize the BLEU score on a test set of Grisons speech. 3 teams participated, with the best-performing system achieving a BLEU score of 70.1.
翻訳日:2023-01-18 14:29:19 公開日:2023-01-17
# 乳房全スライド画像における浸潤癌の多施設自動検出

Multicenter automatic detection of invasive carcinoma on breast whole slide images ( http://arxiv.org/abs/2301.06789v1 )

ライセンス: Link先を確認
R\'emy Peyret, Nicolas Pozin, St\'ephane Sockeel, Sol\`ene-Florence Kammerer-Jacquet, Julien Adam, Claire Bocciarelli, Yoan Ditchi, Christophe Bontoux, Thomas Depoilly, Loris Guichard, Elisabeth Lanteri, Marie Sockeel, Sophie Pr\'evot(参考訳) 乳癌は世界で最も多いがんの1つであり、病理学者は診断の確立に密接に関わっている。 作業負荷の増加を管理するには診断を支援するツールが必要である。 この文脈では、人工知能(AI)とディープラーニングベースのツールが日々の病理学の実践に使用される。 しかし、医療センターが何であれ、実践者が信頼できる高速で信頼性の高いアルゴリズムを開発することは困難である。 本稿では,乳腺全スライド画像上の浸潤癌の検出と検出のための畳み込みニューラルネットワークを組み込んだパッチベースアルゴリズムについて述べる。 ネットワークは、参照取得センターから抽出されたデータセット上でトレーニングされた。 次に,移動学習に基づくキャリブレーションを行い,新たな目標獲得センターに翻訳する際に,限られた量の追加トレーニングデータを用いて性能を維持する。 両方のセンター(テスト参照データセットとテスト対象データセット)と2つのレベル(パッチとスライドレベル)で、古典的な二分法(正確性、リコール、精度)を用いてパフォーマンスを評価した。 パッチレベルでは、基準および目標テストセットのモデルの精度、リコール、精度は92.1\%、96.3\%、95.8\%、87.8\%、73.9\%、70.6\%であった。 スライドレベルでは、精度、リコール、精度はそれぞれ97.6\%、92.0\%、90.9\%、100\%、100\%と70.8\%であった。 両センターにおけるアルゴリズムの高性能化は,キャリブレーションプロセスが効率的であることを示す。 これは、新しいターゲット取得センタからの限られたトレーニングデータを使用して実行され、参照センタから大きなデータベースに事前トレーニングする必要がある。 この方法論により、AI診断ツールの実装は、日常的な病理学の実践に役立つ。

Breast cancer is one of the most prevalent cancers worldwide and pathologists are closely involved in establishing a diagnosis. Tools to assist in making a diagnosis are required to manage the increasing workload. In this context, artificial intelligence (AI) and deep-learning based tools may be used in daily pathology practice. However, it is challenging to develop fast and reliable algorithms that can be trusted by practitioners, whatever the medical center. We describe a patch-based algorithm that incorporates a convolutional neural network to detect and locate invasive carcinoma on breast whole-slide images. The network was trained on a dataset extracted from a reference acquisition center. We then performed a calibration step based on transfer learning to maintain the performance when translating on a new target acquisition center by using a limited amount of additional training data. Performance was evaluated using classical binary measures (accuracy, recall, precision) for both centers (referred to as test reference dataset and test target dataset) and at two levels: patch and slide level. At patch level, accuracy, recall, and precision of the model on the reference and target test sets were 92.1\% and 96.3\%, 95\% and 87.8\%, and 73.9\% and 70.6\%, respectively. At slide level, accuracy, recall, and precision were 97.6\% and 92.0\%, 90.9\% and 100\%, and 100\% and 70.8\% for test sets 1 and 2, respectively. The high performance of the algorithm at both centers shows that the calibration process is efficient. This is performed using limited training data from the new target acquisition center and requires that the model is trained beforehand on a large database from a reference center. This methodology allows the implementation of AI diagnostic tools to help in routine pathology practice.
翻訳日:2023-01-18 14:29:14 公開日:2023-01-17
# ニューラル量子状態の設計選択の最適化

Optimizing Design Choices for Neural Quantum States ( http://arxiv.org/abs/2301.06788v1 )

ライセンス: Link先を確認
Moritz Reh, Markus Schmitt, Martin G\"arttner(参考訳) ニューラル量子状態 (neural quantum states) は、2つの空間次元の難解な場合において有利な性質を持つ量子体波動関数の変分 ans\"atze の新しい族である。 導入以来、量子多体物理学におけるパラダイムモデルの研究に様々なネットワークアーキテクチャが用いられ、特に量子スピンモデルに焦点を当てている。 それでも、アーキテクチャの選択が与えられたタスクのパフォーマンスに与える影響について多くの疑問が残る。 本研究では,原型スピンハミルトニアンの基底状態探索,すなわち2次元横フィールドイジングモデルとJ1-J2モデルにおいて,一般的なネットワークアーキテクチャの選択と対称性を統一的に比較する。 基底状態の非自明な符号構造の存在下では、対称性の詳細が性能に重大な影響を与えることが分かる。 我々はこの効果を詳細に記述し、特に自己回帰モデルにおいて、それらの直接サンプリング手順は最適な対称性化手順と互換性がないとして、その結果について議論する。

Neural quantum states are a new family of variational ans\"atze for quantum-many body wave functions with advantageous properties in the notoriously challenging case of two spatial dimensions. Since their introduction a wide variety of different network architectures has been employed to study paradigmatic models in quantum many-body physics with a particular focus on quantum spin models. Nonetheless, many questions remain about the effect that the choice of architecture has on the performance on a given task. In this work, we present a unified comparison of a selection of popular network architectures and symmetrization schemes employed for ground state searches of prototypical spin Hamiltonians, namely the two-dimensional transverse-field Ising model and the J1-J2 model. In the presence of a non-trivial sign structure of the ground states, we find that the details of symmetrization crucially influence the performance. We describe this effect in detail and discuss its consequences, especially for autoregressive models, as their direct sampling procedure is not compatible with the symmetrization procedure that we found to be optimal.
翻訳日:2023-01-18 14:28:45 公開日:2023-01-17
# 動的システムのアンサンブル貯留層計算:ハドロン貯蔵リングの位相空間安定領域の予測

Ensemble Reservoir Computing for Dynamical Systems: Prediction of Phase-Space Stable Region for Hadron Storage Rings ( http://arxiv.org/abs/2301.06786v1 )

ライセンス: Link先を確認
Maxime Casanova, Barbara Dalena, Luca Bonaventura, Massimo Giovannozzi(参考訳) 本研究では, ハドロン貯蔵リング内の荷電粒子の運動が境界となる相空間領域の長期挙動を予測するためのアンサンブル貯留層計算手法の能力, いわゆるダイナミックアパーチャについて検討した。 現在,ハドロン貯蔵リングの位相空間安定性領域の計算は,資源・時間集約プロセスである直接計算機シミュレーションによって行われている。 Echo State Networks(ESN)は、バックプロパゲーションを回避し、クロスバリデーションのみを必要とするため、計算的に効果的であるリカレントニューラルネットワークのクラスである。 さらに、それらは力学系の普遍近似であることが証明されている。 本稿では,位相空間安定領域の予測のためのアンサンブルアプローチに基づいてesnが到達した性能を,ハミルトン系に対するネホロシェフ定理の安定性-時間推定に基づく解析的スケーリング則と比較する。 提案手法は,動的開口域の時間変化を効果的に予測でき,解析的スケーリング則による予測を改善し,効率的なサロゲートモデルを提供する。

We investigate the ability of an ensemble reservoir computing approach to predict the long-term behaviour of the phase-space region in which the motion of charged particles in hadron storage rings is bounded, the so-called dynamic aperture. Currently, the calculation of the phase-space stability region of hadron storage rings is performed through direct computer simulations, which are resource- and time-intensive processes. Echo State Networks (ESN) are a class of recurrent neural networks that are computationally effective, since they avoid backpropagation and require only cross-validation. Furthermore, they have been proven to be universal approximants of dynamical systems. In this paper, we present the performance reached by ESN based on an ensemble approach for the prediction of the phase-space stability region and compare it with analytical scaling laws based on the stability-time estimate of the Nekhoroshev theorem for Hamiltonian systems. We observe that the proposed ESN approach is capable of effectively predicting the time evolution of the extent of the dynamic aperture, improving the predictions by analytical scaling laws, thus providing an efficient surrogate model.
翻訳日:2023-01-18 14:28:26 公開日:2023-01-17
# トレース距離推定のための高速量子アルゴリズム

Fast Quantum Algorithms for Trace Distance Estimation ( http://arxiv.org/abs/2301.06783v1 )

ライセンス: Link先を確認
Qisheng Wang, Zhicheng Zhang(参考訳) 量子情報処理において、トレース距離は量子状態の区別可能性の基本的な指標である。 しかし、一般にトレース距離の値を推定する効果的な方法は知られていない。 本稿では,混合量子状態のランク$r$間の加算誤差$\varepsilon$内のトレース距離を推定する効率的な量子アルゴリズムを提案する。 具体的には、まず量子状態の浄化を準備する量子回路に対して、$r \cdot \widetilde o(1/\varepsilon^2)$クエリを用いた量子アルゴリズムを提供する。 次に、この量子アルゴリズムを、量子状態認証に適用可能な量子状態のサンプルの$\widetilde o(r^2/\varepsilon^5)$を用いて別のアルゴリズムを得るように修正する。 どちらのアルゴリズムも、クエリ/サンプルの複雑さと同じ量子時間複雑度を持つ。

In quantum information processing, trace distance is a basic metric of distinguishability between quantum states. However, there is no known efficient approach to estimate the value of trace distance in general. In this paper, we propose efficient quantum algorithms for estimating the trace distance within additive error $\varepsilon$ between mixed quantum states of rank $r$. Specifically, we first provide a quantum algorithm using $r \cdot \widetilde O(1/\varepsilon^2)$ queries to the quantum circuits that prepare the purifications of quantum states, which achieves a linear time dependence on the rank $r$. Then, we modify this quantum algorithm to obtain another algorithm using $\widetilde O(r^2/\varepsilon^5)$ samples of quantum states, which can be applied to quantum state certification. Both algorithms have the same quantum time complexities as their query/sample complexities up to a logarithmic factor.
翻訳日:2023-01-18 14:28:07 公開日:2023-01-17
# 大規模屋外マルチモーダルデータセットと新しいビュー合成と暗黙のシーン再構成のためのベンチマーク

A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction ( http://arxiv.org/abs/2301.06782v1 )

ライセンス: Link先を確認
Chongshan Lu, Fukun Yin, Xin Chen, Tao Chen, Gang YU, Jiayuan Fan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,DTU,BMVS,NeRF合成など,多数の屋内シーン・データセットを対象とする単一モダリティと単一オブジェクトに焦点を絞った,単一物体シーンの再構成と新規なビュー・シンセサイティクスにおいて印象的な成果を上げてきたが,大規模な屋外シーンの再構成に関するNeRFの研究は,高価なデータ取得と校正コストによる大規模なNeRF評価のための統一された屋外シーン・データセットが存在しないため,いまだに限られている。 本稿では,複雑なランドオブジェクトを含む大規模屋外マルチモーダルデータセットommoデータセットを提案する。 一方、新しいビュー合成、表面再構成、マルチモーダルNeRFなど、いくつかの屋外NeRFベースのタスクのための新しいベンチマークが確立されている。 データセットを作成するために、多数の実際のフライビュービデオをキャプチャして収集し、高品質で高解像度のクリップを選択します。 そして、画像の精査、低品質フレームの除去、そして学習に基づく自動評価と手動によるシーンの校正を行う品質レビューモジュールを設計する。 最後に、将来的なマルチモーダル要件を満たすために、各シーンとキーフレームのテキスト記述を追加するために、多くのボランティアが雇われている。 既存のNeRFデータセットと比較して、我々のデータセットは、様々なスケール、カメラ軌道、照明条件を備えた、豊富な実世界の都市と自然のシーンを含んでいる。 実験の結果、我々のデータセットは様々なタスクで最先端のNeRF手法をベンチマークできることがわかった。 データセットとモデルウェイトをすぐにリリースします。

Neural Radiance Fields (NeRF) has achieved impressive results in single object scene reconstruction and novel view synthesis, which have been demonstrated on many single modality and single object focused indoor scene datasets like DTU, BMVS, and NeRF Synthetic.However, the study of NeRF on large-scale outdoor scene reconstruction is still limited, as there is no unified outdoor scene dataset for large-scale NeRF evaluation due to expensive data acquisition and calibration costs. In this paper, we propose a large-scale outdoor multi-modal dataset, OMMO dataset, containing complex land objects and scenes with calibrated images, point clouds and prompt annotations. Meanwhile, a new benchmark for several outdoor NeRF-based tasks is established, such as novel view synthesis, surface reconstruction, and multi-modal NeRF. To create the dataset, we capture and collect a large number of real fly-view videos and select high-quality and high-resolution clips from them. Then we design a quality review module to refine images, remove low-quality frames and fail-to-calibrate scenes through a learning-based automatic evaluation plus manual review. Finally, a number of volunteers are employed to add the text descriptions for each scene and key-frame to meet the potential multi-modal requirements in the future. Compared with existing NeRF datasets, our dataset contains abundant real-world urban and natural scenes with various scales, camera trajectories, and lighting conditions. Experiments show that our dataset can benchmark most state-of-the-art NeRF methods on different tasks. We will release the dataset and model weights very soon.
翻訳日:2023-01-18 14:27:51 公開日:2023-01-17
# ファッション産業における再利用可能なセルフアテンションレコメンダシステム

Reusable Self-Attention Recommender Systems in Fashion Industry Applications ( http://arxiv.org/abs/2301.06777v1 )

ライセンス: Link先を確認
Marjan Celikik, Jacek Wasilewski, Ana Peleteiro Ramallo(参考訳) レコメンダシステムの領域に自己アテンションモデルを適用するための多くの実証研究は、標準データセットで計算されたオフライン評価とメトリクスに基づいている。 さらに,多種多種多種多様な特徴を含む場合のみ,深層学習の推薦者が最大限の可能性を秘めているにも関わらず,商品や顧客メタデータなどの側面情報を考慮していないものも多い。 また、通常、モデルは単一のユースケースでのみ使用される。 これらの欠点のため、たとえ関連性があったとしても、以前の作品が現実の業界アプリケーションにおける実際の効果を表すとは限らない。 本稿では,このギャップを埋めることに寄与し,最大30%のユーザ保持率の改善を示すライブ実験結果を示す。 さらに,ファッション業界からのさまざまなアプリケーションに対して,再利用可能な構成可能なレコメンダシステムの構築から学んだことや課題についても紹介する。 特に、衣装のランキング、服装推薦、リアルタイムパーソナライズされた衣装生成など、ファッションのインスピレーションのユースケースにフォーカスしています。

A large number of empirical studies on applying self-attention models in the domain of recommender systems are based on offline evaluation and metrics computed on standardized datasets. Moreover, many of them do not consider side information such as item and customer metadata although deep-learning recommenders live up to their full potential only when numerous features of heterogeneous type are included. Also, normally the model is used only for a single use case. Due to these shortcomings, even if relevant, previous works are not always representative of their actual effectiveness in real-world industry applications. In this talk, we contribute to bridging this gap by presenting live experimental results demonstrating improvements in user retention of up to 30\%. Moreover, we share our learnings and challenges from building a re-usable and configurable recommender system for various applications from the fashion industry. In particular, we focus on fashion inspiration use-cases, such as outfit ranking, outfit recommendation and real-time personalized outfit generation.
翻訳日:2023-01-18 14:27:20 公開日:2023-01-17
# 制約付き因果モデル

Causal Models with Constraints ( http://arxiv.org/abs/2301.06845v1 )

ライセンス: Link先を確認
Sander Beckers, Joseph Y. Halpern, and Christopher Hitchcock(参考訳) 因果モデルは、変数の集合間の因果関係の形式表現を提供するのに非常に有用であることが証明されている。 しかし、多くの状況では変数の間に非因果関係が存在する。 例えば、LDL$、$HDL$、$TOT$は、LDL+HDL=TOT$の関係で、低比重リポ蛋白コレステロールのレベル、高比重リポ蛋白コレステロールのレベル、および総コレステロールのレベルを表す。 これは標準因果モデルではできない。なぜなら、3つの変数すべてに同時に介入できるからである。 本研究の目的は,変数の設定に制約を加えるために標準因果モデルを拡張することである。 この拡張は比較的単純であるが、有用にするためには、$disconnects$変数を因果方程式から分離する新しい介入操作を定義する必要がある。 この拡張の有用性を示す例を示し,制約のある因果モデルに対する健全かつ完全な公理化を提供する。

Causal models have proven extremely useful in offering formal representations of causal relationships between a set of variables. Yet in many situations, there are non-causal relationships among variables. For example, we may want variables $LDL$, $HDL$, and $TOT$ that represent the level of low-density lipoprotein cholesterol, the level of lipoprotein high-density lipoprotein cholesterol, and total cholesterol level, with the relation $LDL+HDL=TOT$. This cannot be done in standard causal models, because we can intervene simultaneously on all three variables. The goal of this paper is to extend standard causal models to allow for constraints on settings of variables. Although the extension is relatively straightforward, to make it useful we have to define a new intervention operation that $disconnects$ a variable from a causal equation. We give examples showing the usefulness of this extension, and provide a sound and complete axiomatization for causal models with constraints.
翻訳日:2023-01-18 14:21:22 公開日:2023-01-17
# USER: 画像テキスト検索のためのMomentum Contrastを用いた統合セマンティックエンハンスメント

USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval ( http://arxiv.org/abs/2301.06844v1 )

ライセンス: Link先を確認
Yan Zhang, Zhong Ji, Di Wang, Yanwei Pang, Xuelong Li(参考訳) 言語と視覚領域をブリッジする基本的な課題として、Image-Text Retrieval(ITR)は、与えられたクエリに他のモダリティから意味的に関連するターゲットインスタンスを探すことを目的としており、その主な課題は、異なるモダリティ間での意味的類似性を測定することである。 1)各領域が等しく扱われるボトムアップの注意に基づく領域レベルの特徴を直接利用することにより、表現の正確さを損なう。 2) ミニバッチに基づくエンドツーエンドトレーニング機構を用いることで, 負のサンプル対のスケールを制限する。 これらの制約に対処するために, ITR のための統一セマンティック・エンハンスメント・モメンタム・コントラシブ・ラーニング (USER) 手法を提案する。 具体的には、2つの単純かつ効果的なグローバル表現ベースセマンティックエンハンスメント(gse)モジュールを繊細に設計する。 自己注意アルゴリズム(Self-Guided Enhancement (SGE)モジュール)を通じてグローバル表現を学習する。 他のモジュールはプリトレーニングされたクリップモジュールの利点であり、クリップガイド拡張(cge)モジュールと呼ばれる既製のモデルから知識を活用し、転送するための新しいスキームを提供する。 さらに,MoCoのトレーニング機構をITRに組み込んで,2つの動的キューを用いて負のサンプルペアのスケールを拡張・拡大する。 一方,ミニバッチベースおよび動的キューベースサンプルから学習するための統一トレーニング目標(uto)が開発された。 ベンチマークMSCOCOとFlickr30Kデータセットの大規模な実験は、検索精度と推論効率の両方の優位性を示している。 ソースコードはhttps://github.com/zhangy0822/userでリリースします。

As a fundamental and challenging task in bridging language and vision domains, Image-Text Retrieval (ITR) aims at searching for the target instances that are semantically relevant to the given query from the other modality, and its key challenge is to measure the semantic similarity across different modalities. Although significant progress has been achieved, existing approaches typically suffer from two major limitations: (1) It hurts the accuracy of the representation by directly exploiting the bottom-up attention based region-level features where each region is equally treated. (2) It limits the scale of negative sample pairs by employing the mini-batch based end-to-end training mechanism. To address these limitations, we propose a Unified Semantic Enhancement Momentum Contrastive Learning (USER) method for ITR. Specifically, we delicately design two simple but effective Global representation based Semantic Enhancement (GSE) modules. One learns the global representation via the self-attention algorithm, noted as Self-Guided Enhancement (SGE) module. The other module benefits from the pre-trained CLIP module, which provides a novel scheme to exploit and transfer the knowledge from an off-the-shelf model, noted as CLIP-Guided Enhancement (CGE) module. Moreover, we incorporate the training mechanism of MoCo into ITR, in which two dynamic queues are employed to enrich and enlarge the scale of negative sample pairs. Meanwhile, a Unified Training Objective (UTO) is developed to learn from mini-batch based and dynamic queue based samples. Extensive experiments on the benchmark MSCOCO and Flickr30K datasets demonstrate the superiority of both retrieval accuracy and inference efficiency. Our source code will be released at https://github.com/zhangy0822/USER.
翻訳日:2023-01-18 14:21:06 公開日:2023-01-17
# オープン情報抽出のための部分観測データの統語的ロバスト学習

Syntactically Robust Training on Partially-Observed Data for Open Information Extraction ( http://arxiv.org/abs/2301.06841v1 )

ライセンス: Link先を確認
Ji Qi, Yuxiang Chen, Lei Hou, Juanzi Li, Bin Xu(参考訳) オープン情報抽出モデルは十分な監督の下で有望な結果を示している。 しかし、これらのモデルは、トレーニングデータの構文分布が現実世界と比較して部分的に観測可能であるという根本的な課題に直面している。 本稿では,多種多様なパラファーゼ生成に基づく統語的冗長分布上でモデルを訓練できる統語的ロバストなトレーニングフレームワークを提案する。 パラフラージングの知識変形に関する本質的な問題に取り組むために、意味的類似性マッチングと構文木ウォーキングに基づく2つのアルゴリズムを用いて表現変換された知識を復元する。 トレーニングフレームワークは一般に、他の構文的な部分観測可能なドメインに適用することができる。 提案フレームワークをベースとして,モデルのロバスト性を検証するための実世界の設定と一致した,構文的に多様なデータセットであるCaRB-AutoParaという新たな評価セットを構築した。 網羅的な分析を含む実験により, モデルの性能は, 構文分布の違いの増加に伴って低下し, フレームワークは堅牢な境界を与えることがわかった。 ソースコードはhttps://github.com/qijimrc/RobustOIEで公開されている。

Open Information Extraction models have shown promising results with sufficient supervision. However, these models face a fundamental challenge that the syntactic distribution of training data is partially observable in comparison to the real world. In this paper, we propose a syntactically robust training framework that enables models to be trained on a syntactic-abundant distribution based on diverse paraphrase generation. To tackle the intrinsic problem of knowledge deformation of paraphrasing, two algorithms based on semantic similarity matching and syntactic tree walking are used to restore the expressionally transformed knowledge. The training framework can be generally applied to other syntactic partial observable domains. Based on the proposed framework, we build a new evaluation set called CaRB-AutoPara, a syntactically diverse dataset consistent with the real-world setting for validating the robustness of the models. Experiments including a thorough analysis show that the performance of the model degrades with the increase of the difference in syntactic distribution, while our framework gives a robust boundary. The source code is publicly available at https://github.com/qijimrc/RobustOIE.
翻訳日:2023-01-18 14:20:34 公開日:2023-01-17
# 個々の古典的あるいは量子計算のコストに縛られる一般化ズレックの一般化

Generalized Zurek's bound on the cost of an individual classical or quantum computation ( http://arxiv.org/abs/2301.06838v1 )

ライセンス: Link先を確認
Artemy Kolchinsky(参考訳) 個々の計算の最小熱力学的コストを考えると、1つの入力$x$が1つの出力$y$に変換される。 以前の研究で、ズレックは、このコストは$K(x\vert y)$、条件付きコルモゴロフ複雑性$x$$$$y$($x$または$y$に依存しない加法定数まで)によって与えられると提案した。 しかし、この結果は非公式な議論から導出され、決定論的計算にのみ適用され、(加法定数を通じて)物理プロトコルの選択に任意に依存する。 ここでは確率的熱力学を用いて、厳密なハミルトン公式からzurekの束縛の一般化バージョンを導出する。 私たちの境界は、ノイズや決定論に関わらず、すべての量子プロセスや古典プロセスに適用され、プロトコルへの依存を明示的に捉えます。 k(x\vert y)$ は、x$ から $y$ へのマッピングの基本的なコストであり、熱、ノイズ、プロトコルの複雑さの組み合わせで払わなければならない。 また、この境界は達成可能であることも示します。 この結果は、第2法則と物理教会チューリング論との関係に意味を持つ「アルゴリズム的揺らぎ定理」の一種である。

We consider the minimal thermodynamic cost of an individual computation, where a single input $x$ is transformed into a single output $y$. In prior work, Zurek proposed that this cost was given by $K(x\vert y)$, the conditional Kolmogorov complexity of $x$ given $y$ (up to an additive constant which does not depend on $x$ or $y$). However, this result was derived from an informal argument, applied only to deterministic computations, and had an arbitrary dependence on the choice of physical protocol (via the additive constant). Here we use stochastic thermodynamics to derive a generalized version of Zurek's bound from a rigorous Hamiltonian formulation. Our bound applies to all quantum and classical processes, whether noisy or deterministic, and it explicitly captures the dependence on the protocol. We show that $K(x\vert y)$ is a fundamental cost of mapping $x$ to $y$ which must be paid using some combination of heat, noise, and protocol complexity, implying a tradeoff between these three resources. We also show that this bound is achievable. Our result is a kind of "algorithmic fluctuation theorem" which has implications for the relationship between the Second Law and the Physical Church-Turing thesis.
翻訳日:2023-01-18 14:20:06 公開日:2023-01-17
# 知識グラフ埋め込みを用いた長期ロボットインタラクションのための知識獲得と補完

Knowledge Acquisition and Completion for Long-Term Human-Robot Interactions using Knowledge Graph Embedding ( http://arxiv.org/abs/2301.06834v1 )

ライセンス: Link先を確認
E. Bartoli, F. Argenziano, V. Suriani, D. Nardi(参考訳) 人間-ロボットインタラクション(HRI)システムでは、ユーザとロボットの間で、象徴的な知識と知覚を融合させ、運用環境の表現を共有することが課題である。 既存のHRIパイプラインを使えば、ユーザーはロボットに知識ベースを増やすためのいくつかの概念を教えることができる。 残念ながら、ユーザーから来るデータは、一貫した表現を構築するのに十分な密度ではない。 さらに、既存のアプローチでは、ロボットが動的コンテキストを扱う必要がある場合に非常に重要な知識ベースを段階的に構築することはできない。 そこで本研究では,長期学習でユーザと環境からデータを集めるアーキテクチャを提案する。 我々は,ロボットの内部環境表現を段階的に拡張することを目的として,獲得した情報を一般化する知識グラフ埋め込み手法を採用する。 学習主体のロボットの能力と未知の文脈から来る関係を一連のインクリメンタルな学習セッションを通じて測定し,連続学習アーキテクチャ全体の性能を評価する。

In Human-Robot Interaction (HRI) systems, a challenging task is sharing the representation of the operational environment, fusing symbolic knowledge and perceptions, between users and robots. With the existing HRI pipelines, users can teach the robots some concepts to increase their knowledge base. Unfortunately, the data coming from the users are usually not enough dense for building a consistent representation. Furthermore, the existing approaches are not able to incrementally build up their knowledge base, which is very important when robots have to deal with dynamic contexts. To this end, we propose an architecture to gather data from users and environments in long-runs of continual learning. We adopt Knowledge Graph Embedding techniques to generalize the acquired information with the goal of incrementally extending the robot's inner representation of the environment. We evaluate the performance of the overall continual learning architecture by measuring the capabilities of the robot of learning entities and relations coming from unknown contexts through a series of incremental learning sessions.
翻訳日:2023-01-18 14:19:31 公開日:2023-01-17
# ハノイト:選択文脈による文脈認識翻訳の強化

HanoiT: Enhancing Context-aware Translation via Selective Context ( http://arxiv.org/abs/2301.06825v1 )

ライセンス: Link先を確認
Jian Yang, Yuwei Yin, Shuming Ma, Liqun Yang, Hongcheng Guo, Haoyang Huang, Dongdong Zhang, Yutao Zeng, Zhoujun Li, Furu Wei(参考訳) context-aware neural machine translationは、ドキュメントレベルのコンテキストを使用して翻訳品質を改善することを目的としている。 しかし、文脈内の全ての単語が役に立つわけではない。 無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助文脈の関係を学ぶのを邪魔する可能性がある。 そこで本稿では,この問題を解決するために,層別選択機構を備えたエンド・ツー・エンドエンコーダ・デコーダモデルを提案する。 本手法の有効性を検証するため,4つの文書レベルの機械翻訳ベンチマークにおいて,広範な実験と余分な定量的解析を行った。 実験の結果,本モデルはソフトセレクション機構により,全データセットの既存モデルを大きく上回ることがわかった。

Context-aware neural machine translation aims to use the document-level context to improve translation quality. However, not all words in the context are helpful. The irrelevant or trivial words may bring some noise and distract the model from learning the relationship between the current sentence and the auxiliary context. To mitigate this problem, we propose a novel end-to-end encoder-decoder model with a layer-wise selection mechanism to sift and refine the long document context. To verify the effectiveness of our method, extensive experiments and extra quantitative analysis are conducted on four document-level machine translation benchmarks. The experimental results demonstrate that our model significantly outperforms previous models on all datasets via the soft selection mechanism.
翻訳日:2023-01-18 14:19:17 公開日:2023-01-17
# パスファインディング神経細胞オートマトン

Pathfinding Neural Cellular Automata ( http://arxiv.org/abs/2301.06820v1 )

ライセンス: Link先を確認
Sam Earle, Ozlem Yildiz, Julian Togelius, Chinmay Hegde(参考訳) pathfindingは、ロボットの経路計画、輸送経路、ゲームプレイなど、aiにおける幅広い複雑なタスクの重要なサブコンポーネントを構成する。 古典的なアルゴリズムは最短経路を効率的に計算できるが、ニューラルネットワークはこれらのサブルーチンをより複雑で難解なタスクに適応するのに適している。 このようなネットワークを構築するためのステップとして,同一サイズの入力と出力を持つ反復型ニューラルネットワークであるneural cellular automataの統一アーキテクチャフレームワークを用いて,幅優先探索(bfs)のためのモデルを手入力して学習する。 同様に、Depth-First Search(DFS)のニューラル実装を提案し、グラフの直径を計算するためのNAAを生成するために、ニューラルネットワークBFSと組み合わせる方法について概説する。 我々は,これらのハンドコードncasにインスパイアされたアーキテクチャ変更を実験し,グリッド迷路の直径問題を解決するためにネットワークをスクラッチからトレーニングし,強力な一般化能力を示した。 最後に,トレーニング中にデータポイントを反対方向に変更する方式を提案する。 逆向きに進化する迷路は、分布外例の一般化を増大させると同時に、推論タスクのより複雑な解を持つデータセットを生成する。

Pathfinding makes up an important sub-component of a broad range of complex tasks in AI, such as robot path planning, transport routing, and game playing. While classical algorithms can efficiently compute shortest paths, neural networks could be better suited to adapting these sub-routines to more complex and intractable tasks. As a step toward developing such networks, we hand-code and learn models for Breadth-First Search (BFS), i.e. shortest path finding, using the unified architectural framework of Neural Cellular Automata, which are iterative neural networks with equal-size inputs and outputs. Similarly, we present a neural implementation of Depth-First Search (DFS), and outline how it can be combined with neural BFS to produce an NCA for computing diameter of a graph. We experiment with architectural modifications inspired by these hand-coded NCAs, training networks from scratch to solve the diameter problem on grid mazes while exhibiting strong generalization ability. Finally, we introduce a scheme in which data points are mutated adversarially during training. We find that adversarially evolving mazes leads to increased generalization on out-of-distribution examples, while at the same time generating data-sets with significantly more complex solutions for reasoning tasks.
翻訳日:2023-01-18 14:19:04 公開日:2023-01-17
# ついて来て 有名になるんだ! Instagramのエンゲージメントメカニズムの洞察とガイドライン

Follow Us and Become Famous! Insights and Guidelines From Instagram Engagement Mechanisms ( http://arxiv.org/abs/2301.06815v1 )

ライセンス: Link先を確認
Pier Paolo Tricomi, Marco Chilese, Mauro Conti, Ahmad-Reza Sadeghi(参考訳) 13億人のユーザーがいるInstagram(IG)もビジネスツールになっている。 インフルエンサーマーケティングは2022年に3325億ドルを生産すると予想されており、企業やインフルエンサーがトレンドコンテンツを作成することを奨励している。 投稿の人気、すなわち、どれだけのエンゲージメント(例えば、いいね!)が発生するかを予測するために、様々な方法が提案されている。 しかし、これらの方法は限られており、まず2021年に重要になったコメントの数を無視して、いいね! 第二に、研究はしばしばバイアスや限られたデータを使う。 第三に、研究者は予測性能を向上させるためにディープラーニングモデルに焦点を当てた。 その結果、エンドユーザは、投稿が作成された後のみエンゲージメントを見積もることができなくなり、非効率で費用がかかる。 より良いアプローチは、例えばガイドラインに従うことによって、人々やイグジットが好きなものに基づいて投稿を生成することである。 本研究では、IGエンゲージメントを駆動するメカニズムの一部を明らかにする。 この目的を達成するには、深層学習(ブラックボックス)アプローチではなく、統計分析と解釈モデルに頼る。 3kグローバルインフルエンサーが作成した1000万の投稿の全世界的データセットを9つのカテゴリに分けて,広範な実験を行った。 シンプルな強力なアルゴリズムを使えば、f1-scoreの最大94%のエンゲージメントを予測できます。 さらに,IG 上で高度に係わるトピックを探索するための新しい教師なしアルゴリズムを提案する。 解釈可能なアプローチのおかげで、成功記事を作成するためのガイドラインの概要をまとめて締めくくります。

With 1.3 billion users, Instagram (IG) has also become a business tool. IG influencer marketing, expected to generate $33.25 billion in 2022, encourages companies and influencers to create trending content. Various methods have been proposed for predicting a post's popularity, i.e., how much engagement (e.g., Likes) it will generate. However, these methods are limited: first, they focus on forecasting the likes, ignoring the number of comments, which became crucial in 2021. Secondly, studies often use biased or limited data. Third, researchers focused on Deep Learning models to increase predictive performance, which are difficult to interpret. As a result, end-users can only estimate engagement after a post is created, which is inefficient and expensive. A better approach is to generate a post based on what people and IG like, e.g., by following guidelines. In this work, we uncover part of the underlying mechanisms driving IG engagement. To achieve this goal, we rely on statistical analysis and interpretable models rather than Deep Learning (black-box) approaches. We conduct extensive experiments using a worldwide dataset of 10 million posts created by 34K global influencers in nine different categories. With our simple yet powerful algorithms, we can predict engagement up to 94% of F1-Score, making us comparable and even superior to Deep Learning-based method. Furthermore, we propose a novel unsupervised algorithm for finding highly engaging topics on IG. Thanks to our interpretable approaches, we conclude by outlining guidelines for creating successful posts.
翻訳日:2023-01-18 14:18:43 公開日:2023-01-17
# 量子貯水池計算におけるノイズの活用

Taking advantage of noise in quantum reservoir computing ( http://arxiv.org/abs/2301.06814v1 )

ライセンス: Link先を確認
L. Domingo and G. Carlo and F. Borondo(参考訳) 量子コンピューティングと量子機械学習が現在直面している最大の課題は、量子デバイスにおけるノイズの存在である。 その結果、引き起こされたエラーの修正や軽減に多大な努力が払われた。 しかし、この2つの分野はノイズの恩恵を受けるだろうか? 驚くべきことに、いくつかの状況下で量子ノイズは、著名な量子機械学習アルゴリズムである量子貯水池コンピューティングの性能を改善するために使用できる。 その結果、特定のノイズタイプは機械学習に有益であるが、他のノイズタイプは修正に優先されるべきであることが示された。 この決定的な結果は、量子デバイスの基礎となる物理メカニズムに新しい光を与え、今日のハードウェアで量子情報処理を成功させるための確かな実践的な処方薬を提供する。

The biggest challenge that quantum computing and quantum machine learning are currently facing is the presence of noise in quantum devices. As a result, big efforts have been put into correcting or mitigating the induced errors. But, can these two fields benefit from noise? Surprisingly, we demonstrate that under some circumstances, quantum noise can be used to improve the performance of quantum reservoir computing, a prominent and recent quantum machine learning algorithm. Our results show that certain noise types can be beneficial to machine learning, while others should be prioritized for correction. This critical result sheds new light into the physical mechanisms underlying quantum devices, providing solid practical prescriptions for a successful implementation of quantum information processing in nowadays hardware.
翻訳日:2023-01-18 14:18:18 公開日:2023-01-17
# Moreau Envelopesを用いたメタラーニングのための一次アルゴリズムの収束

Convergence of First-Order Algorithms for Meta-Learning with Moreau Envelopes ( http://arxiv.org/abs/2301.06806v1 )

ライセンス: Link先を確認
Konstantin Mishchenko, Slavom\'ir Hanzely, Peter Richt\'arik(参考訳) 本研究では,メタラーニングやパーソナライズド・フェデレーション・ラーニングの文脈にこれまで現れてきた,与えられた関数のモローエンベロープの総和を最小化する問題について考察する。 特定の精度に達するまでサブソルバを実行する必要がある既存の理論とは対照的に、我々は各イテレーションで有限個の勾配ステップが取られていると仮定する。 特別の場合として、この理論はモローの解の近傍に一階モデル非依存メタラーニング(FO-MAML)の収束を示すことができる。 また、FO-MAMLの一般化と見なせる1次アルゴリズムのより一般的なファミリについても検討する。 我々の主要な理論的成果は、不正確なSGDフレームワークの理論的改善である。 特に、摂動文解析は、問題の条件付けへの依存性を改善するためのより厳密な保証を可能にします。 メタラーニングに関する関連する研究とは対照的に、ヘッセンの滑らかさに関する仮定は一切必要とせず、モローエンベロープに基づく改革の滑らかさと凸性を活用することができる。 さらに, FO-MAML と Implicit MAML (iMAML) の比較におけるギャップを埋めるために, iMAML の目的が滑らかでも凸でもないことを示し, 既存の理論に基づく収束保証がないことを示す。

In this work, we consider the problem of minimizing the sum of Moreau envelopes of given functions, which has previously appeared in the context of meta-learning and personalized federated learning. In contrast to the existing theory that requires running subsolvers until a certain precision is reached, we only assume that a finite number of gradient steps is taken at each iteration. As a special case, our theory allows us to show the convergence of First-Order Model-Agnostic Meta-Learning (FO-MAML) to the vicinity of a solution of Moreau objective. We also study a more general family of first-order algorithms that can be viewed as a generalization of FO-MAML. Our main theoretical achievement is a theoretical improvement upon the inexact SGD framework. In particular, our perturbed-iterate analysis allows for tighter guarantees that improve the dependency on the problem's conditioning. In contrast to the related work on meta-learning, ours does not require any assumptions on the Hessian smoothness, and can leverage smoothness and convexity of the reformulation based on Moreau envelopes. Furthermore, to fill the gaps in the comparison of FO-MAML to the Implicit MAML (iMAML), we show that the objective of iMAML is neither smooth nor convex, implying that it has no convergence guarantees based on the existing theory.
翻訳日:2023-01-18 14:18:08 公開日:2023-01-17
# フラケット時間結晶相転移におけるサブ指数臨界減速

The Sub-Exponential Critical Slowing Down at Floquet Time Crystal Phase Transition ( http://arxiv.org/abs/2301.06872v1 )

ライセンス: Link先を確認
Wenqian Zhang, Yadong Wu, Xingze Qiu, Jue Nan, and Xiaopeng Li(参考訳) 臨界減速 (Critical slowing down, CSD) は多体系の平衡相転移の臨界ダイナミクスの商標であり、系が熱平衡に達するための緩和時間や量子基底状態がシステムサイズで分岐する。 時間結晶相転移は、従来の平衡相転移とは異なり、量子力学の相転移のシナリオを提供するため、近年多くの注目を集めている。 ここでは, フラケット時間結晶相転移近傍の臨界ダイナミクスについて検討する。 その臨界挙動は、空間的に粗い粒度の相関関数を導入することで説明され、その緩和時間はCSDを明らかにする臨界点で分岐する。 これは、一次元乱れたスピン鎖のフロッケダイナミクスを調べることによって証明される。 有限スケール解析により, 平衡相転移におけるcsdの標準パワーロー挙動とは対照的に, 緩和時間は臨界点付近に普遍的な部分指数スケーリングを持つことを示した。 この予測は、現在の量子シミュレーション実験で容易に検証できる。

Critical slowing down (CSD) has been a trademark of critical dynamics for equilibrium phase transitions of a many-body system, where the relaxation time for the system to reach thermal equilibrium or quantum ground state diverges with system size. The time crystal phase transition has attracted much attention in recent years for it provides a scenario of phase transition of quantum dynamics, unlike conventional equilibrium phase transitions. Here, we study critical dynamics near the Floquet time crystal phase transition. Its critical behavior is described by introducing a space-time coarse grained correlation function, whose relaxation time diverges at the critical point revealing the CSD. This is demonstrated by investigating the Floquet dynamics of one-dimensional disordered spin chain. Through finite-size scaling analysis, we show the relaxation time has a universal sub-exponential scaling near the critical point, in sharp contrast to the standard power-law behavior for CSD in equilibrium phase transitions. This prediction can be readily tested in present quantum simulation experiments.
翻訳日:2023-01-18 14:12:03 公開日:2023-01-17
# 敵攻撃に対する防御としての拡散確率モデル

Denoising Diffusion Probabilistic Models as a Defense against Adversarial Attacks ( http://arxiv.org/abs/2301.06871v1 )

ライセンス: Link先を確認
Lars Lien Ankile, Anna Midgley, Sebastian Weisshaar(参考訳) ニューラルネットワークは入力中の小さな摂動に悪名高く敏感であり、敵の攻撃に弱い。 本研究は,敵攻撃に対する浄化手法として,拡散確率モデル(DDPM)の性能を評価する。 これは、拡散モデルの逆プロセスを通して取り除く前に、逆の例にノイズを追加することで機能する。 リンパ節領域の病理組織学的検索のためのPatchCamelyonデータセットのアプローチを検証し,バニラモデルとベースラインを大幅に改善し,元のモデルの精度の88%まで頑健な精度の向上を見出した。 プロジェクトのコードはhttps://github.com/ankile/Adversarial-Diffusionにある。

Neural Networks are infamously sensitive to small perturbations in their inputs, making them vulnerable to adversarial attacks. This project evaluates the performance of Denoising Diffusion Probabilistic Models (DDPM) as a purification technique to defend against adversarial attacks. This works by adding noise to an adversarial example before removing it through the reverse process of the diffusion model. We evaluate the approach on the PatchCamelyon data set for histopathologic scans of lymph node sections and find an improvement of the robust accuracy by up to 88\% of the original model's accuracy, constituting a considerable improvement over the vanilla model and our baselines. The project code is located at https://github.com/ankile/Adversarial-Diffusion.
翻訳日:2023-01-18 14:11:47 公開日:2023-01-17
# 仮想アバカスを用いた算術問題の解法

Learning to solve arithmetic problems with a virtual abacus ( http://arxiv.org/abs/2301.06870v1 )

ライセンス: Link先を確認
Flavio Petruzzellis, Ling Xuan Chen, Alberto Testolin(参考訳) 数学的スキルの獲得は、現代の人工知能システムにとって重要な課題であると考えられている。 本稿では,人間の数値知識の発見方法に触発されて,認知エージェントが仮想アバカスと対話することで,算術問題を徐々に学習する方法をシミュレートする,深層強化学習フレームワークを導入する。 提案モデルでは,複数桁の加算と減算の学習に成功し,訓練中に観測したよりもオペランドが長い場合でも1%未満の誤差率を達成した。 また、学習エージェントのパフォーマンスを異なる量の明示的な監督を受けることで比較し、最も一般的なエラーパターンを分析し、設計選択による制限やバイアスをよりよく理解する。

Acquiring mathematical skills is considered a key challenge for modern Artificial Intelligence systems. Inspired by the way humans discover numerical knowledge, here we introduce a deep reinforcement learning framework that allows to simulate how cognitive agents could gradually learn to solve arithmetic problems by interacting with a virtual abacus. The proposed model successfully learn to perform multi-digit additions and subtractions, achieving an error rate below 1% even when operands are much longer than those observed during training. We also compare the performance of learning agents receiving a different amount of explicit supervision, and we analyze the most common error patterns to better understand the limitations and biases resulting from our design choices.
翻訳日:2023-01-18 14:11:36 公開日:2023-01-17
# sat: 3dポイントクラウドセマンティクスセグメンテーションのためのサイズ対応トランスフォーマー

SAT: Size-Aware Transformer for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2301.06869v1 )

ライセンス: Link先を確認
Junjie Zhou, Yongping Xiong, Chinwai Chiu, Fangyu Liu, Xiangyang Gong(参考訳) トランスフォーマーモデルはポイントクラウドセグメンテーションで有望な性能を達成した。 しかし、既存の注意制度のほとんどは、すべての点に対して等しく同じ特徴学習パラダイムを提供し、シーンオブジェクト間の大きさの違いを見落としている。 本稿では,異なる大きさの物体に対して効果的な受容場を調整できるサイズアウェアトランス(sat)を提案する。 SATは,各注意層にマルチスケール機能を導入し,各点の注意領域を適応的に選択できるようにする。 MGA(Multi-Granularity Attention)スキームとRe-Attentionモジュールの2つの主要な設計が含まれている。 MGAは2つの課題に対処する: トークンを遠くから効率的に集約し、1つの注意層内でマルチスケールの特徴を保存する。 具体的には,第1の課題に対処するために点ボクセルクロスアテンションを提案し,第2の課題を解決するために,標準的なマルチヘッド自己アテンションに基づく絞殺戦略を適用した。 Re-Attentionモジュールは、各ポイント毎にMGAによって出力される細粒度及び粗粒度の特徴に注意スコアを動的に調整する。 SATはS3DISおよびScanNetV2データセットの最先端性能を実現する。 我々のSATは、参照するすべてのメソッドの中で最もバランスの取れたカテゴリのパフォーマンスも達成しており、異なるサイズのモデリングカテゴリの優位性を示している。 この論文の受理後、私たちのコードとモデルはリリースされます。

Transformer models have achieved promising performances in point cloud segmentation. However, most existing attention schemes provide the same feature learning paradigm for all points equally and overlook the enormous difference in size among scene objects. In this paper, we propose the Size-Aware Transformer (SAT) that can tailor effective receptive fields for objects of different sizes. Our SAT achieves size-aware learning via two steps: introduce multi-scale features to each attention layer and allow each point to choose its attentive fields adaptively. It contains two key designs: the Multi-Granularity Attention (MGA) scheme and the Re-Attention module. The MGA addresses two challenges: efficiently aggregating tokens from distant areas and preserving multi-scale features within one attention layer. Specifically, point-voxel cross attention is proposed to address the first challenge, and the shunted strategy based on the standard multi-head self attention is applied to solve the second. The Re-Attention module dynamically adjusts the attention scores to the fine- and coarse-grained features output by MGA for each point. Extensive experimental results demonstrate that SAT achieves state-of-the-art performances on S3DIS and ScanNetV2 datasets. Our SAT also achieves the most balanced performance on categories among all referred methods, which illustrates the superiority of modelling categories of different sizes. Our code and model will be released after the acceptance of this paper.
翻訳日:2023-01-18 14:11:24 公開日:2023-01-17
# スポーツによるスケーラブルなビデオ理解ベンチマークの構築

Building Scalable Video Understanding Benchmarks through Sports ( http://arxiv.org/abs/2301.06866v1 )

ライセンス: Link先を確認
Aniket Agarwal, Alex Zhang, Karthik Narasimhan, Igor Gilitschenski, Vishvak Murahari, Yash Kant(参考訳) 長いビデオ理解を評価するための既存のベンチマークは、スケールやアノテーションの品質の欠如など、複数の面で不足している。 これらの制限は、長いビデオ(アクションや対話など)に密接な注釈を付けることの難しさから生じており、毎秒に多くのフレームを手作業でラベル付けすることで得られることが多い。 本稿では,自動アノテーションとビデオストリームアライメントパイプライン(ASAP)を紹介する。 我々は,4つのスポーツ(クリケット,サッカー,バスケットボール,アメリカンフットボール)のラベル付きビデオと対応する濃密アノテーション(注釈)をウェブ上で自由に利用できるようにすることで,ASAPの一般性を実証する。 人間の研究では、ASAPがビデオやアノテーションを高い忠実度、精度、スピードで調整できることが示されています。 そして、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成し、1000時間以上の高精細な注釈付きCricketビデオ(平均サンプル長50分)を、ほぼゼロのアノテーションコストで収集します。 我々は,LCric 上の最新の映像理解モデルについて,大規模な合成多重選択クエリと回帰クエリを用いてベンチマークおよび解析を行った。 我々は、新たな研究の余地を示す人間のベースラインを確立する。

Existing benchmarks for evaluating long video understanding falls short on multiple aspects, either lacking in scale or quality of annotations. These limitations arise from the difficulty in collecting dense annotations for long videos (e.g. actions, dialogues, etc.), which are often obtained by manually labeling many frames per second. In this work, we introduce an automated Annotation and Video Stream Alignment Pipeline (abbreviated ASAP). We demonstrate the generality of ASAP by aligning unlabeled videos of four different sports (Cricket, Football, Basketball, and American Football) with their corresponding dense annotations (i.e. commentary) freely available on the web. Our human studies indicate that ASAP can align videos and annotations with high fidelity, precision, and speed. We then leverage ASAP scalability to create LCric, a large-scale long video understanding benchmark, with over 1000 hours of densely annotated long Cricket videos (with an average sample length of 50 mins) collected at virtually zero annotation cost. We benchmark and analyze state-of-the-art video understanding models on LCric through a large set of compositional multi-choice and regression queries. We establish a human baseline that indicates significant room for new research to explore.
翻訳日:2023-01-18 14:11:02 公開日:2023-01-17
# ロボット群をデモで自動的にデザインする逆強化学習

Show me what you want: Inverse reinforcement learning to automatically design robot swarms by demonstration ( http://arxiv.org/abs/2301.06864v1 )

ライセンス: Link先を確認
Ilyes Gharbi, Jonas Kuckling, David Garz\'on Ramos and Mauro Birattari(参考訳) 自動設計はロボット群のための制御ソフトウェアを作成するための有望なアプローチである。 これまで自動設計は、望ましい集団行動を特定するためにミッション固有の目的関数に依存してきた。 本稿では,実演を通して望ましい集団行動を特定する可能性を検討する。 ロボット群制御ソフトウェアの自動モジュール設計と逆強化学習を組み合わせた自動設計手法であるDemo-Choを開発した。 デモチョは,実演に基づいてのみ,明示的な客観的機能を備える必要なしに,4つのミッションを行うための制御ソフトウェアの開発に成功した。 シミュレーションと物理ロボットによる実験結果について述べる。

Automatic design is a promising approach to generating control software for robot swarms. So far, automatic design has relied on mission-specific objective functions to specify the desired collective behavior. In this paper, we explore the possibility to specify the desired collective behavior via demonstrations. We develop Demo-Cho, an automatic design method that combines inverse reinforcement learning with automatic modular design of control software for robot swarms. We show that, only on the basis of demonstrations and without the need to be provided with an explicit objective function, Demo-Cho successfully generated control software to perform four missions. We present results obtained in simulation and with physical robots.
翻訳日:2023-01-18 14:10:43 公開日:2023-01-17
# 自律走行車を用いた距離限定水中目標位置定位のための強化学習経路計画手法

A reinforcement learning path planning approach for range-only underwater target localization with autonomous vehicles ( http://arxiv.org/abs/2301.06863v1 )

ライセンス: Link先を確認
Ivan Masmitja, Mario Martin, Kakani Katija, Spartacus Gomariz, Joan Navarro(参考訳) 長距離ベースラインや超短距離ベースラインシステムといった,より複雑な手法の限界を改善するために,自律走行車を用いたレンジオンリーおよびシングルビーコン(ROSB)技術を用いた水中ターゲットローカライゼーションが最近行われている。 それにもかかわらず、rosb目標定位法において、局所目標付近の追跡車両の軌道は、予測された目標位置の最良の精度を得る上で重要な役割を果たす。 本稿では,目標位置推定の全体的な精度を向上・最適化し,時間と消費電力を削減すべく,自律走行車両が従うべき最適経路を求めるための強化学習(rl)手法を検討する。 この目的を達成するために、最先端の深部RLアルゴリズムを用いて様々な実験実験が設計されている。 本研究は,前回の研究で用いたフィッシャー情報行列分析手法との比較も行っている。 その結果、RLエージェントが学習したポリシは、これらの解析解に基づいてトラジェクトリを上回り、例えば、ターゲットの局所化の開始時の中央値予測誤差は17%減少した。 これらの結果から, 音響目標の局所化に深部RLを用いることで, 水中の自律走行車による海洋生物の追跡を含む水中適用に有効であることが示唆された。 これは、そのような問題に対処するためのRLの使用を検証するための最初の必要なステップとして考えられている。

Underwater target localization using range-only and single-beacon (ROSB) techniques with autonomous vehicles has been used recently to improve the limitations of more complex methods, such as long baseline and ultra-short baseline systems. Nonetheless, in ROSB target localization methods, the trajectory of the tracking vehicle near the localized target plays an important role in obtaining the best accuracy of the predicted target position. Here, we investigate a Reinforcement Learning (RL) approach to find the optimal path that an autonomous vehicle should follow in order to increase and optimize the overall accuracy of the predicted target localization, while reducing time and power consumption. To accomplish this objective, different experimental tests have been designed using state-of-the-art deep RL algorithms. Our study also compares the results obtained with the analytical Fisher information matrix approach used in previous studies. The results revealed that the policy learned by the RL agent outperforms trajectories based on these analytical solutions, e.g. the median predicted error at the beginning of the target's localisation is 17% less. These findings suggest that using deep RL for localizing acoustic targets could be successfully applied to in-water applications that include tracking of acoustically tagged marine animals by autonomous underwater vehicles. This is envisioned as a first necessary step to validate the use of RL to tackle such problems, which could be used later on in a more complex scenarios
翻訳日:2023-01-18 14:10:33 公開日:2023-01-17
# 故障アークを有する非巡回重み付き有限状態オートマタのアルゴリズム

Algorithms for Acyclic Weighted Finite-State Automata with Failure Arcs ( http://arxiv.org/abs/2301.06862v1 )

ライセンス: Link先を確認
Anej Svete, Benjamin Dayan, Tim Vieira, Ryan Cotterell, Jason Eisner(参考訳) 重み付き有限状態オートマトン(WSFA)は一般的にNLPで使用される。 障害遷移は、wfsasの特別なケースであるn$-gramモデルとcrfsのバックオフや補間をコンパクトに表現するための便利な拡張である。 通常の非巡回 wfsas のパスサムは、逆アルゴリズムで時刻 $o(|e|)$ で計算され、ここで $e$ は遷移の集合である。 しかし、これは障害遷移を許さず、WFSAを前処理して障害遷移をなくすことで、$|E|$が大幅に増加する可能性がある。 後方アルゴリズムを拡張して、障害遷移を直接処理します。 我々のアプローチは、平均状態がアルファベット$\Sigma$の小さな分数$s \ll 1$に対して弧を出力する場合に効率的である。 O{\left(|E| + s |\Sigma| |Q| T_\text{max} \log{|\Sigma|}\right)}$, $Q$は状態の集合であり、$T_\text{max}$は障害遷移の最大の連結成分のサイズである。 故障遷移位相がcrfsによって例示される条件を満たすとき、$t_\text{max}$ factor を落とすことができ、ウェイトセミリングが環であれば$\log{|\sigma|}$ factor を落とすことができる。 後者の場合 (ring-weighted acyclic wfsas) は、複雑性を$\displaystyle o{\left(|e| + |\sigma| |q| \min(1,s\pi_\text{max}) \right)} とする別のアルゴリズムを与える(ただし、$\pi_\text{max}$ は最長の障害パスの大きさである)。

Weighted finite-state automata (WSFAs) are commonly used in NLP. Failure transitions are a useful extension for compactly representing backoffs or interpolation in $n$-gram models and CRFs, which are special cases of WFSAs. The pathsum in ordinary acyclic WFSAs is efficiently computed by the backward algorithm in time $O(|E|)$, where $E$ is the set of transitions. However, this does not allow failure transitions, and preprocessing the WFSA to eliminate failure transitions could greatly increase $|E|$. We extend the backward algorithm to handle failure transitions directly. Our approach is efficient when the average state has outgoing arcs for only a small fraction $s \ll 1$ of the alphabet $\Sigma$. We propose an algorithm for general acyclic WFSAs which runs in $O{\left(|E| + s |\Sigma| |Q| T_\text{max} \log{|\Sigma|}\right)}$, where $Q$ is the set of states and $T_\text{max}$ is the size of the largest connected component of failure transitions. When the failure transition topology satisfies a condition exemplified by CRFs, the $T_\text{max}$ factor can be dropped, and when the weight semiring is a ring, the $\log{|\Sigma|}$ factor can be dropped. In the latter case (ring-weighted acyclic WFSAs), we also give an alternative algorithm with complexity $\displaystyle O{\left(|E| + |\Sigma| |Q| \min(1,s\pi_\text{max}) \right)}$, where $\pi_\text{max}$ is the size of the longest failure path.
翻訳日:2023-01-18 14:10:07 公開日:2023-01-17
# 偏光からのイベントベース形状

Event-based Shape from Polarization ( http://arxiv.org/abs/2301.06855v1 )

ライセンス: Link先を確認
Manasi Muglikar, Leonard Bauersfeld, Diederik Paul Moeys, Davide Scaramuzza(参考訳) SfP(Shape-from-Polarization)の最先端のソリューションは、フレームレートの制約によって測定された偏極角の数を犠牲にするか、長い取得時間を必要とします。 私たちはイベントカメラを使ってこのトレードオフに取り組む。 イベントカメラはマイクロ秒の解像度で動作し、時間の経過とともに光が非同期にどのように変化するかを正確に測定する連続的なイベントストリームを出力する。 本研究では,イベントカメラの前で高速回転する線形偏光子からなるセットアップを提案する。 本手法では, 回転による連続イベントストリームを用いて, 複数の偏光子角度で相対強度を復元する。 実験により,本手法はフレームを用いた物理ベースラインよりも優れた性能を示し,合成および実世界のデータセットにおいてMAEを25%削減する。 しかし、現実の世界では、難解な条件(事象がほとんど発生しない場合)が物理学に基づく解のパフォーマンスを損なうことが観察される。 これを解決するために,低イベントレートでも表面の正規性を推定し,物理に基づくアプローチを実世界のデータセット上で52%改善する学習ベースアプローチを提案する。 提案システムは,空間解像度1MPを維持しつつ,50fps(→商用偏光センサのフレームレート2倍)の取得速度を実現する。 我々の評価は、イベントベースのSfPのための最初の大規模データセットに基づいている。

State-of-the-art solutions for Shape-from-Polarization (SfP) suffer from a speed-resolution tradeoff: they either sacrifice the number of polarization angles measured or necessitate lengthy acquisition times due to framerate constraints, thus compromising either accuracy or latency. We tackle this tradeoff using event cameras. Event cameras operate at microseconds resolution with negligible motion blur, and output a continuous stream of events that precisely measures how light changes over time asynchronously. We propose a setup that consists of a linear polarizer rotating at high-speeds in front of an event camera. Our method uses the continuous event stream caused by the rotation to reconstruct relative intensities at multiple polarizer angles. Experiments demonstrate that our method outperforms physics-based baselines using frames, reducing the MAE by 25% in synthetic and real-world dataset. In the real world, we observe, however, that the challenging conditions (i.e., when few events are generated) harm the performance of physics-based solutions. To overcome this, we propose a learning-based approach that learns to estimate surface normals even at low event-rates, improving the physics-based approach by 52% on the real world dataset. The proposed system achieves an acquisition speed equivalent to 50 fps (>twice the framerate of the commercial polarization sensor) while retaining the spatial resolution of 1MP. Our evaluation is based on the first large-scale dataset for event-based SfP
翻訳日:2023-01-18 14:09:31 公開日:2023-01-17
# 最適状態移動による組合せ最適化のための高速量子アプローチ

Rapid quantum approaches for combinatorial optimisation inspired by optimal state-transfer ( http://arxiv.org/abs/2301.06846v1 )

ライセンス: Link先を確認
Robert J. Banks, Dan E. Browne and P.A. Warburton(参考訳) そこで本稿では,ハミルトニアンにインスパイアされた組合せ最適化問題に対処するための新しい設計ヒューリスティックを提案する。 結果は高速な近似最適化アルゴリズムである。 この新設計ヒューリスティックの成功の数値的な証拠を提供する。 提案手法は,ほとんどの問題に対して最小の深さでの量子近似最適化アルゴリズムよりも高い近似比を示し,これと同等の資源を利用する。 これは、アディバティック・インフルエンス・アプローチとは異なる、組合せ最適化問題に対処するための新しいアプローチを研究するための扉を開く。

We propose a new design heuristic to tackle combinatorial optimisation problems, inspired by Hamiltonians for optimal state-transfer. The result is a rapid approximate optimisation algorithm. We provide numerical evidence of the success of this new design heuristic. We find this approach results in a better approximation ratio than the Quantum Approximate Optimisation Algorithm at lowest depth for the majority of problem instances considered, while utilising comparable resources. This opens the door to investigating new approaches for tackling combinatorial optimisation problems, distinct from adiabatic-influenced approaches.
翻訳日:2023-01-18 14:09:06 公開日:2023-01-17
# mafus:mafld患者の死亡リスクを予測するフレームワーク

MAFUS: a Framework to predict mortality risk in MAFLD subjects ( http://arxiv.org/abs/2301.06908v1 )

ライセンス: Link先を確認
Domenico Lof\`u, Paolo Sorino, Tommaso Colafiglio, Caterina Bonfiglio, Fedelucio Narducci, Tommaso Di Noia and Eugenio Di Sciascio(参考訳) メタボリック(機能不全)関連脂肪肝疾患(MAFLD)は、アルコール摂取とウイルス性肝炎の同時感染とは無関係に脂肪肝疾患を診断するための新しい基準を確立する。 しかし,MAFLD患者の長期成績は低い。 MAFLD患者の死亡率に注目する記事はほとんどなく、致命的な結果を予測する方法については調査されていない。 本稿では,医師がMAFLD患者の死亡を予測できる,MAFUSという人工知能ベースのフレームワークを提案する。 このフレームワークは、機械学習(ml)アルゴリズムに基づいた、さまざまな人類計測および生化学ソースのデータを使用する。 このフレームワークは、5つのMLアルゴリズムがトレーニングされた最先端のデータセットでテストされている。 サポートベクターマシンは、最良のモデルになった。 さらに、SVMの診断推論と各特徴の予測への寄与を理解するために、説明可能な人工知能(XAI)分析が行われた。 MAFUSフレームワークは簡単に適用でき、必要なパラメータはデータセットで簡単に利用できる。

Metabolic (dysfunction) associated fatty liver disease (MAFLD) establishes new criteria for diagnosing fatty liver disease independent of alcohol consumption and concurrent viral hepatitis infection. However, the long-term outcome of MAFLD subjects is sparse. Few articles are focused on mortality in MAFLD subjects, and none investigate how to predict a fatal outcome. In this paper, we propose an artificial intelligence-based framework named MAFUS that physicians can use for predicting mortality in MAFLD subjects. The framework uses data from various anthropometric and biochemical sources based on Machine Learning (ML) algorithms. The framework has been tested on a state-of-the-art dataset on which five ML algorithms are trained. Support Vector Machines resulted in being the best model. Furthermore, an Explainable Artificial Intelligence (XAI) analysis has been performed to understand the SVM diagnostic reasoning and the contribution of each feature to the prediction. The MAFUS framework is easy to apply, and the required parameters are readily available in the dataset.
翻訳日:2023-01-18 14:02:26 公開日:2023-01-17
# 深部測定量子化

Deep Conditional Measure Quantization ( http://arxiv.org/abs/2301.06907v1 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) 確率測度の量子化は、それを(ある確率測度の計量空間において)十分に近いディラック質量の和に置き換えることである。 様々な方法が存在するが、条件付き法則の定量化の状況は調査されていない。 本稿では,深層ニューラルネットワークアーキテクチャと組み合わされたフーバーエネルギーカーネルベースアプローチを用いたdcmqと呼ばれる手法を提案する。 この方法はいくつかの例でテストされ、有望な結果が得られる。

The quantization of a (probability) measure is replacing it by a sum of Dirac masses that is close enough to it (in some metric space of probability measures). Various methods exists to do so, but the situation of quantizing a conditional law has been less explored. We propose a method, called DCMQ, involving a Huber-energy kernel-based approach coupled with a deep neural network architecture. The method is tested on several examples and obtains promising results.
翻訳日:2023-01-18 14:02:10 公開日:2023-01-17
# グラフの拡張によるオンラインフィルタリング

Online Filtering over Expanding Graphs ( http://arxiv.org/abs/2301.06898v1 )

ライセンス: Link先を確認
Bishwadeep Das and Elvin Isufi(参考訳) グラフ上のデータ処理タスクは、グラフ信号処理ツールを通じて、ノード上のデータとトポロジを結合する。 グラフフィルタはそのような顕著なツールの1つであり、分断、補間、分類などのアプリケーションで使われてきた。 しかし、主に固定グラフで使用されるが、実際には多くのネットワークが成長し、ノードが常にトポロジーにアタッチされる。 新しいノードがアタッチするたびにフィルタを再トレーニングすることは計算的に要求されるため、進化するグラフに適応するオンライン学習ソリューションが必要となる。 本稿では,オンライン機械学習の原理に基づくフィルタのオンライン更新を提案する。 フィルタの更新には,オフラインで計算したフィルタに対して記述可能な後悔を伴うオンライン勾配降下を行う。 本稿では,入力ノードにおける信号補間法の性能を示す。 合成およびグラフベースのレコメンデータシステムの数値計算結果から,提案手法はオフラインベースラインフィルタとよく比較でき,競争的手法よりも優れていた。 これらの発見はグラフの拡張よりも効率的なフィルタリングの基礎を築いた。

Data processing tasks over graphs couple the data residing over the nodes with the topology through graph signal processing tools. Graph filters are one such prominent tool, having been used in applications such as denoising, interpolation, and classification. However, they are mainly used on fixed graphs although many networks grow in practice, with nodes continually attaching to the topology. Re-training the filter every time a new node attaches is computationally demanding; hence an online learning solution that adapts to the evolving graph is needed. We propose an online update of the filter, based on the principles of online machine learning. To update the filter, we perform online gradient descent, which has a provable regret bound with respect to the filter computed offline. We show the performance of our method for signal interpolation at the incoming nodes. Numerical results on synthetic and graph-based recommender systems show that the proposed approach compares well to the offline baseline filter while outperforming competitive approaches. These findings lay the foundation for efficient filtering over expanding graphs.
翻訳日:2023-01-18 14:01:56 公開日:2023-01-17
# Transformer-CNN Fusion を用いたコロニーポリプセグメンテーションの協調学習

Cooperation Learning Enhanced Colonic Polyp Segmentation Based on Transformer-CNN Fusion ( http://arxiv.org/abs/2301.06892v1 )

ライセンス: Link先を確認
Yuanyuan Wang, Zhaohong Deng, Qiongdan Lou, Shudong Hu, Kup-sze Choi, Shitong Wang(参考訳) 従来の大腸ポリープのセグメンテーション法は主に低レベルの特徴に基づいて設計されている。 彼らは小さな大腸ポリープの位置を正確に抽出できなかった。 既存のディープラーニング手法はセグメンテーション精度を向上させることができるが、その効果はまだ不十分である。 そこで本研究では,Fusion-Transformer-HardNetMSEG(Fu-TransHNet)と呼ばれるハイブリッドネットワークを提案する。 Fu-TransHNetは、異なるメカニズムの深層学習を用いて互いに融合し、多視点協調学習技術で強化されている。 まず、Fu-TransHNetはTransformerブランチとCNNブランチを使用して、グローバルな特徴学習とローカルな特徴学習を実現する。 次に、融合モジュールは2つのブランチの機能を統合するように設計されている。 fusionモジュールは2つの部分からなる。 1)グローバル・ローカル・フィーチャー・フュージョン(GLFF)と 2)Dense Fusion of Multi-scale Feature (DFM) の略。 前者は2つのブランチからの特徴情報ミッションを同じ規模で補償するために構築され、後者は特徴表現を強化するために構築される。 第3に、上記の2つの分枝と融合モジュールは、多視点協調学習技術を用いて、それらの重要性を示す各重みを取得し、総合的に最終決定を行う。 実験の結果,Fu-TransHNetネットワークは5つの広く使用されているベンチマークデータセットの既存の手法よりも優れていることがわかった。 特にetis-larib polypdbデータセットでは,fu-transhnetにより得られたmdiceが,最先端のhardnet-msegおよびtransfuse-sよりもそれぞれ12.4%,6.2%高かった。

Traditional segmentation methods for colonic polyps are mainly designed based on low-level features. They could not accurately extract the location of small colonic polyps. Although the existing deep learning methods can improve the segmentation accuracy, their effects are still unsatisfied. To meet the above challenges, we propose a hybrid network called Fusion-Transformer-HardNetMSEG (i.e., Fu-TransHNet) in this study. Fu-TransHNet uses deep learning of different mechanisms to fuse each other and is enhanced with multi-view collaborative learning techniques. Firstly, the Fu-TransHNet utilizes the Transformer branch and the CNN branch to realize the global feature learning and local feature learning, respectively. Secondly, a fusion module is designed to integrate the features from two branches. The fusion module consists of two parts: 1) the Global-Local Feature Fusion (GLFF) part and 2) the Dense Fusion of Multi-scale features (DFM) part. The former is built to compensate the feature information mission from two branches at the same scale; the latter is constructed to enhance the feature representation. Thirdly, the above two branches and fusion modules utilize multi-view cooperative learning techniques to obtain their respective weights that denote their importance and then make a final decision comprehensively. Experimental results showed that the Fu-TransHNet network was superior to the existing methods on five widely used benchmark datasets. In particular, on the ETIS-LaribPolypDB dataset containing many small-target colonic polyps, the mDice obtained by Fu-TransHNet were 12.4% and 6.2% higher than the state-of-the-art methods HardNet-MSEG and TransFuse-s, respectively.
翻訳日:2023-01-18 14:01:41 公開日:2023-01-17
# パラメトリゼーション表現率の量子コスト関数濃度依存性

The quantum cost function concentration dependency on the parametrization expressivity ( http://arxiv.org/abs/2301.06883v1 )

ライセンス: Link先を確認
Lucas Friedrich, Jonas Maziero(参考訳) 現在我々は、ノイズの多い中間量子デバイスの時代にあるが、機械学習を量子領域に持ち込むことを目的として、いくつかの研究が行われている。 現在、量子変動回路はそのようなモデルを構築するために使われる主要な戦略の1つである。 しかし、広く使われているにもかかわらず、量子機械学習モデルを作成するのに必要な最小限のリソースは未だに分かっていない。 本稿では,パラメトリゼーションの表現性がコスト関数に与える影響を分析する。 パラメトリゼーションがより表現力が高いほど、コスト関数は選択された可観測値と使用される量子ビット数の両方に依存する値に集中する傾向があることを分析的に示す。 そこで本研究では,パラメトリゼーションの表現性とコスト関数の平均値との関係について検討した。 その後、パラメータ化の表現性とコスト関数の分散を関連付ける。 最後に,理論解析的な予測を裏付ける数値シミュレーション結果を示す。

Although we are currently in the era of noisy intermediate scale quantum devices, several studies are being conducted with the aim of bringing machine learning to the quantum domain. Currently, quantum variational circuits are one of the main strategies used to build such models. However, despite its widespread use, we still do not know what are the minimum resources needed to create a quantum machine learning model. In this article, we analyze how the expressiveness of the parametrization affects the cost function. We analytically show that the more expressive the parametrization is, the more the cost function will tend to concentrate around a value that depends both on the chosen observable and on the number of qubits used. For this, we initially obtain a relationship between the expressiveness of the parametrization and the mean value of the cost function. Afterwards, we relate the expressivity of the parametrization with the variance of the cost function. Finally, we show some numerical simulation results that confirm our theoretical-analytical predictions.
翻訳日:2023-01-18 14:00:30 公開日:2023-01-17
# 顔と指紋を用いたマルチバイオメトリックファジィVault

Multi-Biometric Fuzzy Vault based on Face and Fingerprints ( http://arxiv.org/abs/2301.06882v1 )

ライセンス: Link先を確認
Christian Rathgeb and Benjamin Tams and Johannes Merkle and Vanessa Nesterowicz and Ulrike Korte and Matthias Neu(参考訳) ファジィヴォールト方式は、プライバシー保護生体認証に適した暗号プリミティブとして確立されている。 精度とプライバシー保護を改善するため、ファジィヴォールトにロックする前に複数の特徴の生体情報を特徴レベルで融合させることができる。 顔と複数の指紋に基づく多生体認証ファジィ金庫室を構築した。 FRGCv2面とMCYT-100指紋データベースから構築されたマルチバイオメトリックデータベースにおいて、30ビット以上の偽受信セキュリティにおいて、完全認識精度を実現する。 さらに,複数のバイオメトリック・ファジィ・ヴォールトにおける特徴レベル融合の形式化について,関連するセキュリティ問題を詳述する。 対策を定義するセキュリティ問題は一般的に無視され、システム全体のセキュリティを損なう可能性がある。

The fuzzy vault scheme has been established as cryptographic primitive suitable for privacy-preserving biometric authentication. To improve accuracy and privacy protection, biometric information of multiple characteristics can be fused at feature level prior to locking it in a fuzzy vault. We construct a multi-biometric fuzzy vault based on face and multiple fingerprints. On a multi-biometric database constructed from the FRGCv2 face and the MCYT-100 fingerprint databases, a perfect recognition accuracy is achieved at a false accept security above 30 bits. Further, we provide a formalisation of feature-level fusion in multi-biometric fuzzy vaults, on the basis of which relevant security issues are elaborated. Said security issues, for which we define countermeasures, are commonly ignored and may impair the overall system's security.
翻訳日:2023-01-18 14:00:16 公開日:2023-01-17
# CS-lol:Eスポーツライブストリーミングにおけるシーンによる視聴者コメントのデータセット

CS-lol: a Dataset of Viewer Comment with Scene in E-sports Live-streaming ( http://arxiv.org/abs/2301.06876v1 )

ライセンス: Link先を確認
Junjie H. Xu and Yu Nakano and Lingrong Kong and Kojiro Iizuka(参考訳) 何十億ものライブストリーミング視聴者が、リアルタイムで視聴しているシーンで意見を共有し、イベントやコメンテーター、その他の視聴者とテキストコメントでやりとりしている。 したがって、eスポーツライブストリーミングイベントで視聴者のコメントをシーンで探す必要がある。 本稿では,e-sports live-streamingにおけるゲームシーンの記述とペアリングした視聴者からのコメントを含む,新しい大規模データセットcs-lolを開発した。 さらに,ライブストリーミングイベントのシーンに対する視聴者コメントを検索するタスク,すなわち視聴者コメント検索を提案する。 典型的なIR評価法から導かれる一連のベースライン検索手法の結果は,我々の課題を課題として示している。 最後に,資源としてCS-lolとベースライン実装を研究コミュニティにリリースする。

Billions of live-streaming viewers share their opinions on scenes they are watching in real-time and interact with the event, commentators as well as other viewers via text comments. Thus, there is necessary to explore viewers' comments with scenes in E-sport live-streaming events. In this paper, we developed CS-lol, a new large-scale dataset containing comments from viewers paired with descriptions of game scenes in E-sports live-streaming. Moreover, we propose a task, namely viewer comment retrieval, to retrieve the viewer comments for the scene of the live-streaming event. Results on a series of baseline retrieval methods derived from typical IR evaluation methods show our task as a challenging task. Finally, we release CS-lol and baseline implementation to the research community as a resource.
翻訳日:2023-01-18 14:00:03 公開日:2023-01-17
# ハイパースペクトルリモートセンシング画像のためのマルチラベル予測分類器の訓練方法

Training Methods of Multi-label Prediction Classifiers for Hyperspectral Remote Sensing Images ( http://arxiv.org/abs/2301.06874v1 )

ライセンス: Link先を確認
Salma Haidar and Jos\'e Oramas(参考訳) スペクトル深度と幾何分解能の組み合わせにより、ハイパースペクトルリモートセンシング画像は、従来のコンピュータビジョン技術に挑戦する複雑な非線形情報を埋め込んでいる。 しかし、その表現学習能力で知られるディープラーニング手法は、そのような複雑さを扱うのにより適している。 ハイパースペクトルリモートセンシング画像の単一ラベル・ピクセルレベル分類に焦点をあてたアプリケーションとは異なり,2成分深層学習ネットワークに基づくマルチラベル・パッチレベル分類手法を提案する。 リモートセンシング画像から抽出した空間次元を縮小したパッチと全スペクトル深度を用いた。 さらに,ネットワークのための3つのトレーニングスキーム(イテレーティブ,ジョイント,カスケード)を調査した。 実験により、ジョイントスキームは最もパフォーマンスの高いスキームであることが示唆されるが、その応用には損失成分の最適重みの組み合わせの探索が必要となる。 イテレーティブスキームは、トレーニングの初期段階において、ネットワークの2つの部分間で機能の共有を可能にする。 マルチラベルで複雑なデータを改善する。 さらに, 抽出およびラベル付けを行った場合, 異なるアーキテクチャで設計した手法が良好に動作することを示した。

With their combined spectral depth and geometric resolution, hyperspectral remote sensing images embed a wealth of complex, non-linear information that challenges traditional computer vision techniques. Yet, deep learning methods known for their representation learning capabilities prove more suitable for handling such complexities. Unlike applications that focus on single-label, pixel-level classification methods for hyperspectral remote sensing images, we propose a multi-label, patch-level classification method based on a two-component deep-learning network. We use patches of reduced spatial dimension and a complete spectral depth extracted from the remote sensing images. Additionally, we investigate three training schemes for our network: Iterative, Joint, and Cascade. Experiments suggest that the Joint scheme is the best-performing scheme; however, its application requires an expensive search for the best weight combination of the loss constituents. The Iterative scheme enables the sharing of features between the two parts of the network at the early stages of training. It performs better on complex data with multi-labels. Further experiments showed that methods designed with different architectures performed well when trained on patches extracted and labeled according to our sampling method.
翻訳日:2023-01-18 13:59:53 公開日:2023-01-17
# FewSOME: わずかなショット異常検出

FewSOME: Few Shot Anomaly Detection ( http://arxiv.org/abs/2301.06957v1 )

ライセンス: Link先を確認
Niamh Belton, Misgina Tsighe Hagos, Aonghus Lawlor, Kathleen M. Curran(参考訳) 近年、異常検出の分野ではかなり進歩しているが、複雑な訓練パイプラインのコストが増大している。 このような技術は大量のトレーニングデータを必要とし、計算コストの高いアルゴリズムを生み出す。 本研究では,Few Shot Anomaly Detection (FewSOME) を提案する。Few Shot Anomaly Detection (FewSOME) は,通常のクラスの"few"例で訓練した異常を正確に検出するアルゴリズムであり,異常な例は存在しない。 FewSOMEは、データ要件が低く、トレーニング時間が短いため、複雑さが低いと説明します。 fewsomeは、シャムネットワークに基づくアーキテクチャで事前訓練された重み付けによって支援される。 アブレーション研究により,提案する損失,すなわち「損失を止める」が,少数のロバスト性を改善することを示す。 実験の結果,FewSOMEはベンチマークデータセットMNIST, CIFAR-10, F-MNIST, MVTec ADで, 通常の30のサンプルでのみトレーニングを行い, 既存の手法でトレーニングしたデータの1分の1しか処理できないことがわかった。 最も注目すべきは、通常のクラスの例がわずかしか存在しない設定において、非常に複雑なモデルよりも数が少ないことだ。 さらに, 広範囲にわたる実験により, 汚染されたデータセットに対してロバストな結果がみられた。 また,今後比較すべきテクニックのベンチマークとして,AUCに加えてF1スコアとバランスド精度を報告する。

Recent years have seen considerable progress in the field of Anomaly Detection but at the cost of increasingly complex training pipelines. Such techniques require large amounts of training data, resulting in computationally expensive algorithms. We propose Few Shot anomaly detection (FewSOME), a deep One-Class Anomaly Detection algorithm with the ability to accurately detect anomalies having trained on 'few' examples of the normal class and no examples of the anomalous class. We describe FewSOME to be of low complexity given its low data requirement and short training time. FewSOME is aided by pretrained weights with an architecture based on Siamese Networks. By means of an ablation study, we demonstrate how our proposed loss, 'Stop Loss', improves the robustness of FewSOME. Our experiments demonstrate that FewSOME performs at state-of-the-art level on benchmark datasets MNIST, CIFAR-10, F-MNIST and MVTec AD while training on only 30 normal samples, a minute fraction of the data that existing methods are trained on. Most notably, we found that FewSOME outperforms even highly complex models in the setting where only few examples of the normal class exist. Moreover, our extensive experiments show FewSOME to be robust to contaminated datasets. We also report F1 score and Balanced Accuracy in addition to AUC as a benchmark for future techniques to be compared against.
翻訳日:2023-01-18 13:54:16 公開日:2023-01-17
# 最大化ネットワークの予測勾配とパラメータ初期化への適用

Expected Gradients of Maxout Networks and Consequences to Parameter Initialization ( http://arxiv.org/abs/2301.06956v1 )

ライセンス: Link先を確認
Hanna Tseran, Guido Mont\'ufar(参考訳) 本稿では,最大化ネットワークの入力とパラメータに対する勾配について検討し,アーキテクチャやパラメータ分布に依存するモーメントの境界値を求める。 我々は、入力出力ヤコビアンの分布が、安定なパラメータの初期化を複雑にする入力に依存することを観察する。 勾配のモーメントに基づいて,パラメータ初期化戦略を定式化し,広域ネットワークにおける勾配の消失や爆発を回避する。 深層完全接続ネットワークと畳み込みネットワークの実験により、この戦略が深層最大化ネットワークのSGDとAdamトレーニングを改善することが示されている。 さらに, 線形領域の期待値, 曲線長歪みの予測値, NTKの予測値について, 洗練された境界を求める。

We study the gradients of a maxout network with respect to inputs and parameters and obtain bounds for the moments depending on the architecture and the parameter distribution. We observe that the distribution of the input-output Jacobian depends on the input, which complicates a stable parameter initialization. Based on the moments of the gradients, we formulate parameter initialization strategies that avoid vanishing and exploding gradients in wide networks. Experiments with deep fully-connected and convolutional networks show that this strategy improves SGD and Adam training of deep maxout networks. In addition, we obtain refined bounds on the expected number of linear regions, results on the expected curve length distortion, and results on the NTK.
翻訳日:2023-01-18 13:53:50 公開日:2023-01-17
# DR-WLC: 視聴・学習・チェックによる物体検出・ポーズ推定のための次元化認識

DR-WLC: Dimensionality Reduction cognition for object detection and pose estimation by Watching, Learning and Checking ( http://arxiv.org/abs/2301.06944v1 )

ライセンス: Link先を確認
Yu Gao, Xi Xu, Tianji Jiang, Siyuan Chen, Yi Yang, Yufeng Yue, Mengyin Fu(参考訳) 物体検出とポーズ推定はロボット工学や自動運転において難しい課題である。 既存のオブジェクト検出とポーズ推定手法は、トレーニングにほぼ同じ次元のデータを採用する。 例えば、2Dオブジェクト検出は通常、高コストで大量の2Dアノテーションデータを必要とする。 低次元タスクを監督するために高次元情報を使用することは、データセットのサイズを減らすための実現可能な方法である。 本研究では,物体検出とポーズ推定を同時に行うことができる次元低減認知モデルであるdr-wlcを提案する。 このモデルは、トレーニングを終えるために、オブジェクトの3dモデルと(オブジェクトの有無に関わらず)ラベルのない環境イメージのみを必要とする。 さらに,3次元モデルと2次元物体検出タスクの関係を構築するためのバウンディングボックス生成戦略も提案されている。 実験の結果,本手法では手作業によるアノテーションを使わずに作業の資格を確保でき,実用アプリケーションへのデプロイが容易であることがわかった。 ソースコードはhttps://github.com/IN2-ViAUn/DR-WLCにある。

Object detection and pose estimation are difficult tasks in robotics and autonomous driving. Existing object detection and pose estimation methods mostly adopt the same-dimensional data for training. For example, 2D object detection usually requires a large amount of 2D annotation data with high cost. Using high-dimensional information to supervise lower-dimensional tasks is a feasible way to reduce datasets size. In this work, the DR-WLC, a dimensionality reduction cognitive model, which can perform both object detection and pose estimation tasks at the same time is proposed. The model only requires 3D model of objects and unlabeled environment images (with or without objects) to finish the training. In addition, a bounding boxes generation strategy is also proposed to build the relationship between 3D model and 2D object detection task. Experiments show that our method can qualify the work without any manual annotations and it is easy to deploy for practical applications. Source code is at https://github.com/IN2-ViAUn/DR-WLC.
翻訳日:2023-01-18 13:53:40 公開日:2023-01-17
# 低品質画像品質向上の限界を打破するための自己監督型ドメイン適応

Self-supervised Domain Adaptation for Breaking the Limits of Low-quality Fundus Image Quality Enhancement ( http://arxiv.org/abs/2301.06943v1 )

ライセンス: Link先を確認
Qingshan Hou, Peng Cao, Jiaqi Wang, Xiaoli Liu, Jinzhu Yang, Osmar R. Zaiane(参考訳) 網膜基底像は、糖尿病網膜症(DR)や糖尿病黄斑浮腫(DME)などの眼疾患の診断とスクリーニングに応用されている。 しかし、低品質の眼底画像とスタイル不整合は、眼底疾患の診断の不確実性を高め、眼科医による誤診につながる可能性がある。 既存の画像強調手法のほとんどは、医用アプリケーションでは収集が困難である高品質画像のガイダンスを活用することにより、画像品質の向上に重点を置いている。 本稿では,完全教師なしの環境での画質向上,すなわち,ペア画像と高品質画像の両方に対処する。 そこで本研究では,高品質な参照画像を必要とすることなく,基礎画像の品質向上のための自己監督タスクの可能性を検討する。 具体的には,事前学習した品質評価ネットワークとスタイルクラスタリングにより,複数のパッチワイズドメインを構築する。 低画質画像の高精細化とアドレススタイルの整合性を達成するために,2つの自己教師型ドメイン適応タスクを定式化し,低画質画像内の内在的な監視信号を探索することにより,画像内容,低品質要因,およびスタイル情報の特徴を解消する。 eyeqとmessidorデータセットで広範な実験を行い,低品質の画像のみを利用可能にした場合,dasqe法が新たな最先端性能を実現することを示す。

Retinal fundus images have been applied for the diagnosis and screening of eye diseases, such as Diabetic Retinopathy (DR) or Diabetic Macular Edema (DME). However, both low-quality fundus images and style inconsistency potentially increase uncertainty in the diagnosis of fundus disease and even lead to misdiagnosis by ophthalmologists. Most of the existing image enhancement methods mainly focus on improving the image quality by leveraging the guidance of high-quality images, which is difficult to be collected in medical applications. In this paper, we tackle image quality enhancement in a fully unsupervised setting, i.e., neither paired images nor high-quality images. To this end, we explore the potential of the self-supervised task for improving the quality of fundus images without the requirement of high-quality reference images. Specifically, we construct multiple patch-wise domains via an auxiliary pre-trained quality assessment network and a style clustering. To achieve robust low-quality image enhancement and address style inconsistency, we formulate two self-supervised domain adaptation tasks to disentangle the features of image content, low-quality factor and style information by exploring intrinsic supervision signals within the low-quality images. Extensive experiments are conducted on EyeQ and Messidor datasets, and results show that our DASQE method achieves new state-of-the-art performance when only low-quality images are available.
翻訳日:2023-01-18 13:53:25 公開日:2023-01-17
# ハードサブセットを用いた伝達可能性の推定に向けて

Towards Estimating Transferability using Hard Subsets ( http://arxiv.org/abs/2301.06928v1 )

ライセンス: Link先を確認
Tarun Ram Menta, Surgan Jandial, Akash Patil, Vimal KB, Saketh Bachu, Balaji Krishnamurthy, Vineeth N. Balasubramanian, Chirag Agarwal, Mausoom Sarkar(参考訳) トランスファー学習技術は、ソースモデルからターゲットタスクへの知識の伝達にますます使われており、計算コストの高い微調整を行うことなく、与えられたターゲットタスクに適したソースモデルを定量化することが重要となる。 そこで本研究では,対象データのより強固なサブセットのみを用いて,特定の対象タスクへのソースモデルの転送可能性を推定する新しい手法であるhaste(hard subset transferability)を提案する。 モデルの内部表現と出力表現を活用することで、より厳密なサブセットを識別するために、クラス非依存とクラス固有の2つのテクニックを導入し、HASTEが既存の転送可能性測定値と併用して信頼性を向上させることを示す。 さらに,HASTEと最適平均ログ度,および負条件エントロピーの関係を解析し,理論的境界を実証的に検証する。 複数のソースモデルアーキテクチャ、ターゲットデータセット、および転送学習タスクにおける実験結果から、急いで修正されたメトリクスは、アート転送可能性メトリクスの状態と一貫して、あるいは同等であることが示された。

As transfer learning techniques are increasingly used to transfer knowledge from the source model to the target task, it becomes important to quantify which source models are suitable for a given target task without performing computationally expensive fine tuning. In this work, we propose HASTE (HArd Subset TransfErability), a new strategy to estimate the transferability of a source model to a particular target task using only a harder subset of target data. By leveraging the internal and output representations of model, we introduce two techniques, one class agnostic and another class specific, to identify harder subsets and show that HASTE can be used with any existing transferability metric to improve their reliability. We further analyze the relation between HASTE and the optimal average log likelihood as well as negative conditional entropy and empirically validate our theoretical bounds. Our experimental results across multiple source model architectures, target datasets, and transfer learning tasks show that HASTE modified metrics are consistently better or on par with the state of the art transferability metrics.
翻訳日:2023-01-18 13:53:00 公開日:2023-01-17
# メモリ拡張型マインドネットワーク理論

Memory-Augmented Theory of Mind Network ( http://arxiv.org/abs/2301.06926v1 )

ライセンス: Link先を確認
Dung Nguyen, Phuoc Nguyen, Hung Le, Kien Do, Svetha Venkatesh, Truyen Tran(参考訳) 社会的推論は心の理論(ToM)の能力を必要とし、心的状態の文脈化と他者への属性付けを行う能力は、内的認知構造にアクセスできない。 最近のtomに対する機械学習のアプローチは、オブザーバーが他のエージェントの過去や現在の行動を読み、その信念(もはや存在しないものに関する誤った信念を含む)、目標、意図、将来の行動を予測するように訓練できることを実証した。 この課題は、行動空間が複雑で、長期にわたって状況が急速に変化するのに、簡潔な空間ナビゲーションを必要とするときに生じる。 我々は,新たなニューラルメモリ機構を組み込んで符号化し,階層的な注意を払って他者に関する情報を選択的に検索することで,課題に対処する。 記憶によって、他者の遠因的な過去の行動の迅速かつ選択的クエリは、彼らの現在の精神状態、信念、将来の行動について熟考的に説明することができる。 この結果、ToMMYは心的プロセスについての仮定をほとんど行わずに理性を学ぶマインドモデルである。 また、記憶が学習プロセスを促進し、マインドパフォーマンスのより良い理論を実現すること、特に変化の複数のステップを推し進める必要のある高要求の虚偽のタスクのために、新しい実験スイートを構築した。

Social reasoning necessitates the capacity of theory of mind (ToM), the ability to contextualise and attribute mental states to others without having access to their internal cognitive structure. Recent machine learning approaches to ToM have demonstrated that we can train the observer to read the past and present behaviours of other agents and infer their beliefs (including false beliefs about things that no longer exist), goals, intentions and future actions. The challenges arise when the behavioural space is complex, demanding skilful space navigation for rapidly changing contexts for an extended period. We tackle the challenges by equipping the observer with novel neural memory mechanisms to encode, and hierarchical attention to selectively retrieve information about others. The memories allow rapid, selective querying of distal related past behaviours of others to deliberatively reason about their current mental state, beliefs and future behaviours. This results in ToMMY, a theory of mind model that learns to reason while making little assumptions about the underlying mental processes. We also construct a new suite of experiments to demonstrate that memories facilitate the learning process and achieve better theory of mind performance, especially for high-demand false-belief tasks that require inferring through multiple steps of changes.
翻訳日:2023-01-18 13:52:40 公開日:2023-01-17
# 脳波信号に基づく感情評価システムにおける説明可能なデータ中毒攻撃

Explainable Data Poison Attacks on Human Emotion Evaluation Systems based on EEG Signals ( http://arxiv.org/abs/2301.06923v1 )

ライセンス: Link先を確認
Zhibo Zhang, Sani Umar, Ahmed Y. Al Hammadi, Sangyoung Yoon, Ernesto Damiani, Claudio Agostino Ardagna, Nicola Bena, and Chan Yeob Yeun(参考訳) 本研究の目的は、脳波(eeg)信号に基づく感情評価システムにおいて、攻撃者の視点から機械学習モデルを展開する訓練段階において、ラベルフリッピングを用いたデータ中毒攻撃を説明することである。 脳波信号を用いた人間の感情評価は、常に多くの研究の注目を集めている。 脳波信号に基づく人間の感情状態の同定は、インサイダー個人によって引き起こされる潜在的な内的脅威を検出するのに有効である。 それでも、脳波信号に基づく人間の感情評価システムは、データ中毒に対するいくつかの脆弱性を示している。 実験の結果、提案されたデータ中毒攻撃はモデル非依存的に成功したが、様々なモデルでは攻撃に対する弾力性は様々である。 さらに、脳波信号に基づく人間の感情評価システムに対するデータ毒攻撃は、シェープ付加説明(SHAP)値、局所解釈可能なモデル非依存説明(LIME)、生成決定木など、いくつかの説明可能な人工知能(XAI)手法で説明される。 この論文のコードはgithubで公開されている。

The major aim of this paper is to explain the data poisoning attacks using label-flipping during the training stage of the electroencephalogram (EEG) signal-based human emotion evaluation systems deploying Machine Learning models from the attackers' perspective. Human emotion evaluation using EEG signals has consistently attracted a lot of research attention. The identification of human emotional states based on EEG signals is effective to detect potential internal threats caused by insider individuals. Nevertheless, EEG signal-based human emotion evaluation systems have shown several vulnerabilities to data poison attacks. The findings of the experiments demonstrate that the suggested data poison assaults are model-independently successful, although various models exhibit varying levels of resilience to the attacks. In addition, the data poison attacks on the EEG signal-based human emotion evaluation systems are explained with several Explainable Artificial Intelligence (XAI) methods, including Shapley Additive Explanation (SHAP) values, Local Interpretable Model-agnostic Explanations (LIME), and Generated Decision Trees. And the codes of this paper are publicly available on GitHub.
翻訳日:2023-01-18 13:52:04 公開日:2023-01-17
# BSNet: ドローBスプラインカーブによるレーン検出

BSNet: Lane Detection via Draw B-spline Curves Nearby ( http://arxiv.org/abs/2301.06910v1 )

ライセンス: Link先を確認
Haoxin Chen, Mengmeng Wang, Yong Liu(参考訳) 曲線に基づく手法は古典的なレーン検出方法の1つである。 彼らは、直感的で簡潔なレーンラインの全体論的表現を学ぶ。 しかし、その性能は車線表現と最適化の限界のため、最新の最先端の手法よりも遅れている。 本稿では,レーン表現のグローバル性と局所性の観点から,曲線に基づくレーン検出法を再考する。 レーン表現のグローバル性は、可視部分を持つレーンの見えない部分を完成させる能力である。 レーン表現の局所性(locality of lane representation)は、パラメータ最適化を単純化するレーンをローカルに変更できる能力である。 具体的には,b-スプライン曲線を局所性と大域性に合致するレーン線に適合させる手法を提案する。 第2に、グローバルおよびローカル機能を取得するために、シンプルで効率的なネットワークbsnetを設計します。 第3に,レーン検出最適化をより合理的にするための新しい曲線距離を提案する。 提案手法はTusimple, CULane, LLAMASデータセット上での最先端性能を実現し, リアルタイム(197FPS)をはるかに超越しながら, レーン検出タスクにおける曲線ベース手法の精度を劇的に向上させた。

Curve-based methods are one of the classic lane detection methods. They learn the holistic representation of lane lines, which is intuitive and concise. However, their performance lags behind the recent state-of-the-art methods due to the limitation of their lane representation and optimization. In this paper, we revisit the curve-based lane detection methods from the perspectives of the lane representations' globality and locality. The globality of lane representation is the ability to complete invisible parts of lanes with visible parts. The locality of lane representation is the ability to modify lanes locally which can simplify parameter optimization. Specifically, we first propose to exploit the b-spline curve to fit lane lines since it meets the locality and globality. Second, we design a simple yet efficient network BSNet to ensure the acquisition of global and local features. Third, we propose a new curve distance to make the lane detection optimization objective more reasonable and alleviate ill-conditioned problems. The proposed methods achieve state-of-the-art performance on the Tusimple, CULane, and LLAMAS datasets, which dramatically improved the accuracy of curve-based methods in the lane detection task while running far beyond real-time (197FPS).
翻訳日:2023-01-18 13:51:06 公開日:2023-01-17
# metamobility: 将来のモビリティとmetaverseの接続

Metamobility: Connecting Future Mobility with Metaverse ( http://arxiv.org/abs/2301.06991v1 )

ライセンス: Link先を確認
Haoxin Wang, Ziran Wang, Dawei Chen, Qiang Liu, Hongyu Ke, Kyungtae Han(参考訳) メタバースは永続的で没入的で共有されたデジタル世界であり、物理的な現実とは無関係であり、この新興技術はさまざまな産業から大きな注目を集めている。 本稿では,モビリティ領域におけるメタバースの最初の全体論的実現を「メタモビリティ」として定義する。 私たちはメタモビリティのビジョンを示し、その基本的なアーキテクチャを説明します。 また,触覚マップとメタ駆動運転支援システム(ADAS)の2つのユースケースを提案し,そのメタモビリティのメリットを実証し,将来の移動システムを再形成する。 それぞれのユースケースは、それぞれ、技術の進化、将来のビジョン、そして重要な研究課題の観点から議論される。 最後に, メタモビリティの開発と展開に関して, 複数の具体的なオープンな研究課題を特定する。

A Metaverse is a perpetual, immersive, and shared digital universe that is linked to but beyond the physical reality, and this emerging technology is attracting enormous attention from different industries. In this article, we define the first holistic realization of the metaverse in the mobility domain, coined as ``metamobility". We present our vision of what metamobility will be and describe its basic architecture. We also propose two use cases, tactile live maps and meta-empowered advanced driver-assistance systems (ADAS), to demonstrate how the metamobility will benefit and reshape future mobility systems. Each use case is discussed from the perspective of the technology evolution, future vision, and critical research challenges, respectively. Finally, we identify multiple concrete open research issues for the development and deployment of the metamobility.
翻訳日:2023-01-18 13:44:15 公開日:2023-01-17
# 推定特徴属性に対する負のフラックス凝集

Negative Flux Aggregation to Estimate Feature Attributions ( http://arxiv.org/abs/2301.06989v1 )

ライセンス: Link先を確認
Xin Li, Deng Pan, Chengyin Li, Yao Qiang and Dongxiao Zhu(参考訳) セキュリティや透明性の懸念が高まる中で、ディープニューラルネットワーク(DNN)の動作を理解する必要性が高まっている。 ディープニューラルネットワークアーキテクチャの多層非線形性のため、DNN予測の説明は依然として未解決の問題であり、メカニズムの深い理解を妨げている。 DNNの説明可能性を高めるために,分岐とフラックスを用いた予測課題に対する入力特徴の属性を推定する。 ベクトル解析における発散定理に着想を得て,新しい負流束集合(neflag)定式化法と帰属写像を推定するための効率的な近似アルゴリズムを開発した。 以前の技術とは異なり、私たちの手法はサーロゲートモデルに適合したり、勾配のパス統合を必要としたりしません。 定性的かつ定量的な実験は、競合する方法よりも忠実な帰属写像を生成する上で、NeFLAGの優れた性能を示す。

There are increasing demands for understanding deep neural networks' (DNNs) behavior spurred by growing security and/or transparency concerns. Due to multi-layer nonlinearity of the deep neural network architectures, explaining DNN predictions still remains as an open problem, preventing us from gaining a deeper understanding of the mechanisms. To enhance the explainability of DNNs, we estimate the input feature's attributions to the prediction task using divergence and flux. Inspired by the divergence theorem in vector analysis, we develop a novel Negative Flux Aggregation (NeFLAG) formulation and an efficient approximation algorithm to estimate attribution map. Unlike the previous techniques, ours doesn't rely on fitting a surrogate model nor need any path integration of gradients. Both qualitative and quantitative experiments demonstrate a superior performance of NeFLAG in generating more faithful attribution maps than the competing methods.
翻訳日:2023-01-18 13:43:59 公開日:2023-01-17
# SwaNNFlight System: Anchored Learningによるオンザフライ・シム・トゥ・リアル適応

The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored Learning ( http://arxiv.org/abs/2301.06987v1 )

ライセンス: Link先を確認
Bassel El Mabsout, Shahin Roozkhosh, Siddharth Mysore, Kate Saenko, Renato Mancuso(参考訳) シミュレーション環境で訓練され、現実世界にデプロイされた強化学習(rl)エージェントは、一般的にsim-to-real gapと呼ばれる、提示されるダイナミクスの違いに敏感であることが多い。 リソース制約のある組込みシステムにおいて、このギャップを最小化することを目的として、既製のハードウェアで構築された四角形上で、トレーニングおよび実動適応エージェントを訓練する。 これを達成するために、私たちは3つの新しい貢献をした。 (i)SwaNNFlight - エージェントの観察を無線で取得・転送できるオープンソースのファームウェア。 新しいデータと、NNコントローラーの受信と交換を行う微調整エージェントは、すべて飛行中です。 また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。 二 乗法価値構成、各政策最適化基準の重要性を保ち、学習行動における訓練性能及び変動性を改善する技術。 そして (iii)シミュレーションに最適化された行動を維持しつつ、実データからオンライン学習を行う場合のエージェントの微調整の安定化を支援するアンカー評論家。 一貫して飛行可能な制御ポリシーをシミュレーションで訓練し、実際のクワッドローターに配置します。 次に,地上局からのオンボード制御ポリシーのオンザエア更新により,ライブコントローラ適応を実現する。 以上の結果から,ライブ適応によって電力消費が約50%削減される可能性が示唆された。 最後に,破滅的な忘れ込みと制御不能の問題に対処し,新しい手法の有効性を示す。 プロジェクトウェブサイト:https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS

Reinforcement Learning (RL) agents trained in simulated environments and then deployed in the real world are often sensitive to the differences in dynamics presented, commonly termed the sim-to-real gap. With the goal of minimizing this gap on resource-constrained embedded systems, we train and live-adapt agents on quadrotors built from off-the-shelf hardware. In achieving this we developed three novel contributions. (i) SwaNNFlight, an open-source firmware enabling wireless data capture and transfer of agents' observations. Fine-tuning agents with new data, and receiving and swapping onboard NN controllers -- all while in flight. We also design SwaNNFlight System (SwaNNFS) allowing new research in training and live-adapting learning agents on similar systems. (ii) Multiplicative value composition, a technique for preserving the importance of each policy optimization criterion, improving training performance and variability in learnt behavior. And (iii) anchor critics to help stabilize the fine-tuning of agents during sim-to-real transfer, online learning from real data while retaining behavior optimized in simulation. We train consistently flight-worthy control policies in simulation and deploy them on real quadrotors. We then achieve live controller adaptation via over-the-air updates of the onboard control policy from a ground station. Our results indicate that live adaptation unlocks a near-50\% reduction in power consumption, attributed to the sim-to-real gap. Finally, we tackle the issues of catastrophic forgetting and controller instability, showing the effectiveness of our novel methods. Project Website: https://github.com/BU-Cyber-Physical-Systems-Lab/SwaNNFS
翻訳日:2023-01-18 13:43:44 公開日:2023-01-17
# インド・ヨーロッパ5言語における単語フローの統計的分析

Statistical analysis of word flow among five Indo-European languages ( http://arxiv.org/abs/2301.06985v1 )

ライセンス: Link先を確認
Josu\'e Ely Molina, Jorge Flores, Carlos Gershenson and Carlos Pineda(参考訳) 近年のデータ可用性が向上し、異なる統計的言語研究が可能となった。 ここではGoogle Books Ngramデータセットを使用して、英語、フランス語、ドイツ語、イタリア語、スペイン語の単語フローを分析します。 我々は「移民語」と定義するものについて研究するが、これは綴りを変えない借用語の一種である。 私たちは、ある言語から別の言語への移民語を何十年も定量化し、ほとんどの移民語が意味的分野に集約され、歴史的な出来事に関連付けられることに気付きました。 また,累積単語の統計特性とランクダイナミクスについても検討した。 本稿では,文化影響の指標として使用できる移民語の使用方法を提案する。 我々の方法論は注意事項を免除するものではないが、我々の結果は、この方向のさらなる研究を促進することを奨励している。

A recent increase in data availability has allowed the possibility to perform different statistical linguistic studies. Here we use the Google Books Ngram dataset to analyze word flow among English, French, German, Italian, and Spanish. We study what we define as ``migrant words'', a type of loanwords that do not change their spelling. We quantify migrant words from one language to another for different decades, and notice that most migrant words can be aggregated in semantic fields and associated to historic events. We also study the statistical properties of accumulated migrant words and their rank dynamics. We propose a measure of use of migrant words that could be used as a proxy of cultural influence. Our methodology is not exempt of caveats, but our results are encouraging to promote further studies in this direction.
翻訳日:2023-01-18 13:43:17 公開日:2023-01-17
# 2つの回転キャビティミラーを持つ回転キャビティ光学系:光学応答と高速スロー光機構

A rotational-cavity optomechanical system with two revolving cavity mirrors: optical response and fast-slow light mechanism ( http://arxiv.org/abs/2301.06979v1 )

ライセンス: Link先を確認
Amjad Sohail, Rameesa Arif, Naeem Akhtar, Ziauddin, Jia-Xin Peng, Gao Xianlong and ZhiDong Gu(参考訳) 2枚のメカニカル回転鏡からなるラゲア・ガウシアンキャビティ光学系の光学的挙動について検討した。 本稿では,物理パラメータがシステムの二重光学的透過性(OMIT)に与える影響について検討し,その基礎となる物理メカニズムを詳細に解説する。 我々は、運動量は現在の二重OMIT現象の原因ではなく、むしろ光学場と回転ミラーの間の軌道角運動量に由来することを示した。 さらに、ダブルオミットは、従来の研究のように多くのサブシステムを統合するか、原子媒体を追加することによってではなく、単一のラゲール・ガウシアンキャビティ光学系を用いてのみ生成される。 また、このシステムにおける高速で遅い光の影響についても検討する。 最後に、超高速光と超低速光との切り替えは、高速光を制御する新しい源である角運動量を調整することで実現できることを示す。

We investigate the optical behavior of a single Laguerre-Gaussian cavity optomechanical system consisting of two mechanically rotating mirrors. We explore the effects of various physical parameters on the double optomechanically induced transparency (OMIT) of the system and provide a detailed explanation of the underlying physical mechanism. We show that the momentum is not the cause of the current double-OMIT phenomena; rather, it results from the orbital angular momentum between the optical field and the rotating mirrors. Additionally, the double-OMIT is simply produced using a single Laguerre-Gaussian cavity optomechanical system rather than by integrating many subsystems or adding the atomic medium as in earlier studies. We also investigate the impact of fast and slow light in this system. Finally, we show that the switching between ultrafast and ultraslow light can be realized by adjusting the angular momentum, which is a new source of regulating fast-slow light.
翻訳日:2023-01-18 13:43:03 公開日:2023-01-17
# 量子コンピュータにおける指数的に少ない量子ビットを用いたNP-Hard問題の解法

Solving various NP-Hard problems using exponentially fewer qubits on a Quantum Computer ( http://arxiv.org/abs/2301.06978v1 )

ライセンス: Link先を確認
Yagnik Chatterjee, Eric Bourreau, Marko J. Ran\v{c}i\'c(参考訳) NPハード問題は一般多項式時間アルゴリズムによって正確に解けるとは考えられていない。 このような組合せ問題に対処するハイブリッド量子古典アルゴリズムは、ここ数年で大きな関心を集めている。 このようなアルゴリズムは本質的にヒューリスティックであり、近似解を得ることを目指している。 計算時間および/または大きな問題を扱う能力の重要な改善は、この点において量子コンピューティングの主要な約束である。 しかし、ハードウェアはまだ初期段階であり、現在のNISQ(Noisy Intermediate Scale Quantum)コンピュータは産業的に関係のある問題を最適化できない。 さらに、量子ビットの保存と絡み合いの導入は極端な物理的条件を必要とする。 QAOAのような量子最適化アルゴリズムの問題は、問題のサイズに応じて線形にスケールすることである。 本稿では,ゲート型量子コンピュータにおける前例のないスケールの最適化問題を処理するために,対数的に問題サイズにスケールする独自の手法を構築した。 アルゴリズムの性能をテストするために、まず、最大カット、最小分割、最大傾き、最大重み付き独立セットというNPハード問題に適用する方法を見つけます。 その後、これらのアルゴリズムは、100以上のノードのグラフサイズを持つ量子シミュレータと、256のグラフサイズまでの実際の量子コンピュータでテストされる。 我々の知る限り、これらはNISQデバイス上で実行された史上最大の現実的な組合せ最適化問題であり、以前の問題サイズを10倍近く上回っている。

NP-hard problems are not believed to be exactly solvable through general polynomial time algorithms. Hybrid quantum-classical algorithms to address such combinatorial problems have been of great interest in the past few years. Such algorithms are heuristic in nature and aim to obtain an approximate solution. Significant improvements in computational time and/or the ability to treat large problems are some of the principal promises of quantum computing in this regard. The hardware, however, is still in its infancy and the current Noisy Intermediate Scale Quantum (NISQ) computers are not able to optimize industrially relevant problems. Moreover, the storage of qubits and introduction of entanglement require extreme physical conditions. An issue with quantum optimization algorithms such as QAOA is that they scale linearly with problem size. In this paper, we build upon a proprietary methodology which scales logarithmically with problem size - opening an avenue for treating optimization problems of unprecedented scale on gate-based quantum computers. In order to test the performance of the algorithm, we first find a way to apply it to a handful of NP-hard problems: Maximum Cut, Minimum Partition, Maximum Clique, Maximum Weighted Independent Set. Subsequently, these algorithms are tested on a quantum simulator with graph sizes of over a hundred nodes and on a real quantum computer up to graph sizes of 256. To our knowledge, these constitute the largest realistic combinatorial optimization problems ever run on a NISQ device, overcoming previous problem sizes by almost tenfold.
翻訳日:2023-01-18 13:42:48 公開日:2023-01-17
# 分散一般化のためのビジョンベース機械学習アルゴリズム

Vision Based Machine Learning Algorithms for Out-of-Distribution Generalisation ( http://arxiv.org/abs/2301.06975v1 )

ライセンス: Link先を確認
Hamza Riaz and Alan F. Smeaton(参考訳) オブジェクトセグメンテーション、分類、オブジェクト検出、再構築など多くのコンピュータビジョンアプリケーションがあり、機械学習(ML)は最先端のパフォーマンスを示している。 現在、そのようなアプリケーションのためのMLツールを現実の精度で構築できる。 しかし、各ツールは、それが訓練され開発されているドメイン内でうまく機能する。 ある特定のドメインのデータセット上でモデルをトレーニングし、OOD(out of distribution)データセットとして知られる別の見えないドメインでテストする場合、モデルやMLツールはパフォーマンスの低下を示しています。 例えば、実世界のイメージに対して単純な分類器をトレーニングし、同じクラスにそのモデルを適用した場合、漫画、絵、スケッチのような異なるドメインで、MLツールのパフォーマンスは失望します。 これは、ドメイン一般化(DG)、ドメイン適応(DA)、ドメインシフトといった重大な課題を示す。 mlツールのパワーを高めるために、モデルをスクラッチから再構築し、再トレーニングしたり、転送学習を実行できる。 本稿では,ドメイン固有手法とドメイン一般化手法の視覚ベース技術の比較研究を行う。 本研究では,単純な畳み込みニューラルネットワーク(cnn)ベースのディープラーニング手法が,ドメインシフトに対処しなければならない場合,性能に乏しいことを強調する。 PACSとOffice-Homeの2つの人気のあるビジョンベースのベンチマークで実験が行われている。 本稿では,ドメイン一般化手法と従来のディープラーニングモデルの実装パイプラインを紹介する。 その結果、CNNに基づくディープラーニングモデルでは、他の広範囲な手法と比較して一般化が不十分であることが確認された。

There are many computer vision applications including object segmentation, classification, object detection, and reconstruction for which machine learning (ML) shows state-of-the-art performance. Nowadays, we can build ML tools for such applications with real-world accuracy. However, each tool works well within the domain in which it has been trained and developed. Often, when we train a model on a dataset in one specific domain and test on another unseen domain known as an out of distribution (OOD) dataset, models or ML tools show a decrease in performance. For instance, when we train a simple classifier on real-world images and apply that model on the same classes but with a different domain like cartoons, paintings or sketches then the performance of ML tools disappoints. This presents serious challenges of domain generalisation (DG), domain adaptation (DA), and domain shifting. To enhance the power of ML tools, we can rebuild and retrain models from scratch or we can perform transfer learning. In this paper, we present a comparison study between vision-based technologies for domain-specific and domain-generalised methods. In this research we highlight that simple convolutional neural network (CNN) based deep learning methods perform poorly when they have to tackle domain shifting. Experiments are conducted on two popular vision-based benchmarks, PACS and Office-Home. We introduce an implementation pipeline for domain generalisation methods and conventional deep learning models. The outcome confirms that CNN-based deep learning models show poor generalisation compare to other extensive methods.
翻訳日:2023-01-18 13:42:28 公開日:2023-01-17
# 3次元大規模シーン理解のための長距離プール

Long Range Pooling for 3D Large-Scale Scene Understanding ( http://arxiv.org/abs/2301.06962v1 )

ライセンス: Link先を確認
Xiang-Li Li, Meng-Hao Guo, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu(参考訳) 本稿では,最近の視覚トランスフォーマーの成功と畳み込みニューラルネットワーク(cnns)における大規模カーネル設計に触発されて,その成功の本質的理由を分析し,考察する。 3次元の大規模シーン理解に不可欠である2つの要因を主張する: より大きな受容場と、より高い非線形性を持つ操作である。 前者は長距離のコンテキストを提供する責任があり、後者はネットワークのキャパシティを高めることができる。 以上の特性を実現するために,拡張最大プーリングを用いた簡易かつ効果的なLRPモジュールを提案する。 LRPにはパラメータがほとんどなく、現在のCNNに簡単に追加できる。 また、LRPに基づいて、ネットワークアーキテクチャ全体であるLRPNetを3次元理解のために提示する。 我々の主張を裏付けるアブレーション研究を行い、LRPモジュールはその非線形性のため計算量を減らすことなく大きなカーネルの畳み込みよりも優れた結果が得られることを示した。 LRPNetはScanNet上で最高の性能を発揮し、S3DISやMatterport3D上の他のCNNベースのメソッドを上回ります。 コードは公開される予定だ。

Inspired by the success of recent vision transformers and large kernel design in convolutional neural networks (CNNs), in this paper, we analyze and explore essential reasons for their success. We claim two factors that are critical for 3D large-scale scene understanding: a larger receptive field and operations with greater non-linearity. The former is responsible for providing long range contexts and the latter can enhance the capacity of the network. To achieve the above properties, we propose a simple yet effective long range pooling (LRP) module using dilation max pooling, which provides a network with a large adaptive receptive field. LRP has few parameters, and can be readily added to current CNNs. Also, based on LRP, we present an entire network architecture, LRPNet, for 3D understanding. Ablation studies are presented to support our claims, and show that the LRP module achieves better results than large kernel convolution yet with reduced computation, due to its nonlinearity. We also demonstrate the superiority of LRPNet on various benchmarks: LRPNet performs the best on ScanNet and surpasses other CNN-based methods on S3DIS and Matterport3D. Code will be made publicly available.
翻訳日:2023-01-18 13:42:07 公開日:2023-01-17
# 深部スーパービジョンと混合注意による肺CT検査

Mixed Attention with Deep Supervision for Delineation of COVID Infection in Lung CT ( http://arxiv.org/abs/2301.06961v1 )

ライセンス: Link先を確認
Pallabi Dutta, Sushmita Mitra(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、複数のバリエーションとともに、世界の医療システムに大きなプレッシャーを与えている。 医療施設の限られた資源を最適化するために、早期に有効なスクリーニングとグレーディングが不可欠となる。 CT(Computed tomography)は、新型コロナウイルス感染症に対する重要な非侵襲スクリーニングメカニズムを提供する。 肺ctにおける感染量の自動分割は,患者の診断と治療において有意な助けとなることが期待される。 しかし, 肺内の不規則な構造や位置が原因で, 病変の正確な区切りが問題となっている。 ct画像から肺の感染領域を描出するための新しい深層学習アーキテクチャであるmixed attention deep supervised network (miads-net)を提案する。 拡張率の異なる拡張畳み込みを混合注目フレームワークに組み込むことで、サイズやテクスチャの異なる病変のセグメンテーションの改善に向けたマルチスケール特徴のキャプチャが可能になる。 混在した注意は、調査対象の機能マップと、これらのマップに重要な情報を含む領域を優先するのに役立つ。 深い監視は、消失する勾配を克服しながら、より浅いレベルの隠れた層におけるロバストで差別的な特性の発見を促進する。 続いて、各肺の感染領域の面積の全体量に対する比率に基づいて、疾患の重症度を推定する。 3つの公開データセットでの実験結果から、MiADS-Netは新型コロナウイルスの病変セグメンテーションタスクにおいて、特に複雑なジオメトリを含む構造を定義する際に、いくつかの最先端アーキテクチャよりも優れていることが示されている。

The COVID-19 pandemic, with its multiple variants, has placed immense pressure on the global healthcare system. An early effective screening and grading become imperative towards optimizing the limited available resources of the medical facilities. Computed tomography (CT) provides a significant non-invasive screening mechanism for COVID-19 infection. An automated segmentation of the infected volumes in lung CT is expected to significantly aid in the diagnosis and care of patients. However, an accurate demarcation of lesions remains problematic due to their irregular structure and location(s) within the lung. A novel deep learning architecture, Mixed Attention Deeply Supervised Network (MiADS-Net), is proposed for delineating the infected regions of the lung from CT images. Incorporating dilated convolutions with varying dilation rates, into a mixed attention framework, allows capture of multi-scale features towards improved segmentation of lesions having different sizes and textures. Mixed attention helps prioritise relevant feature maps to be probed, along with those regions containing crucial information within these maps. Deep supervision facilitates discovery of robust and discriminatory characteristics in the hidden layers at shallower levels, while overcoming the vanishing gradient. This is followed by estimating the severity of the disease, based on the ratio of the area of infected region in each lung with respect to its entire volume. Experimental results, on three publicly available datasets, indicate that the MiADS-Net outperforms several state-of-the-art architectures in the COVID-19 lesion segmentation task; particularly in defining structures involving complex geometries.
翻訳日:2023-01-18 13:41:47 公開日:2023-01-17
# 言語意味空間におけるマスク視覚再構成

Masked Visual Reconstruction in Language Semantic Space ( http://arxiv.org/abs/2301.06958v1 )

ライセンス: Link先を確認
Shusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie, Xinggang Wang(参考訳) マスク付き画像モデリング(MIM)と自然言語監視の両方が、伝達可能な視覚前訓練の進展を促進している。 本研究では,2つのパラダイム間の相乗効果を探求し,MIMが自然言語の監督を受ける際に出現する特性について検討する。 そこで本研究では,テキストエンコーダで符号化された文表現を,意味的に意味のあるmim再構成目標として,視覚のみの信号をパッチ・センテンテンス確率に変換するためのプロトタイプとして利用する,言語意味空間(rils)事前学習フレームワークを提案する。 したがって、視覚モデルは、マスクされたトークンの適切な意味を予測することによって、構造化された情報で有用なコンポーネントをキャプチャすることができる。 より優れた視覚表現は、効果的なMIMターゲット変換に不可欠な画像-テキストアライメントの目的によって、テキストエンコーダを改善することができる。 実験の結果,従来のMIMとCLIPの利点を享受できるだけでなく,相互利益により,様々なタスクの改善も達成できることがわかった。 rilsは下流分類、検出、セグメンテーション、特に低ショットレジームにおいて高度な転送性を示す。 コードはhttps://github.com/hustvl/RILSで公開される。

Both masked image modeling (MIM) and natural language supervision have facilitated the progress of transferable visual pre-training. In this work, we seek the synergy between two paradigms and study the emerging properties when MIM meets natural language supervision. To this end, we present a novel masked visual Reconstruction In Language semantic Space (RILS) pre-training framework, in which sentence representations, encoded by the text encoder, serve as prototypes to transform the vision-only signals into patch-sentence probabilities as semantically meaningful MIM reconstruction targets. The vision models can therefore capture useful components with structured information by predicting proper semantic of masked tokens. Better visual representations could, in turn, improve the text encoder via the image-text alignment objective, which is essential for the effective MIM target transformation. Extensive experimental results demonstrate that our method not only enjoys the best of previous MIM and CLIP but also achieves further improvements on various tasks due to their mutual benefits. RILS exhibits advanced transferability on downstream classification, detection, and segmentation, especially for low-shot regimes. Code will be made available at https://github.com/hustvl/RILS.
翻訳日:2023-01-18 13:41:25 公開日:2023-01-17
# トランスモンアレーにおける相互作用光子の消散と消長

Dissipation and Dephasing of Interacting Photons in Transmon Arrays ( http://arxiv.org/abs/2301.07025v1 )

ライセンス: Link先を確認
Oksana Busel, Sami Laine, Olli Mansikkam\"aki and Matti Silveri(参考訳) トランスモンアレイは量子情報科学の最も有望なプラットフォームの一つである。 単純に量子ビットと見なされることが多いが、トランスモンは本質的に量子力学的多レベル系である。 量子ビット部分空間を超える高い励起状態は、ハードウェア効率の良い多体量子シミュレーション、量子エラー補正、および量子情報プロトコルにとって重要な資源となる。 様々な制御不能環境への結合によって生じる嫌悪、散逸、嫌悪の現象は、その利用に実用的な制限要因をもたらす。 これを詳細に定量化するために、ここでは、トランスモンアレイの多体力学に単振動散逸と重み付けの主な結果を示す。 我々は摂動理論と量子軌道法から解析的手法と数値シミュレーションを併用し、より高い励起状態を含むヒルベルト空間を意図的に検討する。 3つの主要な非単位過程は、多体デコヒーレンス、多体散逸、および異なる非調和多様体間の加熱/冷却遷移である。 これらのうち、多体デコヒーレンス(多体フォック状態間の2乗距離に比例する)は、効果的なユニタリダイナミクスを観察する上で最も厳密な制限を与える。 実験的に関連するパラメータ,および不可避なサイト間障害についても考慮し,高励起状態を用いてコヒーレント多体ダイナミクスを示すためには最先端のトランスモンアレイを準備する必要があることを示した。 しかし、3次および3次量子コンピューティングにおけるトランスモンのより広範な利用は、コヒーレンス特性の改善を要求する。

Transmon arrays are one of the most promising platforms for quantum information science. Despite being often considered simply as qubits, transmons are inherently quantum mechanical multilevel systems. Being experimentally controllable with high fidelity, the higher excited states beyond the qubit subspace provide an important resource for hardware-efficient many-body quantum simulations, quantum error correction, and quantum information protocols. Alas, dissipation and dephasing phenomena generated by couplings to various uncontrollable environments yield a practical limiting factor to their utilization. To quantify this in detail, we present here the primary consequences of single-transmon dissipation and dephasing to the many-body dynamics of transmon arrays. We use analytical methods from perturbation theory and quantum trajectory approach together with numerical simulations, and deliberately consider the full Hilbert space including the higher excited states. The three main non-unitary processes are many-body decoherence, many-body dissipation, and heating/cooling transitions between different anharmonicity manifolds. Of these, the many-body decoherence -- being proportional to the squared distance between the many-body Fock states -- gives the strictest limit for observing effective unitary dynamics. Considering experimentally relevant parameters, including also the inevitable site-to-site disorder, our results show that the state-of-the-art transmon arrays should be ready for the task of demonstrating coherent many-body dynamics using the higher excited states. However, the wider utilization of transmons for ternary-and-beyond quantum computing calls for improving their coherence properties.
翻訳日:2023-01-18 13:35:03 公開日:2023-01-17
# 意識は学習である: 結合によって学習する予測処理システムは、自身を意識として知覚するかもしれない

Consciousness is learning: predictive processing systems that learn by binding may perceive themselves as conscious ( http://arxiv.org/abs/2301.07016v1 )

ライセンス: Link先を確認
V.A. Aksyuk(参考訳) 機械学習アルゴリズムは、特定の複雑な領域において超人的性能を達成した。 しかし、少数の例からオンラインを学び、ドメインをまたいで効率的に一般化することは、いまだにあり得ない。 人間では、そのような学習は宣言的な記憶形成を通じて進行し、意識と密接に関連している。 予測処理は、感覚データと行動制御の両方に深い知覚モデルを実装するものとして大脳皮質を理解するための原理的ベイズ推論フレームワークとして進歩してきた。 しかし、予測処理は、素早い構成学習や意識の謎に対する直接的な洞察をほとんど与えない。 本稿では,予測できない推論の階層的結合によるオンライン学習を行うことにより,単一事例からの知覚や行動に対する作業記憶を形成することにより,新たな状況下での予測処理システムを柔軟に一般化できることを示す。 このような作業記憶の内容は一元化しつつも差別化され、選択的注意によって維持され、マスキングの観察、先入観的統合、その他の意識研究のパラダイムケースと一致していると論じる。 複数の生存戦略と再生戦略を同時に実施する複雑な行動方針の強化学習に知覚的価値予測を用いることで、脳がどのように進化したかを説明する。 「意識体験」とは、意識のメタ問題に対する答えとして、そのような学習システムが自身の機能を表現する方法である。 提案手法は,機能バインディング,繰り返し処理,予測処理をグローバルワークスペースと自然に統一し,より少ない範囲において,意識の高次理論である。

Machine learning algorithms have achieved superhuman performance in specific complex domains. Yet learning online from few examples and efficiently generalizing across domains remains elusive. In humans such learning proceeds via declarative memory formation and is closely associated with consciousness. Predictive processing has been advanced as a principled Bayesian inference framework for understanding the cortex as implementing deep generative perceptual models for both sensory data and action control. However, predictive processing offers little direct insight into fast compositional learning or the mystery of consciousness. Here we propose that through implementing online learning by hierarchical binding of unpredicted inferences, a predictive processing system may flexibly generalize in novel situations by forming working memories for perceptions and actions from single examples, which can become short- and long-term declarative memories retrievable by associative recall. We argue that the contents of such working memories are unified yet differentiated, can be maintained by selective attention and are consistent with observations of masking, postdictive perceptual integration, and other paradigm cases of consciousness research. We describe how the brain could have evolved to use perceptual value prediction for reinforcement learning of complex action policies simultaneously implementing multiple survival and reproduction strategies. 'Conscious experience' is how such a learning system perceptually represents its own functioning, suggesting an answer to the meta problem of consciousness. Our proposal naturally unifies feature binding, recurrent processing, and predictive processing with global workspace, and, to a lesser extent, the higher order theories of consciousness.
翻訳日:2023-01-18 13:34:39 公開日:2023-01-17
# Twitterボット検出のためのベンチマークデータセットの有用性を制限するシンプルコレクションとラベル付けの実践

Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection ( http://arxiv.org/abs/2301.07015v1 )

ライセンス: Link先を確認
Chris Hays, Zachary Schutzman, Manish Raghavan, Erin Walk and Philipp Zimmer(参考訳) オンラインプラットフォームの安全性と整合性には、正確なボット検出が必要である。 また、選挙におけるボットの影響、誤情報の拡散、金融市場の操作に関する研究にも重要である。 プラットフォームは自動アカウントのフラグや削除のためにインフラストラクチャをデプロイするが、ツールやデータは公開されていない。 したがって、大衆はサードパーティのボット検出に頼らなければならない。 これらのツールは機械学習を採用し、既存のデータセットの分類にほぼ完璧に近い性能を達成し、ボット検出が正確で信頼性があり、下流アプリケーションでの使用に適していることを示唆する。 ツールの高度化よりも,データセットの収集やラベル付けの制限によるパフォーマンスの向上が寄与していることを示す証拠を提供する。 具体的には、少数の機能でトレーニングされた浅い決定木である単純な決定ルールが、ほとんどの利用可能なデータセットで最先端のパフォーマンスを実現し、組み合わせてもボット検出データセットは、サンプル外のデータセットにうまく一般化しないことを示す。 その結果,ボットと人間の基本的な違いよりも,データセットの収集とラベル付けの手順に大きく依存していることが判明した。 これらの結果は、サンプリングおよびラベリング手順の透明性と、既存のボット検出ツールを用いた研究における潜在的なバイアスの両方に重要な意味を持つ。

Accurate bot detection is necessary for the safety and integrity of online platforms. It is also crucial for research on the influence of bots in elections, the spread of misinformation, and financial market manipulation. Platforms deploy infrastructure to flag or remove automated accounts, but their tools and data are not publicly available. Thus, the public must rely on third-party bot detection. These tools employ machine learning and often achieve near perfect performance for classification on existing datasets, suggesting bot detection is accurate, reliable and fit for use in downstream applications. We provide evidence that this is not the case and show that high performance is attributable to limitations in dataset collection and labeling rather than sophistication of the tools. Specifically, we show that simple decision rules -- shallow decision trees trained on a small number of features -- achieve near-state-of-the-art performance on most available datasets and that bot detection datasets, even when combined together, do not generalize well to out-of-sample datasets. Our findings reveal that predictions are highly dependent on each dataset's collection and labeling procedures rather than fundamental differences between bots and humans. These results have important implications for both transparency in sampling and labeling procedures and potential biases in research using existing bot detection tools for pre-processing.
翻訳日:2023-01-18 13:34:12 公開日:2023-01-17
# Dataset Distillation: 総合的なレビュー

Dataset Distillation: A Comprehensive Review ( http://arxiv.org/abs/2301.07014v1 )

ライセンス: Link先を確認
Ruonan Yu, Songhua Liu, Xinchao Wang(参考訳) 最近のディープラーニングの成功は、ディープニューラルネットワークのトレーニングに使用される膨大なデータに起因する可能性がある。 しかし、膨大なデータ量がストレージと送信の負担を大幅に増加させる。 また、そのような大規模なデータセット上でモデルをトレーニングするために、かなりの時間と計算資源を消費する。 さらに、生データを直接公開することは、必然的にプライバシーと著作権に関する懸念を引き起こす。 これらの不便さに焦点をあてて、データセット蒸留(DD)、またはデータセット凝縮(DC)は近年、人気のある研究トピックとなっている。 オリジナルの大規模なデータセットを考えると、ddは、合成データセットでトレーニングされたモデルが元の実際のデータセットでトレーニングされたモデルと同等の性能を持つように、いくつかの合成サンプルを含む、はるかに小さなデータセットを目指している。 本稿では,最近のDDの進歩と応用について概説する。 まず,そのタスクを形式的に紹介し,既存のDDメソッドに続き,全体的なアルゴリズムフレームワークを提案する。 そこで本研究では,現在の方法論を体系的に分類する。 理論上の関係も議論される。 DDにおける現在の課題についても,広範な実験を通じて指摘し,今後の研究の方向性を示唆している。

Recent success of deep learning can be largely attributed to the huge amount of data used for training deep neural networks. However, the sheer amount of data significantly increase the burden on storage and transmission. It would also consume considerable time and computational resources to train models on such large datasets. Moreover, directly publishing raw data inevitably raise concerns on privacy and copyright. Focusing on these inconveniences, dataset distillation (DD), also known as dataset condensation (DC), has become a popular research topic in recent years. Given an original large dataset, DD aims at a much smaller dataset containing several synthetic samples, such that models trained on the synthetic dataset can have comparable performance with those trained on the original real one. This paper presents a comprehensive review and summary for recent advances in DD and its application. We first introduce the task in formal and propose an overall algorithmic framework followed by all existing DD methods. Then, we provide a systematic taxonomy of current methodologies in this area. Their theoretical relationship will also be discussed. We also point out current challenges in DD through extensive experiments and envision possible directions for future works.
翻訳日:2023-01-18 13:33:52 公開日:2023-01-17
# どのモデルを選びましょうか。 テキスト分類タスクのコスト/品質トレードオフ

Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks ( http://arxiv.org/abs/2301.07006v1 )

ライセンス: Link先を確認
Shi Zong, Josh Seltzer, Jiahua (Fiona) Pan, Kathy Cheng, Jimmy Lin(参考訳) 産業実践者は、生産に欠かせないメートル法を最大化したり、与えられた財政的懸念の総コストを削減したりするなど、異なる考慮のもと、デプロイメントの適切なモデルを選択するという問題に常に直面する。 本研究では,テキスト分類タスクに着目し,この課題の定量的分析を行う。 分類精度を主指標として,大規模言語モデルを含む様々なモデルの分類器の性能と,アノテーションコスト,訓練(微調整)コスト,推論コストなどの関連するコストを評価する。 次に,推論に必要なサンプルを多数持つような状況に対するモデル選択について論じる。 私たちの仕事が、テキスト分類タスクのコストと品質のトレードオフを理解するのに役立つことを願っています。

Industry practitioners always face the problem of choosing the appropriate model for deployment under different considerations, such as to maximize a metric that is crucial for production, or to reduce the total cost given financial concerns. In this work, we focus on the text classification task and present a quantitative analysis for this challenge. Using classification accuracy as the main metric, we evaluate the classifiers' performances for a variety of models, including large language models, along with their associated costs, including the annotation cost, training (fine-tuning) cost, and inference cost. We then discuss the model choices for situations like having a large number of samples needed for inference. We hope our work will help people better understand the cost/quality trade-offs for the text classification task.
翻訳日:2023-01-18 13:33:36 公開日:2023-01-17
# 量子チャネルの時間表現のヒット:既約の場合とユニタリウォークへの応用を超えて

Hitting time expressions for quantum channels: beyond the irreducible case and applications to unitary walks ( http://arxiv.org/abs/2301.07003v1 )

ライセンス: Link先を確認
C. F. Lardizabal and L. F. L. Pereira(参考訳) 本研究では、有限次元ヒルベルト空間に作用する量子チャネルに関連する一般化された逆数を用いて、与えられた粒子が選択された目標部分空間に到達する平均ヒット時間を計算する。 これらの対象の研究は古典的な方法によって動機付けられており、その定義の観点からの打点時間計算の代替となる。 一般化された逆数がどのように得られるかを記述し、例として結果を例示し、既約チャネルと既約チャネルの両方を考慮できるが、有限のヒットタイムを持つために必要となる条件を説明する。 可算写像の自然な例はユニタリ量子ウォークによって与えられる。 この研究で取り組まれた問題は、グラフ、特に量子マルコフ連鎖の量子力学に関する最近の結果に動機づけられている。 我々は、より特定の逆元、すなわち群逆元が我々の文脈でどのように現れるかを説明する機会を取り、独立した興味を持つ行列代数的構成と関係付ける。

In this work, we make use of generalized inverses associated with quantum channels acting on finite-dimensional Hilbert spaces, so that one is able to calculate the mean hitting time for a given particle to reach some chosen goal subspace. The study of these objects is motivated by classical methods, so that one has an alternative to the calculation of hitting times in terms of its definition. We focus on describing how generalized inverses can be obtained, illustrating the results with examples, noting that we are able to consider both reducible and irreducible channels, while explaining the conditions needed so that one has finite hitting times. Natural examples of reducible maps are given by unitary quantum walks. The questions addressed in this work are motivated by recent results on quantum dynamics on graphs, most particularly quantum Markov chains. We take the opportunity to explain how a more specific inverse, namely the group inverse, appears in our context, in connection with matrix algebraic constructions which may be of independent interest.
翻訳日:2023-01-18 13:33:23 公開日:2023-01-17
# Opti-CAM: 解釈可能性のためのサリエンシマップの最適化

Opti-CAM: Optimizing saliency maps for interpretability ( http://arxiv.org/abs/2301.07002v1 )

ライセンス: Link先を確認
Hanwei Zhang and Felipe Torres and Ronan Sicre and Yannis Avrithis and Stephane Ayache(参考訳) クラスアクティベーションマップ(CAM)に基づく手法は、特徴写像の線形結合をサリエンシマップとして利用することにより、畳み込みニューラルネットワークの予測を簡易に解釈するメカニズムを提供する。 対照的に、マスキングベースの手法では、画像空間内で直接サリエンシーマップを最適化したり、追加データで別のネットワークをトレーニングすることで学習する。 本稿では、CAMベースのアイデアとマスキングベースのアプローチを組み合わせたOpti-CAMを紹介する。 我々のサリエンシマップは特徴写像の線形結合であり、画像ごとに重みが最適化され、与えられたクラスに対するマスク画像のロジットが最大化される。 また,帰属法の最も一般的な評価基準の2つに根本的な欠陥を修正した。 いくつかのデータセットでは、Opti-CAMは最も関連性の高い分類基準に従って、他のCAMベースのアプローチよりも優れている。 局所化と分類器解釈性が必ずしも一致していないことを示す実証的証拠を提供する。

Methods based on class activation maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.
翻訳日:2023-01-18 13:33:06 公開日:2023-01-17
# リスク予測からリスク要因の解釈までです 認知症予測のためのニューラルネットワークと古典統計の比較

From Risk Prediction to Risk Factors Interpretation. Comparison of Neural Networks and Classical Statistics for Dementia Prediction ( http://arxiv.org/abs/2301.06995v1 )

ライセンス: Link先を確認
C. Huber(参考訳) いくつかの危険因子に基づくD病発症の解明が提案されている。 アルツハイマー病の発生に特に興味を持つ。 その目的のために、2種類の技術が利用可能であり、その特性は解釈の点でかなり異なる。これはこの論文の焦点であり、確率モデルに基づく古典統計と最適化アルゴリズムに基づく人工知能(主にニューラルネットワーク)である。 どちらの手法も予測が得意で、潜在的な予測器の次元が高い場合にはニューラルネットワークを優先する。 しかし、古典的な統計学の利点は認知である:各因子の役割は一般に有害な要因に対して高い正の係数の値、無関係な要因に対しては0に近く、有益な要因に対しては非常に負の値で要約される。

It is proposed to investigate the onset of a disease D, based on several risk factors., with a specific interest in Alzheimer occurrence. For that purpose, two classes of techniques are available, whose properties are quite different in terms of interpretation, which is the focus of this paper: classical statistics based on probabilistic models and artificial intelligence (mainly neural networks) based on optimization algorithms. Both methods are good at prediction, with a preference for neural networks when the dimension of the potential predictors is high. But the advantage of the classical statistics is cognitive : the role of each factor is generally summarized in the value of a coefficient which is highly positive for a harmful factor, close to 0 for an irrelevant one, and highly negative for a beneficial one.
翻訳日:2023-01-18 13:32:51 公開日:2023-01-17
# ポケットの中のあなたの日:スマートフォン加速度計による複雑なアクティビティ認識

Your Day in Your Pocket: Complex Activity Recognition from Smartphone Accelerometers ( http://arxiv.org/abs/2301.06993v1 )

ライセンス: Link先を確認
Emma Bouton--Bessac, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) HAR(Human Activity Recognition)は,モバイルアプリがユーザアクティビティに応じてコンテンツやインタラクションを変更可能な,コンテキスト対応のユーザエクスペリエンスを実現する。 したがって、スマートフォンは大規模で多様なデータ収集を可能にするため、HARにとって価値のあるものになっている。 HARにおける以前の研究は、慣性センサー(加速度計)を用いて、簡単な活動(例えば、座ったり、歩いたり、走ったり)を精度良く検出することに成功したが、複雑な日常的な活動の認識は、特に人がより鎮静的なリモートワークやスタディ環境では未解決の問題のままである。 さらに、人の日常的な活動を理解することは、幸福をサポートするアプリケーションの作成を支援することができる。 本稿では,スマートフォン加速度計データを用いた複雑な活動の認識について検討する。 パンデミック中に5カ国の600人を超えるユーザから収集した大規模スマートフォンセンシングデータセットを用いて,8つの複雑なアクティビティ(睡眠,食事,ビデオの視聴,オンラインコミュニケーション,講義,スポーツ,ショッピング,学習)のディープラーニングに基づくバイナリ分類を,部分的にパーソナライズされたモデルで0.76までのaurocスコアで達成可能であることを示した。 これは、パンデミック後の世界の電話加速度計データのみを使用して複雑な活動を評価するための兆候を示す。

Human Activity Recognition (HAR) enables context-aware user experiences where mobile apps can alter content and interactions depending on user activities. Hence, smartphones have become valuable for HAR as they allow large, and diversified data collection. Although previous work in HAR managed to detect simple activities (i.e., sitting, walking, running) with good accuracy using inertial sensors (i.e., accelerometer), the recognition of complex daily activities remains an open problem, specially in remote work/study settings when people are more sedentary. Moreover, understanding the everyday activities of a person can support the creation of applications that aim to support their well-being. This paper investigates the recognition of complex activities exclusively using smartphone accelerometer data. We used a large smartphone sensing dataset collected from over 600 users in five countries during the pandemic and showed that deep learning-based, binary classification of eight complex activities (sleeping, eating, watching videos, online communication, attending a lecture, sports, shopping, studying) can be achieved with AUROC scores up to 0.76 with partially personalized models. This shows encouraging signs toward assessing complex activities only using phone accelerometer data in the post-pandemic world.
翻訳日:2023-01-18 13:32:38 公開日:2023-01-17
# ディープニューラルネットワークにおける安全でない入力をカウントする#DNN検証問題

The #DNN-Verification problem: Counting Unsafe Inputs for Deep Neural Networks ( http://arxiv.org/abs/2301.07068v1 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Ferdinando Cicalese and Alessandro Farinelli(参考訳) ディープニューラルネットワークは、例えば自動運転のような高いレベルの安全性を必要とする重要なタスクにますます採用されている。 最先端の検証器は、DNNが与えられたプロパティ(少なくとも1つの安全でない入力設定があるかどうか)が安全でないかどうかを確認するのに使えるが、その出力はシールド、モデル選択、トレーニングの改善といった他の目的のために十分な情報を提供していない。 本稿では,特定の安全性に違反する原因となるDNNの入力構成数をカウントする#DNN-Verification問題を提案する。 我々は,この問題の複雑さを分析し,違反の正確な数を返す新しい手法を提案する。 また,この問題の#P完全性から,計算要求を著しく低減しつつ,正しいカウントの証明可能な確率的境界を提供するランダム化近似法を提案する。 提案手法の有効性を実証する一連の安全クリティカルベンチマークについて実験結果を示し,境界の密着性を評価する。

Deep Neural Networks are increasingly adopted in critical tasks that require a high level of safety, e.g., autonomous driving. While state-of-the-art verifiers can be employed to check whether a DNN is unsafe w.r.t. some given property (i.e., whether there is at least one unsafe input configuration), their yes/no output is not informative enough for other purposes, such as shielding, model selection, or training improvements. In this paper, we introduce the #DNN-Verification problem, which involves counting the number of input configurations of a DNN that result in a violation of a particular safety property. We analyze the complexity of this problem and propose a novel approach that returns the exact count of violations. Due to the #P-completeness of the problem, we also propose a randomized, approximate method that provides a provable probabilistic bound of the correct count while significantly reducing computational requirements. We present experimental results on a set of safety-critical benchmarks that demonstrate the effectiveness of our approximate method and evaluate the tightness of the bound.
翻訳日:2023-01-18 13:26:49 公開日:2023-01-17
# アルゴリズムとしてのトランスフォーマー:インコンテキスト学習における一般化と帰納モデル選択

Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning ( http://arxiv.org/abs/2301.07067v1 )

ライセンス: Link先を確認
Yingcong Li, M. Emrullah Ildiz, Dimitris Papailiopoulos, Samet Oymak(参考訳) In-context Learning(ICL)は、トランスフォーマーモデルが(入力、出力)例のシーケンスで動作し、オンザフライで推論を行うプロンプトの一種である。 この暗黙的なトレーニングは、例に基づいてモデル重みを明示的にチューニングすることとは対照的である。 そこで本研究では,トランスフォーマーモデルを学習アルゴリズムとして扱い,他の対象アルゴリズムの実装・実行を訓練することで,文脈内学習をアルゴリズム学習問題として定式化する。 入力プロンプトが(1)i.i.d.(入力、ラベル)ペアの列である場合、または(2)力学系から生じる軌道である場合、iclの一般化境界を得る。 我々の分析の要点は、過大なリスクをトランスフォーマーによって実装されたアルゴリズムの安定性に関連付けている。 第二に、変換器が適応学習アルゴリズムとして機能し、異なる仮説クラスにまたがるモデル選択を行うことができることを示すために、この抽象化を用いる。 本研究は,(1)トランスフォーマが古典的回帰問題に対して,動的データとi.i.d.を用いて近似最適アルゴリズムを実際に実装できること,(2)非知覚タスクにおける伝達リスクがトランスフォーマ複雑性とは無関係な帰納バイアス現象を特定すること,(3)理論的予測を実証的に検証できることを数値的に評価する。

In-context learning (ICL) is a type of prompting where a transformer model operates on a sequence of (input, output) examples and performs inference on-the-fly. This implicit training is in contrast to explicitly tuning the model weights based on examples. In this work, we formalize in-context learning as an algorithm learning problem, treating the transformer model as a learning algorithm that can be specialized via training to implement-at inference-time-another target algorithm. We first explore the statistical aspects of this abstraction through the lens of multitask learning: We obtain generalization bounds for ICL when the input prompt is (1) a sequence of i.i.d. (input, label) pairs or (2) a trajectory arising from a dynamical system. The crux of our analysis is relating the excess risk to the stability of the algorithm implemented by the transformer, which holds under mild assumptions. Secondly, we use our abstraction to show that transformers can act as an adaptive learning algorithm and perform model selection across different hypothesis classes. We provide numerical evaluations that (1) demonstrate transformers can indeed implement near-optimal algorithms on classical regression problems with i.i.d. and dynamic data, (2) identify an inductive bias phenomenon where the transfer risk on unseen tasks is independent of the transformer complexity, and (3) empirically verify our theoretical predictions.
翻訳日:2023-01-18 13:26:32 公開日:2023-01-17
# AI倫理と社会のためのモノトニック性:犯罪学・教育・医療・金融におけるモノトニック神経付加モデルに関する実証的研究

Monotonicity for AI ethics and society: An empirical study of the monotonic neural additive model in criminology, education, health care, and finance ( http://arxiv.org/abs/2301.07060v1 )

ライセンス: Link先を確認
Dangxing Chen and Luyao Zhang(参考訳) 人工知能(AI)の適用におけるアルゴリズムの公正性は、より良い社会に不可欠である。 社会機構の基本公理として、公正性は複数の面からなる。 機械学習(ML)コミュニティは、統計パリティの問題として、特に差別問題に焦点を合わせてきたが、新たな文学団体は、別の面、モノトニック性に対処している。 ドメインの専門知識に基づいたモノトニック性は多くのフェアネス関連領域において重要な役割を担い、違反は人間の判断を誤認し、悲惨な結果をもたらす可能性がある。 本稿では,AI倫理と社会の公正性に,個人とペアの単調性原理を強制するために,公平性を考慮したMLアルゴリズムを用いた単調神経付加モデル(MNAM)を適用することの重要性を,まず体系的に評価する。 我々は、理論的推論、シミュレーション、広範な経験分析のハイブリッド手法を通じて、犯罪学、教育、医療、金融など、公正なあらゆる分野において、単調性の公理を考えることが不可欠であることを見出した。 我々の研究は、AI倫理、説明可能なAI(XAI)、人間とコンピュータの相互作用(HCI)のインターフェースにおける学際的研究に貢献する。 モノトニック性が満たされない場合の破滅的な結果を見極めることにより、AIアプリケーションにおけるモノトニック性要件の重要性に対処する。 さらに、MNAMは、人間の知性を統合した単調性制約を課すことにより、効果的な公平性を考慮したMLアプローチであることを示す。

Algorithm fairness in the application of artificial intelligence (AI) is essential for a better society. As the foundational axiom of social mechanisms, fairness consists of multiple facets. Although the machine learning (ML) community has focused on intersectionality as a matter of statistical parity, especially in discrimination issues, an emerging body of literature addresses another facet -- monotonicity. Based on domain expertise, monotonicity plays a vital role in numerous fairness-related areas, where violations could misguide human decisions and lead to disastrous consequences. In this paper, we first systematically evaluate the significance of applying monotonic neural additive models (MNAMs), which use a fairness-aware ML algorithm to enforce both individual and pairwise monotonicity principles, for the fairness of AI ethics and society. We have found, through a hybrid method of theoretical reasoning, simulation, and extensive empirical analysis, that considering monotonicity axioms is essential in all areas of fairness, including criminology, education, health care, and finance. Our research contributes to the interdisciplinary research at the interface of AI ethics, explainable AI (XAI), and human-computer interactions (HCIs). By evidencing the catastrophic consequences if monotonicity is not met, we address the significance of monotonicity requirements in AI applications. Furthermore, we demonstrate that MNAMs are an effective fairness-aware ML approach by imposing monotonicity restrictions integrating human intelligence.
翻訳日:2023-01-18 13:26:04 公開日:2023-01-17
# 自動要約のためのトランスフォーマーによる実装

Transformer Based Implementation for Automatic Book Summarization ( http://arxiv.org/abs/2301.07057v1 )

ライセンス: Link先を確認
Siddhant Porwal, Laxmi Bewoor, Vivek Deshpande(参考訳) 文書要約 (Document Summarization) とは、ある文書の重要かつ簡潔な要約を関連点と重要点を含む形で生成する手続きである。 1つは文書自体から最も関連性の高い文を拾い上げ、それを抽出(Extractive)として知られる概要に追加し、もう1つは抽象要約(Abstractive Summarization)として知られる概要のための文を生成する。 機械学習モデルをトレーニングして、人間が評価することが非常に難しいタスクを実行することは、大きな課題です。 書籍抽象生成はそのような複雑なタスクの1つです。 従来の機械学習モデルは、事前訓練されたトランスフォーマーで修正されている。 自然言語処理(NLP)のために微調整されたテキスト要約のような下流タスクでは、トランスフォーマーベースの言語モデルが自己教師型で訓練されている。 この作業は、抽象生成にTransformerベースのテクニックを使用する試みである。

Document Summarization is the procedure of generating a meaningful and concise summary of a given document with the inclusion of relevant and topic-important points. There are two approaches: one is picking up the most relevant statements from the document itself and adding it to the Summary known as Extractive and the other is generating sentences for the Summary known as Abstractive Summarization. Training a machine learning model to perform tasks that are time-consuming or very difficult for humans to evaluate is a major challenge. Book Abstract generation is one of such complex tasks. Traditional machine learning models are getting modified with pre-trained transformers. Transformer based language models trained in a self-supervised fashion are gaining a lot of attention; when fine-tuned for Natural Language Processing(NLP) downstream task like text summarization. This work is an attempt to use Transformer based techniques for Abstract generation.
翻訳日:2023-01-18 13:25:36 公開日:2023-01-17
# 人工知能を用いた手術ビデオ解析におけるプライバシ保護: 内視鏡映像における体外シーン識別のためのディープラーニング分類器

Preserving Privacy in Surgical Video Analysis Using Artificial Intelligence: A Deep Learning Classifier to Identify Out-of-Body Scenes in Endoscopic Videos ( http://arxiv.org/abs/2301.07053v1 )

ライセンス: Link先を確認
Jo\"el L. Lavanchy, Armine Vardazaryan, Pietro Mascagni, AI4SafeChole Consortium, Didier Mutter, Nicolas Padoy(参考訳) 目的: 内視鏡映像における体外画像の同定のための深層学習モデルの開発と検証。 背景: 手術ビデオ解析は教育と研究を促進する。 しかし、内視鏡下手術の映像記録にはプライバシーに敏感な情報が含まれている。 したがって、内視鏡映像における体外シーンの同定は、患者や手術室スタッフのプライバシーを守る上で重要である。 方法:12種類の腹腔鏡下手術とロボット手術の内的データセットを用いて深層学習モデルを訓練し,評価した。 腹腔鏡下胃バイパス術と胆嚢摘出術の2つの独立した多心性検査データセットで外部検証を行った。 ビデオデータセットから抽出された画像はすべて、内部または外部としてアノテートされた。 曲線下特性領域(ROC AUC)を計測した人為的真実アノテーションと比較して, モデル性能を評価した。 結果:48本の動画から356,267枚の画像からなる内部データセットと10本と20本の動画から54,385枚と58,349枚の多心性テストデータセットを注釈した。 地上の真実のアノテーションと比較すると、このモデルは内部テストデータセット上で99.97%のLOC AUCで体外画像を特定した。 多心性胃バイパスデータセットにおける標準偏差ROC AUCの平均値は99.94$\pm$0.07%、多心性胆嚢摘出データセットでは99.71$\pm$0.40%であった。 結論: 提案する深層学習モデルは, 内視鏡映像中の体外画像を確実に識別できる。 トレーニングされたモデルは公開されています。 これにより、手術ビデオ解析におけるプライバシー保護が促進される。

Objective: To develop and validate a deep learning model for the identification of out-of-body images in endoscopic videos. Background: Surgical video analysis facilitates education and research. However, video recordings of endoscopic surgeries can contain privacy-sensitive information, especially if out-of-body scenes are recorded. Therefore, identification of out-of-body scenes in endoscopic videos is of major importance to preserve the privacy of patients and operating room staff. Methods: A deep learning model was trained and evaluated on an internal dataset of 12 different types of laparoscopic and robotic surgeries. External validation was performed on two independent multicentric test datasets of laparoscopic gastric bypass and cholecystectomy surgeries. All images extracted from the video datasets were annotated as inside or out-of-body. Model performance was evaluated compared to human ground truth annotations measuring the receiver operating characteristic area under the curve (ROC AUC). Results: The internal dataset consisting of 356,267 images from 48 videos and the two multicentric test datasets consisting of 54,385 and 58,349 images from 10 and 20 videos, respectively, were annotated. Compared to ground truth annotations, the model identified out-of-body images with 99.97% ROC AUC on the internal test dataset. Mean $\pm$ standard deviation ROC AUC on the multicentric gastric bypass dataset was 99.94$\pm$0.07% and 99.71$\pm$0.40% on the multicentric cholecystectomy dataset, respectively. Conclusion: The proposed deep learning model can reliably identify out-of-body images in endoscopic videos. The trained model is publicly shared. This facilitates privacy preservation in surgical video analysis.
翻訳日:2023-01-18 13:25:24 公開日:2023-01-17
# ActSafe: 薬物順守のための医療時間制限の違反予測

ActSafe: Predicting Violations of Medical Temporal Constraints for Medication Adherence ( http://arxiv.org/abs/2301.07051v1 )

ライセンス: Link先を確認
Parker Seegmiller, Joseph Gatto, Abdullah Mamun, Hassan Ghasemzadeh, Diane Cook, John Stankovic, and Sarah Masud Preum(参考訳) 処方薬はしばしば、服用前に食事をするなど、患者の定期的な健康行動(rhb)に時間的制約を課す。 このような時間的制約(MTC)の違反は副作用を引き起こす可能性がある。 このような違反を検知し、予測することは、患者に警告するのに役立つ。 我々はMDCをモデル化する問題を定式化し、概念実証ソリューションであるActSafeを開発し、MCCの違反を事前に予測する。 ActSafeは、文脈自由文法に基づくアプローチを用いて、患者の教材からMSCを抽出しマッピングする。 また、MSC(例えば薬物摂取量)中心のRHBを正確に予測する課題にも対処する。 新たな行動予測モデルであるherbertは,時系列のベクトル化を基本とし,時間的スケールと行動の持続時間にわたって一般化し,時間的コロケーション動作間の依存性を明示的に把握する。 HERBERTは、コントロールされていない環境下で28人の患者から収集された実世界のRHBデータセットを用いて評価を行い、平均51%のルート平均平方誤差でベースラインモデルを上回った。 ActSafeは慢性疾患患者の評価に基づいて、平均F1スコア0.86で1日前にMCC違反を予測することができる。

Prescription medications often impose temporal constraints on regular health behaviors (RHBs) of patients, e.g., eating before taking medication. Violations of such medical temporal constraints (MTCs) can result in adverse effects. Detecting and predicting such violations before they occur can help alert the patient. We formulate the problem of modeling MTCs and develop a proof-of-concept solution, ActSafe, to predict violations of MTCs well ahead of time. ActSafe utilizes a context-free grammar based approach for extracting and mapping MTCs from patient education materials. It also addresses the challenges of accurately predicting RHBs central to MTCs (e.g., medication intake). Our novel behavior prediction model, HERBERT , utilizes a basis vectorization of time series that is generalizable across temporal scale and duration of behaviors, explicitly capturing the dependency between temporally collocated behaviors. Based on evaluation using a real-world RHB dataset collected from 28 patients in uncontrolled environments, HERBERT outperforms baseline models with an average of 51% reduction in root mean square error. Based on an evaluation involving patients with chronic conditions, ActSafe can predict MTC violations a day ahead of time with an average F1 score of 0.86.
翻訳日:2023-01-18 13:24:57 公開日:2023-01-17
# FPGAにおけるエネルギー効率の良い再構成可能オートエンコーダの実装

An Energy-Efficient Reconfigurable Autoencoder Implementation on FPGA ( http://arxiv.org/abs/2301.07050v1 )

ライセンス: Link先を確認
Murat Isik, Matthew Oldland, Lifeng Zhou(参考訳) オートエンコーダは教師なしのニューラルネットワークであり、入力データを処理および圧縮し、元のデータサイズに復元するために使用される。 これにより、オートエンコーダは、データ圧縮、画像分類、画像ノイズ低減、画像カラー化などの異なる処理アプリケーションに使用できる。 ハードウェア面では、field programmable gate arrays(fpga)のような再構成可能なアーキテクチャが、柔軟性、性能、電力効率というユニークな組み合わせのために、複数のドメインから計算を加速するために使われてきた。 本稿では,様々なオートエンコーダについて検討し,fpgaおよびgpu実装における畳み込みオートエンコーダを用いて,ノイズの多い静的mnist画像を処理する。 FPGAとGPUベースの実装で得られた異なる結果を比較し、それぞれの実装の長所と短所について議論する。 提案手法の評価は80%の精度を実現し,実験結果から,100MHzで5.93Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現した。 既製デバイスと最近の最先端実装との比較結果から,提案する加速器はエネルギー効率と設計柔軟性の面で明らかに有利であることが示された。 また,提案する加速器を用いて実現可能な今後の課題についても検討する。

Autoencoders are unsupervised neural networks that are used to process and compress input data and then reconstruct the data back to the original data size. This allows autoencoders to be used for different processing applications such as data compression, image classification, image noise reduction, and image coloring. Hardware-wise, re-configurable architectures like Field Programmable Gate Arrays (FPGAs) have been used for accelerating computations from several domains because of their unique combination of flexibility, performance, and power efficiency. In this paper, we look at the different autoencoders available and use the convolutional autoencoder in both FPGA and GPU-based implementations to process noisy static MNIST images. We compare the different results achieved with the FPGA and GPU-based implementations and then discuss the pros and cons of each implementation. The evaluation of the proposed design achieved 80%accuracy and our experimental results show that the proposed accelerator achieves a throughput of 21.12 Giga-Operations Per Second (GOP/s) with a 5.93 W on-chip power consumption at 100 MHz. The comparison results with off-the-shelf devices and recent state-of-the-art implementations illustrate that the proposed accelerator has obvious advantages in terms of energy efficiency and design flexibility. We also discuss future work that can be done with the use of our proposed accelerator.
翻訳日:2023-01-18 13:24:37 公開日:2023-01-17
# 量子望遠鏡に向けて:量子天文学のための2光子干渉計の実証

Towards Quantum Telescopes: Demonstration of a Two-Photon Interferometer for Quantum-Assisted Astronomy ( http://arxiv.org/abs/2301.07042v1 )

ライセンス: Link先を確認
Jesse Crawford, Denis Dolzhenko, Michael Keach, Aaron Mueninghoff, Raphael A. Abrahao, Julian Martinez-Rincon, Paul Stankus, Stephen Vintskevich, Andrei Nomerotski(参考訳) 天文学で広く用いられる光学的極長ベースライン干渉計(VLBI)は、基地線距離に制限を与える位相安定光リンクを必要とし、測定精度を制限している。 ここでは、2光子量子アシスト干渉計の新たなタイプについて述べる。宇宙論や天体物理学の多くの分野の利点を生かして、桁違いに精度を向上させることができるかもしれない。 干渉計のテーブルトップ版をテストし、2つの熱光源からの光子対の検出における相関挙動を理論的予測と一致してあいまいに観測した。 この研究は天文学的な測定の新しい可能性を開く。

Optical Very-Long-Baseline Interferometers (VLBI), widely used in astronomy, require phase-stable optical links across stations, which impose a limit on baseline distances, and, in turn, limits measurement precision. Here we describe a novel type of two-photon quantum-assisted interferometer, which may allow improvements in precision by orders of magnitude benefiting numerous fields in cosmology and astrophysics. We tested a tabletop version of the interferometer and unambiguously observe correlated behavior in detections of photon pairs from two thermal light sources, in agreement with theoretical predictions. This work opens new possibilities in astronomical measurements.
翻訳日:2023-01-18 13:24:09 公開日:2023-01-17
# クラスター構造をもつ潜在バンディットの最適アルゴリズム

Optimal Algorithms for Latent Bandits with Cluster Structure ( http://arxiv.org/abs/2301.07040v1 )

ライセンス: Link先を確認
Soumyabrata Pal, Arun Sai Suggala, Karthikeyan Shanmugam, Prateek Jain(参考訳) 本稿では,複数のユーザが存在するクラスタ構造を持つ潜伏包帯問題と関連するマルチアーム包帯問題とを考察する。 これらのユーザは,同一クラスタ内のユーザの平均報酬ベクトルが同一になるように,\emph{latent}クラスタにグループ化される。 各ラウンドにおいて、ランダムに選択されたユーザは、腕を引っ張り、対応する騒がしい報酬を観察する。 ユーザーの目標は累積報酬を最大化することだ。 この問題は実用的なレコメンデーションシステムの中心であり、late \cite{gentile2014online, maillard2014latent} の注目を集めている。 さて、もし各ユーザーが独立して振る舞うなら、それぞれの腕を独立に探索し、$\omega(\sqrt{\mathsf{mnt}})$の後悔は避けられない、ただし$\mathsf{m} と \mathsf{n}$ はそれぞれ腕の数とユーザ数である。 代わりに、潜在クラスタ構造の活用により、クラスタ数が$\widetilde{o}(1)$である場合に、$\widetilde{o}(\sqrt{o}(\mathsf{m}+\mathsf{n})\mathsf{t}})$の最小の最適後悔を与える格子(行列完了によるラテンバンド)を提案する。 これはそのような強い後悔の束縛を保証する最初のアルゴリズムである。 latticeは、ユーザをクラスタリングしながら、クラスタ内のarm情報の慎重な活用に基づいている。 さらに、計算効率が良く、すべての$\mathsf{T}$ラウンドでオフライン行列補完オラクルを呼び出すのに$O(\log{\mathsf{T}})$しか必要としない。

We consider the problem of latent bandits with cluster structure where there are multiple users, each with an associated multi-armed bandit problem. These users are grouped into \emph{latent} clusters such that the mean reward vectors of users within the same cluster are identical. At each round, a user, selected uniformly at random, pulls an arm and observes a corresponding noisy reward. The goal of the users is to maximize their cumulative rewards. This problem is central to practical recommendation systems and has received wide attention of late \cite{gentile2014online, maillard2014latent}. Now, if each user acts independently, then they would have to explore each arm independently and a regret of $\Omega(\sqrt{\mathsf{MNT}})$ is unavoidable, where $\mathsf{M}, \mathsf{N}$ are the number of arms and users, respectively. Instead, we propose LATTICE (Latent bAndiTs via maTrIx ComplEtion) which allows exploitation of the latent cluster structure to provide the minimax optimal regret of $\widetilde{O}(\sqrt{(\mathsf{M}+\mathsf{N})\mathsf{T}})$, when the number of clusters is $\widetilde{O}(1)$. This is the first algorithm to guarantee such a strong regret bound. LATTICE is based on a careful exploitation of arm information within a cluster while simultaneously clustering users. Furthermore, it is computationally efficient and requires only $O(\log{\mathsf{T}})$ calls to an offline matrix completion oracle across all $\mathsf{T}$ rounds.
翻訳日:2023-01-18 13:23:57 公開日:2023-01-17
# オープンエンディングによる3Dオブジェクトのセグメンテーションと認識

Explain What You See: Open-Ended Segmentation and Recognition of Occluded 3D Objects ( http://arxiv.org/abs/2301.07037v1 )

ライセンス: Link先を確認
H. Ayoobi, H. Kasaei, M. Cao, R. Verbrugge, B. Verheij(参考訳) Local-HDP (Local Hierarchical Dirichlet Process) は階層的ベイズ法であり、最近オープンな3次元オブジェクトカテゴリ認識に使われている。 この方法はリアルタイムロボット応用において効率的であることが証明されている。 しかし、この方法は高い閉塞率には耐えられない。 この制限を2つのステップで解決する。 まず,局所hdpの柔軟性を有する意味的3次元オブジェクト分割手法を提案する。 この方法は、3Dオブジェクトやオブジェクト部品の数が固定されておらず、時間とともに成長できるオープンエンドシナリオに適している。 提案手法は,より少ない数の学習インスタンスを用いて,連合間の平均交叉率が高いことを示す。 第二に、この手法を最近導入された議論に基づくオンライン漸進学習手法と統合することにより、モデルを高い閉塞度で扱えるようにする。 得られたモデルが3次元オブジェクトカテゴリ認識タスクに対して明確な説明セットを生成することを示す。

Local-HDP (for Local Hierarchical Dirichlet Process) is a hierarchical Bayesian method that has recently been used for open-ended 3D object category recognition. This method has been proven to be efficient in real-time robotic applications. However, the method is not robust to a high degree of occlusion. We address this limitation in two steps. First, we propose a novel semantic 3D object-parts segmentation method that has the flexibility of Local-HDP. This method is shown to be suitable for open-ended scenarios where the number of 3D objects or object parts is not fixed and can grow over time. We show that the proposed method has a higher percentage of mean intersection over union, using a smaller number of learning instances. Second, we integrate this technique with a recently introduced argumentation-based online incremental learning method, thereby enabling the model to handle a high degree of occlusion. We show that the resulting model produces an explicit set of explanations for the 3D object category recognition task.
翻訳日:2023-01-18 13:23:19 公開日:2023-01-17
# ドイツ(抽象的)テキスト要約の現状について

On the State of German (Abstractive) Text Summarization ( http://arxiv.org/abs/2301.07095v1 )

ライセンス: Link先を確認
Dennis Aumiller and Jing Fan and Michael Gertz(参考訳) 近年の自然言語処理分野の進歩により、ドイツ語を含む、純粋に英語中心の視点から言語固有のソリューションへと徐々に焦点が移っている。 企業がテキストデータ量の増加を分析するための特に実用的な方法は、長い入力文書を圧縮し、より消化しやすい要約テキストに変換するテキスト要約システムである。 本研究は,ドイツにおける抽象的テキスト要約の特定の景観を評価し,その実用的解決法がいまだに業界に欠落している理由について考察する。 私たちの焦点は2倍分析です a) 訓練資源,及び b) 一般公開された要約システム 既存の一般的なデータセットは、元のソースに関する仮定に重大な欠陥があり、しばしばシステムの一般化と評価バイアスに有害な影響を及ぼすことを示すことができる。 最も一般的なトレーニングデータセットであるMLSUMでは、50%以上のトレーニングセットが抽象的な要約目的には適さないことを確認します。 さらに、利用可能なシステムは単純なベースラインと比較できないことが多く、より効率的で効率的な抽出要約アプローチを無視している。 トレーニングのために考慮された質的な(そして多様な)金のデータ不足、既存のデータセットのいくつかで検討された(そして未処理の)位置バイアス、アクセスが容易で合理化された前処理戦略や分析ツールの欠如。 浄化したデータセット上で利用可能なモデルの包括的評価を行い,評価中に20ルージュ1ポイント以上を削減できることを見いだした。 データセットのフィルタリングと再生のコードは、https://github.com/dennlinger/summariesで見ることができる。

With recent advancements in the area of Natural Language Processing, the focus is slowly shifting from a purely English-centric view towards more language-specific solutions, including German. Especially practical for businesses to analyze their growing amount of textual data are text summarization systems, which transform long input documents into compressed and more digestible summary texts. In this work, we assess the particular landscape of German abstractive text summarization and investigate the reasons why practically useful solutions for abstractive text summarization are still absent in industry. Our focus is two-fold, analyzing a) training resources, and b) publicly available summarization systems. We are able to show that popular existing datasets exhibit crucial flaws in their assumptions about the original sources, which frequently leads to detrimental effects on system generalization and evaluation biases. We confirm that for the most popular training dataset, MLSUM, over 50% of the training set is unsuitable for abstractive summarization purposes. Furthermore, available systems frequently fail to compare to simple baselines, and ignore more effective and efficient extractive summarization approaches. We attribute poor evaluation quality to a variety of different factors, which are investigated in more detail in this work: A lack of qualitative (and diverse) gold data considered for training, understudied (and untreated) positional biases in some of the existing datasets, and the lack of easily accessible and streamlined pre-processing strategies or analysis tools. We provide a comprehensive assessment of available models on the cleaned datasets, and find that this can lead to a reduction of more than 20 ROUGE-1 points during evaluation. The code for dataset filtering and reproducing results can be found online at https://github.com/dennlinger/summaries
翻訳日:2023-01-18 13:17:43 公開日:2023-01-17
# 検索型知識を用いたカスタマイズ視覚モデル学習

Learning Customized Visual Models with Retrieval-Augmented Knowledge ( http://arxiv.org/abs/2301.07094v1 )

ライセンス: Link先を確認
Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, Chunyuan Li(参考訳) CLIPのような画像テキストコントラスト学習モデルは、強いタスク転送能力を示している。 これらのビジュアルモデルの高い汎用性と使いやすさは、幅広い概念のカバレッジを確保するために、webスケールのデータ収集プロセスを通じて達成されます。 また、関連するweb知識を取得して、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するためのフレームワークであるreact, search-augmented customizationを提案する。 webスケールデータベースから最も関連性の高い画像テキストペア(約3%のクリップ事前学習データ)を外部知識として抽出し、元の重みを凍結しながら、新しいモーフィラライズドブロックをトレーニングするだけでモデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。 特にゼロショット分類タスクでは、クリップと比較してimagenetで5.4%、elevaterベンチマーク(20データセット)で3.7%改善されている。

Image-text contrastive learning models such as CLIP have demonstrated strong task transfer ability. The high generality and usability of these visual models is achieved via a web-scale data collection process to ensure broad concept coverage, followed by expensive pre-training to feed all the knowledge into model weights. Alternatively, we propose REACT, REtrieval-Augmented CusTomization, a framework to acquire the relevant web knowledge to build customized visual models for target domains. We retrieve the most relevant image-text pairs (~3% of CLIP pre-training data) from the web-scale database as external knowledge, and propose to customize the model by only training new modualized blocks while freezing all the original weights. The effectiveness of REACT is demonstrated via extensive experiments on classification, retrieval, detection and segmentation tasks, including zero, few, and full-shot settings. Particularly, on the zero-shot classification task, compared with CLIP, it achieves up to 5.4% improvement on ImageNet and 3.7% on the ELEVATER benchmark (20 datasets).
翻訳日:2023-01-18 13:17:19 公開日:2023-01-17
# GLIGEN: オープンセットのテキスト-画像生成

GLIGEN: Open-Set Grounded Text-to-Image Generation ( http://arxiv.org/abs/2301.07093v1 )

ライセンス: Link先を確認
Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee(参考訳) 大規模テキスト・画像拡散モデルは驚くべき進歩を遂げた。 しかし、ステータスクオはテキスト入力のみを使用することで、制御可能性を妨げる可能性がある。 本研究では,GLIGEN, Grounded-Language-to-Image Generationを提案する。GLIGENは,既存の学習済みテキスト・画像拡散モデルの機能を基盤として構築し,拡張する新しいアプローチである。 事前学習されたモデルの膨大な概念知識を維持するため、全ての重量を凍結し、ゲート機構を介して新しいトレーニング可能な層に接地情報を注入する。 本モデルでは,キャプションとバウンディングボックス条件入力によるオープンワールドグラウンドドテキスト2img生成を実現し,新しい空間構成や概念へのグラウンド化機能を一般化する。 GLIGENのCOCOおよびLVISでのゼロショット性能は、既存の教師付きレイアウト・ツー・イメージベースラインよりも大きなマージンで優れている。

Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that builds upon and extends the functionality of existing pre-trained text-to-image diffusion models by enabling them to also be conditioned on grounding inputs. To preserve the vast concept knowledge of the pre-trained model, we freeze all of its weights and inject the grounding information into new trainable layers via a gated mechanism. Our model achieves open-world grounded text2img generation with caption and bounding box condition inputs, and the grounding ability generalizes well to novel spatial configuration and concepts. GLIGEN's zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin.
翻訳日:2023-01-18 13:16:59 公開日:2023-01-17
# 局所量子多体力学の統一理論:固有型熱化定理

Unified theory of local quantum many-body dynamics: Eigenoperator thermalization theorems ( http://arxiv.org/abs/2301.07091v1 )

ライセンス: Link先を確認
Berislav Bu\v{c}a(参考訳) 量子多体力学を説明することは物理学の長年の目標である。 任意の次元の局所相互作用系における力学の厳密な作用素代数理論は、時間依存ギブスアンサンブル(英語版)の観点で与えられる。 この理論は閉、開、時間依存のシステムと時間依存のギブズアンサンブルのダイナミクスを説明し、量子非エルゴードおよびエルゴード系の広いクラスを統一する。 この理論は量子多体傷、連続的、離散的、散逸的時間結晶、ヒルベルト空間の断片化、格子ゲージ理論、無秩序な局所化などに応用される。 プロジェクテッド局所(英: projected-local)は、ある状態に対してのみ局所であり、その局所性は有限個の局所密度と過渡的密度で表されないが、有限時間緩和力学を規定する。 直近の回廊は、ドリューデ重みのマズールの飽和を証明している。 この証明された理論は直観的には弱固有状態熱化仮説の厳密な代数的対応であり、熱力学に深い意味を持つ: 量子多体系「平衡外」は常に任意の自然初期状態の時間依存平衡状態である。 この研究は、新しく同定されたスカーリング相転移を例として、新しい非平衡相を設計する可能性を開く。

Explaining quantum many-body dynamics is a long-held goal of physics. A rigorous operator algebraic theory of dynamics in locally interacting systems in any dimension is provided here in terms of time-dependent Gibbs ensembles. The theory explains dynamics in closed, open and time-dependent systems and time-dependent Gibbs ensembles unify wide classes of quantum non-ergodic and ergodic systems. The theory is applied to quantum many-body scars, continuous, discrete and dissipative time crystals, Hilbert space fragmentation, lattice gauge theories, and disorder-free localization, among other cases. Novel pseudo-local classes of operators are introduced in the process: projected-local, which are local only for some states, crypto-local, whose locality is not manifest in terms of any finite number of local densities and transient ones, that dictate finite-time relaxation dynamics. An immediate corollary is proving saturation of the Mazur bound for the Drude weight. This proven theory is intuitively the rigorous algebraic counterpart of the weak eigenstate thermalization hypothesis and has deep implications for thermodynamics: quantum many-body systems 'out-of-equilibrium' are actually always in a time-dependent equilibrium state for any natural initial state. The work opens the possibility of designing novel out-of-equilibrium phases, with the newly identified scarring phase transition being an example.
翻訳日:2023-01-18 13:16:42 公開日:2023-01-17
# 視覚学習者がWebイメージテキストペアを語る

Vision Learners Meet Web Image-Text Pairs ( http://arxiv.org/abs/2301.07088v1 )

ライセンス: Link先を確認
Bingchen Zhao, Quan Cui, Hao Wu, Osamu Yoshie, Cheng Yang(参考訳) 最近のself-supervised learning~(ssl)メソッドは、imagenet-1kデータセットで事前トレーニングされている。 本研究では,Webデータのスケーラビリティに優れたため,ノイズの多いWeb画像とテキストのペアデータに対するSSL事前トレーニングを検討する。 まず,大規模なWebデータに対するSSLプリトレーニング手法を公正な条件でベンチマーク研究する。 メソッドには、MAEのようなシングルモーダルなものとCLIPのようなマルチモーダルのものが含まれる。 視覚伝達学習タスクにおいて,マルチモーダル手法は単一モーダル手法よりも優れていない。 我々は,新しい視覚学習者の設計への洞察を提供するベンチマーク結果を説明するための情報理論的視点を導出する。 上記の探索に触発されて、スケーラブルなWeb画像テキストデータのための視覚表現事前学習手法MUlti-modal Generator~(MUG)を提案する。 MUGは様々なタスクにおける最先端の転送性能を実現し、有望なスケーリング動作を示す。 モデルとコードは公開されます。 https://huggingface.co/spaces/tennant/MUG_captionで利用可能なデモ

Most recent self-supervised learning~(SSL) methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, we consider SSL pre-training on noisy web image-text paired data due to the excellent scalability of web data. First, we conduct a benchmark study of representative SSL pre-training methods on large-scale web data in a fair condition. Methods include single-modal ones such as MAE and multi-modal ones such as CLIP. We observe that multi-modal methods cannot outperform single-modal ones on vision transfer learning tasks. We derive an information-theoretical view to explain the benchmarking results, which provides insights into designing novel vision learners. Inspired by the above explorations, we present a visual representation pre-training method, MUlti-modal Generator~(MUG), for scalable web image-text data. MUG achieves state-of-the-art transferring performances on a variety of tasks and shows promising scaling behavior. Models and codes will be made public. Demo available at https://huggingface.co/spaces/tennant/MUG_caption
翻訳日:2023-01-18 13:16:16 公開日:2023-01-17
# MooseNet:pldaバックエンドを用いた合成音声のトレーニング可能なメトリック

MooseNet: A trainable metric for synthesized speech with plda backend ( http://arxiv.org/abs/2301.07087v1 )

ライセンス: Link先を確認
Ond\v{r}ej Pl\'atek, Ond\v{r}ej Du\v{s}ek(参考訳) リスナーの平均意見スコア(mos)を予測する学習可能な音声指標であるmoosenetを提案する。 提案手法は,sslモデルにも適用できるため,簡易なモデリング手法を用いて,課題ベースラインの改善を報告した。 2つのモデルを紹介します 最初のモデルはニューラルネットワーク(NN)である。 第2のモデルとして、第1のNNモデルのトップ層上のPLDA生成モデルを提案し、純粋なNNモデルを改善する。 2つのモデルのアンサンブルは、すべてのシステムと発話レベルメトリクスで、トップ3か4のvoicemosリーダーボードの場所を達成する。

We present MooseNet, a trainable speech metric that predicts listeners' Mean Opinion Score (MOS). We report improvements to the challenge baselines using easy-to-use modeling techniques, which also scales for larger self-supervised learning (SSL) model. We present two models. The first model is a Neural Network (NN). As a second model, we propose a PLDA generative model on the top layers of the first NN model, which improves the pure NN model. Ensembles from our two models achieve the top 3 or 4 VoiceMOS leaderboard places on all system and utterance level metrics.
翻訳日:2023-01-18 13:16:00 公開日:2023-01-17
# 言語モデルは後続のプロンプトで人間より悪いか? 複雑です

Are Language Models Worse than Humans at Following Prompts? It's Complicated ( http://arxiv.org/abs/2301.07085v1 )

ライセンス: Link先を確認
Albert Webson, Alyssa Marie Loo, Qinan Yu, Ellie Pavlick(参考訳) プロンプトは言語モデルのゼロショットと少数ショットのパフォーマンスの進歩の中心である。 しかし、最近の研究では、意図的な無関係や誤解を招くプロンプトが与えられた場合、モデルは驚くほどうまく機能することがわかった。 このような結果は、モデル行動が「人間らしくない」という証拠として解釈できる。 本研究は,病的指示が与えられた場合,人間は良く行動する,という研究の中心的な前提に挑戦する。 人間は無関係な指示を確実に無視することができ、従ってモデルのように、要求されるタスクに関する信号が明らかに不足しているにもかかわらず、基礎となるタスクでうまく機能する。 しかし、故意に誤解を招く指示を受けると、人間は忠実に指示に従うが、モデルは従わない。 このように、我々の結論は以前の仕事と混同される。 我々は、無関係なプロンプトによるハイパフォーマンスがモデルの命令理解に対する証拠となるという以前の主張に反対するが、モデルが誤った指示に従わなかったことが懸念を引き起こすという主張を補強する。 より広範に、今後の研究は、人間の行動がモノリスとして理想化されるべきではなく、人間の行動が経験的に検証されることなく、これらの行動に関する仮定を模倣するモデルを訓練または評価すべきではない、と警告する。

Prompts have been the center of progress in advancing language models' zero-shot and few-shot performance. However, recent work finds that models can perform surprisingly well when given intentionally irrelevant or misleading prompts. Such results may be interpreted as evidence that model behavior is not "human like". In this study, we challenge a central assumption in such work: that humans would perform badly when given pathological instructions. We find that humans are able to reliably ignore irrelevant instructions and thus, like models, perform well on the underlying task despite an apparent lack of signal regarding the task they are being asked to do. However, when given deliberately misleading instructions, humans follow the instructions faithfully, whereas models do not. Thus, our conclusion is mixed with respect to prior work. We argue against the earlier claim that high performance with irrelevant prompts constitutes evidence against models' instruction understanding, but we reinforce the claim that models' failure to follow misleading instructions raises concerns. More broadly, we caution that future research should not idealize human behaviors as a monolith and should not train or evaluate models to mimic assumptions about these behaviors without first validating humans' behaviors empirically.
翻訳日:2023-01-18 13:15:52 公開日:2023-01-17
# 適応的プライベート平均推定のための高速アルゴリズム

A Fast Algorithm for Adaptive Private Mean Estimation ( http://arxiv.org/abs/2301.07078v1 )

ライセンス: Link先を確認
John Duchi and Saminul Haque and Rohith Kuditipudi(参考訳) 我々は、$(\varepsilon, \delta)$-differentially private algorithmを設計し、$d$-variate分布の平均を推定する。 多対数因子において、推定器は、誘導されたマハラノビスノルムである ||\cdot|_\sigma$ に関して最適な収束率を達成し、計算には $\tilde{o}(n d^2)$ を要し、サブガウス分布の線形なサンプル複雑性を持ち、$\sigma$ を縮退または低位にし、サブガウス性を超えて適応的に拡張する。 この研究に先立ち、他の手法では指数関数計算時間や超線形スケーリング $n = \omega(d^{3/2})$ が必要となり、ノルム $|\cdot||_\sigma$ に対して非自明な誤差が生じた。

We design an $(\varepsilon, \delta)$-differentially private algorithm to estimate the mean of a $d$-variate distribution, with unknown covariance $\Sigma$, that is adaptive to $\Sigma$. To within polylogarithmic factors, the estimator achieves optimal rates of convergence with respect to the induced Mahalanobis norm $||\cdot||_\Sigma$, takes time $\tilde{O}(n d^2)$ to compute, has near linear sample complexity for sub-Gaussian distributions, allows $\Sigma$ to be degenerate or low rank, and adaptively extends beyond sub-Gaussianity. Prior to this work, other methods required exponential computation time or the superlinear scaling $n = \Omega(d^{3/2})$ to achieve non-trivial error with respect to the norm $||\cdot||_\Sigma$.
翻訳日:2023-01-18 13:15:31 公開日:2023-01-17
# segviz: 異なるアノテーションと不完全なアノテーションを持つ分散データセットから医用画像セグメンテーションのための連合学習フレームワーク

SegViz: A Federated Learning Framework for Medical Image Segmentation from Distributed Datasets with Different and Incomplete Annotations ( http://arxiv.org/abs/2301.07074v1 )

ライセンス: Link先を確認
Adway U. Kanhere, Pranav Kulkarni, Paul H. Yi, Vishwa S. Parekh(参考訳) セグメンテーションは、複数の下流臨床応用のために、医学画像におけるディープラーニングの応用における主要なタスクの1つである。 その結果、多くの大規模セグメンテーションデータセットが、異なる解剖学的構造のセグメンテーションのためにキュレーションされ、リリースされた。 しかしながら、これらのデータセットは、体内の解剖学的構造のサブセットのセグメンテーションに焦点を当てているため、各データセットのモデルのトレーニングは、数百のモデルをもたらす可能性があり、その臨床的翻訳能力を制限する可能性がある。 さらに、これらのデータセットの多くは同じ視野を共有しているが、アノテーションのサブセットが異なるため、個々のデータセットアノテーションは不完全である。 そこで我々は,異なるアノテーションと不完全なアノテーションを持つ分散医用画像セグメンテーションデータセットから知識を‘グローバル’メタモデルに集約する,連合学習フレームワークであるSegVizを開発した。 SegVizフレームワークは、肝臓と脾臓の両方をセグメント化し、これらのノードから知識を集約する単一のモデルを構築するように訓練された。 グローバルsegvizモデルは、dice similarity (ds) メトリックを用いて、肝臓と脾臓のアノテーションを含む頭蓋骨ヴォールト(btcv)を超えて、外部データセット上でテストされた。 それぞれのデータセットで訓練した脾臓および肝臓の基線別セグメンテーションモデルでは,BTCV試験セットのDSスコアは0.834,0.878であった。 一方、SegVizモデルでは、脾臓と肝臓の分画に対してそれぞれ0.829と0.899の平均DSスコアが得られた。 以上の結果から,segvizは分散データセットから臨床翻訳可能なマルチタスクセグメンテーションモデルを訓練するための重要な第一歩である。

Segmentation is one of the primary tasks in the application of deep learning in medical imaging, owing to its multiple downstream clinical applications. As a result, many large-scale segmentation datasets have been curated and released for the segmentation of different anatomical structures. However, these datasets focus on the segmentation of a subset of anatomical structures in the body, therefore, training a model for each dataset would potentially result in hundreds of models and thus limit their clinical translational utility. Furthermore, many of these datasets share the same field of view but have different subsets of annotations, thus making individual dataset annotations incomplete. To that end, we developed SegViz, a federated learning framework for aggregating knowledge from distributed medical image segmentation datasets with different and incomplete annotations into a `global` meta-model. The SegViz framework was trained to build a single model capable of segmenting both liver and spleen aggregating knowledge from both these nodes by aggregating the weights after every 10 epochs. The global SegViz model was tested on an external dataset, Beyond the Cranial Vault (BTCV), comprising both liver and spleen annotations using the dice similarity (DS) metric. The baseline individual segmentation models for spleen and liver trained on their respective datasets produced a DS score of 0.834 and 0.878 on the BTCV test set. In comparison, the SegViz model produced comparable mean DS scores of 0.829 and 0.899 for the segmentation of the spleen and liver respectively. Our results demonstrate SegViz as an essential first step towards training clinically translatable multi-task segmentation models from distributed datasets with disjoint incomplete annotations with excellent performance.
翻訳日:2023-01-18 13:15:06 公開日:2023-01-17
# 機械翻訳のための大規模言語モデルの提案 : 事例研究

Prompting Large Language Model for Machine Translation: A Case Study ( http://arxiv.org/abs/2301.07069v1 )

ライセンス: Link先を確認
Biao Zhang, Barry Haddow, Alexandra Birch(参考訳) プロンプトの研究は、多くのタスクにわたる教師付きトレーニングをほとんどあるいは全く行わず、優れたパフォーマンスを示している。 しかし、機械翻訳の推進は文学ではいまだに未熟である。 このギャップを埋めるために,翻訳のプロンプト戦略に関する体系的な研究を行い,プロンプトテンプレートとサンプル選択のさまざまな要因を調査した。 さらに,単言語データの利用と,言語間,クロスドメイン,文書間転送学習の実現可能性について検討した。 試験ベッドとしてのglm-130b(zeng et al., 2022)の広範囲実験 1) プロンプト例の個数及び品質は,準最適例を用いて翻訳を退化させる場合に問題となる。 2) 意味的類似性などの素早い例のいくつかの特徴は,その素早い性能とスピアマンの有意な相関を示すが,相関性は十分強くない。 3) ゼロショットプロンプトによる単言語データから構築した擬似並列プロンプト例を用いることで翻訳が向上する。 4) 他の設定で選択したプロンプト例から知識を転送することにより、パフォーマンスの向上を実現する。 最終的に、モデル出力の分析を行い、まだ苦しめられているいくつかの問題について議論する。

Research on prompting has shown excellent performance with little or even no supervised training across many tasks. However, prompting for machine translation is still under-explored in the literature. We fill this gap by offering a systematic study on prompting strategies for translation, examining various factors for prompt template and demonstration example selection. We further explore the use of monolingual data and the feasibility of cross-lingual, cross-domain, and sentence-to-document transfer learning in prompting. Extensive experiments with GLM-130B (Zeng et al., 2022) as the testbed show that 1) the number and the quality of prompt examples matter, where using suboptimal examples degenerates translation; 2) several features of prompt examples, such as semantic similarity, show significant Spearman correlation with their prompting performance; yet, none of the correlations are strong enough; 3) using pseudo parallel prompt examples constructed from monolingual data via zero-shot prompting could improve translation; and 4) improved performance is achievable by transferring knowledge from prompt examples selected in other settings. We finally provide an analysis on the model outputs and discuss several problems that prompting still suffers from.
翻訳日:2023-01-18 13:14:34 公開日:2023-01-17