このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230119となっている論文です。

PDF登録状況(公開日: 20230119)

TitleAuthorsAbstract論文公表日・翻訳日
# 確率的絡み換えにおける閾値効果

Threshold effect for probabilistic entanglement swapping ( http://arxiv.org/abs/2107.07689v2 )

ライセンス: Link先を確認
Luis Roa Oppliger, Torben L. Purz, Ariana Mu\~noz, Sebasti\'an Castro, Gonzalo Hidalgo, David Montoya(参考訳) 基本 \emph{entanglement swapping protocol} は、2つの量子ビットを最大に絡み合った状態に投影することができる。 決定論的スワップにとって重要な要素は、最初は2組の量子ビットに含まれていた最大エンタングルメントとベル基底に投影する能力である。 したがって、基本的および決定論的絡み合い交換スキームは3つの最大絡み合いを含む。 本研究では,初期絡み込み量が異なる確率的絡み合わせプロセスを提案する。 さらに,非ベル測定ベイジでは,第3の絡み合いレベルを導入することを提案する。 EPRプロジェクションを確率的に達成するための局所的なメカニズムとして, \emph{unambiguous state extract scheme を提案する。 これら3つの要素を組み合わせることで、確率的絡み合わせを行うための4つの戦略を設計できる。 意外なことに、測定基底の収束に関連する2倍の絡み合い閾値効果が見つかる。 具体的には、EPR投影を達成できる最大確率は、閾値絡み値よりも高いコンカレンスに対して定数となる。 そこで本研究では,epr投影を実現するには測定値の最大絡み合いが不要であることを示す。

The basic \emph{entanglement swapping protocol} allows to project two qubits, which have never interacted, onto a maximally entangled state. For deterministic swapping, the key ingredient is the maximal entanglement that was initially contained in two pairs of qubits and the capacity of projecting onto a Bell basis. Thus the basic and deterministic entanglement swapping scheme involves three maximal level of entanglement. In this work we propose probabilistic entanglement swapping processes performed with different amounts of initial entanglement. Besides that we suggest a non Bell measuring-basis, to introduce a third entanglement level in the process. Additionally, we propose the \emph{unambiguous state extraction scheme} as the local mechanism for probabilistically achieving the EPR projection. The combination of these three elements allows us to design four strategies for performing probabilistic entanglement swapping. Surprisingly, we find a twofold entanglement threshold effect related to the concurrence of the measuring-basis. Specifically, the maximal probability of accomplishing a EPR projection becomes a constant for concurrences higher than or equal to threshold entanglement value. Thus, we show that maximal entanglement in the measuring-basis is not required for attaining the EPR projection.
翻訳日:2023-03-22 03:21:32 公開日:2023-01-19
# ウィグナー電流におけるトポロジカル電荷保護の実験的研究

Experimental Demonstration of Topological Charge Protection in Wigner Current ( http://arxiv.org/abs/2111.08285v2 )

ライセンス: Link先を確認
Yi-Ru Chen, Hsien-Yi Hsieh, Jingyu Ning, Hsun-Chung Wu, Hua Li Chen, You-Lin Chuang, Popo Yang, Ole Steuernagel, Chien-Ming Wu, and Ray-Kuang Lee(参考訳) 我々は初めてウィグナーの量子位相空間ダイナミクスの電流を実験的に再構成した。 圧縮真空状態と環境との結合による減衰・拡散に関連する「push-and-pull」を明らかにする。古典力学では、(ゼロ温度で)系を位相空間の原点に向かって``pulls"するだけであるのに対し、我々の系はハイゼンベルクの不確実性関係に従わなければならないため、外向きの「push」も観察する。 可変励起レベルにおける光パラメトリック発振器によって生じる圧縮真空状態により, 純スキーズ動特性とその中央停滞点を, 位相電荷=1$で同定する。 我々は, この電荷が弱く, 強いデコヒーレンス状態に対して保護されていることを実験的に検証した。 この研究は高分解能を示し、開量子系の力学の量子性および非古典性を測定する実験パラダイムを確立する。

We experimentally reconstruct Wigner's current of quantum phase space dynamics for the first time. We reveal the ``push-and-pull" associated with damping and diffusion due to the coupling of a squeezed vacuum state to its environment. In contrast to classical dynamics, where (at zero temperature) dissipation only ``pulls" the system toward the origin of phase space, we also observe an outward ``push" because our system has to obey Heisenberg's uncertainty relations. With squeezed vacuum states generated by an optical parametric oscillator at variable pumping levels, we identify the pure squeezing dynamics and its central stagnation point with a topological charge of `$-1$'. We experimentally verify that this charge is protected for weakly as well as strongly decohering conditions. This work demonstrates high resolving power and establishes an experimental paradigm for measuring quantumness and non-classicality of the dynamics of open quantum systems.
翻訳日:2023-03-08 00:10:42 公開日:2023-01-19
# 記号ラベリングの重要性について--ハンブルク手話表記システムの事例研究

On the Importance of Sign Labeling: The Hamburg Sign Language Notation System Case Study ( http://arxiv.org/abs/2302.10768v1 )

ライセンス: Link先を確認
Maria Ferlin and Sylwia Majchrowska and Marta Plantykow and Alicja Kwa\'sniwska and Agnieszka Miko{\l}ajczyk-Bare{\l}a and Milena Olech and Jakub Nalepa(参考訳) ラベル付けは教師付き機械学習の基礎であり、様々なアプリケーションで利用されており、手話認識はその1つとなっている。 しかし、そのようなアルゴリズムはトレーニングプロセス中に大量のラベル付きデータを供給し、十分に一般化されたモデルを精査する必要がある。 加えて、全国的に多様化した手話で機能する自動化ソリューションは、非常に必要です。 ハンブルク手話表記システム(HamNoSys)のような言語に依存しない転写システムがあり、署名者の初期位置と身体の動きを記述しているが、現実のすべてのユースケースに正確で信頼性の高いラベルを提供することには問題がある。 この文脈では、業界は利用可能なビデオデータの手動属性とラベル付けに大きく依存している。 本研究では,この課題に対処し,オープンサイン言語コーパスの様々なメンテナが提供したHamNoSysラベルを5つの手話言語で徹底的に分析し,ビデオデータのラベル付けに直面する課題について検討する。 また,機械学習モデルの学習を目的としたHamNoSysベースのラベルの一貫性と客観性についても検討する。 本研究は,現在のラベリング手法の限界に関する貴重な知見を提供し,手話認識のためのより正確で効率的なソリューションを開発するための今後の研究への道を開く。

Labeling is the cornerstone of supervised machine learning, which has been exploited in a plethora of various applications, with sign language recognition being one of them. However, such algorithms must be fed with a huge amount of consistently labeled data during the training process to elaborate a well-generalizing model. In addition, there is a great need for an automated solution that works with any nationally diversified sign language. Although there are language-agnostic transcription systems, such as the Hamburg Sign Language Notation System (HamNoSys) that describe the signer's initial position and body movement instead of the glosses' meanings, there are still issues with providing accurate and reliable labels for every real-world use case. In this context, the industry relies heavily on manual attribution and labeling of the available video data. In this work, we tackle this issue and thoroughly analyze the HamNoSys labels provided by various maintainers of open sign language corpora in five sign languages, in order to examine the challenges encountered in labeling video data. We also investigate the consistency and objectivity of HamNoSys-based labels for the purpose of training machine learning models. Our findings provide valuable insights into the limitations of the current labeling methods and pave the way for future research on developing more accurate and efficient solutions for sign language recognition.
翻訳日:2023-02-26 14:08:28 公開日:2023-01-19
# 非可換電荷による熱化の実験観察

Experimental observation of thermalization with noncommuting charges ( http://arxiv.org/abs/2202.04652v2 )

ライセンス: Link先を確認
Florian Kranzl, Aleksander Lasek, Manoj K. Joshi, Amir Kalev, Rainer Blatt, Christian F. Roos and Nicole Yunger Halpern(参考訳) 量子シミュレータは最近、量子多体系の内部熱化の実験的な観測を可能にした。 しばしば、大域エネルギーと粒子数は保存され、システムはよく定義された粒子番号(マイクロカノニカル部分空間)で準備される。 しかし、量子進化は互いに通勤できない量や電荷を保存することもできる。 非交換電荷は、最近量子熱力学と量子情報の交差する部分場として現れた。 これまでのところ、このサブフィールドは理論上は存在していない。 我々は,その予測実験をトラップイオンシミュレータを用いて開始する。 非可換電荷を満たすためのマイクロカノニカル部分空間の一般化である近似マイクロカノニカル部分空間に6-21スピンを配置する。 レーザーによる絡み合い相互作用と集団スピン回転を用いてハイゼンベルク進化をシミュレートする。 非可換電荷は3つのスピン成分である。 小さいサブシステムは、最近予測された非可換熱状態に近いものとなる。 この研究は、量子多体シミュレーターを非可換電荷の量子熱力学にブリッジし、その予測をテストすることができる。

Quantum simulators have recently enabled experimental observations of quantum many-body systems' internal thermalization. Often, the global energy and particle number are conserved, and the system is prepared with a well-defined particle number - in a microcanonical subspace. However, quantum evolution can also conserve quantities, or charges, that fail to commute with each other. Noncommuting charges have recently emerged as a subfield at the intersection of quantum thermodynamics and quantum information. Until now, this subfield has remained theoretical. We initiate the experimental testing of its predictions, with a trapped-ion simulator. We prepare 6-21 spins in an approximate microcanonical subspace, a generalization of the microcanonical subspace for accommodating noncommuting charges, which cannot necessarily have well-defined nontrivial values simultaneously. We simulate a Heisenberg evolution using laser-induced entangling interactions and collective spin rotations. The noncommuting charges are the three spin components. We find that small subsystems equilibrate to near a recently predicted non-Abelian thermal state. This work bridges quantum many-body simulators to the quantum thermodynamics of noncommuting charges, whose predictions can now be tested.
翻訳日:2023-02-26 06:56:59 公開日:2023-01-19
# 量子及び古典的時間結晶における揺らぎの役割

The role of fluctuations in quantum and classical time crystals ( http://arxiv.org/abs/2203.05577v3 )

ライセンス: Link先を確認
Toni L. Heugel, Alexander Eichler, R. Chitra, and Oded Zilberberg(参考訳) 離散時間結晶(dtc)は、動力学的に作用する力よりも遅い多体状態である。 時代が2倍の古典的なシステムにも当てはまる。 したがって、この問題は古典と量子 DTC の区別が自然に生じる。 ここでは、Bose-Hubbardモデルの変種を分析し、多くの物理現象を記述し、古典的および量子的時間結晶的極限を持つ。 システムの安定性におけるゆらぎの役割を考察し、量子と古典的dtcの区別を見いださない。 これにより、古典的雑音を受ける2つの強結合パラメトリック共振器を用いて実験におけるゆらぎを調べることができる。

Discrete time crystals (DTCs) are a many-body state of matter whose dynamics are slower than the forces acting on it. The same is true for classical systems with period-doubling bifurcations. Hence, the question naturally arises what differentiates classical from quantum DTCs. Here, we analyze a variant of the Bose-Hubbard model, which describes a plethora of physical phenomena and has both a classical and a quantum time-crystalline limit. We study the role of fluctuations on the stability of the system and find no distinction between quantum and classical DTCs. This allows us to probe the fluctuations in an experiment using two strongly coupled parametric resonators subject to classical noise.
翻訳日:2023-02-22 11:49:54 公開日:2023-01-19
# ブロックチェーン教育:現状、限界、キャリアの範囲、課題、今後の方向性

Blockchain Education: Current State, Limitations, Career Scope, Challenges, and Future Directions ( http://arxiv.org/abs/2301.07889v1 )

ライセンス: Link先を確認
Rizwan Patan, Reza M. Parizi, Mohsen Dorodchi, Seyedamin Pouriyeh, Audrey Rorrer(参考訳) ブロックチェーンは革命的な技術であり、その成長はIT、教育、ビジネス、銀行など、さまざまな産業で始まり、それを利用していた。 現在、高等教育機関(HEI)におけるブロックチェーン教育の採用は、学術プログラムやカリキュラムで改善されなければならない。 さらに、HEIは、ブロックチェーン技術とそのアプリケーションに関する学習者を教育し、現在の業界の労働需要を満たすために、教育と学習方法に多くの変更を加える必要がある。 学術プログラムやコースの欠如により、今日学生はオンラインリソースに依存し、非学術機関に高い手数料を支払っている。 本稿では,ブロックチェーン教育の現状に関する包括的調査を行い,異なる学術プログラムと産業労働需要について考察する。 さらに、市場の成長と需要を含むブロックチェーンアプリケーショントレンドについても論じている。 さらに、学生の異なる分野に対するブロックチェーンのキャリアスコープについて検討する。

Blockchain is a revolutionary technology, and its growth started in various industries (such as IT, education, business, banking, and many others) to capitalize on it. Currently, in higher education institutions (HEIs) adoption of blockchain education needs to be improved in the academic programs and curriculums. In addition, HEIs must make many intense changes in the teaching and learning methods to educate learners about blockchain technology and its applications to meet the current industry workforce demand. Due to a lack of academic programs and courses, students nowadays rely on online resources and pay non-academic organizations a high fee. This paper provides a comprehensive survey of blockchain education's current state of the art by reviewing the different academic programs and industry workforce demand. In addition, blockchain application trends which include market growth and demands are discussed. Moreover, the blockchain career scope for different disciplines of students is examined.
翻訳日:2023-02-19 13:41:05 公開日:2023-01-19
# ブロックチェーンで協力する:進化的ゲーム視点

On Blockchain We Cooperate: An Evolutionary Game Perspective ( http://arxiv.org/abs/2212.05357v3 )

ライセンス: Link先を確認
Luyao Zhang, Xinyu Tian(参考訳) 協力は人類の繁栄の基礎である。 ブロックチェーンは、信頼マシンとして、コンセンサスプロトコルとの分散信頼による協力を支援するサイバースペースの協力機関である。 コンピュータ科学の研究はコンセンサスアルゴリズムによるフォールトトレランスの問題に焦点を当てているが、経済研究はインセンティブ設計を利用してエージェントの動作を分析する。 ブロックチェーンの協力を達成するために、新たな学際的な研究は合理性とゲーム理論的なソリューションの概念を導入し、様々なコンセンサスプロトコルの平衡結果を研究する。 しかし、既存の研究では、エージェントが歴史的観察から学ぶ可能性を考慮していない。 そこで,汎用コンセンサスプロトコルを動的ゲーム環境として抽象化し,モデルエージェントの振る舞いに有界合理性の解法を適用し,3つの異なる安定平衡に対する初期条件を解く。 本ゲームでは, エージェントは, 安全, 生活性, 有効性, 社会福祉の両面から, 計算と経済の両面からの結果を評価するための, 均衡に向けての進化過程において, グローバルヒストリーを模倣的に学習する。 我々の研究は、コンピュータ科学における分散コンセンサス、ブロックチェーンのコンセンサスに関するゲーム理論、生物学と経済学の交差点における進化ゲーム理論、心理学と経済学の相互作用における有界合理性、コンピューティングと社会科学に関する共同洞察による協調AIなど、分野にわたる文献に貢献する。 最後に, 今後のプロトコル設計は, 報奨率を増大させ, 費用対価率と重要度率の両方を下げることにより, 誠実な安定均衡の最も望ましい結果を達成することができることを論じる。

Cooperation is fundamental for human prosperity. Blockchain, as a trust machine, is a cooperative institution in cyberspace that supports cooperation through distributed trust with consensus protocols. While studies in computer science focus on fault tolerance problems with consensus algorithms, economic research utilizes incentive designs to analyze agent behaviors. To achieve cooperation on blockchains, emerging interdisciplinary research introduces rationality and game-theoretical solution concepts to study the equilibrium outcomes of various consensus protocols. However, existing studies do not consider the possibility for agents to learn from historical observations. Therefore, we abstract a general consensus protocol as a dynamic game environment, apply a solution concept of bounded rationality to model agent behavior, and resolve the initial conditions for three different stable equilibria. In our game, agents imitatively learn the global history in an evolutionary process toward equilibria, for which we evaluate the outcomes from both computing and economic perspectives in terms of safety, liveness, validity, and social welfare. Our research contributes to the literature across disciplines, including distributed consensus in computer science, game theory in economics on blockchain consensus, evolutionary game theory at the intersection of biology and economics, bounded rationality at the interplay between psychology and economics, and cooperative AI with joint insights into computing and social science. Finally, we discuss that future protocol design can better achieve the most desired outcomes of our honest stable equilibria by increasing the reward-punishment ratio and lowering both the cost-punishment ratio and the pivotality rate.
翻訳日:2023-02-19 12:56:26 公開日:2023-01-19
# 隠れ部分群問題を解決する量子アルゴリズム

Quantum algorithm for solving the hidden subgroup problems ( http://arxiv.org/abs/2204.03295v3 )

ライセンス: Link先を確認
Hefeng Wang(参考訳) 量子アルゴリズムが古典的アルゴリズムよりも指数的なスピードアップを達成する多くの問題は、アベリア隠れ部分群問題(HSP)に還元できる。 しかし、非アベリア HSP を解くための効率的な量子アルゴリズムは存在しない。 多段階の量子計算プロセスを通じて階層構造を用いて探索問題を効率的に解く量子アルゴリズムを提案する。 本研究では,HSPを解くアルゴリズムと,アベリアや非アベリア HSP に還元できる問題を適用する。 アーベルhspと非アーベルhspの両方を階層型構造化探索問題に還元できることを実証し,アルゴリズムを用いて効率的に解くことができることを示した。

Many problems for which quantum algorithms achieve exponential speedup over classical algorithms can be reduced to the Abelian hidden subgroup problems (HSP). However, there is no efficient quantum algorithm for solving the non-Abelian HSP. We proposed a quantum algorithm for efficiently solving a type of search problems with a hierarchical structure through a multistep quantum computation process. In this work, we apply the algorithm for solving the HSP and problems that can be reduced to the Abelian and the non-Abelian HSP. We demonstrate that both the Abelian and the non-Abelian HSP can be reduced to the hierarchical structured search problems, therefore they can be solved efficiently by using our algorithm.
翻訳日:2023-02-18 00:05:09 公開日:2023-01-19
# 非局在量子状態進化による高精度ハミルトン学習

High-accuracy Hamiltonian learning via delocalized quantum state evolutions ( http://arxiv.org/abs/2204.03997v3 )

ライセンス: Link先を確認
Davide Rattacaso and Gianluca Passarelli and Procolo Lucignano(参考訳) 量子多体系のダイナミクスを支配する未知のハミルトニアンの学習は難しい課題である。 本稿では,1つの時間依存状態における繰り返し測定に基づく戦略を提案する。 学習過程の精度はハミルトン固有ベイズで非局在化された状態に対して最大であることを示す。 これは、非局在化がハミルトン学習の量子資源であり、学習アルゴリズムの最適初期状態の選択に利用できることを意味する。 本研究は, シミュレーション量子システムにおける学習アルゴリズムの例を示すとともに, 測定数に対する再構成の誤差スケーリングについて検討する。

Learning the unknown Hamiltonian governing the dynamics of a quantum many-body system is a challenging task. In this manuscript, we propose a possible strategy based on repeated measurements on a single time-dependent state. We prove that the accuracy of the learning process is maximized for states that are delocalized in the Hamiltonian eigenbasis. This implies that delocalization is a quantum resource for Hamiltonian learning, that can be exploited to select optimal initial states for learning algorithms. We investigate the error scaling of our reconstruction with respect to the number of measurements, and we provide examples of our learning algorithm on simulated quantum systems.
翻訳日:2023-02-17 21:27:06 公開日:2023-01-19
# エルミート系における例外点相転移のシグナチャ

Signature of exceptional point phase transition in Hermitian systems ( http://arxiv.org/abs/2207.01862v3 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik(参考訳) 例外点 (EP) は非エルミート系におけるスペクトル特異点である。 EPを渡すことで相転移が起こり、様々なアプリケーションを見つける非従来的な特徴を持つシステムを実現する。 しかし、消散と増幅を併用する必要性は、EPを持つシステムの応用を制限している。 本研究では,散逸や増幅のないエルミート系における例外的点相転移のシグネチャの存在を実証する。 2つの結合振動子を含む複合エルミート系とその環境は、数十自由度しか持たない。 このようなエルミート系のダイナミクスは、非エルミート系におけるepに対応する発振器間の結合強度で生じる遷移を示す。 この遷移は、エネルギーの崩壊と復活が起こる系の力学の非マルコフ的状態においても現れている。 したがって、非エルミート系におけるEPの通過時に生じる相転移が常にエルミート系に現れることを示す。 非マルコフ系におけるEP相転移のシグネチャを観察するための実験的スキームについて論じる。

Exceptional point (EP) is a spectral singularity in non-Hermitian systems. The passing over the EP leads to a phase transition, which endows the system with unconventional features that find a wide range of applications. However, the need of using the dissipation and amplification limits the possible applications of systems with the EP. In this work, we demonstrate an existence of signature of exceptional point phase transition in Hermitian systems that are free from dissipation and amplification. We consider a composite Hermitian system including both two coupled oscillators and their environment consisting only of several tens degrees of freedom. We show that the dynamics of such a Hermitian system demonstrate a transition, which occurs at the coupling strength between oscillators corresponding to the EP in the non-Hermitian system. This transition manifests itself even in the non-Markovian regime of the system dynamics in which collapses and revivals of the energy occur. Thus, we demonstrate that the phase transition occurring at the passing over the EP in the non-Hermitian system manifests itself in the Hermitian system at all time. We discuss the experimental scheme to observe the signature of EP phase transition in the non-Markovian regime.
翻訳日:2023-02-06 12:57:27 公開日:2023-01-19
# サッカーにおける選手と位置調整目標に対する機械学習アプローチ(soccer)

A Machine Learning Approach for Player and Position Adjusted Expected Goals in Football (Soccer) ( http://arxiv.org/abs/2301.13052v1 )

ライセンス: Link先を確認
James Henry Hewitt and Oktay Karaku\c{s}(参考訳) サッカーは結果駆動の産業であり、ほとんどのスポーツよりもゴールが珍しいため、チームや個人のパフォーマンスを判断するためのパラメータがさらに増えることが重要です。 期待ゴール(xg)は単なるスコアライン以上の洞察を可能にする。 本稿では,フットボールにおけるさらなる分析の必要性に対処するために,フットボールイベントデータに応用された機械学習アプリケーションを利用する。 この概念から、ロジスティック回帰とグラディエントブースティングに基づくアプローチを用いて確率的評価を出力するバイナリ分類問題を作成する。 このモデルは15,575発のショットに基づいて,サッカー選手のxGs確率の予測に成功した。 提案ソリューションでは,データプロバイダとしてのstatsbombと,適切な方向にモデルをチューニングするための業界ベンチマークを使用している。 提案されたxGのMLソリューションは、"ボールが間違った男に落ちた"という年齢の古いクリケットに取り組むためにさらに使用される。 モデルの開発は、一般的なモデルが示すよりも期待する目標のより現実的な価値を調整し得るために使用される。 そこで本稿では, 位置調整xG に取り組み, トレーニングデータをフォワード, ミッドフィールド, ディフェンスに分割し, 位置調整xG のサブグループに基づく選手の質に関する洞察を提供する。 位置調整xGは、より多くの攻撃プレイヤーがxGを蓄積するより優れていることを予測し、証明する。 最も高い価値はフォワードであり、続いてミッドフィールダーとディフェンダーが続いた。 最後に、メッシが平均的なサッカー選手よりも統計的に高い効率レベルにあることを証明するために、プレイヤー調整xGをさらに発展させた。 これは、Messi xG が一般的なモデル結果よりも 347 xG 高い値を持つことを示す平均 xG モデルと比較して、彼の品質を定量化するために Messi の部分集合サンプルを使用することによって達成される。

Football is a very result-driven industry, with goals being rarer than in most sports, so having further parameters to judge the performance of teams and individuals is key. Expected Goals (xG) allow further insight than just a scoreline. To tackle the need for further analysis in football, this paper uses machine learning applications that are developed and applied to Football Event data. From the concept, a Binary Classification problem is created whereby a probabilistic valuation is outputted using Logistic Regression and Gradient Boosting based approaches. The model successfully predicts xGs probability values for football players based on 15,575 shots. The proposed solution utilises StatsBomb as the data provider and an industry benchmark to tune the models in the right direction. The proposed ML solution for xG is further used to tackle the age-old cliche of: 'the ball has fallen to the wrong guy there'. The development of the model is used to adjust and gain more realistic values of expected goals than the general models show. To achieve this, this paper tackles Positional Adjusted xG, splitting the training data into Forward, Midfield, and Defence with the aim of providing insight into player qualities based on their positional sub-group. Positional Adjusted xG successfully predicts and proves that more attacking players are better at accumulating xG. The highest value belonged to Forwards followed by Midfielders and Defenders. Finally, this study has further developments into Player Adjusted xG with the aim of proving that Messi is statistically at a higher efficiency level than the average footballer. This is achieved by using Messi subset samples to quantify his qualities in comparison to the average xG models finding that Messi xG performs 347 xG higher than the general model outcome.
翻訳日:2023-02-05 04:27:58 公開日:2023-01-19
# MedSegDiff-V2: Transformer を用いた拡散型医用画像分割

MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer ( http://arxiv.org/abs/2301.11798v1 )

ライセンス: Link先を確認
Junde Wu, Rao Fu, Huihui Fang, Yu Zhang, Yanwu Xu(参考訳) Diffusion Probabilistic Model (DPM)は最近、Imagen、Latent Diffusion Models、Stable Diffusionといった画像生成アプリケーションによって、コンピュータビジョンの分野で人気を博し、コミュニティ内で多くの議論を巻き起こした。 近年の研究では、DPMは医療画像解析の分野でも有用であることが分かっており、医療画像セグメンテーションモデルMedSegDiffの様々なタスクにおける強いパフォーマンスが証明されている。 これらのモデルは元々はunetバックボーンで設計されたが、視覚トランスフォーマー技術の導入の恩恵を受ける可能性もある。 しかし、これらの2つのアプローチを組み合わせるだけで性能が劣ることがわかった。 本稿では, 雑音と意味的特徴の相互作用をモデル化する新しいトランスフォーマ・ベースの条件付きunetフレームワークと, スペクトル空間トランスフォーマ(ss-former)を提案する。 このアーキテクチャの改善により、MedSegDiff-V2と呼ばれる新しい拡散型医用画像分割法が実現され、MedSegDiffの性能が大幅に向上した。 MedSegDiff-V2の5つのセグメンテーションデータセットの18の臓器に対する効果を検討した。 実験の結果,MedSegDiff-V2は最先端(SOTA)手法よりも高い性能を示し,提案モデルの有効性と有効性を示した。

The Diffusion Probabilistic Model (DPM) has recently gained popularity in the field of computer vision, thanks to its image generation applications, such as Imagen, Latent Diffusion Models, and Stable Diffusion, which have demonstrated impressive capabilities and sparked much discussion within the community. Recent studies have also found DPM to be useful in the field of medical image analysis, as evidenced by the strong performance of the medical image segmentation model MedSegDiff in various tasks. While these models were originally designed with a UNet backbone, they may also potentially benefit from the incorporation of vision transformer techniques. However, we discovered that simply combining these two approaches resulted in subpar performance. In this paper, we propose a novel transformer-based conditional UNet framework, as well as a new Spectrum-Space Transformer (SS-Former) to model the interaction between noise and semantic features. This architectural improvement leads to a new diffusion-based medical image segmentation method called MedSegDiff-V2, which significantly improves the performance of MedSegDiff. We have verified the effectiveness of MedSegDiff-V2 on eighteen organs of five segmentation datasets with different image modalities. Our experimental results demonstrate that MedSegDiff-V2 outperforms state-of-the-art (SOTA) methods by a considerable margin, further proving the generalizability and effectiveness of the proposed model.
翻訳日:2023-02-05 04:26:24 公開日:2023-01-19
# エントロピーの不確実性関係の自明な境界

The Trivial Bound of Entropic Uncertainty Relations ( http://arxiv.org/abs/2208.00242v5 )

ライセンス: Link先を確認
Minu J. Bae(参考訳) 量子乱数生成(QRNG)や量子鍵分布(QKD)といった量子暗号アプリケーションにおける量的セキュリティを計算するために、エントロピーの不確実性関係が基盤となっている。 すべてのセキュリティ証明は、正統派グループにアクセスできる情報と、敵が獲得したかもしれない最大の知識との間の関係を導いており、これは、ある当事者のアリスによって生成された生の鍵に関するイヴの不確実性に対して、エントロピックな不確実性関係を利用する。 標準的なエントロピーの不確実性関係は、スムーズな min- と max-entropies を利用して、2つの不整合測定または正の演算値測定(POVM)の重複を計算することによって、これらの暗号アプリケーションのセキュリティを示すことである。 本稿では、POVMの最大重なり合いが常に自明な値である「1」を生成するので、自明な境界となるPOVM変換標準エントロピー不確実性関係の1つの事例を描き出す。 そのため、量子暗号アプリケーションのセキュリティを示すために、スムーズなミニエントロピーを結びつけることに失敗する。

Entropic uncertainty relations are underpinning to compute the quantitative security bound in quantum cryptographic applications, such as quantum random number generation (QRNG) and quantum key distribution (QKD). All security proofs derive a relation between the information accessible to the legitimate group and the maximum knowledge that an adversary may have gained, Eve, which exploits entropic uncertainty relations to lower bound Eve's uncertainty about the raw key generated by one party, Alice. The standard entropic uncertainty relations is to utilize the smooth min- and max-entropies to show these cryptographic applications' security by computing the overlap of two incompatible measurements or positive-operator valued measures (POVMs). This paper draws one case of the POVM-versioned standard entropic uncertainty relation yielding the trivial bound since the maximum overlap in POVMs always produces the trivial value, "one." So, it fails to tie the smooth min-entropy to show the security of the quantum cryptographic application.
翻訳日:2023-02-02 23:47:28 公開日:2023-01-19
# 量子線形系問題を解くための効率的な量子アルゴリズム

Efficient quantum algorithms for solving quantum linear system problems ( http://arxiv.org/abs/2208.06763v3 )

ライセンス: Link先を確認
Hefeng Wang and Hua Xiang(参考訳) 我々は、方程式の線形系を解く問題である$A\mathbf{x}=\mathbf{b}$を、拡張行列 $C$ の特異値 0 の正特異ベクトルを求める問題に変換し、この問題を解決するための2つの量子アルゴリズムを提案する。 最初のアルゴリズムは、クエリの複雑さを$O\left( s\kappa \log \left( 1/\epsilon \right) \right) $ for a $s$-sparse matrix $C$, where $\kappa $ is the condition number of the matrix $A$, $\epsilon $ is the desired precision とする量子固有状態フィルタリングアルゴリズムを適用することで、この問題を直接解決する。 第二のアルゴリズムは量子共鳴遷移アプローチを使用し、クエリ複雑性は$O\left[s\kappa + \log\left(1/\epsilon \right)/\log \log \left(1/\epsilon \right) \right] $とスケールする。 どちらのアルゴリズムも$\kappa $で最適なクエリの複雑さを満たしており、以前のアルゴリズムよりも単純である。

We transform the problem of solving linear system of equations $A\mathbf{x}=\mathbf{b}$ to a problem of finding the right singular vector with singular value zero of an augmented matrix $C$, and present two quantum algorithms for solving this problem. The first algorithm solves the problem directly by applying the quantum eigenstate filtering algorithm with query complexity of $O\left( s\kappa \log \left( 1/\epsilon \right) \right) $ for a $s$-sparse matrix $C$, where $\kappa $ is the condition number of the matrix $A$, and $\epsilon $ is the desired precision. The second algorithm uses the quantum resonant transition approach, the query complexity scales as $O\left[s\kappa + \log\left( 1/\epsilon \right)/\log \log \left( 1/\epsilon \right) \right] $. Both algorithms meet the optimal query complexity in $\kappa $, and are simpler than previous algorithms.
翻訳日:2023-01-31 04:00:29 公開日:2023-01-19
# 人工知能を用いた遠隔患者モニタリングの現状と課題

Remote patient monitoring using artificial intelligence: Current state, applications, and challenges ( http://arxiv.org/abs/2301.10009v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Niall Higgins, Lin Li, Raj Gururajan, Xujuan Zhou, U. Rajendra Acharya(参考訳) 医療における人工知能(AI)の採用は急速に進んでいる。 遠隔患者モニタリング(Remote patient monitoring, RPM)は、遠隔地、高齢者の在宅ケア、入院患者など、慢性または急性疾患の患者をモニターする医師を支援する医療アプリケーションである。 手動患者のモニタリングシステムの信頼性は、作業負荷に依存するスタッフの時間管理に依存する。 従来の患者のモニタリングは、健康状態を監視するために皮膚接触を必要とする侵襲的アプローチを伴う。 本研究の目的は,導入技術,RPMに対するAIの影響,AI対応RPMの課題と動向など,RPMシステムの総合的なレビューを行うことである。 本稿では,iot(internet of things)ウェアラブルデバイスとクラウド,フォグ,エッジ,ブロックチェーン技術を用いたセンサによって実現される,患者中心のrpmアーキテクチャのメリットと課題について検討する。 RPMにおけるAIの役割は、身体活動の分類から慢性疾患のモニタリング、緊急時におけるバイタルサインのモニタリングまで様々である。 本研究の結果から,aiを活用したrpmアーキテクチャは,患者の健康状態の早期劣化を検知し,フェデレーション学習を用いて個々の患者の健康パラメータモニタリングをパーソナライズし,強化学習などの手法を用いて人間の行動パターンを学習する能力から,医療モニタリングアプリケーションを変化させた。 本稿では,RPMシステムや実装問題にAIを採用する上での課題と動向について論じる。 RPMアプリケーションにおけるAIの将来方向は、課題とトレンドに基づいて分析される

The adoption of artificial intelligence (AI) in healthcare is growing rapidly. Remote patient monitoring (RPM) is one of the common healthcare applications that assist doctors to monitor patients with chronic or acute illness at remote locations, elderly people in-home care, and even hospitalized patients. The reliability of manual patient monitoring systems depends on staff time management which is dependent on their workload. Conventional patient monitoring involves invasive approaches which require skin contact to monitor health status. This study aims to do a comprehensive review of RPM systems including adopted advanced technologies, AI impact on RPM, challenges and trends in AI-enabled RPM. This review explores the benefits and challenges of patient-centric RPM architectures enabled with Internet of Things wearable devices and sensors using the cloud, fog, edge, and blockchain technologies. The role of AI in RPM ranges from physical activity classification to chronic disease monitoring and vital signs monitoring in emergency settings. This review results show that AI-enabled RPM architectures have transformed healthcare monitoring applications because of their ability to detect early deterioration in patients' health, personalize individual patient health parameter monitoring using federated learning, and learn human behavior patterns using techniques such as reinforcement learning. This review discusses the challenges and trends to adopt AI to RPM systems and implementation issues. The future directions of AI in RPM applications are analyzed based on the challenges and trends
翻訳日:2023-01-29 13:40:40 公開日:2023-01-19
# 人間活動認識におけるデータセットバイアス

Dataset Bias in Human Activity Recognition ( http://arxiv.org/abs/2301.10161v1 )

ライセンス: Link先を確認
Nilah Ravi Nair, Lena Schmid, Fernando Moya Rueda, Markus Pauly, Gernot A. Fink and Christopher Reining(参考訳) HAR(Human Activity Recognition)のためのマルチチャネル時系列データセットを作成する際、被験者選択基準の問題に直面している。 年齢・身長・体重などの身体的特徴やソフトバイオメトリックスを考慮に入れる必要があるかは分かっていないが、訓練・試験データにおける異種集団に対する堅牢性を達成するために分類器を訓練する必要がある。 この貢献は、人間の身体的特性がharのパフォーマンスにどの程度影響するかを評価するために、トレーニングデータを統計的にキュレートする。 時系列HARのセンサ,アクティビティ,記録の異なる2つのHARデータセット上で,最先端の畳み込みニューラルネットワークの性能を評価する。 トレーニングデータは、人間の特性に関して意図的に偏り、動作行動に影響を与える特徴を決定する。 被験者の特徴がHARに与える影響について評価した。 したがって、異種集団に対する分類器の堅牢性に関する洞察を与える。 この研究は、多チャンネル時系列HARデータにおける表現バイアスを定量化することで、公正で信頼できる人工知能の方向性を前進させるものである。

When creating multi-channel time-series datasets for Human Activity Recognition (HAR), researchers are faced with the issue of subject selection criteria. It is unknown what physical characteristics and/or soft-biometrics, such as age, height, and weight, need to be taken into account to train a classifier to achieve robustness towards heterogeneous populations in the training and testing data. This contribution statistically curates the training data to assess to what degree the physical characteristics of humans influence HAR performance. We evaluate the performance of a state-of-the-art convolutional neural network on two HAR datasets that vary in the sensors, activities, and recording for time-series HAR. The training data is intentionally biased with respect to human characteristics to determine the features that impact motion behaviour. The evaluations brought forth the impact of the subjects' characteristics on HAR. Thus, providing insights regarding the robustness of the classifier with respect to heterogeneous populations. The study is a step forward in the direction of fair and trustworthy artificial intelligence by attempting to quantify representation bias in multi-channel time series HAR data.
翻訳日:2023-01-29 13:30:45 公開日:2023-01-19
# 運動量表現における水素原子の波動関数

Wave functions of the Hydrogen atom in the momentum representation ( http://arxiv.org/abs/2208.13989v2 )

ライセンス: Link先を確認
M. Kirchbach and J. A. Vallejo(参考訳) 我々は、空間表現から水素原子の運動量表現に渡される積分変換を極球座標を用いて構成する。 得られたラジアル波動関数は、第一種と第二種のゲンバウアー関数の複素有限拡大、あるいは(元)三角関数の項で明示的に与えられる。 それらの対称性は、$SO(4)$群の下で示され、ロンバルディやオリヴィと同値である。

We construct the integral transform passing from the space representation to the momentum representation for the Hydrogen atom using polar spherical coordinates. The resulting radial wave functions are explicitly given in terms of complex finite expansions of Gegenbauer functions of the first and second kind, or in terms of (elementary) trigonometric functions. We show their symmetry under the $SO(4)$ group, and their equivalence with those of Lombardi and Oglivie.
翻訳日:2023-01-28 12:10:01 公開日:2023-01-19
# 合成周波数次元における光子の人工非可換格子ゲージ場

Artificial non-Abelian lattice gauge fields for photons in the synthetic frequency dimension ( http://arxiv.org/abs/2208.14967v2 )

ライセンス: Link先を確認
Dali Cheng, Kai Wang, Shanhui Fan(参考訳) 非アーベルゲージ場は非自明な位相物理学をもたらす。 本稿では、動的変調リング共振器のアレイを用いた合成周波数次元における光子の任意のsu(2)格子ゲージ場を作成するためのスキームを開発した。 光子偏光はスピン基底として、行列値ゲージ場を実装する。 ハーパー・ホフシュタットラー・ハミルトニアンの非アーベル一般化を具体例として、共振器内の定常光子振幅の測定によりハミルトニアンのバンド構造が明らかにされ、基底となる非アーベルゲージ場のシグネチャを示すことが示されている。 これらの結果は、フォトニック系の非アベリア格子ゲージ場に関連する新しい位相現象を探求する機会を与える。

Non-Abelian gauge fields give rise to nontrivial topological physics. Here we develop a scheme to create an arbitrary SU(2) lattice gauge field for photons in the synthetic frequency dimension using an array of dynamically modulated ring resonators. The photon polarization is taken as the spin basis to implement the matrix-valued gauge fields. Using a non-Abelian generalization of the Harper-Hofstadter Hamiltonian as a specific example, we show that the measurement of the steady-state photon amplitudes inside the resonators can reveal the band structures of the Hamiltonian, which show signatures of the underlying non-Abelian gauge field. These results provide opportunities to explore novel topological phenomena associated with non-Abelian lattice gauge fields in photonic systems.
翻訳日:2023-01-28 09:07:39 公開日:2023-01-19
# 非コヒーレントイメージング問題としての量子ノイズ分光

Quantum noise spectroscopy as an incoherent imaging problem ( http://arxiv.org/abs/2209.06104v3 )

ライセンス: Link先を確認
Mankei Tsang(参考訳) 量子インスパイアされた超解像(Tsang, Nair, and Lu, Physical Review X 6, 031033 (2016))の研究において、私のグループによって提案された不整合イメージングモデルと、私たちによって提案されたノイズスペクトルモデル(Tsang and Nair, Physical Review A 86, 042115 (2012), Ng et al., Physical Review A 93, 042121 (2016))の数学的対応を指摘する。 どちらもランダム変位モデルと見なすことができ、ランダム変位の確率測度は未知のパラメータに依存する。 光位相ノイズ分光法(2016年)で提案されたスペクトル光子計数法と類似する空間モードデマルチプレクシング法(SPADE)は、直接変位測定(ダイレクトイメージングまたはホモダイン検出)に優れた離散可変測定法であり、それぞれの量子限界を達成することができる。 SPADEにインスパイアされ、入力フィールドが圧縮されたときのスペクトル光子カウントの修正を提案し、スペクトル光子カウントの前に出力フィールドをアンキューする。 本手法は量子最適であり,パラメータ推定と検出の両方においてホモダイン検出に優れており,Tsang and Nair (2012) と Ng et al. (2016) の開問題を解くことができる。

I point out the mathematical correspondence between an incoherent imaging model proposed by my group in the study of quantum-inspired superresolution [Tsang, Nair, and Lu, Physical Review X 6, 031033 (2016)] and a noise spectroscopy model also proposed by us [Tsang and Nair, Physical Review A 86, 042115 (2012); Ng et al., Physical Review A 93, 042121 (2016)]. Both can be regarded as random displacement models, where the probability measure for the random displacement depends on unknown parameters. The spatial-mode demultiplexing (SPADE) method proposed for imaging is analogous to the spectral photon counting method proposed in Ng et al. (2016) for optical phase noise spectroscopy -- Both methods are discrete-variable measurements that are superior to direct displacement measurements (direct imaging or homodyne detection) and can achieve the respective quantum limits. Inspired by SPADE, I propose a modification of spectral photon counting when the input field is squeezed -- simply unsqueeze the output field before spectral photon counting. I show that this method is quantum-optimal and far superior to homodyne detection for both parameter estimation and detection, thus solving the open problems in Tsang and Nair (2012) and Ng et al. (2016).
翻訳日:2023-01-26 21:54:47 公開日:2023-01-19
# 単一光子パルス伝搬の古典的モデリングの検証

Validation of classical modeling of single-photon pulse propagation ( http://arxiv.org/abs/2209.06140v3 )

ライセンス: Link先を確認
Margaret Hawton(参考訳) 単光子干渉実験が古典的にモデル化できることは「知っている人にはよく知られている」 [S. Barnett, arXiv:2207.14632 (2022)]。 単光子光パルスが古典的適合との両原理的良好な一致で分裂すると、光子を1回だけカウントし、確率的相互作用[V. Jacques et al, Eur. Phys. J. D 35, 561 (2002)]と一致した。 この「量子光学のよく知られた結果」の正当化は(M. Hawton, Phys. Rev A 104, 052211 (2021)) において暗黙的である。 ここで、この結果の理論的基礎をレビューし、理論を多光子状態とQEDフォック空間に拡張する。 荷電物質との結合におけるCPT定理の重要な役割と光子局在化問題の解決について論じる。

"It is well-known to those who know it" that single-photon interference experiments can be modeled classically [S. Barnett, arXiv:2207.14632 (2022)]. When a single-photon light pulse was split by a biprism good agreement with a classical fit was obtained and the photon was counted only once, consistent with a probabilistic interpr.etation [V. Jacques et al, Eur. Phys. J. D 35, 561 (2002)]. A justification for this "well know result of Quantum Optics" is implicit in [M. Hawton, Phys. Rev A 104, 052211 (2021)] where a real covariant field describing a single photon is first quantized. Here the theoretical basis of this result is reviewed and the theory is extended to multiphoton states and QED Fock space. The crucial role of the CPT theorem in coupling to charged matter and resolution of the photon localization problem is discussed.
翻訳日:2023-01-26 19:27:39 公開日:2023-01-19
# 量子検出器トモグラフィのヒト視覚系への応用 : 実現可能性の検討

Quantum detector tomography applied to the human visual system: a feasibility study ( http://arxiv.org/abs/2209.06693v2 )

ライセンス: Link先を確認
T.H.A. van der Reep, D. Molenaar, W. L\"offler and Y. Pinto(参考訳) 量子検出器トモグラフィーは人間の視覚システムに応用でき、光子数状態の人間の知覚を探索できることを示す。 検出器トモグラフィでは、光子数状態を生成するのが非常に困難である代わりに、既知の光子統計値を持つ光パルスに対する検出器の応答を記録し、モデルが実験結果に適合して検出器の光子数状態応答を推定する。 一般に、ポアソン分布の光子を含む光パルスが利用されており、実験室では製造が容易である。 この手法は、これまで人間の視覚系を研究するために研究されてきたものではなく、通常、人間実験に適さない大量の反復を必要とする。 しかし,本研究では,検出器トモグラフィーが人体実験で実現可能であることを示す。 この精度のための単純なモデルと仮定すると、我々のシミュレーションの結果、検出器トモグラフィーは5000ドルの試算でベイズ推論を使ってモデルを再構築できることがわかった。 次に、実験パラメータを最適化し、単一光子精度が確率を上回ることを示す確率を最大化する。 このように、量子レベルで人間の知覚を研究するための道を開く。

We show that quantum detector tomography can be applied to the human visual system to explore human perception of photon number states. In detector tomography, instead of using very hard to produce photon number states, the response of a detector to light pulses with known photon statistics of varying intensity is recorded, and a model is fitted to the experimental outcomes thereby inferring the detector's photon number state response. Generally, light pulses containing a Poisson-distributed number of photons are utilised, which are very easy to produce in the lab. This technique has not been explored to study the human visual system before, because it usually requires a very large number of repetitions not suitable for experiments on humans. Yet, in the present study we show that detector tomography is feasible for human experiments. Assuming a simple model for this accuracy, the results of our simulations show that detector tomography is able to reconstruct the model using Bayesian inference with as little as $5000$ trials. We then optimize the experimental parameters in order to maximise the probability of showing that the single-photon accuracy is above chance. As such, our study opens the road to study human perception on quantum level.
翻訳日:2023-01-26 17:00:10 公開日:2023-01-19
# 量子状態の支持に対する不確実性関係

Uncertainty relations for the support of quantum states ( http://arxiv.org/abs/2209.09817v2 )

ライセンス: Link先を確認
Vincenzo Fiorentino and Stefan Weigert(参考訳) 実数直線上の狭い信号が与えられると、そのフーリエ変換の局所化には限界がある。 素数次元の空間において、tao は、離散フーリエ変換によって関連付けられた2つの基底における純粋なクディット状態の支持サイズを保持する、鋭い状態非依存な不確かさ関係を導出した。 我々は、素次元の空間における相互に偏りのない基底の完全集合へのタオの不確実性関係を一般化する。 得られる境界は次元 3 に対してシャープであるように思われる。 素次元に関する解析的および数値的な結果は、一般に境界が飽和できないことを示唆している。 素数次元 2 から 7 に対して、サポートサイズの鋭い境界を $(d+1)$ で構成し、それらを達成するいくつかの状態を特定する。

Given a narrow signal over the real line, there is a limit to the localisation of its Fourier transform. In spaces of prime dimensions, Tao derived a sharp state-independent uncertainty relation which holds for the support sizes of a pure qudit state in two bases related by a discrete Fourier transform. We generalise Tao's uncertainty relation to complete sets of mutually unbiased bases in spaces of prime dimensions. The bound we obtain appears to be sharp for dimension three only. Analytic and numerical results for prime dimensions up to nineteen suggest that the bound cannot be saturated in general. For prime dimensions two to seven we construct sharp bounds on the support sizes in $(d+1)$ mutually unbiased bases and identify some of the states achieving them.
翻訳日:2023-01-25 23:21:34 公開日:2023-01-19
# 地球外文明による量子コンピューティングの道具としてのブラックホール

Black holes as tools for quantum computing by advanced extraterrestrial civilizations ( http://arxiv.org/abs/2301.09575v1 )

ライセンス: Link先を確認
Gia Dvali and Zaza N. Osmanov(参考訳) ブラックホールは量子情報の最も効率的なコンデンサであると説明した。 したがって、全ての十分に進んだ文明は最終的にブラックホールを量子コンピュータに採用することが期待されている。 伴うホーキング放射は粒子種では民主的である。 このため、宇宙の量子コンピュータはニュートリノや光子のような通常の粒子を検出器の潜在的な感度の範囲内で放射する。 これはSETIにとって新しい道であり、それは重力によってのみ世界と相互作用する隠れ粒子の種からなる文明を含む。

We explain that black holes are the most efficient capacitors of quantum information. It is thereby expected that all sufficiently advanced civilizations ultimately employ black holes in their quantum computers. The accompanying Hawking radiation is democratic in particle species. Due to this, the alien quantum computers will radiate in ordinary particles such as neutrinos and photons within the range of potential sensitivity of our detectors. This offers a new avenue for SETI, including the civilizations entirely composed of hidden particles species interacting with our world exclusively through gravity.
翻訳日:2023-01-24 12:47:55 公開日:2023-01-19
# トラップイオン量子コンピューティングのためのSoC制御系におけるディジタル通信の設計と解析

Design and analysis of digital communication within an SoC-based control system for trapped-ion quantum computing ( http://arxiv.org/abs/2209.15601v2 )

ライセンス: Link先を確認
Nafis Irtija (1), Jim Plusquellic (1), Eirini Eleni Tsiropoulou (1), Joshua Goldberg (2), Daniel Lobser (2) and Daniel Stick (2) ((1) University of New Mexico, Albuquerque, NM, USA, (2) Sandia National Laboratories, Albuquerque, NM, USA)(参考訳) 量子コンピューティングに使用される電子制御システムは、複数の量子ビット技術がより多くの量子ビットを高い忠実度ターゲットで採用するようになり、ますます複雑になっている。 異なる技術の制御システムはいくつかの類似点を共有しているが、パルス長、スループット、リアルタイムフィードバック、レイテンシ要求はキュービットタイプによって大きく異なる。 本稿では,soc(system-on-chip)アーキテクチャの性能を,閉じ込められたイオン量子ビット上で量子ゲートを実行する際の制御要求を満たすために,特にsoc内の通信に着目して評価する。 本稿では, 直接メモリアクセス(DMA)を含む, Xilinx マルチプロセッサ SoC 上での高速オンチップ機構のデータの転送遅延とスループットに着目した。 それらは、ゲートパラメータの再設定に必要な時間に基づいて上限を決定するために測定され、評価される。 カスタムゲートシーケンサコアの最悪のケースと平均ケースの帯域幅要件を実験結果と比較した。 最低変量、最高スループットのデータ転送機構は、リアルタイム処理ユニット(RPU)とPLの間のDMAであり、最大19.2GB/sの帯域幅が可能である。 これにより、2$\mu$s未満のキュービットゲートの再設定が可能となり、これは最速のゲート時間に匹敵する。 本稿では,トラップイオン制御システムに焦点をあてるが,ゲート抽象化方式と計測通信速度は,幅広い量子コンピューティング技術に適用可能である。

Electronic control systems used for quantum computing have become increasingly complex as multiple qubit technologies employ larger numbers of qubits with higher fidelity targets. Whereas the control systems for different technologies share some similarities, parameters like pulse duration, throughput, real-time feedback, and latency requirements vary widely depending on the qubit type. In this paper, we evaluate the performance of modern System-on-Chip (SoC) architectures in meeting the control demands associated with performing quantum gates on trapped-ion qubits, particularly focusing on communication within the SoC. A principal focus of this paper is the data transfer latency and throughput of several high-speed on-chip mechanisms on Xilinx multi-processor SoCs, including those that utilize direct memory access (DMA). They are measured and evaluated to determine an upper bound on the time required to reconfigure a gate parameter. Worst-case and average-case bandwidth requirements for a custom gate sequencer core are compared with the experimental results. The lowest-variability, highest-throughput data-transfer mechanism is DMA between the real-time processing unit (RPU) and the PL, where bandwidths up to 19.2 GB/s are possible. For context, this enables reconfiguration of qubit gates in less than 2$\mu$s, comparable to the fastest gate time. Though this paper focuses on trapped-ion control systems, the gate abstraction scheme and measured communication rates are applicable to a broad range of quantum computing technologies.
翻訳日:2023-01-24 07:29:21 公開日:2023-01-19
# FENDI: 量子インターネットにおける高密度エンタングルメント分布

FENDI: High-Fidelity Entanglement Distribution in the Quantum Internet ( http://arxiv.org/abs/2301.08269v1 )

ライセンス: Link先を確認
Huayue Gu, Zhouyu Li, Ruozhou Yu, Xiaojian Wang, Fangtong Zhou, Jianqing Liu(参考訳) 量子ネットワークは、多くの量子アプリケーションにおいて鍵となるリモートノード間の量子絡み合いを分散する。 しかし、量子演算における避けられないノイズは、低スループットと低エンタングルメント分布の両方をもたらす可能性がある。 本稿では,バッファリングマルチホップ量子ネットワークにおけるスループットと品質の指数関数的劣化に対処することを目的とする。 最短ケース(等方性)ノイズを持つエンドツーエンドの忠実度モデルに基づいて、単一音源対に対する高忠実度リモート絡み合い分布問題を定式化し、そのNP硬度を証明する。 この問題に対処するために,量子ネットワークの制御平面に対する完全多項式時間近似スキームと,制御平面出力に基づいて所望の長期スループットと最悪のケース忠実性を達成する分散データプレーンプロトコルを開発した。 アルゴリズムとプロトコルを評価するため,離散時間量子ネットワークシミュレータを開発した。 シミュレーションの結果,既存の忠実度非依存および忠実度対応ソリューションと比較して,提案手法の優れた性能を示す。

A quantum network distributes quantum entanglements between remote nodes, which is key to many quantum applications. However, unavoidable noise in quantum operations could lead to both low throughput and low quality of entanglement distribution. This paper aims to address the simultaneous exponential degradation in throughput and quality in a buffered multi-hop quantum network. Based on an end-to-end fidelity model with worst-case (isotropic) noise, we formulate the high-fidelity remote entanglement distribution problem for a single source-destination pair, and prove its NP-hardness. To address the problem, we develop a fully polynomial-time approximation scheme for the control plane of the quantum network, and a distributed data plane protocol that achieves the desired long-term throughput and worst-case fidelity based on control plane outputs. To evaluate our algorithm and protocol, we develop a discrete-time quantum network simulator. Simulation results show the superior performance of our approach compared to existing fidelity-agnostic and fidelity-aware solutions.
翻訳日:2023-01-23 14:26:47 公開日:2023-01-19
# 測定臨界量子イジング鎖における非局所性と絡み合い

Nonlocality and entanglement in measured critical quantum Ising chains ( http://arxiv.org/abs/2301.08268v1 )

ライセンス: Link先を確認
Zack Weinstein, Rohith Sajith, Ehud Altman, Samuel J. Garratt(参考訳) 本研究では,空間における有限密度の測定が,一次元横フィールドイジングモデル(TFIM)の臨界状態に及ぼす影響について検討した。 臨界状態における局所的な自由度は長距離の絡み合いを示し、その結果、局所的な測定は極めて非局所的な効果を持つ。 我々は, (1+1) 次元ユークリッド時空における (1+0) 次元欠陥として観測されるイジング共形場理論(CFT)の特性に基づいて, 測定状態のアンサンブルにおける相関と絡み合いの解析を行った。 大規模な自由フェルミオン数を用いて予測を検証するため、パリティ対称性の測定に限定する。 その平均効果を解析的に説明するためにレプリカアプローチを用い、レプリカ理論に生じる欠陥が ising cft と無関係な摂動であることを示す。 厳密には、平均相関と絡み合いエントロピーの漸近スケーリングは基底状態に対して変化しない。 対照的に、最も可能性の高い測定結果に対するポスト選択によって生じる欠陥は、まさに限界である。 そこで, 測定後次数パラメータ相関の指数と, エンタングルメントエントロピーのスケーリングを管理する'有効中心電荷'は, 空間における測定密度と連続的に変化することがわかった。 我々の研究は、多体量子状態における測定と低エネルギー平衡特性に対する物理的欠陥との新たな関係を確立する。

We study the effect of measurements, performed with a finite density in space, on the ground state of the one-dimensional transverse-field Ising model (TFIM) at criticality. Local degrees of freedom in critical states exhibit long-range entanglement and, as a result, local measurements can have highly nonlocal effects. Our analytical investigation of correlations and entanglement in the ensemble of measured states is based on properties of the Ising conformal field theory (CFT), where measurements appear as (1+0)-dimensional defects in the (1+1)-dimensional Euclidean spacetime. So that we can verify our predictions using large-scale free-fermion numerics, we restrict ourselves to parity-symmetric measurements. To describe their averaged effect analytically we use a replica approach, and we show that the defect arising in the replica theory is an irrelevant perturbation to the Ising CFT. Strikingly, the asymptotic scaling of averaged correlations and entanglement entropy are therefore unchanged relative to the ground state. In contrast, the defect generated by postselecting on the most likely measurement outcomes is exactly marginal. We then find that the exponent governing post-measurement order parameter correlations, as well as the ''effective central charge'' governing the scaling of entanglement entropy, vary continuously with the density of measurements in space. Our work establishes new connections between the effects of measurements on many-body quantum states and of physical defects on low-energy equilibrium properties.
翻訳日:2023-01-23 14:26:33 公開日:2023-01-19
# 測定後の1次元臨界状態における絡み合い

Entanglement in one-dimensional critical state after measurements ( http://arxiv.org/abs/2301.08255v1 )

ライセンス: Link先を確認
Zhou Yang and Dan Mao and Chao-Ming Jian(参考訳) 一次元ハミルトニアン臨界状態の基底状態の絡み合いエントロピー(EE)は、基礎となる 1+1d の共形場理論の中心電荷$c$ で与えられるプレファクタによる普遍対数スケーリングを持つ。 測定によりシステムが調査されると、波動関数の崩壊により臨界基底状態の絡み合いが必然的に影響を受ける。 本論文では, 1次元臨界横場イジングモデルの基底状態におけるエンタングルメントスケーリングに対する弱い測定の影響について検討する。 横軸に沿ったスピンの測定では,空間的に均一な測定結果に関連する興味深い測定後状態を特定する。 これらの州のeeは依然として対数スケーリングに満足しているが、有効な中央電荷 $c_{\text{eff}}$ によって与えられる別の前提因子がある。 測定強度の関数として,$c_{\text{eff}}$の解析式を導出する。 数値シミュレーションにより,本手法では,局所的および非重複的測定がシステムの絡み合いを減少させるという通常の期待とは対照的に,本手法で抽出した有効中心電荷は測定強度とは独立にみられた。 また,測定結果をサイト間相関を伴わない事前決定された確率分布でサンプリングする(バイアス付き)平均脳波の挙動についても検討した。 特に、ボルン-ルール確率に対する平均場近似として機能し、同じ$c_{\text{eff}}$ の振る舞いをもたらす最適な確率分布を見つける。 また, 縦軸に沿った測定値と後相関関数の影響についても検討した。

The entanglement entropy (EE) of the ground state of a one-dimensional Hamiltonian at criticality has a universal logarithmic scaling with a prefactor given by the central charge $c$ of the underlying 1+1d conformal field theory. When the system is probed by measurements, the entanglement in the critical ground state is inevitably affected due to wavefunction collapse. In this paper, we study the effect of weak measurements on the entanglement scaling in the ground state of the one-dimensional critical transverse-field Ising model. For the measurements of the spins along their transverse spin axis, we identify interesting post-measurement states associated with spatially uniform measurement outcomes. The EE in these states still satisfies the logarithmic scaling but with an alternative prefactor given by the effective central charge $c_{\text{eff}}$. We derive the analytical expression of $c_{\text{eff}}$ as a function of the measurement strength. Using numerical simulations, we show that for the EE averaged over all post-measurement states based on their Born-rule probabilities, the numerically extracted effective central charge appears to be independent of the measurement strength, contrary to the usual expectation that local and non-overlapping measurements reduce the entanglement in the system. We also examine the behavior of the average EE under (biased) forced measurements where the measurement outcomes are sampled with a pre-determined probability distribution without inter-site correlations. In particular, we find an optimal probability distribution that can serve as a mean-field approximation to the Born-rule probabilities and lead to the same $c_{\text{eff}}$ behavior. The effects of the measurements along the longitudinal spin axis and the post-measurement correlation functions are also discussed.
翻訳日:2023-01-23 14:26:07 公開日:2023-01-19
# 侵入性褐色斑点虫の観察における近赤外ハイパースペクトルイメージングの可能性評価

Evaluation of the potential of Near Infrared Hyperspectral Imaging for monitoring the invasive brown marmorated stink bug ( http://arxiv.org/abs/2301.08252v1 )

ライセンス: Link先を確認
Veronica Ferrari, Rosalba Calvini, Bas Boom, Camilla Menozzi, Aravind Krishnaswamy Rangarajan, Lara Maistrello, Peter Offermans, Alessandro Ulrici(参考訳) ブラウン・マーモーテッド・スフィンク・バグ(英: brown marmorated stink bug, BMSB)は、数種の作物を害し、アグリフードの生産を阻害する、世界的重要性の侵入性昆虫害虫である。 畑のモニタリングは、作物の感染や経済的損失を迅速に回避するために、リスクアセスメントを行うための基本的な手順である。 害虫管理を改善するため、無人航空機(UAV)やスマートトラップや無人地上車両などのIoTデバイスに搭載されたスペクトルカメラは、昆虫の寄生を高速かつ効率的にリアルタイムに監視できる革新的な技術として使用できる。 本研究は,BMSB検体を異なる植物背景から検出する技術として,NIR-HSI(Near Infrared Hyperspectral Imaging)実験室レベルでの予備評価を行い,BMSB検体を克服した。 BMSBのハイパースペクトル画像は980-1660nmの範囲で取得され、実地アプリケーションシーンを模倣するために選択された異なる植物背景を考慮した。 分類モデルは2つの異なるケモメトリックアプローチで得られた。 第1のアプローチは、スペクトル情報のモデル化と、ソフト部分最小方形判別分析(s-Soft PLS-DA)分類アルゴリズムと組み合わせたスパースに基づく変数選択による識別のための関連するスペクトル領域の選択に焦点を当てた。 第2のアプローチは、畳み込みニューラルネットワーク(CNN)を用いたハイパースペクトル画像に含まれる空間的・スペクトル的特徴のモデル化に基づく。 最後に, s-Soft PLS-DAにより選択されたスペクトル領域のみを考慮したBMSB検出能力を更に向上させるため, 2つの戦略を融合した。

The brown marmorated stink bug (BMSB), Halyomorpha halys, is an invasive insect pest of global importance that damages several crops, compromising agri-food production. Field monitoring procedures are fundamental to perform risk assessment operations, in order to promptly face crop infestations and avoid economical losses. To improve pest management, spectral cameras mounted on Unmanned Aerial Vehicles (UAVs) and other Internet of Things (IoT) devices, such as smart traps or unmanned ground vehicles, could be used as an innovative technology allowing fast, efficient and real-time monitoring of insect infestations. The present study consists in a preliminary evaluation at the laboratory level of Near Infrared Hyperspectral Imaging (NIR-HSI) as a possible technology to detect BMSB specimens on different vegetal backgrounds, overcoming the problem of BMSB mimicry. Hyperspectral images of BMSB were acquired in the 980-1660 nm range, considering different vegetal backgrounds selected to mimic a real field application scene. Classification models were obtained following two different chemometric approaches. The first approach was focused on modelling spectral information and selecting relevant spectral regions for discrimination by means of sparse-based variable selection coupled with Soft Partial Least Squares Discriminant Analysis (s-Soft PLS-DA) classification algorithm. The second approach was based on modelling spatial and spectral features contained in the hyperspectral images using Convolutional Neural Networks (CNN). Finally, to further improve BMSB detection ability, the two strategies were merged, considering only the spectral regions selected by s-Soft PLS-DA for CNN modelling.
翻訳日:2023-01-23 14:25:43 公開日:2023-01-19
# マルチモーダル交通予測のための因果条件隠れマルコフモデル

Causal conditional hidden Markov model for multimodal traffic prediction ( http://arxiv.org/abs/2301.08249v1 )

ライセンス: Link先を確認
Yu Zhao, Pan Deng, Junting Liu, Xiaofeng Jia, Mulan Wang(参考訳) マルチモーダル交通の流れは交通システムの健全性を反映し、その予測は都市交通管理に不可欠である。 最近の研究は交通の流れの時空間的相関を過度に強調し、観測の生成と因果関係につながる物理的概念を無視している。 時空間相関は、異なる条件の影響下で不安定であると考えられており、観測中にスプリアス相関が存在する可能性がある。 本稿では,多モードトラヒックフローの発生に影響を及ぼす物理概念を観測生成原理の観点から分析し,多モードトラヒックフロー予測のための因果条件付き隠れマルコフモデル(cchmm)を提案する。 潜在変数推定段階において、後続ネットワークは、条件情報と観測から関心概念の因果表現を異なっており、因果伝播モジュールは、それらの因果関係をマイニングする。 データ生成段階において、先行ネットワークは、先行分布から因果潜在変数をサンプリングし、ジェネレータに供給してマルチモーダルトラフィックフローを生成する。 我々は,モデルの有効性を高めるために,前と後を相互に指導した訓練手法を用いる。 実世界のデータセットを用いた実験により、CCHMMは関心の概念の因果表現を効果的に切り離し、因果性を特定し、マルチモーダルトラフィックフローを正確に予測できることが示された。

Multimodal traffic flow can reflect the health of the transportation system, and its prediction is crucial to urban traffic management. Recent works overemphasize spatio-temporal correlations of traffic flow, ignoring the physical concepts that lead to the generation of observations and their causal relationship. Spatio-temporal correlations are considered unstable under the influence of different conditions, and spurious correlations may exist in observations. In this paper, we analyze the physical concepts affecting the generation of multimode traffic flow from the perspective of the observation generation principle and propose a Causal Conditional Hidden Markov Model (CCHMM) to predict multimodal traffic flow. In the latent variables inference stage, a posterior network disentangles the causal representations of the concepts of interest from conditional information and observations, and a causal propagation module mines their causal relationship. In the data generation stage, a prior network samples the causal latent variables from the prior distribution and feeds them into the generator to generate multimodal traffic flow. We use a mutually supervised training method for the prior and posterior to enhance the identifiability of the model. Experiments on real-world datasets show that CCHMM can effectively disentangle causal representations of concepts of interest and identify causality, and accurately predict multimodal traffic flow.
翻訳日:2023-01-23 14:25:10 公開日:2023-01-19
# 超音波平面ポーズ回帰の学習:胎児脳における一般化ポーズ座標の評価

Learning ultrasound plane pose regression: assessing generalized pose coordinates in the fetal brain ( http://arxiv.org/abs/2301.08317v1 )

ライセンス: Link先を確認
Chiara Di Vece, Maela Le Lous, Brian Dromey, Francisco Vasconcelos, Anna L David, Donald Peebles, Danail Stoyanov(参考訳) 超音波(US)スキャンでは、2次元(2D)US画像から胎児の3次元(3D)マップを精神的に構築する学習者の能力は、スキル獲得において重要な課題である。 我々は,センサを付加することなく,3次元可視化,トレーニング,ガイダンスのための米国の航空機ローカライゼーションシステムの構築を目指している。 これは、畳み込みニューラルネットワーク(CNN)レグレッションネットワークを用いて、胎児の脳を正常化された参照フレームにスライスする、任意指向の米国平面の6次元(6次元)ポーズを予測するものである。 そこで本研究では、正常化胎児脳基準フレームの仮定を詳細に分析し、胎児生体計測のための経室的(tv)標準平面(sp)の取得に関してその精度を定量化する。 登録品質がトレーニングおよびテストデータに与える影響と,それに続くトレーニングモデルへの影響について検討する。 最後に,先行研究の結果を改善するデータ拡張とより大きなトレーニングセットを導入し,それぞれ3.53mmと6.42度の平均誤差を達成した。

In obstetric ultrasound (US) scanning, the learner's ability to mentally build a three-dimensional (3D) map of the fetus from a two-dimensional (2D) US image represents a significant challenge in skill acquisition. We aim to build a US plane localization system for 3D visualization, training, and guidance without integrating additional sensors. This work builds on top of our previous work, which predicts the six-dimensional (6D) pose of arbitrarily-oriented US planes slicing the fetal brain with respect to a normalized reference frame using a convolutional neural network (CNN) regression network. Here, we analyze in detail the assumptions of the normalized fetal brain reference frame and quantify its accuracy with respect to the acquisition of transventricular (TV) standard plane (SP) for fetal biometry. We investigate the impact of registration quality in the training and testing data and its subsequent effect on trained models. Finally, we introduce data augmentations and larger training sets that improve the results of our previous work, achieving median errors of 3.53 mm and 6.42 degrees for translation and rotation, respectively.
翻訳日:2023-01-23 14:17:10 公開日:2023-01-19
# パラメトリゼーションクックブック:統計的推論における機械学習手法を用いた客観的パラメトリゼーションのセット

Parametrization Cookbook: A set of Bijective Parametrizations for using Machine Learning methods in Statistical Inference ( http://arxiv.org/abs/2301.08297v1 )

ライセンス: Link先を確認
Jean-Benoist Leger(参考訳) 本稿では,制約付き統計的推論問題を制約のないものに変換して,自動微分やGPU計算,確率勾配などの現代的な計算手法をミニバッチで利用できる方法を提案する。 機械学習で古典的に使われているパラメトリゼーションとは異なり、ここで導入されたパラメトリゼーションは全単射であり、微分同相性(diffeomorphisms)でもある。 この料理本は、制約された問題を制約のないものに変換するために使用するレシピのセットを提供する。 パラメトリゼーションの容易な利用のために,本論文は,クックブックとPythonパッケージを同時に使用して,numpyでパラメトリゼーションを使用できるだけでなく,JAXやPyTorchも利用できるとともに,パラメトリゼーションの表現が容易で,統計的推論の難しい問題を,現代的な最適化ツールで対処可能な,より簡単な問題に変換することができる。

We present in this paper a way to transform a constrained statistical inference problem into an unconstrained one in order to be able to use modern computational methods, such as those based on automatic differentiation, GPU computing, stochastic gradients with mini-batch. Unlike the parametrizations classically used in Machine Learning, the parametrizations introduced here are all bijective and are even diffeomorphisms, thus allowing to keep the important properties from a statistical inference point of view, first of all identifiability. This cookbook presents a set of recipes to use to transform a constrained problem into a unconstrained one. For an easy use of parametrizations, this paper is at the same time a cookbook, and a Python package allowing the use of parametrizations with numpy, but also JAX and PyTorch, as well as a high level and expressive interface allowing to easily describe a parametrization to transform a difficult problem of statistical inference into an easier problem addressable with modern optimization tools.
翻訳日:2023-01-23 14:16:53 公開日:2023-01-19
# 光子相互作用によるブロッホ振動の制御と増幅

Control and amplification of Bloch oscillations via photon-mediated interactions ( http://arxiv.org/abs/2301.08296v1 )

ライセンス: Link先を確認
Haoqing Zhang, Anjun Chu, Chengyi Luo, James K. Thompson, Ana Maria Rey(参考訳) 定常波キャビティと非共振格子とキャビティ波長で支持された光学格子における光子媒介相互作用による原子ブロッホ振動を制御・増強する手法を提案する。 本手法では, 位置依存型原子-光結合を用いて, 熱ガスから特定の格子の原子配列への空間的準備を行う。 この初期状態において、分散位置依存原子キャビティカップリングを利用して単粒子ブロッホ振動の非破壊的測定を行い、原子運動によって自己調整された長距離相互作用を生成する。 後者は、深い格子系における動的相転移の発生と、浅い格子系におけるブロッホ振動の増幅に繋がる。 本研究は,多体動力学的な自己可変ポテンシャルを探索するために,最先端の空洞QED実験で利用できる新しい可能性を紹介する。

We propose a scheme to control and enhance atomic Bloch oscillations via photon-mediated interactions in an optical lattice supported by a standing-wave cavity with incommensurate lattice and cavity wavelengths. Our scheme uses position-dependent atom-light couplings to spatially prepare, from a thermal gas, to an array of atoms at specific lattice sites. On this initial state we take advantage of dispersive position-dependent atom-cavity couplings to perform non-destructive measurements of single-particle Bloch oscillations, and to generate long-range interactions self-tuned by atomic motion. The latter leads to the generation of dynamical phase transitions in the deep lattice regime and the amplification of Bloch oscillations in the shallow lattice regime. Our work introduces new possibilities accessible in state-of-the-art cavity QED experiments for the exploration of many-body dynamics in self-tunable potentials.
翻訳日:2023-01-23 14:16:32 公開日:2023-01-19
# Quantum HyperNetworks: 量子重ね合わせにおけるバイナリニューラルネットワークのトレーニング

Quantum HyperNetworks: Training Binary Neural Networks in Quantum Superposition ( http://arxiv.org/abs/2301.08292v1 )

ライセンス: Link先を確認
Juan Carrasquilla, Mohamed Hibat-Allah, Estelle Inack, Alireza Makhzani, Kirill Neklyudov, Graham W. Taylor, Giacomo Torlai(参考訳) バイナリニューラルネットワーク、すなわち、パラメータとアクティベーションが2つの可能な値に制限されているニューラルネットワークは、エネルギーとメモリに制限されたデバイスにディープラーニングモデルをデプロイするための魅力的な道を提供する。 しかしながら、それらのトレーニング、アーキテクチャ設計、ハイパーパラメータチューニングは、複数の計算コストのかかる組合せ最適化問題を含むため、依然として困難である。 ここでは、量子コンピュータ上でバイナリニューラルネットワークをトレーニングするメカニズムとして量子ハイパーネットワークを導入し、パラメータ、ハイパーパラメータ、アーキテクチャの検索を単一の最適化ループで統一する。 古典的シミュレーションにより,2次元ガウスデータセットやMNIST手書き桁のスケールダウン版を含む分類問題に対して,最適パラメータ,ハイパーパラメータ,アーキテクチャ選択を高い確率で効果的に発見できることを示した。 我々は、量子ハイパーネットワークを変分量子回路として表現し、最適な回路深度は、高性能バイナリニューラルネットワークを見つける確率を最大化する。 私たちの統合されたアプローチは、機械学習の分野における他のアプリケーションにとって大きなスコープを提供します。

Binary neural networks, i.e., neural networks whose parameters and activations are constrained to only two possible values, offer a compelling avenue for the deployment of deep learning models on energy- and memory-limited devices. However, their training, architectural design, and hyperparameter tuning remain challenging as these involve multiple computationally expensive combinatorial optimization problems. Here we introduce quantum hypernetworks as a mechanism to train binary neural networks on quantum computers, which unify the search over parameters, hyperparameters, and architectures in a single optimization loop. Through classical simulations, we demonstrate that of our approach effectively finds optimal parameters, hyperparameters and architectural choices with high probability on classification problems including a two-dimensional Gaussian dataset and a scaled-down version of the MNIST handwritten digits. We represent our quantum hypernetworks as variational quantum circuits, and find that an optimal circuit depth maximizes the probability of finding performant binary neural networks. Our unified approach provides an immense scope for other applications in the field of machine learning.
翻訳日:2023-01-23 14:16:19 公開日:2023-01-19
# フーリエニューラル演算子を用いた予測サブクリティカルシリンダの起動

Forecasting subcritical cylinder wakes with Fourier Neural Operators ( http://arxiv.org/abs/2301.08290v1 )

ライセンス: Link先を確認
Peter I Renn, Cong Wang, Sahin Lale, Zongyi Li, Anima Anandkumar, Morteza Gharib(参考訳) 実測速度場の時間的変化を予測するために,最先端の演算子学習技術であるフーリエニューラル演算子(FNO)を適用した。 FNOは、データのみを通して偏微分方程式系の解演算子を近似できる、最近開発された機械学習手法である。 学習されたfno解演算子はミリ秒で評価でき、物理システムにおける予測フロー制御のリアルタイムモデリングを可能にする。 ここではFNOを用いて物理流体の経時変化を予測し, 亜臨界渦シーディング系におけるシリンダー流路の粒子画像速度測定によるトレーニングを行った。 我々はRe =240からRe =3060までのレイノルズ数でFNOを訓練し、乱流現象が予測精度に与える影響について研究する。 ここでは,予測フロー制御の問題と関連する10個の非次元時間ステップの短い予測地平線に焦点を当てる。 その結果,fnosは有限かつ不完全な流れ観測を行っても,レイノルズ数 (l2 norm error < 0.1) の範囲内で実験速度場の進化を正確に予測できることがわかった。 これらの結果から,本手法は物理系のリアルタイム予測フロー制御に有意な可能性を秘めていると結論づけた。

We apply Fourier neural operators (FNOs), a state-of-the-art operator learning technique, to forecast the temporal evolution of experimentally measured velocity fields. FNOs are a recently developed machine learning method capable of approximating solution operators to systems of partial differential equations through data alone. The learned FNO solution operator can be evaluated in milliseconds, potentially enabling faster-than-real-time modeling for predictive flow control in physical systems. Here we use FNOs to predict how physical fluid flows evolve in time, training with particle image velocimetry measurements depicting cylinder wakes in the subcritical vortex shedding regime. We train separate FNOs at Reynolds numbers ranging from Re = 240 to Re = 3060 and study how increasingly turbulent flow phenomena impact prediction accuracy. We focus here on a short prediction horizon of ten non-dimensionalized time-steps, as would be relevant for problems of predictive flow control. We find that FNOs are capable of accurately predicting the evolution of experimental velocity fields throughout the range of Reynolds numbers tested (L2 norm error < 0.1) despite being provided with limited and imperfect flow observations. Given these results, we conclude that this method holds significant potential for real-time predictive flow control of physical systems.
翻訳日:2023-01-23 14:16:02 公開日:2023-01-19
# 細胞死予測のための人工知能モデル:ANAKINモデルの開発,検証,説明可能性解析

An Artificial Intelligence-based model for cell killing prediction: development, validation and explainability analysis of the ANAKIN model ( http://arxiv.org/abs/2301.08289v1 )

ライセンス: Link先を確認
Francesco G. Cordoni, and Marta Missiaggia, Emanuele Scifoni and Chiara La Tessa(参考訳) 本研究は,(放射線誘発)細胞死予測のための人工知能モデルanakinを開発した。 ANAKINは、公開されているPIDEデータベースに含まれる様々な種類の放射線を用いて、513の細胞生存実験を訓練し、テストしている。 本研究では, 広範囲のイオンビームおよび多数の細胞株において, ANAKINが生物の終端を正確に予測する方法を示す。 アナキンの予測を臨床で使用されるrbe予測のための2つの放射性生物モデル、すなわちmicrodosimetric kinetic model (mkm) と局所効果モデル (lem version iii) と比較し、アナキンが全ての生物学的エンドポイントに対して高い精度を持つことを示した。 最後に、現代的な説明可能な人工知能(xai)技術を用いて、アナキンの予測がどのように理解され、説明できるかを示し、アナキンが実際、過剰殺人効果のような既知の生物学的パターンを再現できるかを強調する。

The present work develops ANAKIN: an Artificial iNtelligence bAsed model for (radiation induced) cell KIlliNg prediction. ANAKIN is trained and tested over 513 cell survival experiments with different types of radiation contained in the publicly available PIDE database. We show how ANAKIN accurately predicts several relevant biological endpoints over a wide broad range on ions beams and for a high number of cell--lines. We compare the prediction of ANAKIN to the only two radiobiological model for RBE prediction used in clinics, that is the Microdosimetric Kinetic Model (MKM) and the Local Effect Model (LEM version III), showing how ANAKIN has higher accuracy over the all considered biological endpoints. At last, via modern techniques of Explainable Artificial Intelligence (XAI), we show how ANAKIN predictions can be understood and explained, highlighting how ANAKIN is in fact able to reproduce relevant well-known biological patterns, such as the overkilling effect.
翻訳日:2023-01-23 14:15:41 公開日:2023-01-19
# 次元の呪いを伴わない滑らかで有界な関数のクラスを近似する人工ニューラルネットワークの深さの必要性

The necessity of depth for artificial neural networks to approximate certain classes of smooth and bounded functions without the curse of dimensionality ( http://arxiv.org/abs/2301.08284v1 )

ライセンス: Link先を確認
Lukas Gonon and Robin Graeber and Arnulf Jentzen(参考訳) 本稿では,直列線形ユニット(ReLU)を活性化した浅部および深部ニューラルネットワーク(ANN)の高次元近似能力について検討する。 In particular, it is a key contribution of this work to reveal that for all $a,b\in\mathbb{R}$ with $b-a\geq 7$ we have that the functions $[a,b]^d\ni x=(x_1,\dots,x_d)\mapsto\prod_{i=1}^d x_i\in\mathbb{R}$ for $d\in\mathbb{N}$ as well as the functions $[a,b]^d\ni x =(x_1,\dots, x_d)\mapsto\sin(\prod_{i=1}^d x_i) \in \mathbb{R} $ for $ d \in \mathbb{N} $ can neither be approximated without the curse of dimensionality by means of shallow ANNs nor insufficiently deep ANNs with ReLU activation but can be approximated without the curse of dimensionality by sufficiently deep ANNs with ReLU activation. 積関数と積関数の正弦関数は、深部ReLU ANNの近似クラスの中で多項式的に抽出可能な近似問題であり、その次元が$ d \in \mathbb{N} $ であることを示す。 上記の概説は、積関数と積関数の正弦だけでなく、対象関数の他のクラス、特に、任意の $[a,b]^d$ with $a\in\mathbb{r}$, $b\in(a,\infty)$ に対してコンパクトなサポートを持つ一様に大域的に有界な $ c^{ \infty } $-関数のクラスについても成立する。 大まかに言えば、この研究では、多項式時間でReLUを活性化する浅いあるいは不十分な深いANNによって標準実装フレームワークでは、正弦や積の余弦を近似するといった単純な近似問題を解くことはできないが、多項式数が最大で増加するような十分深いReLU ANNによって近似することができる。

In this article we study high-dimensional approximation capacities of shallow and deep artificial neural networks (ANNs) with the rectified linear unit (ReLU) activation. In particular, it is a key contribution of this work to reveal that for all $a,b\in\mathbb{R}$ with $b-a\geq 7$ we have that the functions $[a,b]^d\ni x=(x_1,\dots,x_d)\mapsto\prod_{i=1}^d x_i\in\mathbb{R}$ for $d\in\mathbb{N}$ as well as the functions $[a,b]^d\ni x =(x_1,\dots, x_d)\mapsto\sin(\prod_{i=1}^d x_i) \in \mathbb{R} $ for $ d \in \mathbb{N} $ can neither be approximated without the curse of dimensionality by means of shallow ANNs nor insufficiently deep ANNs with ReLU activation but can be approximated without the curse of dimensionality by sufficiently deep ANNs with ReLU activation. We show that the product functions and the sine of the product functions are polynomially tractable approximation problems among the approximating class of deep ReLU ANNs with the number of hidden layers being allowed to grow in the dimension $ d \in \mathbb{N} $. We establish the above outlined statements not only for the product functions and the sine of the product functions but also for other classes of target functions, in particular, for classes of uniformly globally bounded $ C^{ \infty } $-functions with compact support on any $[a,b]^d$ with $a\in\mathbb{R}$, $b\in(a,\infty)$. Roughly speaking, in this work we lay open that simple approximation problems such as approximating the sine or cosine of products cannot be solved in standard implementation frameworks by shallow or insufficiently deep ANNs with ReLU activation in polynomial time, but can be approximated by sufficiently deep ReLU ANNs with the number of parameters growing at most polynomially.
翻訳日:2023-01-23 14:15:24 公開日:2023-01-19
# 大学院研究インターンのためのロボットの深層学習に関する研究

A Survey of research in Deep Learning for Robotics for Undergraduate research interns ( http://arxiv.org/abs/2301.08283v1 )

ライセンス: Link先を確認
Narayanan PP and Palacode Narayana Iyer Anantharaman(参考訳) 本研究の目的は,「Deep Learning as applied to Robotics」の幅広い領域における多くのインターンシッププロジェクトを調査し,学生インターンを志すための簡潔な視点を示すことである。 ここ数年、ロボットベースのソリューションのユースケースは、工場の床から国内アプリケーションへと多様化してきた。 並行して、Deep Learningアプローチは、コンピュータビジョン、自然言語処理、音声処理などの従来のテクニックを置き換え、堅牢な結果を提供している。 本稿では,ロボティクス・インスティテュート・サマー・スタディズ(riss)による研究成果を,研究インターンシップの一環として調査する。 特に、コアロボットの問題を解決するためにディープラーニングを使用する論文や、ロボットのソリューションに焦点を当てています。 われわれは、ロボット研究所(CMU)のインターンシップ・アスピラントに特に役立つと信じている。

Our goal is to survey a number of research internship projects in the broad area of 'Deep Learning as applied to Robotics' and present a concise view for the benefit of aspiring student interns. Over the last several years use cases for robotics based solutions have diversified from factory floors to domestic applications. In parallel, Deep Learning approaches are replacing traditional techniques in Computer Vision, Natural Language Processing, Speech processing, etc. and are delivering robust results. In this paper, we survey the research work done by Robotic Institute Summer Scholars (RISS), CMU as a part of research internship. We particularly focus on papers that use deep learning to solve core robotic problems and also robotic solutions. We trust this would be useful particularly for internship aspirants for the Robotics Institute, CMU
翻訳日:2023-01-23 14:14:35 公開日:2023-01-19
# ETLP:ニューロモルフィックハードウェアを用いたオンライン学習のためのイベントベースの3要素局所塑性

ETLP: Event-based Three-factor Local Plasticity for online learning with neuromorphic hardware ( http://arxiv.org/abs/2301.08281v1 )

ライセンス: Link先を確認
Fernando M. Quintana, Fernando Perez-Pe\~na, Pedro L. Galindo, Emre O. Netfci, Elisabetta Chicca, Lyes Khacef(参考訳) イベントベースのセンサ、非同期ハードウェア、スパイクニューロンによるニューロモルフィック認識は、組み込みシステムにおけるリアルタイムおよびエネルギー効率の高い推論に有望な結果を示している。 脳に触発されたコンピューティングの次の約束は、オンライン学習による端点の変化への適応を可能にすることだ。 しかしながら、共局在計算とメモリに基づくニューロモルフィックハードウェアの並列および分散アーキテクチャは、オンチップ学習ルールに局所性制約を課している。 本稿では,(1)シナプス前スパイクトレース,(2)シナプス後膜電圧,(3)誤差計算を伴わない投影ラベル形式における第3因子を,更新トリガーとして用いる,事象に基づく3要素局所可塑性(etlp)ルールを提案する。 ETLPにフィードフォワードと繰り返し発生するスパイクニューラルネットワークを視覚的および聴覚的事象に基づくパターン認識に適用し、それをBPTT(Back-Propagation Through Time)とePropと比較する。 ETLPの計算複雑性に明らかな優位性を有する精度で競合性能を示す。 また,局所可塑性の場合,スパイキングニューロンのしきい値適応と再帰トポロジーが必要であり,時間的構造に富む時空間パターンを学習できることを示した。 最後に,その計算プリミティブの単純さと,低消費電力とリアルタイムインタラクションを備えたオンライン学習のためのニューロモルフィックハードウェアへのマッピングを強調するために,fpga上のetlpのコンセプトハードウェア実装を提案する。

Neuromorphic perception with event-based sensors, asynchronous hardware and spiking neurons is showing promising results for real-time and energy-efficient inference in embedded systems. The next promise of brain-inspired computing is to enable adaptation to changes at the edge with online learning. However, the parallel and distributed architectures of neuromorphic hardware based on co-localized compute and memory imposes locality constraints to the on-chip learning rules. We propose in this work the Event-Based Three-factor Local Plasticity (ETLP) rule that uses (1) the pre-synaptic spike trace, (2) the post-synaptic membrane voltage and (3) a third factor in the form of projected labels with no error calculation, that also serve as update triggers. We apply ETLP with feedforward and recurrent spiking neural networks on visual and auditory event-based pattern recognition, and compare it to Back-Propagation Through Time (BPTT) and eProp. We show a competitive performance in accuracy with a clear advantage in the computational complexity for ETLP. We also show that when using local plasticity, threshold adaptation in spiking neurons and a recurrent topology are necessary to learn spatio-temporal patterns with a rich temporal structure. Finally, we provide a proof of concept hardware implementation of ETLP on FPGA to highlight the simplicity of its computational primitives and how they can be mapped into neuromorphic hardware for online learning with low-energy consumption and real-time interaction.
翻訳日:2023-01-23 14:14:22 公開日:2023-01-19
# マルチエージェント強化学習システムにおける直接罰が協調の創発に及ぼす影響の検討

Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2301.08278v1 )

ライセンス: Link先を確認
Nayana Dasgupta, Mirco Musolesi(参考訳) 協力の問題は、道路合流点の航行から気候変動交渉まで、人間の社会にとって基本的な重要性である。 社会の中でAIの利用が広まるにつれ、これらの複雑なジレンマをナビゲートできる社会的にインテリジェントなエージェントの必要性がますます顕在化しつつある。 直接的な処罰は、自然界における協力の出現に寄与することが示されているユビキタスな社会メカニズムであるが、学習エージェントの集団への影響については、先行研究が調査していない。 さらに、自然界におけるあらゆる形態の罰の使用は、パートナーの選択と評判と強く結びついているが、既存の研究は、マルチエージェントシステムにおけるそれらの組み合わせの全体的分析を提供していない。 本稿では,多エージェント強化学習システムにおける直接罰と関連する行動と学習ダイナミクスの包括的分析を行い,両者がパートナー選択や評判といった他の社会的メカニズムと組み合わされた場合の第三者罰との比較について述べる。 我々は、これらの重要なメカニズムが協調の出現に与える影響を広範囲かつ体系的に評価する。 最後に、協調型AIシステムの設計におけるこれらのメカニズムの使用の意味について論じる。

The problem of cooperation is of fundamental importance for human societies, with examples ranging from navigating road junctions to negotiating climate treaties. As the use of AI becomes more pervasive within society, the need for socially intelligent agents that are able to navigate these complex dilemmas is becoming increasingly evident. Direct punishment is an ubiquitous social mechanism that has been shown to benefit the emergence of cooperation within the natural world, however no prior work has investigated its impact on populations of learning agents. Moreover, although the use of all forms of punishment in the natural world is strongly coupled with partner selection and reputation, no existing work has provided a holistic analysis of their combination within multi-agent systems. In this paper, we present a comprehensive analysis of the behaviors and learning dynamics associated with direct punishment in multi-agent reinforcement learning systems and how this compares to third-party punishment, when both forms of punishment are combined with other social mechanisms such as partner selection and reputation. We provide an extensive and systematic evaluation of the impact of these key mechanisms on the emergence of cooperation. Finally, we discuss the implications of the use of these mechanisms in the design of cooperative AI systems.
翻訳日:2023-01-23 14:13:57 公開日:2023-01-19
# 蒸発するブラックホールのホログラフィーマップ

The Holographic Map of an Evaporating Black Hole ( http://arxiv.org/abs/2301.08362v1 )

ライセンス: Link先を確認
Zsolt Gyongyosi, Timothy J. Hollowood, S. Prem Kumar, Andrea Legramandi, Neil Talwar(参考訳) 我々は、蒸発するブラックホールとそのホーキング放射の半古典的な状態から、ブラックホールのスクランブルダイナミクスを反映した微視的モデルまで、ホログラフィックマップを構築する。 顕微鏡モデルは、ブラックホールの進化のスクランブルタイムステップを実装するランダムなユニタリのネスト配列によって与えられる。 他のモデルと異なり、ホーキング放射のエネルギー保存と熱的性質が考慮されている。 QES式は、放射線とブラックホールの複数の部分集合のエントロピーに従うことを示す。 さらに,ホーキングパートナーのサブセットに対するユニタリの作用を含む適切なトレースノルムと量子フィデリティを計算することで,絡み合うくさびの再構成が証明できることを示した。 ホーキング・パートナーが島にいる場合、そのユニタリは放射のユニタリによって再構成できるため、ホーキング・パートナーはブラックホールの地平線の裏側にあるいかなる意味も持たない。 また,倒壊システムにおけるユニタリの再構築の問題についても考察する。

We construct a holographic map that takes the semi-classical state of an evaporating black hole and its Hawking radiation to a microscopic model that reflects the scrambling dynamics of the black hole. The microscopic model is given by a nested sequence of random unitaries, each one implementing a scrambling time step of the black hole evolution. Differently from other models, energy conservation and the thermal nature of the Hawking radiation are taken into account. We show that the QES formula follows for the entropy of multiple subsets of the radiation and black hole. We further show that a version of entanglement wedge reconstruction can be proved by computing suitable trace norms and quantum fidelities involving the action of a unitary on a subset of Hawking partners. If the Hawking partner is in an island, its unitary can be reconstructed by a unitary on the radiation and so the Hawking partners are not in any sense behind the horizon of the black hole. We also consider the problem of reconstruction for unitaries acting on an infalling system.
翻訳日:2023-01-23 14:06:20 公開日:2023-01-19
# 電力取引のための深層強化学習

Deep Reinforcement Learning for Power Trading ( http://arxiv.org/abs/2301.08360v1 )

ライセンス: Link先を確認
Yuanrong Wang, Vignesh Raja Swaminathan, Nikita P. Granger, Carlos Ros Perez, Christian Michler(参考訳) オランダの電力市場は日頭市場とオークションのような日内バランス市場を含んでいる。 電力の供給と需要の変化とその不確実性は、この2つの市場で異なる電力価格を引き起こす不均衡を引き起こし、仲裁の機会を生み出す。 本稿では,二段階シミュレーションと欧州電力仲裁取引の最適化のための協調的二重エージェント強化学習(RL)を提案する。 さらに,電力市場に特化した2つの新しい実践手法を提案する。 模倣学習の概念を活用することで、RLエージェントの報酬は、事前のドメイン知識を考慮に入れ、トレーニング中により収束し、パフォーマンスを改善し、一般化することで改革される。 さらに、注文の受け渡しにより入札成功率が向上し、P&Lが大幅に上昇する。 本研究では,各手法が全体の性能向上に大きく寄与し,統合手法は元のエージェントに比べて累積的なP&Lの約3倍の改善を実現し,また,効率のよい計算性能を示しながら,最も高いベンチマークポリシーを約50%上回っていることを示す。

The Dutch power market includes a day-ahead market and an auction-like intraday balancing market. The varying supply and demand of power and its uncertainty induces an imbalance, which causes differing power prices in these two markets and creates an opportunity for arbitrage. In this paper, we present collaborative dual-agent reinforcement learning (RL) for bi-level simulation and optimization of European power arbitrage trading. Moreover, we propose two novel practical implementations specifically addressing the electricity power market. Leveraging the concept of imitation learning, the RL agent's reward is reformed by taking into account prior domain knowledge results in better convergence during training and, moreover, improves and generalizes performance. In addition, tranching of orders improves the bidding success rate and significantly raises the P&L. We show that each method contributes significantly to the overall performance uplifting, and the integrated methodology achieves about three-fold improvement in cumulative P&L over the original agent, as well as outperforms the highest benchmark policy by around 50% while exhibits efficient computational performance.
翻訳日:2023-01-23 14:06:05 公開日:2023-01-19
# 量子EL理論

A Quantum EL Theorem ( http://arxiv.org/abs/2301.08348v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 本稿では,EL定理の量子バージョンを証明した。 これは、大きな階数の非エキゾチックな射影は、その像の中に単純な量子状態を持つ必要があると述べている。 その結果、単純な量子状態を用いずに、フォン・ノイマンのエントロピーが十分大きい量子源を通信する方法は存在しない。

In this paper, we prove a quantum version of the EL Theorem. It states that non-exotic projections of large rank must have simple quantum states in their images. A consequence to this is there is no way to communicate a quantum source with corresponding large enough von Neumann entropy without using simple quantum states.
翻訳日:2023-01-23 14:05:45 公開日:2023-01-19
# 2022年ロシア・ウクライナ紛争におけるReddit投稿の希望と恐怖の知覚分析

Sentiment Analysis for Measuring Hope and Fear from Reddit Posts During the 2022 Russo-Ukrainian Conflict ( http://arxiv.org/abs/2301.08347v1 )

ライセンス: Link先を確認
Alessio Guerra and Oktay Karaku\c{s}(参考訳) 本稿では,2022年ウクライナ・ロシア紛争に対する「$`\textit{hope}"$」と「$``\textit{fear}"$」を測定するための,新しい語彙に基づく教師なし感情分析手法を提案する。 $\textit{Reddit.com}$は、紛争の最初の3ヶ月間、日々の出来事に対する人間の反応の主要な原因として利用される。 ウクライナとニュースに関する6つのサブレディット(ウクライナ、ワールドニューズ、ウクライナ、ウクライナ、ウクライナWarVideoReport、ウクライナWarReports)のトップ50$`hot"$ポストとその相対的なコメントは取り除かれ、データセットが作成される。 本コーパスでは、(1)公益、(2)希望/希望スコア、(3)株価相互作用などの複数の分析を行う。 提案手法では,各投稿の希望度を評価する辞書方式を推奨する。 トピックモデリングのLatent Dirichlet Allocation (LDA)アルゴリズムも、ユーザによる主な問題と重要な話題を理解するために使用されている。 Azovstal(Mariupol)とSeverodonetsk(Severodonetsk)の象徴的、戦略的損失により、希望は強く低下する。 希望と否定の両方のスパイクは重要な戦闘の後に存在するが、ユーロビジョンやフットボールの試合のような非軍事的な出来事もある。

This paper proposes a novel lexicon-based unsupervised sentimental analysis method to measure the $``\textit{hope}"$ and $``\textit{fear}"$ for the 2022 Ukrainian-Russian Conflict. $\textit{Reddit.com}$ is utilised as the main source of human reactions to daily events during nearly the first three months of the conflict. The top 50 $``hot"$ posts of six different subreddits about Ukraine and news (Ukraine, worldnews, Ukraina, UkrainianConflict, UkraineWarVideoReport, UkraineWarReports) and their relative comments are scraped and a data set is created. On this corpus, multiple analyses such as (1) public interest, (2) hope/fear score, (3) stock price interaction are employed. We promote using a dictionary approach, which scores the hopefulness of every submitted user post. The Latent Dirichlet Allocation (LDA) algorithm of topic modelling is also utilised to understand the main issues raised by users and what are the key talking points. Experimental analysis shows that the hope strongly decreases after the symbolic and strategic losses of Azovstal (Mariupol) and Severodonetsk. Spikes in hope/fear, both positives and negatives, are present after important battles, but also some non-military events, such as Eurovision and football games.
翻訳日:2023-01-23 14:05:40 公開日:2023-01-19
# 医用画像における異常検出モデルにおける雑音の役割

The role of noise in denoising models for anomaly detection in medical images ( http://arxiv.org/abs/2301.08330v1 )

ライセンス: Link先を確認
Antanas Kascenas, Pedro Sanchez, Patrick Schrempf, Chaoyang Wang, William Clackett, Shadia S. Mikhael, Jeremy P. Voisey, Keith Goatman, Alexander Weir, Nicolas Pugeault, Sotirios A. Tsaftaris, Alison Q. O'Neil(参考訳) 病理脳病変は、強度、テクスチャ、形状、大きさ、位置の点で、脳画像に多様な外観を示す。 包括的なデータとアノテーションのセットを取得するのは難しい。 そのため, 通常のデータのみを用いて異常検出手法が提案されており, 試験時間における異常ボクセルの異常検出が目的である。 デノージング手法、例えば古典的デノージングオートエンコーダ(daes)やより最近の拡散モデルは有望なアプローチであるが、ピクセルワイズノイズのナイーブな適用は異常検出性能を低下させる。 空間分解能と雑音の大きさの最適化は,daesモデルと拡散モデルの両方に良好な性能を与える同様の雑音パラメータ調整により,異なるモデル訓練環境の性能を向上させる。 再建の視覚的検査は, 再建されたディテールの程度と異常の程度とのトレードオフに影響を与えることを示唆しており, どちらも異常検出性能の向上に寄与している。 我々は,脳MRIにおける腫瘍検出と,脳CTにおける出血・虚血・腫瘍検出の2つの実世界のデータセットについて検討した。 全体として、粗い雑音で訓練されたDAEは、最先端の精度を提供する高速で単純な方法であることがわかった。 異常検出に適用された拡散モデルは、まだ初期段階であり、さらなる研究のための有望な道を提供する。

Pathological brain lesions exhibit diverse appearance in brain images, in terms of intensity, texture, shape, size, and location. Comprehensive sets of data and annotations are difficult to acquire. Therefore, unsupervised anomaly detection approaches have been proposed using only normal data for training, with the aim of detecting outlier anomalous voxels at test time. Denoising methods, for instance classical denoising autoencoders (DAEs) and more recently emerging diffusion models, are a promising approach, however naive application of pixelwise noise leads to poor anomaly detection performance. We show that optimization of the spatial resolution and magnitude of the noise improves the performance of different model training regimes, with similar noise parameter adjustments giving good performance for both DAEs and diffusion models. Visual inspection of the reconstructions suggests that the training noise influences the trade-off between the extent of the detail that is reconstructed and the extent of erasure of anomalies, both of which contribute to better anomaly detection performance. We validate our findings on two real-world datasets (tumor detection in brain MRI and hemorrhage/ischemia/tumor detection in brain CT), showing good detection on diverse anomaly appearances. Overall, we find that a DAE trained with coarse noise is a fast and simple method that gives state-of-the-art accuracy. Diffusion models applied to anomaly detection are as yet in their infancy and provide a promising avenue for further research.
翻訳日:2023-01-23 14:05:08 公開日:2023-01-19
# 強化学習によるvnf展開のための高度スケーリング手法

Advanced Scaling Methods for VNF deployment with Reinforcement Learning ( http://arxiv.org/abs/2301.08325v1 )

ライセンス: Link先を確認
Namjin Seo, DongNyeong Heo, Heeyoul Choi(参考訳) ネットワーク機能仮想化(NFV)とソフトウェア定義ネットワーク(SDN)は新たなネットワークパラダイムとなり、仮想化ネットワーク機能(VNF)のデプロイを低コストで実現している。 VNFデプロイメントは柔軟性があるが、その複雑さのためにVNFデプロイメントを最適化することは依然として難しい。 いくつかの研究が動的プログラミングとして、例えば整数線形プログラミング(ILP)としてこのタスクにアプローチしている。 しかしながら、高度に複雑なネットワークに対するVNFデプロイメントの最適化は依然として課題である。 あるいは、このタスクを最適化するために強化学習(RL)ベースのアプローチが提案され、特に、より少ない計算時間でVNFをデプロイできるスケーリングアクションベースの手法が提案されている。 しかし、モデルアーキテクチャをさらに改善して、異なるネットワーク設定に一般化することができる。 本稿では,より一般的なネットワーク設定に適応可能な拡張モデルを提案する。 我々は改良されたGNNアーキテクチャと、VNFデプロイメントタスクのためのより良いノード表現を得るために、いくつかのテクニックを採用する。 さらに,最近提案された RL 法である phasic policy gradient (PPG) を適用し,サービス機能チェーン(SFC) 生成モデルの共有表現を値関数から活用する。 提案手法を様々なシナリオで評価し,従来の手法と比較して資源利用最小のqosを実現する。 最後に,提案したノードに対するエンコーダの表現を質的評価として解析し,より不整合な表現を示す。

Network function virtualization (NFV) and software-defined network (SDN) have become emerging network paradigms, allowing virtualized network function (VNF) deployment at a low cost. Even though VNF deployment can be flexible, it is still challenging to optimize VNF deployment due to its high complexity. Several studies have approached the task as dynamic programming, e.g., integer linear programming (ILP). However, optimizing VNF deployment for highly complex networks remains a challenge. Alternatively, reinforcement learning (RL) based approaches have been proposed to optimize this task, especially to employ a scaling action-based method which can deploy VNFs within less computational time. However, the model architecture can be improved further to generalize to the different networking settings. In this paper, we propose an enhanced model which can be adapted to more general network settings. We adopt the improved GNN architecture and a few techniques to obtain a better node representation for the VNF deployment task. Furthermore, we apply a recently proposed RL method, phasic policy gradient (PPG), to leverage the shared representation of the service function chain (SFC) generation model from the value function. We evaluate the proposed method in various scenarios, achieving a better QoS with minimum resource utilization compared to the previous methods. Finally, as a qualitative evaluation, we analyze our proposed encoder's representation for the nodes, which shows a more disentangled representation.
翻訳日:2023-01-23 14:04:43 公開日:2023-01-19
# 数学モデリングの失われた芸術

The Lost Art of Mathematical Modelling ( http://arxiv.org/abs/2301.08559v1 )

ライセンス: Link先を確認
Linn\'ea Gyllingberg, Abeba Birhane, and David J.T. Sumpter(参考訳) 現代の機械学習の急速な発展を踏まえた数学的生物学の批評を提供する。 我々は,(1)定式化モデル,(2)分析モデル,(3)数理生物学固有のモデルとデータとの適合性,比較という3つのモデリング活動の中で,現在,(1)のコストで活動に集中しすぎていることを論じる。 この傾向は、任意の生物学的現象が無限に異なる方法でモデル化できることに気付き、オープン/複数主義的アプローチを採用することで逆転することができる。 魚の移動をケーススタディとして使用したオープンアプローチを説明し、数学的生物学を妨げる落とし穴(普遍主義、モデルのモデルの作成など)を例示する。 そして、失われた芸術、すなわち創造的な数学的モデリングを再発見する方法を尋ねる。 この記事はエドマンド・クランプの思い出に捧げられている。

We provide a critique of mathematical biology in light of rapid developments in modern machine learning. We argue that out of the three modelling activities -- (1) formulating models; (2) analysing models; and (3) fitting or comparing models to data -- inherent to mathematical biology, researchers currently focus too much on activity (2) at the cost of (1). This trend, we propose, can be reversed by realising that any given biological phenomena can be modelled in an infinite number of different ways, through the adoption of an open/pluralistic approach. We explain the open approach using fish locomotion as a case study and illustrate some of the pitfalls -- universalism, creating models of models, etc. -- that hinder mathematical biology. We then ask how we might rediscover a lost art: that of creative mathematical modelling. This article is dedicated to the memory of Edmund Crampin.
翻訳日:2023-01-23 13:10:35 公開日:2023-01-19
# 合成負データを用いたハイブリッドオープンセットセグメンテーション

Hybrid Open-set Segmentation with Synthetic Negative Data ( http://arxiv.org/abs/2301.08555v1 )

ライセンス: Link先を確認
Matej Grci\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 開集合分割はしばしば、閉集合分類と異常検出を補完することで考え出される。 既存の濃密な異常検出装置は、正規トレーニングデータの生成モデリングまたは負のトレーニングデータに対する識別によって動作する。 これら2つのアプローチは、異なる目標を最適化し、異なる障害モードを示す。 そこで本研究では, 生成的, 識別的手がかりを融合した最初の高密度ハイブリッド異常スコアを提案する。 提案したスコアは,任意のセマンティックセグメンテーションモデルを改良し,データ可能性とデータセットの後方推定を等価に行うことで効率よく実装できる。 我々の設計は、閉集合ベースライン上の無視可能な計算オーバーヘッドのため、大きな画像の効率的な推測に極めて適している。 結果として生じる高密なハイブリッドオープンセットモデルは、補助的な負のデータセットまたは共同訓練された生成モデルからサンプリング可能な、負のトレーニングイメージを必要とする。 我々は,交通シーンの高密度異常検出とオープンセグメンテーションのためのベンチマークへのコントリビューションを評価する。 この実験は、計算オーバーヘッドが無視できないにもかかわらず、強力なオープンセット性能を示す。

Open-set segmentation is often conceived by complementing closed-set classification with anomaly detection. Existing dense anomaly detectors operate either through generative modelling of regular training data or by discriminating with respect to negative training data. These two approaches optimize different objectives and therefore exhibit different failure modes. Consequently, we propose the first dense hybrid anomaly score that fuses generative and discriminative cues. The proposed score can be efficiently implemented by upgrading any semantic segmentation model with translation-equivariant estimates of data likelihood and dataset posterior. Our design is a remarkably good fit for efficient inference on large images due to negligible computational overhead over the closed-set baseline. The resulting dense hybrid open-set models require negative training images that can be sampled either from an auxiliary negative dataset or from a jointly trained generative model. We evaluate our contributions on benchmarks for dense anomaly detection and open-set segmentation of traffic scenes. The experiments reveal strong open-set performance in spite of negligible computational overhead.
翻訳日:2023-01-23 13:09:51 公開日:2023-01-19
# Batch Prompting: 大規模言語モデルAPIによる効率的な推論

Batch Prompting: Efficient Inference with Large Language Model APIs ( http://arxiv.org/abs/2301.08721v1 )

ライセンス: Link先を確認
Zhoujun Cheng, Jungo Kasai, Tao Yu(参考訳) 大規模言語モデル(LLM)を用いた数十万のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。 我々は,LLMが一度に1つのサンプルではなく,バッチで推論を実行できるようにする,シンプルな代替プロンプト手法であるバッチプロンプトを提案する。 ダウンストリーム性能を維持しながらトークンと時間の両方のコストを削減する。 理論的には、数ショットのコンテキスト内学習環境では、各バッチのサンプル数とともに、推論コストはほぼ線形に減少する。 バッチプロンプトが大幅に~(最大$5\times$で6つのサンプルをバッチ化する)ことにより、LLM(Codex)推論トークンと時間コストが削減され、より良い性能や同等のパフォーマンスが達成できる。 分析の結果,各バッチ内のサンプル数とタスクの複雑さは,その性能に影響することがわかった。 さらに、バッチプロンプトは異なるLLMおよび推論方法に適用できる。

Performing inference on hundreds of thousands of samples with large language models (LLMs) can be computationally and financially costly. We propose batch prompting, a simple alternative prompting approach that enables the LLM to run inference in batches, instead of one sample at a time. Our method reduces both token and time costs while retaining downstream performance. We theoretically demonstrate that under a few-shot in-context learning setting, the inference costs decrease almost inverse linearly with the number of samples in each batch. We extensively validate the effectiveness of batch prompting on ten datasets across commonsense QA, arithmetic reasoning, and NLI/NLU: batch prompting significantly~(up to $5\times$ with six samples in batch) reduces the LLM (Codex) inference token and time costs while achieving better or comparable performance. Our analysis shows that the number of samples in each batch and the complexity of tasks affect its performance. Further, batch prompting can be applied across different LLMs and reasoning methods.
翻訳日:2023-01-23 12:44:07 公開日:2023-01-19
# 20の質問ゲームを振り返る

Reversing The Twenty Questions Game ( http://arxiv.org/abs/2301.08718v1 )

ライセンス: Link先を確認
Parth Parikh, Anisha Gupta(参考訳) 20の質問は広く人気のある口語ゲームである。 近年,このゲームのコンピュータ化バージョンが数多く開発され,ユーザがエンティティを思い浮かべ,コンピュータが一連のブール型(yes/no)質問をすることで,このエンティティを推測しようとするようになっている。 本研究では,コンピュータがランダムにエンティティを選択することによって,このゲームを逆転させることを目的とする。 人間は、コンピュータに自然言語クエリをクイズして、ブーリアンの質問応答モデルを使って解析しようとすることで、この実体を推測することを目指している。 ゲームは、人間がコンピュータの選択の実体を推測することに成功したときに終わる。

Twenty questions is a widely popular verbal game. In recent years, many computerized versions of this game have been developed in which a user thinks of an entity and a computer attempts to guess this entity by asking a series of boolean-type (yes/no) questions. In this research, we aim to reverse this game by making the computer choose an entity at random. The human aims to guess this entity by quizzing the computer with natural language queries which the computer will then attempt to parse using a boolean question answering model. The game ends when the human is successfully able to guess the entity of the computer's choice.
翻訳日:2023-01-23 12:43:25 公開日:2023-01-19
# 波長割り当ての量子インスパイア最適化

Quantum-inspired optimization for wavelength assignment ( http://arxiv.org/abs/2211.00317v2 )

ライセンス: Link先を確認
Aleksey S. Boev, Sergey R. Usmanov, Alexander M. Semenov, Maria M. Ushakova, Gleb V. Salahov, Alena S. Mastiukova, Evgeniy O. Kiktenko, Aleksey K. Fedorov(参考訳) 光通信ネットワークにおける波長割り当て(wa)に関する問題は、特定の目的関数(例えば波長の総数)を最小化するノード間の既知の伝送経路の送信波長を割り当てることである。 現代の電気通信において中心的な役割を果たしているため、この問題は一般の場合においてNP完全クラスに属するため、産業関連事例に対する最適解を得るのは指数関数的に困難である。 本研究では,波長割り当て問題を解くための量子インスピレーションアルゴリズムの提案と開発を行う。 そこで本研究では,二分最適化(qubo)形式において,反復数を改良し,費用対価が変数数(スピン)をわずかに増加させるような,高度な組込み手法を提案する。 次に、古典的ヒューリスティックおよび工業的組合せ解法に対して、対応するQUBO形式を解くための量子インスピレーション付き手法を比較する。 得られた数値結果は、標準設定で動作する産業組合せソルバに対して、かなりの数の試験ケースにおいて量子インスパイアされたアプローチの利点を示している。 本研究は,通信における実践的問題に対する量子インスパイアされたアルゴリズムの利用の道を開くとともに,量子コンピューティングデバイスの利用に関するさらなる分析の視点を開くものである。

Problems related to wavelength assignment (WA) in optical communications networks involve allocating transmission wavelengths for known transmission paths between nodes that minimize a certain objective function, for example, the total number of wavelengths. Playing a central role in modern telecommunications, this problem belongs to NP-complete class for a general case, so that obtaining optimal solutions for industry relevant cases is exponentially hard. In this work, we propose and develop a quantum-inspired algorithm for solving the wavelength assignment problem. We propose an advanced embedding procedure for this problem into the quadratic unconstrained binary optimization (QUBO) form having an improvement in the number of iterations with price-to-pay being a slight increase in the number of variables ("spins"). Then we compare a quantum-inspired technique for solving the corresponding QUBO form against classical heuristic and industrial combinatorial solvers. The obtained numerical results indicate on an advantage of the quantum-inspired approach in a substantial number of test cases against the industrial combinatorial solver that works in the standard setting. Our results pave the way to the use of quantum-inspired algorithms for practical problems in telecommunications and open a perspective for the further analysis of the employ of quantum computing devices.
翻訳日:2023-01-20 19:45:16 公開日:2023-01-19
# fast adapatation の概念発見

Concept Discovery for Fast Adapatation ( http://arxiv.org/abs/2301.07850v1 )

ライセンス: Link先を確認
Shengyu Feng, Hanghang Tong(参考訳) ディープラーニングの進歩により、機械学習の手法はさまざまな分野で人間より優れているが、十分に訓練されたモデルが新しいタスクに迅速に適応することは、依然として大きな課題である。 この目標を達成するための有望な解決策は、学習のための学習としても知られるメタラーニングである。 しかしながら、現在のアプローチは、特に構造的かつ伝達可能な知識を抽出する能力において、人間の学習プロセスと大きく異なる。 この欠点により、現在のメタ学習フレームワークは解釈不能になり、より複雑なタスクに拡張しづらい。 そこで本研究では,データ特徴間の構造をメタ学習することでより効果的な適応を実現し,データの複合表現に繋がる手法を提案する。 提案手法は,概念ベースモデル非依存メタラーニング(COMAML)を用いて,合成データセットと実世界のデータセットの構造化データに対して一貫した改善を実現する。

The advances in deep learning have enabled machine learning methods to outperform human beings in various areas, but it remains a great challenge for a well-trained model to quickly adapt to a new task. One promising solution to realize this goal is through meta-learning, also known as learning to learn, which has achieved promising results in few-shot learning. However, current approaches are still enormously different from human beings' learning process, especially in the ability to extract structural and transferable knowledge. This drawback makes current meta-learning frameworks non-interpretable and hard to extend to more complex tasks. We tackle this problem by introducing concept discovery to the few-shot learning problem, where we achieve more effective adaptation by meta-learning the structure among the data features, leading to a composite representation of the data. Our proposed method Concept-Based Model-Agnostic Meta-Learning (COMAML) has been shown to achieve consistent improvements in the structured data for both synthesized datasets and real-world datasets.
翻訳日:2023-01-20 15:54:36 公開日:2023-01-19
# タンタル超伝導回路における異方性損失

Disentangling Losses in Tantalum Superconducting Circuits ( http://arxiv.org/abs/2301.07848v1 )

ライセンス: Link先を確認
Kevin D. Crowley, Russell A. McLellan, Aveek Dutta, Nana Shumiya, Alexander P. M. Place, Xuan Hoang Le, Youqi Gang, Trisha Madhavan, Nishaad Khedkar, Yiming Cady Feng, Esha A. Umbarkar, Xin Gui, Lila V. H. Rodgers, Yichen Jia, Mayer M. Feldman, Stephen A. Lyon, Mingzhao Liu, Robert J. Cava, Andrew A. Houck, Nathalie P. de Leon(参考訳) 超伝導量子ビットは大規模量子プロセッサを実現するための主要なシステムであるが、全体的なゲート忠実度はマイクロ波誘電損失によってコヒーレンス時間に制限される。 近年発見されたタンタル系量子ビットの寿命は0.3msを超えており, 超伝導タンタル共振器の系統的, 詳細な測定を行い, 最先端タンタルデバイスに限る損失源を歪めている。 温度、マイクロ波光子数、デバイス形状への損失の依存性を調べることで、材料に関連した損失を定量化し、その損失が数種類の飽和2レベルシステム(tlss)によって支配されていることを観察し、表面およびバルク関連tlsの両方が損失に寄与することを示す。 さらに, 化学処理により表面TLSを変化させることができることを示す。 4つの異なる表面条件により、異なる表面TLS源に付随する線形吸収を定量的に抽出する。 最後に、単一光子パワーにおける化学処理の影響、および量子ビットデバイスの性能に関する条件を定量化する。 この方式では、5から15×10^6の範囲で内部品質因子を持つ共振器を計測する。 これらのデバイスでは、損失に対する表面的およびバルクTLSの寄与は同等であり、クォービットコヒーレンスをさらに改善するためには、両面の材料を体系的に改善する必要がある。

Superconducting qubits are a leading system for realizing large scale quantum processors, but overall gate fidelities suffer from coherence times limited by microwave dielectric loss. Recently discovered tantalum-based qubits exhibit record lifetimes exceeding 0.3 ms. Here we perform systematic, detailed measurements of superconducting tantalum resonators in order to disentangle sources of loss that limit state-of-the-art tantalum devices. By studying the dependence of loss on temperature, microwave photon number, and device geometry, we quantify materials-related losses and observe that the losses are dominated by several types of saturable two level systems (TLSs), with evidence that both surface and bulk related TLSs contribute to loss. Moreover, we show that surface TLSs can be altered with chemical processing. With four different surface conditions, we quantitatively extract the linear absorption associated with different surface TLS sources. Finally, we quantify the impact of the chemical processing at single photon powers, the relevant conditions for qubit device performance. In this regime we measure resonators with internal quality factors ranging from 5 to 15 x 10^6, comparable to the best qubits reported. In these devices the surface and bulk TLS contributions to loss are comparable, showing that systematic improvements in materials on both fronts will be necessary to improve qubit coherence further.
翻訳日:2023-01-20 15:54:19 公開日:2023-01-19
# ClusterLog: ログベースの効果的な異常検出のためのクラスタリングログ

ClusterLog: Clustering Logs for Effective Log-based Anomaly Detection ( http://arxiv.org/abs/2301.07846v1 )

ライセンス: Link先を確認
Chris Egersdoerfer, Dong Dai, Di Zhang(参考訳) ハイパフォーマンスコンピューティング(HPC)におけるスケーラブルなファイルシステムの普及に伴い、実行時ログにおける正確な異常検出の重要性が高まっている。 しかし現状では、DeepLogのような、ログベースの異常検出のための最先端の多くのメソッドは、多くの並列ファイルシステム(PFS)からのログに適用する場合、時間ベースのログシーケンスの不規則さと曖昧さのために、多くの問題に直面している。 そこで本研究では,ログキーの時間列を意味的類似性に基づいてクラスタリングするログ前処理手法であるClusterLogを提案する。 セマンティックおよび感傷的に類似したログをグループ化することにより、単一のログキーでログシーケンスを表現し、下流のシーケンスベースのモデルでログパターンを効果的に学習する能力を改善することを目的としている。 clusterlogの予備結果は、重要なシーケンス情報を失うことなくログシーケンスの粒度を減少させる効果だけでなく、異なるファイルシステムのログに対する一般化性も示している。

With the increasing prevalence of scalable file systems in the context of High Performance Computing (HPC), the importance of accurate anomaly detection on runtime logs is increasing. But as it currently stands, many state-of-the-art methods for log-based anomaly detection, such as DeepLog, have encountered numerous challenges when applied to logs from many parallel file systems (PFSes), often due to their irregularity and ambiguity in time-based log sequences. To circumvent these problems, this study proposes ClusterLog, a log pre-processing method that clusters the temporal sequence of log keys based on their semantic similarity. By grouping semantically and sentimentally similar logs, this approach aims to represent log sequences with the smallest amount of unique log keys, intending to improve the ability of a downstream sequence-based model to effectively learn the log patterns. The preliminary results of ClusterLog indicate not only its effectiveness in reducing the granularity of log sequences without the loss of important sequence information but also its generalizability to different file systems' logs.
翻訳日:2023-01-20 15:53:54 公開日:2023-01-19
# 何を学ぶか:非定常環境におけるドメイン一般化のためのデータ拡張

Foresee What You Will Learn: Data Augmentation for Domain Generalization in Non-Stationary Environments ( http://arxiv.org/abs/2301.07845v1 )

ライセンス: Link先を確認
Qiuhao Zeng, Wei Wang, Fan Zhou, Charles Ling, Boyu Wang(参考訳) 既存のドメインの一般化は、目に見えないドメインでもうまく機能する一般化可能なモデルを学ぶことを目的としている。 多くの現実世界の機械学習アプリケーションでは、データ分散はしばしばドメインインデックスに沿って徐々に変化する。 例えば、視覚システムを備えた自動運転車は、夜明けから夕暮れまで運転し、徐々に空が暗くなる。 したがって、システムは周囲の照明の変化に対応でき、道路上で安全に運転し続けなければならない。 本稿では,進化する環境パターンを発見・活用することで,対象領域をうまく一般化することを目的とした,進化する領域の一般化などの問題を定式化する。 次に、DDA(Directional Domain Augmentation)を提案し、ドメイン変換器を通じてソースデータを拡張としてマッピングすることで、未確認のターゲット特徴をシミュレートする。 具体的には、DDAを二段階最適化問題として定式化し、表現空間における新しいメタラーニングアプローチにより解決する。 本研究では,提案手法を合成データセットと実世界データセットの両方で評価し,実験結果から既存の手法よりも優れることを示す。

Existing domain generalization aims to learn a generalizable model to perform well even on unseen domains. For many real-world machine learning applications, the data distribution often shifts gradually along domain indices. For example, a self-driving car with a vision system drives from dawn to dusk, with the sky darkening gradually. Therefore, the system must be able to adapt to changes in ambient illumination and continue to drive safely on the road. In this paper, we formulate such problems as Evolving Domain Generalization, where a model aims to generalize well on a target domain by discovering and leveraging the evolving pattern of the environment. We then propose Directional Domain Augmentation (DDA), which simulates the unseen target features by mapping source data as augmentations through a domain transformer. Specifically, we formulate DDA as a bi-level optimization problem and solve it through a novel meta-learning approach in the representation space. We evaluate the proposed method on both synthetic datasets and realworld datasets, and empirical results show that our approach can outperform other existing methods.
翻訳日:2023-01-20 15:53:33 公開日:2023-01-19
# 自転車フロー予測のための時空間神経構造因果モデル

Spatio-temporal neural structural causal models for bike flow prediction ( http://arxiv.org/abs/2301.07843v1 )

ライセンス: Link先を確認
Pan Deng, Yu Zhao, Junting Liu, Xiaofeng Jia, Mulan Wang(参考訳) 公共交通機関の代表として、自転車シェアリングシステムの基本的な問題は、自転車のフロー予測である。 近年の手法では,データ中の時空間相関を過度に強調し,環境条件が交通システムおよび地域間時間変化因果関係に与える影響を無視している。 さらに、データの不完全観測の障害により、ランダムな文脈条件がデータと特徴の間に急激な相関関係をもたらし、特別なシナリオではモデルの予測が不効果的となる。 この問題を解決するために,因果性の観点から時空間構造因果モデル(STNSCM)を提案する。 まず,トラフィック予測を記述するための因果グラフを構築し,入力データ,状況条件,時空間状態,予測結果との因果関係をさらに分析する。 第2に, 特徴抽出過程における偏りを解消するために, フロントドア基準を適用することを提案する。 最後に, 予測性能を向上させるために, 時空間状態から予測シナリオを外挿する反事実表現推論モジュールを提案する。 実世界のデータセットに関する実験は、このモデルの優れた性能、特に外部環境に起因するゆらぎに対する耐性を示す。 ソースコードとデータはリリースされる予定だ。

As a representative of public transportation, the fundamental issue of managing bike-sharing systems is bike flow prediction. Recent methods overemphasize the spatio-temporal correlations in the data, ignoring the effects of contextual conditions on the transportation system and the inter-regional timevarying causality. In addition, due to the disturbance of incomplete observations in the data, random contextual conditions lead to spurious correlations between data and features, making the prediction of the model ineffective in special scenarios. To overcome this issue, we propose a Spatio-temporal Neural Structure Causal Model(STNSCM) from the perspective of causality. First, we build a causal graph to describe the traffic prediction, and further analyze the causal relationship between the input data, contextual conditions, spatiotemporal states, and prediction results. Second, we propose to apply the frontdoor criterion to eliminate confounding biases in the feature extraction process. Finally, we propose a counterfactual representation reasoning module to extrapolate the spatio-temporal state under the factual scenario to future counterfactual scenarios to improve the prediction performance. Experiments on real-world datasets demonstrate the superior performance of our model, especially its resistance to fluctuations caused by the external environment. The source code and data will be released.
翻訳日:2023-01-20 15:53:15 公開日:2023-01-19
# 量子並列ベクトル化データ符号化とトラップイオンとトランスモンqpuの計算

Quantum-parallel vectorized data encodings and computations on trapped-ions and transmons QPUs ( http://arxiv.org/abs/2301.07841v1 )

ライセンス: Link先を確認
Jan Balewski, Mercy G. Amankwah, Roel Van Beeumen, E. Wes Bethel, Talita Perciano, Daan Camps(参考訳) コンパクトな量子データ表現は、データ分析のための量子アルゴリズムの新興分野に不可欠である。 我々は、一様に制御された回転ゲートを通して高い量子並列性を持つ2つの新しいデータ符号化スキーム、QCrankとQBArtを紹介する。 QCrankは実数値データのシーケンスをデータキュービットの回転としてエンコードし、高いストレージ密度を実現する。 QBArtは、計算ベースでデータのバイナリ表現を直接埋め込み、量子測定を少なくし、バイナリデータのよく理解された演算に自身を貸す。 本稿では,異なる種類のデータに対して提案するエンコーディングのいくつかの応用について述べる。 我々は,DNAパターンマッチング,ハミング重み計算,複素値共役,O(400)ビット画像検索のための量子アルゴリズムをQuantinuum QPU上で実行した。 最後に、IBMQやIonQを含むクラウドアクセス可能な様々なQPUを使用して、さらなるベンチマーク実験を行います。

Compact quantum data representations are essential to the emerging field of quantum algorithms for data analysis. We introduce two new data encoding schemes, QCrank and QBArt, which have a high degree of quantum parallelism through uniformly controlled rotation gates. QCrank encodes a sequence of real-valued data as rotations of the data qubits, allowing for high storage density. QBArt directly embeds a binary representation of the data in the computational basis, requiring fewer quantum measurements and lending itself to well-understood arithmetic operations on binary data. We present several applications of the proposed encodings for different types of data. We demonstrate quantum algorithms for DNA pattern matching, Hamming weight calculation, complex value conjugation, and retrieving an O(400) bits image, all executed on the Quantinuum QPU. Finally, we use various cloud-accessible QPUs, including IBMQ and IonQ, to perform additional benchmarking experiments.
翻訳日:2023-01-20 15:52:56 公開日:2023-01-19
# 自己監督は自然言語を大規模に監視するのに役立たない

Self Supervision Does Not Help Natural Language Supervision at Scale ( http://arxiv.org/abs/2301.07836v1 )

ライセンス: Link先を確認
Floris Weers, Vaishaal Shankar, Angelos Katharopoulos, Yinfei Yang, Tom Gunter(参考訳) 自己監督と自然言語監督は、様々な下流タスクに優れた汎用画像エンコーダを訓練する2つのエキサイティングな方法として登場した。 m3aeやslipのような最近の研究は、これらのアプローチを効果的に組み合わせられることを示唆しているが、最も注目すべきは、小さな事前トレーニングデータセット(<50mサンプル)を使用しており、これらのアプローチで一般的に使用される大規模なレジーム(>100mサンプル)を効果的に反映していないことである。 ここでは、同様のアプローチが、はるかに多くのデータでトレーニングした場合に有効かどうかを検討する。 マスク付きオートエンコーダ,MAE,コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで,CLIPは11.3Mイメージテキストペアのコーパスでトレーニングされた場合にはCLIPよりもメリットを提供するが,1.4Bイメージの大規模なコーパスでトレーニングされた場合には,CLIPに対する(一般的なビジョンタスクのスイートで評価された)メリットはほとんどない。 私たちの研究は、大規模な画像テキストトレーニングにおける自己監督の有効性(あるいは欠如)について、必要な明確さを提供します。

Self supervision and natural language supervision have emerged as two exciting ways to train general purpose image encoders which excel at a variety of downstream tasks. Recent works such as M3AE and SLIP have suggested that these approaches can be effectively combined, but most notably their results use small pre-training datasets (<50M samples) and don't effectively reflect the large-scale regime (>100M examples) that is commonly used for these approaches. Here we investigate whether a similar approach can be effective when trained with a much larger amount of data. We find that a combination of two state of the art approaches: masked auto-encoders, MAE and contrastive language image pre-training, CLIP provides a benefit over CLIP when trained on a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B images. Our work provides some much needed clarity into the effectiveness (or lack thereof) of self supervision for large-scale image-text training.
翻訳日:2023-01-20 15:52:40 公開日:2023-01-19
# 決定に焦点をあてた評価:展開レスマルチアームバンドの性能解析

Decision-Focused Evaluation: Analyzing Performance of Deployed Restless Multi-Arm Bandits ( http://arxiv.org/abs/2301.07835v1 )

ライセンス: Link先を確認
Paritosh Verma, Shresth Verma, Aditya Mate, Aparna Taneja, Milind Tambe(参考訳) レストレス・マルチアーム・バンディット(RMAB)は、公衆衛生、野生生物保護、通信システムなどにおける現実のシーケンシャルな意思決定問題をモデル化するための一般的な意思決定理論フレームワークである。 1つは未知のパラメータを予測し、もう1つは RMAB インスタンスを定義する最適化アルゴリズムを用いて構築された RMAB インスタンスを解く。 本研究は,母子保健を改善することを目的とした,公衆衛生領域におけるrmabシステムの初歩的な展開の結果を提示し,分析する。 本分析は, RMABシステムにおける予測精度と全体的な性能の関係について考察する。 これは最終システム性能を改善するための予測精度向上に投資する価値を決定するのに不可欠であり、デプロイされたrmabシステムの診断、監視に有用である。 本研究では, RMABシステムによる実世界のデータを用いて, 総合予測精度の向上は, RMABシステムの性能低下に伴う可能性もあることを実証する。 次に、予測成分の評価に焦点を絞った評価指標を開発し、RMABシステム全体の性能を説明する(実証的および理論的に)のが優れていることを示す。

Restless multi-arm bandits (RMABs) is a popular decision-theoretic framework that has been used to model real-world sequential decision making problems in public health, wildlife conservation, communication systems, and beyond. Deployed RMAB systems typically operate in two stages: the first predicts the unknown parameters defining the RMAB instance, and the second employs an optimization algorithm to solve the constructed RMAB instance. In this work we provide and analyze the results from a first-of-its-kind deployment of an RMAB system in public health domain, aimed at improving maternal and child health. Our analysis is focused towards understanding the relationship between prediction accuracy and overall performance of deployed RMAB systems. This is crucial for determining the value of investing in improving predictive accuracy towards improving the final system performance, and is useful for diagnosing, monitoring deployed RMAB systems. Using real-world data from our deployed RMAB system, we demonstrate that an improvement in overall prediction accuracy may even be accompanied by a degradation in the performance of RMAB system -- a broad investment of resources to improve overall prediction accuracy may not yield expected results. Following this, we develop decision-focused evaluation metrics to evaluate the predictive component and show that it is better at explaining (both empirically and theoretically) the overall performance of a deployed RMAB system.
翻訳日:2023-01-20 15:52:13 公開日:2023-01-19
# 条件付き予測による拡散モデル理解

Understanding the diffusion models by conditional expectations ( http://arxiv.org/abs/2301.07882v1 )

ライセンス: Link先を確認
Yibin Lu, Zhongjian Wang, Guillaume Bal(参考訳) 本稿では,機械学習における拡散モデルの数学的解析について述べる。 逆サンプリングプロセスのドリフト項は、データ分布と前方拡散を伴う条件付き期待値として表される。 トレーニングプロセスは,条件付き期待値に関連する平均2乗残差を最小化することにより,そのようなドリフト関数を求めることを目的としている。 前方拡散のグリーン関数を短時間で近似することにより、DDPMにおける解析平均ドリフト関数とSGMにおけるスコア関数が、低次元多様体など特異データ分布のサンプリングプロセスの最終段階において漸近的に爆発し、ネットワークによって近似することが困難であることを示す。 この難しさを克服するため、特異なデータ分布に対しても、新たな目標関数と関連する損失を導出する。 理論的な知見をいくつかの数値例で示す。

This paper provide several mathematical analyses of the diffusion model in machine learning. The drift term of the backwards sampling process is represented as a conditional expectation involving the data distribution and the forward diffusion. The training process aims to find such a drift function by minimizing the mean-squared residue related to the conditional expectation. Using small-time approximations of the Green's function of the forward diffusion, we show that the analytical mean drift function in DDPM and the score function in SGM asymptotically blow up in the final stages of the sampling process for singular data distributions such as those concentrated on lower-dimensional manifolds, and is therefore difficult to approximate by a network. To overcome this difficulty, we derive a new target function and associated loss, which remains bounded even for singular data distributions. We illustrate the theoretical findings with several numerical examples.
翻訳日:2023-01-20 15:46:13 公開日:2023-01-19
# unposed: プロダクトイメージレコメンデーションに基づく教師なしポーズ推定

Unposed: Unsupervised Pose Estimation based Product Image Recommendations ( http://arxiv.org/abs/2301.07879v1 )

ライセンス: Link先を確認
Saurabh Sharma, Faizan Ahemad(参考訳) 製品イメージは、eコマースウェブサイトの製品詳細ページで最も印象的な顧客インタラクションの媒体である。 何百万もの製品が毎日Webストアカタログに載っていて、製品のイメージセットの高品質なバーを維持することは、大規模な問題です。 カテゴリー別に分類すると、衣服は非常に高い体積と高い速度のカテゴリーであり、それ自体が注目に値する。 スケールを考えると、イメージセットの完全性を監視することは困難であり、消費者の製品を適切に詳細化している。 これらの製品に対して,製品ページ内の画像の品質と完全性を監視し,改善を提案するため,不備品のイメージセットをスキャンするヒューマン・ポーズ・インテリジェンスに基づく教師なしの手法を提案する。 監督されていないアプローチは、いかなるバイアスにもよらず、商品やカテゴリーに基づいた販売者に対して公正なアプローチを示唆する。 まず、人気商品の参照イメージセットを、全体像セットで作成する。 次に、最も望ましいポーズをラベル付けするイメージのクラスタを作成し、これらの理想的な製品セットから参照セットのクラスを形成します。 さらに、すべてのテスト製品では、望ましいポーズクラスの全イメージをスキャンし、w.r.t.参照セットがポーズし、行方不明のものを特定し、潜在的な影響順にソートします。 これらの欠落したポーズは、売り手が強化された商品一覧画像を追加するためにさらに使用できる。 人気オンラインwebストアのデータを収集し,200以上の製品を手作業で調査した。その大部分は,少なくとも1つの反復的なイメージや欠落したイメージを持つ3k製品(~20kイメージ)をサンプリングした。

Product images are the most impressing medium of customer interaction on the product detail pages of e-commerce websites. Millions of products are onboarded on to webstore catalogues daily and maintaining a high quality bar for a product's set of images is a problem at scale. Grouping products by categories, clothing is a very high volume and high velocity category and thus deserves its own attention. Given the scale it is challenging to monitor the completeness of image set, which adequately details the product for the consumers, which in turn often leads to a poor customer experience and thus customer drop off. To supervise the quality and completeness of the images in the product pages for these product types and suggest improvements, we propose a Human Pose Detection based unsupervised method to scan the image set of a product for the missing ones. The unsupervised approach suggests a fair approach to sellers based on product and category irrespective of any biases. We first create a reference image set of popular products with wholesome imageset. Then we create clusters of images to label most desirable poses to form the classes for the reference set from these ideal products set. Further, for all test products we scan the images for all desired pose classes w.r.t. reference set poses, determine the missing ones and sort them in the order of potential impact. These missing poses can further be used by the sellers to add enriched product listing image. We gathered data from popular online webstore and surveyed ~200 products manually, a large fraction of which had at least 1 repeated image or missing variant, and sampled 3K products(~20K images) of which a significant proportion had scope for adding many image variants as compared to high rated products which had more than double image variants, indicating that our model can potentially be used on a large scale.
翻訳日:2023-01-20 15:45:57 公開日:2023-01-19
# 未知線形系を用いた後退水平2次制御の準最適解析と学習ベース制御への応用

Suboptimality analysis of receding horizon quadratic control with unknown linear systems and its applications in learning-based control ( http://arxiv.org/abs/2301.07876v1 )

ライセンス: Link先を確認
Shengling Shi, Anastasios Tsiamis, Bart De Schutter(参考訳) 既知のシステムと近似端末値関数を備えた後退水平制御系では,予測水平線の増加が制御性能を向上させることが知られている。 しかし、予測モデルが不正確である場合、予測地平線が大きくなると予測誤差の伝播と蓄積が引き起こされる。 本研究は, モデル誤差, 終端値関数誤差, 予測地平線とのトレードオフが, 定式整流ホリゾン線形二次(lq)コントローラの性能に及ぼす影響を解析することを目的としたものである。 リカティ差分方程式の新たな摂動結果を開発することにより、性能上界を求め、多くの場合、予測水平線は、モデリング誤差と端末値関数誤差との相対的な差に応じて、制御性能を改善するために1またはinfinityであるべきであることを示唆する。 得られた準最適性能バウンダリは、例えば、学習ベースの設定で名目上の遅延水平LQコントローラに対して、後悔境界などのエンドツーエンドのパフォーマンス保証を提供するためにも適用される。

For a receding-horizon controller with a known system and with an approximate terminal value function, it is well-known that increasing the prediction horizon can improve its control performance. However, when the prediction model is inexact, a larger prediction horizon also causes propagation and accumulation of the prediction error. In this work, we aim to analyze the effect of the above trade-off between the modeling error, the terminal value function error, and the prediction horizon on the performance of a nominal receding-horizon linear quadratic (LQ) controller. By developing a novel perturbation result of the Riccati difference equation, a performance upper bound is obtained and suggests that for many cases, the prediction horizon should be either 1 or infinity to improve the control performance, depending on the relative difference between the modeling error and the terminal value function error. The obtained suboptimality performance bound is also applied to provide end-to-end performance guarantees, e.g., regret bounds, for nominal receding-horizon LQ controllers in a learning-based setting.
翻訳日:2023-01-20 15:45:24 公開日:2023-01-19
# Fast-BEV: リアルタイム車載鳥の視点認識を目指す

Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception ( http://arxiv.org/abs/2301.07870v1 )

ライセンス: Link先を確認
Bin Huang, Yangguang Li, Enze Xie, Feng Liang, Luya Wang, Mingzhu Shen, Fenggang Liu, Tianqi Wang, Ping Luo, Jing Shao(参考訳) 最近、純粋なカメラベースのBird's-Eye-View(BEV)の認識は、高価なLidarセンサーを取り除き、経済的自律運転のための実現可能なソリューションとなっている。 しかしながら、既存のBEVソリューションのほとんどは、控えめなパフォーマンスに苦しむか、車載推論を実行するのにかなりのリソースを必要とする。 本稿では,車載チップ上でリアルタイムなBEV認識を実現する,Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案する。 この目標に向けて、我々はまず、高価なビュー変換や深度表現なしに、BEV表現が十分に強力であることを実証的に見出した。 M2BEVベースラインを出発点として,(1)画像とBEV空間の両方に強力なデータ拡張戦略を導入し,過適合を回避すること(2)時間的情報を活用するマルチフレーム機能融合機構,(3)推論を高速化するためのデプロイメントフレンドリなビュー変換を提案する。 実験により,Fast-BEVモデルファミリはエッジ上でかなりの精度と効率を達成することを示した。 特に、我々のM1モデル(R18@256x704)は、Tesla T4プラットフォーム上で50FPS以上、nuScenesバリデーションセット上で47.0%のNDSを実行できる。 我々の最大のモデル(R101@900x1600)は、nuScenesバリデーションセット上で新しい最先端の53.5%のNDSを確立する。 コードは以下の通り:https://github.com/Sense-GVT/Fast-BEV。

Recently, the pure camera-based Bird's-Eye-View (BEV) perception removes expensive Lidar sensors, making it a feasible solution for economical autonomous driving. However, most existing BEV solutions either suffer from modest performance or require considerable resources to execute on-vehicle inference. This paper proposes a simple yet effective framework, termed Fast-BEV, which is capable of performing real-time BEV perception on the on-vehicle chips. Towards this goal, we first empirically find that the BEV representation can be sufficiently powerful without expensive view transformation or depth representation. Starting from M2BEV baseline, we further introduce (1) a strong data augmentation strategy for both image and BEV space to avoid over-fitting (2) a multi-frame feature fusion mechanism to leverage the temporal information (3) an optimized deployment-friendly view transformation to speed up the inference. Through experiments, we show Fast-BEV model family achieves considerable accuracy and efficiency on edge. In particular, our M1 model (R18@256x704) can run over 50FPS on the Tesla T4 platform, with 47.0% NDS on the nuScenes validation set. Our largest model (R101@900x1600) establishes a new state-of-the-art 53.5% NDS on the nuScenes validation set. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
翻訳日:2023-01-20 15:45:03 公開日:2023-01-19
# パラメータ効率の良いビデオテキスト検索のためのマルチモーダルビデオアダプタ

Multimodal Video Adapter for Parameter Efficient Video Text Retrieval ( http://arxiv.org/abs/2301.07868v1 )

ライセンス: Link先を確認
Bowen Zhang, Xiaojie Jin, Weibo Gong, Kai Xu, Zhao Zhang, Peng Wang, Xiaohui Shen, Jiashi Feng(参考訳) 最先端のビデオテキスト検索(vtr:state-of-the-art video-text retrieval)メソッドは通常、特定のデータセットで事前訓練されたモデル(例えばクリップ)を完全に微調整する。 そこで本研究では,事前学習したモデルからパラメータ効率のよいvtrを行うための最重要課題として,バックボーンを凍結しながら少数のパラメータしか調整できないことを提案する。 本研究では,事前学習されたクリップの知識を画像テキストからビデオテキストに効率的に転送するマルチモーダルビデオアダプタ(mv-adapter)を提案する。 具体的には、MV-Adapterはビデオとテキストの両方でボトルネック構造を採用し、2つの新しいコンポーネントを導入している。 ひとつは、ビデオブランチで採用されている時間適応モジュールで、グローバルとローカルの時間的コンテキストを注入する。 フレーム間の動的変動に対応するために、ウェイトキャリブレーションも学習します。 2つ目はクロスモーダルインタラクションモジュールで、共有パラメータ空間を通じてビデオ/テキストブランチの重みを生成し、モダリティ間の整合性を改善する。 上記のイノベーションのおかげで、MV-Adapterは、無視できるパラメーターのオーバーヘッドで標準の微調整よりも高いパフォーマンスを達成することができる。 特に、広く使われている5つのVTRベンチマーク(MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet)では、MV-AdapterはV2T/T2Vタスクにおいて、大きなマージンを持つ様々な競合メソッドよりも一貫して優れている。 コードはリリースされる。

State-of-the-art video-text retrieval (VTR) methods usually fully fine-tune the pre-trained model (e.g. CLIP) on specific datasets, which may suffer from substantial storage costs in practical applications since a separate model per task needs to be stored. To overcome this issue, we present the premier work on performing parameter-efficient VTR from the pre-trained model, i.e., only a small number of parameters are tunable while freezing the backbone. Towards this goal, we propose a new method dubbed Multimodal Video Adapter (MV-Adapter) for efficiently transferring the knowledge in the pre-trained CLIP from image-text to video-text. Specifically, MV-Adapter adopts bottleneck structures in both video and text branches and introduces two novel components. The first is a Temporal Adaptation Module employed in the video branch to inject global and local temporal contexts. We also learn weights calibrations to adapt to the dynamic variations across frames. The second is a Cross-Modal Interaction Module that generates weights for video/text branches through a shared parameter space, for better aligning between modalities. Thanks to above innovations, MV-Adapter can achieve on-par or better performance than standard fine-tuning with negligible parameters overhead. Notably, on five widely used VTR benchmarks (MSR-VTT, MSVD, LSMDC, DiDemo, and ActivityNet), MV-Adapter consistently outperforms various competing methods in V2T/T2V tasks with large margins. Codes will be released.
翻訳日:2023-01-20 15:44:34 公開日:2023-01-19
# 進化系からの制御微分方程式の発見

Discover governing differential equations from evolving systems ( http://arxiv.org/abs/2301.07863v1 )

ライセンス: Link先を確認
Yuanyuan Li, Kai Wu, Jing Liu(参考訳) 利用可能な観測から進化系の支配方程式を発見することは不可欠で難しい。 しかし、現在の手法では、システムの力学が変化しうる状況は捉えられず、進化するシステムは時間とともに変化し、システム状態は必然的に変化する。 したがって、正確な変化点を見つけることが重要である。 本稿では,データセット全体を処理するのではなく,ストリーミングデータをモデリングすることで,各サンプルを順次処理できるオンラインモデリング手法を提案する。 提案手法は, ストリーミングデータから常微分方程式, 偏微分方程式 (PDE) および高次元PDEの発見に有効である。 変更したシステムから生成された測定は前と異なって分布するので,提案手法により差を識別できる。 本提案は, 2つの発展系における変化点の同定と微分方程式の発見に有効である。

Discovering the governing equations of evolving systems from available observations is essential and challenging. However, current methods does not capture the situation that underlying system dynamics can be changed.Evolving systems are changing over time, which invariably changes with system status. Thus, finding the exact change points is critical. We propose an online modeling method capable of handling samples one by one sequentially by modeling streaming data instead of processing the entire dataset. The proposed method performs well in discovering ordinary differential equations, partial differential equations (PDEs), and high-dimensional PDEs from streaming data. The measurement generated from a changed system is distributed dissimilarly to before; hence, the difference can be identified by the proposed method. Our proposal performs well in identifying the change points and discovering governing differential equations in two evolving systems.
翻訳日:2023-01-20 15:44:02 公開日:2023-01-19
# ウェアラブル・エゴセントリックカメラによる画像の食品検出の改善

Improving Food Detection For Images From a Wearable Egocentric Camera ( http://arxiv.org/abs/2301.07861v1 )

ライセンス: Link先を確認
Yue Han, Sri Kalyan Yarlagadda, Tonmoy Ghosh, Fengqing Zhu, Edward Sazonov, Edward J. Delp(参考訳) 食事は私たちの健康の重要な側面です。 良質な食習慣は多くの病気の予防に寄与し、生活の質を改善する。 食事と健康の関係をよりよく理解するために,画像に基づく食事評価システムを開発した。 本稿では,眼鏡に装着可能なAIM(Automatic Ingestion Monitor)を紹介する。 食事シーンイメージをキャプチャする自動ハンズフリーアプローチを提供する。 AIMにはいくつかの利点があるが、AIMが撮影した画像は時にぼやけている。 ブロイ画像は食品検出などの食品画像解析の性能を著しく低下させることができる。 本稿では,AIM画像センサが収集した前処理画像に対して,極めてぼやけた画像を取り除き,食品検出性能を向上させるアプローチを提案する。

Diet is an important aspect of our health. Good dietary habits can contribute to the prevention of many diseases and improve the overall quality of life. To better understand the relationship between diet and health, image-based dietary assessment systems have been developed to collect dietary information. We introduce the Automatic Ingestion Monitor (AIM), a device that can be attached to one's eye glasses. It provides an automated hands-free approach to capture eating scene images. While AIM has several advantages, images captured by the AIM are sometimes blurry. Blurry images can significantly degrade the performance of food image analysis such as food detection. In this paper, we propose an approach to pre-process images collected by the AIM imaging sensor by rejecting extremely blurry images to improve the performance of food detection.
翻訳日:2023-01-20 15:43:47 公開日:2023-01-19
# フーバー確率を用いたロバストなガウス過程回帰

Robust Gaussian Process Regression with Huber Likelihood ( http://arxiv.org/abs/2301.07858v1 )

ライセンス: Link先を確認
Pooja Algikar and Lamine Mili(参考訳) 最も単純化された形でのガウス過程の回帰は、通常のホモシデスティックノイズを仮定し、ガウス条件を用いた予測後続分布の解析的に扱いやすい平均と共分散関数を利用する。 そのハイパーパラメータは、II型最大推定と呼ばれる証拠の最大化によって推定される。 残念ながら、ガウスの確率に基づくベイズ推論は、観測訓練データセットでしばしば見られる外れ値に対して頑健ではない。 この問題を克服するために,ガウス過程の枠組みにおいて,フーバー確率分布として表される観測データの可能性を持つロバストなプロセスモデルを提案する。 提案モデルでは, 残差を計測するために投影統計量に基づく重みを用い, 潜在関数推定に対する鉛直異常値と悪レバレッジ点の影響を限定し, ガウス型および厚いテール型雑音分布において高い統計効率を示す。 提案手法は,生徒t,ラプラス,コーシー分布などの厚い尾付き分布に追従した加算誤差のあるデータセットを用いて,実世界の2問題と2つの数値例を用いて実証された。

Gaussian process regression in its most simplified form assumes normal homoscedastic noise and utilizes analytically tractable mean and covariance functions of predictive posterior distribution using Gaussian conditioning. Its hyperparameters are estimated by maximizing the evidence, commonly known as type II maximum likelihood estimation. Unfortunately, Bayesian inference based on Gaussian likelihood is not robust to outliers, which are often present in the observational training data sets. To overcome this problem, we propose a robust process model in the Gaussian process framework with the likelihood of observed data expressed as the Huber probability distribution. The proposed model employs weights based on projection statistics to scale residuals and bound the influence of vertical outliers and bad leverage points on the latent functions estimates while exhibiting a high statistical efficiency at the Gaussian and thick tailed noise distributions. The proposed method is demonstrated by two real world problems and two numerical examples using datasets with additive errors following thick tailed distributions such as Students t, Laplace, and Cauchy distribution.
翻訳日:2023-01-20 15:43:37 公開日:2023-01-19
# fe-tcm:web検索のためのフィルタエンハンスドトランスクリックモデル

FE-TCM: Filter-Enhanced Transformer Click Model for Web Search ( http://arxiv.org/abs/2301.07854v1 )

ライセンス: Link先を確認
Yingfei Wang and Jianping Liu and Meng Wang and Xintao Chu(参考訳) クリックモデルの構築とユーザと検索エンジン間のインタラクションからの暗黙的な関連フィードバック情報抽出は,検索結果のランク付けを改善する上で非常に重要である。 クリックの振る舞いをモデル化するためにニューラルネットワークを使うことは、クリックモデルを構築する効果的な方法の1つになっている。 本稿では,特徴抽出のバックボーンネットワークとしてtransformerを用い,革新的なフィルタ層を追加し,web検索のための新しいフィルタエンハンストランスクリックモデル(fe-tcm)を提案する。 まず,ユーザの行動データに対するノイズの影響を低減するために,学習可能なフィルタを用いてログノイズをフィルタする。 第2に, 実験仮説に従って, アトラクション推定器と検査予測器をそれぞれモデル化し, 魅力度スコアと検査確率を算出した。 新しいトランスフォーマーモデルは、異なる特徴間のより深い表現を学ぶために使用される。 最後に, コンビネーション関数をクリック予測に応用し, 魅力スコアと検査確率を統合した。 実世界の2つのセッションデータセットに関する実験から,FE-TCMは既存のクリックモデルよりも高い性能を示し,クリック予測を行った。

Constructing click models and extracting implicit relevance feedback information from the interaction between users and search engines are very important to improve the ranking of search results. Using neural network to model users' click behaviors has become one of the effective methods to construct click models. In this paper, We use Transformer as the backbone network of feature extraction, add filter layer innovatively, and propose a new Filter-Enhanced Transformer Click Model (FE-TCM) for web search. Firstly, in order to reduce the influence of noise on user behavior data, we use the learnable filters to filter log noise. Secondly, following the examination hypothesis, we model the attraction estimator and examination predictor respectively to output the attractiveness scores and examination probabilities. A novel transformer model is used to learn the deeper representation among different features. Finally, we apply the combination functions to integrate attractiveness scores and examination probabilities into the click prediction. From our experiments on two real-world session datasets, it is proved that FE-TCM outperforms the existing click models for the click prediction.
翻訳日:2023-01-20 15:43:18 公開日:2023-01-19
# 言語から言語へ:言語間音声認識のためのパラメータ効率の良いモデル再プログラミング

From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition ( http://arxiv.org/abs/2301.07851v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Rohit Prabhavalkar, Tara N. Sainath, Trevor Strohman(参考訳) 本稿では,言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率のよい学習フレームワークを提案する。 我々は、学習可能な事前学習機能強化に焦点を当てた異なる補助的ニューラルネットワークアーキテクチャを設計し、ASR上でのモデル再プログラミングを初めて強化する。 具体的には、コンバータベースのRNN-Transducerのトレーニング可能なコンポーネント(エンコーダ)を凍結したトレーニング済みバックボーンとして選択する方法を検討する。 7言語による多言語LibriSpeech音声(MLS)タスクの実験では、モデル再プログラミングはASRモデルからのトレーニング可能なパラメータの4.2% (270Mのうち11M) から6.8% (660M中45M) しか必要とせず、異なる言語で平均11.9%から8.1%のWERの競合結果が得られる。 さらに,大規模事前学習型ASRをモノリンガル音声認識と多言語音声認識の両方で成功させるために,様々な設定が発見された。 提案手法は,既存のasrチューニングアーキテクチャと自己教師付き損失(w2v-bertなど)による拡張を,低いwerとより良いトレーニング効率で上回っている。

In this work, we propose a new parameter-efficient learning framework based on neural model reprogramming for cross-lingual speech recognition, which can \textbf{re-purpose} well-trained English automatic speech recognition (ASR) models to recognize the other languages. We design different auxiliary neural architectures focusing on learnable pre-trained feature enhancement that, for the first time, empowers model reprogramming on ASR. Specifically, we investigate how to select trainable components (i.e., encoder) of a conformer-based RNN-Transducer, as a frozen pre-trained backbone. Experiments on a seven-language multilingual LibriSpeech speech (MLS) task show that model reprogramming only requires 4.2% (11M out of 270M) to 6.8% (45M out of 660M) of its original trainable parameters from a full ASR model to perform competitive results in a range of 11.9% to 8.1% WER averaged across different languages. In addition, we discover different setups to make large-scale pre-trained ASR succeed in both monolingual and multilingual speech recognition. Our methods outperform existing ASR tuning architectures and their extension with self-supervised losses (e.g., w2v-bert) in terms of lower WER and better training efficiency.
翻訳日:2023-01-20 15:42:56 公開日:2023-01-19
# クロスドメインFew-Shot学習のための爆発的移動型タスク拡張

Exploiting Style Transfer-based Task Augmentation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2301.07927v1 )

ライセンス: Link先を確認
Shuzhen Rao, Jun Huang, Zengming Tang(参考訳) クロスドメインの少数ショット学習では、ソースドメインからソースタスクにトレーニングされたモデルは、特にドメインシフトが非常に大きい場合には、ターゲットドメインからターゲットタスクにうまく一般化できないことが中心となる。 学習課題と目標タスクのドメインシフトが、通常、そのスタイルの変化を反映できるという観察から、我々は、ドメイン一般化能力を向上させるために、スタイル移行に基づくタスク拡張を行うためのタスク拡張メタラーニング(TAML)を提案する。 まず、Multi-task Interpolation (MTI) を導入し、異なるスタイルのタスクから、より多様なスタイルのタスクで機能融合を行う。 さらに,マルチタスクスタイルトランスファー(mtst)と呼ばれる新しいタスク提供戦略を用いて,既存のタスクのスタイルトランスファーを実行し,判別スタイル非依存の特徴を学習する。 最後に、ランダムなスタイルを追加するための特徴変調モジュール(FM)を導入し、モデルの一般化を改善することを目的とした。 提案したTAMLは、トレーニングタスクのスタイルの多様性を高め、ドメイン一般化能力の向上したモデルのトレーニングに寄与する。 この効果は、2つの人気のあるクロスドメイン・マイノショットベンチマークの理論的解析と徹底的な実験によって実証される。

In cross-domain few-shot learning, the core issue is that the model trained on source tasks from source domains can not generalize well to target tasks from the target domain, especially when the domain shift is very large. Motivated by the observation that the domain shift between training tasks and target tasks usually can reflect in their style variation, we propose Task Augmented Meta-Learning (TAML) to conduct style transfer-based task augmentation to improve the domain generalization ability. Firstly, Multi-task Interpolation (MTI) is introduced to perform feature fusion on tasks from different tasks with different styles, which makes more diverse styles available. Furthermore, a novel task-augmentation strategy called Multi-Task Style Transfer (MTST) is put forward to perform style transfer on existing tasks to learn discriminative style-independent features. At last, we introduce Feature Modulation module (FM) to add random styles, which aims to improve the generalization of our model. The proposed TAML increases the diversity of styles of training tasks, and contributes to training a model with better domain generalization ability. The effectiveness is demonstrated via theoretical analysis and thorough experiments on two popular cross-domain few-shot benchmarks.
翻訳日:2023-01-20 15:36:08 公開日:2023-01-19
# 人間シーンネットワーク:弱教師付きビデオ異常検出のための自己修正損失付き新しいベースライン

Human-Scene Network: A Novel Baseline with Self-rectifying Loss for Weakly supervised Video Anomaly Detection ( http://arxiv.org/abs/2301.07923v1 )

ライセンス: Link先を確認
Snehashis Majhi, Rui Dai, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) ビデオレベルラベルのみ(弱教師付き)の監視システムにおける映像異常検出は困難である。 これが原因です。 (i)現実シナリオにおける微妙で鋭い時空間的手がかりからなる人間と場面に基づく異常の複雑な統合 (ii)弱い監督下での正常インスタンスと異常インスタンスの非最適最適化。 本稿では,微妙かつ強固な手がかりを解離的に捉え,識別表現を学習するための人間-シーンネットワークを提案する。 また,ビデオレベルのラベルから擬似時間アノテーションを動的に計算し,ヒューマンシーンネットワークを効果的に最適化する自己修正損失も提案する。 自己修正損失に最適化されたHuman-Scene Networkは、UCF-Crime、ShanghaiTech、IITB-Corridorの3つの公開データセットで検証されている。

Video anomaly detection in surveillance systems with only video-level labels (i.e. weakly-supervised) is challenging. This is due to, (i) the complex integration of human and scene based anomalies comprising of subtle and sharp spatio-temporal cues in real-world scenarios, (ii) non-optimal optimization between normal and anomaly instances under weak supervision. In this paper, we propose a Human-Scene Network to learn discriminative representations by capturing both subtle and strong cues in a dissociative manner. In addition, a self-rectifying loss is also proposed that dynamically computes the pseudo temporal annotations from video-level labels for optimizing the Human-Scene Network effectively. The proposed Human-Scene Network optimized with self-rectifying loss is validated on three publicly available datasets i.e. UCF-Crime, ShanghaiTech and IITB-Corridor, outperforming recently reported state-of-the-art approaches on five out of the six scenarios considered.
翻訳日:2023-01-20 15:35:47 公開日:2023-01-19
# 道路障害物検出のための時空間モデル

Spatio-Temporal Context Modeling for Road Obstacle Detection ( http://arxiv.org/abs/2301.07921v1 )

ライセンス: Link先を確認
Xiuen Wu, Tao Wang, Lingyu Liang, Zuoyong Li, Fum Yew Ching(参考訳) 道路障害物検出は車両の運転安全にとって重要な問題である。 本稿では,時空間モデルに基づくロバストな道路障害物検出を実現することを目的とする。 まず、トレーニングデータのレイアウトに基づいて、運転シーンのデータ駆動空間コンテキストモデルを構築する。 そして、入力画像中の障害物を最先端のオブジェクト検出アルゴリズムを介して検出し、生成されたシーンレイアウトと組み合わせる。 さらに、性能とロバスト性をさらに向上するため、画像シーケンス中の時間情報を考慮し、検出された物体の近傍に光学的流れを求め、隣接するフレームを横切る障害物を追跡する。 小型障害物検出(SOD)データセットとLost and Foundデータセットの定性的および定量的実験を行った。 その結果,時空間モデルを用いた提案手法は既存の道路障害物検出手法よりも優れていることがわかった。

Road obstacle detection is an important problem for vehicle driving safety. In this paper, we aim to obtain robust road obstacle detection based on spatio-temporal context modeling. Firstly, a data-driven spatial context model of the driving scene is constructed with the layouts of the training data. Then, obstacles in the input image are detected via the state-of-the-art object detection algorithms, and the results are combined with the generated scene layout. In addition, to further improve the performance and robustness, temporal information in the image sequence is taken into consideration, and the optical flow is obtained in the vicinity of the detected objects to track the obstacles across neighboring frames. Qualitative and quantitative experiments were conducted on the Small Obstacle Detection (SOD) dataset and the Lost and Found dataset. The results indicate that our method with spatio-temporal context modeling is superior to existing methods for road obstacle detection.
翻訳日:2023-01-20 15:35:29 公開日:2023-01-19
# 意味論的構文解析のための意味論的コントラスト学習

Semantic-aware Contrastive Learning for More Accurate Semantic Parsing ( http://arxiv.org/abs/2301.07919v1 )

ライセンス: Link先を確認
Shan Wu, Chunlei Xin, Bo Chen, Xianpei Han, Le Sun(参考訳) 意味表現は、微粒なシーケンスレベルのセマンティックスを表現する詳細かつ正確なアノテーションであるため、通常、MLE(Maximum Likelihood Estimation)を通じて、自己回帰的な方法で識別的セマンティックパーサーを訓練することは困難である。 本稿では,細粒度の意味表現を識別し,シーケンスレベル全体の意味を考慮に入れた意味認識型コントラスト学習アルゴリズムを提案する。 具体的には,多段階オンラインサンプリングアルゴリズムを提案する。 3つの意味認識類似関数は、意味表現全体の距離を正確に測定するように設計されている。 また、意味同一のインスタンスの表現をまとめ、否定的なインスタンスを取り除くために、ランク付けされたコントラスト損失が提案されている。 2つの標準データセットの実験により,本手法は,バニラSeq2Seqモデルにセマンティック・アウェア・コントラッシブ・ラーニングを適用することで,MLEベースラインよりも大幅に改善され,最先端のパフォーマンスが得られることが示された。

Since the meaning representations are detailed and accurate annotations which express fine-grained sequence-level semtantics, it is usually hard to train discriminative semantic parsers via Maximum Likelihood Estimation (MLE) in an autoregressive fashion. In this paper, we propose a semantic-aware contrastive learning algorithm, which can learn to distinguish fine-grained meaning representations and take the overall sequence-level semantic into consideration. Specifically, a multi-level online sampling algorithm is proposed to sample confusing and diverse instances. Three semantic-aware similarity functions are designed to accurately measure the distance between meaning representations as a whole. And a ranked contrastive loss is proposed to pull the representations of the semantic-identical instances together and push negative instances away. Experiments on two standard datasets show that our approach achieves significant improvements over MLE baselines and gets state-of-the-art performances by simply applying semantic-aware contrastive learning on a vanilla Seq2Seq model.
翻訳日:2023-01-20 15:35:15 公開日:2023-01-19
# スキップ接続を用いた脳信号の主観非依存分類

Subject-Independent Classification of Brain Signals using Skip Connections ( http://arxiv.org/abs/2301.07918v1 )

ライセンス: Link先を確認
Soowon Kim and Ji-Won Lee and Young-Eun Lee and Seo-Hyun Lee(参考訳) 人間の発話の脳信号のデコードに関する研究の活発な研究分野において、新しい形の人間と人間のコミュニケーションのための未解決の可能性を見ることができる。 脳-コンピューターインタフェースシステムは、より臨床リスクが少なく、携帯機器を使用して取得できるため、脳波信号を使用して実装することができる。 脳-コンピューターインタフェースシステムの最も興味深いタスクの1つは、生の脳波信号から単語をデコードすることである。 脳-コンピュータインターフェースが新しいユーザによって使用される前に、現在の脳波ベースの脳-コンピュータインターフェースの研究は、通常、被験者固有の適応段階を必要とする。 対照的に、主観非依存の状況は、十分に訓練されたモデルが事前校正をほとんどあるいは全く行わない新規ユーザに適用できるため、非常に望ましいものである。 この重要な特徴に照らして、対象非依存の状況に適応的に適用できる効率的なデコーダを作ることに重点を置いている。 本提案では,畳み込み層間の接続を明示的に適用し,層間の相互情報のフローを可能にする。 これを実現するために、レイヤ間の接続をスキップし、レイヤ間で相互情報が流れるようにする。 その後、エンコーダの出力は全連結層を通過し、最終的に13クラスの確率を表す。 本研究では,16人の脳波データを記録するために,オーバート音声を用いた。 その結果,スキップ接続が存在すると分類性能が著しく向上することがわかった。

Untapped potential for new forms of human-to-human communication can be found in the active research field of studies on the decoding of brain signals of human speech. A brain-computer interface system can be implemented using electroencephalogram signals because it poses more less clinical risk and can be acquired using portable instruments. One of the most interesting tasks for the brain-computer interface system is decoding words from the raw electroencephalogram signals. Before a brain-computer interface may be used by a new user, current electroencephalogram-based brain-computer interface research typically necessitates a subject-specific adaption stage. In contrast, the subject-independent situation is one that is highly desired since it allows a well-trained model to be applied to new users with little or no precalibration. The emphasis is on creating an efficient decoder that may be employed adaptively in subject-independent circumstances in light of this crucial characteristic. Our proposal is to explicitly apply skip connections between convolutional layers to enable the flow of mutual information between layers. To do this, we add skip connections between layers, allowing the mutual information to flow throughout the layers. The output of the encoder is then passed through the fully-connected layer to finally represent the probabilities of the 13 classes. In this study, overt speech was used to record the electroencephalogram data of 16 participants. The results show that when the skip connection is present, the classification performance improves notably.
翻訳日:2023-01-20 15:34:55 公開日:2023-01-19
# ニューラルネットワーク制御器を用いた非線形力学系の区間到達性

Interval Reachability of Nonlinear Dynamical Systems with Neural Network Controllers ( http://arxiv.org/abs/2301.07912v1 )

ライセンス: Link先を確認
Saber Jafarpour, Akash Harapanahalli, Samuel Coogan(参考訳) 本稿では、ニューラルネットワークコントローラを用いた非線形連続時間力学系の厳密な検証のための区間解析に基づく計算効率の良いフレームワークを提案する。 ニューラルネットワークが与えられた場合、既存の検証アルゴリズムを使用して、入出力動作の包含関数を構築する。 混合単調理論に着想を得て, ニューラルネットワークの包含関数と開ループ系の分解関数を用いて, 閉ループダイナミクスをより大きな系に組み込む。 この埋め込みは、システムの非線形構造を保ちながら、神経制御ループの安全性解析にスケーラブルなアプローチを提供する。 埋め込みシステムの単一の軌跡を用いて,到達可能な集合の超矩形超近似を効率的に計算できることを示す。 我々は,この計算の利点を分割戦略によって活用するアルゴリズムを設計し,その実行時と調整可能なパラメータのバランスを保ちながら,到達可能な集合の推定値を改善する。 このアルゴリズムの性能を2つのケーススタディで実証する。 まず,複素非線形環境におけるこの手法の強みを示す。 そこで,本手法は線形離散化システムにおける最先端検証アルゴリズムの性能に適合することを示す。

This paper proposes a computationally efficient framework, based on interval analysis, for rigorous verification of nonlinear continuous-time dynamical systems with neural network controllers. Given a neural network, we use an existing verification algorithm to construct inclusion functions for its input-output behavior. Inspired by mixed monotone theory, we embed the closed-loop dynamics into a larger system using an inclusion function of the neural network and a decomposition function of the open-loop system. This embedding provides a scalable approach for safety analysis of the neural control loop while preserving the nonlinear structure of the system. We show that one can efficiently compute hyper-rectangular over-approximations of the reachable sets using a single trajectory of the embedding system. We design an algorithm to leverage this computational advantage through partitioning strategies, improving our reachable set estimates while balancing its runtime with tunable parameters. We demonstrate the performance of this algorithm through two case studies. First, we demonstrate this method's strength in complex nonlinear environments. Then, we show that our approach matches the performance of the state-of-the art verification algorithm for linear discretized systems.
翻訳日:2023-01-20 15:34:35 公開日:2023-01-19
# 最適化に対する非確率的制御アプローチ

A Nonstochastic Control Approach to Optimization ( http://arxiv.org/abs/2301.07902v1 )

ライセンス: Link先を確認
Xinyi Chen, Elad Hazan(参考訳) チューニングオプティマイザのハイパーパラメータ、特に特定の最適化インスタンスの学習速度は重要な問題であるが、非凸問題である。 したがって、過次降下のような反復最適化手法は、大域的最適性保証を欠いている。 数理最適化のためのオンライン非確率制御手法を提案する。 学習率,運動量パラメータ,プレコンディショナーなどの勾配法におけるハイパーパラメータの選択をフィードバック制御として記述する。 この制御問題の最適解は、加速度や運動量パラメータの異なる事前条件適応勾配法を包含する。 最適制御問題は、それ自体は凸ではないが、凸緩和に基づくオンライン非確率制御の最近の手法が、最良のオフラインソリューションと競合するために適用可能であることを示す。 これにより、エピソジック最適化において、後向きの最良の最適化手法に収束することが保証される。

Tuning optimizer hyperparameters, notably the learning rate to a particular optimization instance, is an important but nonconvex problem. Therefore iterative optimization methods such as hypergradient descent lack global optimality guarantees in general. We propose an online nonstochastic control methodology for mathematical optimization. The choice of hyperparameters for gradient based methods, including the learning rate, momentum parameter and preconditioner, is described as feedback control. The optimal solution to this control problem is shown to encompass preconditioned adaptive gradient methods with varying acceleration and momentum parameters. Although the optimal control problem by itself is nonconvex, we show how recent methods from online nonstochastic control based on convex relaxation can be applied to compete with the best offline solution. This guarantees that in episodic optimization, we converge to the best optimization method in hindsight.
翻訳日:2023-01-20 15:34:17 公開日:2023-01-19
# 空間的共変病変セグメンテーション

Spatially Covariant Lesion Segmentation ( http://arxiv.org/abs/2301.07895v1 )

ライセンス: Link先を確認
Hang Zhang, Rongguang Wang, Jinwei Zhang, Dongdong Liu, Chao Li and Jiahao Li(参考訳) 自然画像と比較すると、医学画像はより強い視覚パターンを示し、適切な事前情報をニューラルネットワークに注入することで、リソース制限された臨床応用に柔軟性と柔軟性をもたらす。 本稿では,空間的共変画素アライメント分類器(scp)を提案する。 SCPは畳み込み操作によって課される空間不変性の制約を緩和し、画像座標をネットワーク重みにマッピングする基盤となる暗黙関数を最適化する。 造影CTでは, 造影MRIでは白色物質高強度セグメンテーション, 造影CTでは肝腫瘍セグメンテーションの2つの病変セグメンテーションタスクを用いて, 提案したSCPの有効性と有効性を示した。 SCPを使用したネットワークは、GPUメモリ使用率、FLOP、ネットワークサイズを23.8%、64.9%、74.7%削減した。

Compared to natural images, medical images usually show stronger visual patterns and therefore this adds flexibility and elasticity to resource-limited clinical applications by injecting proper priors into neural networks. In this paper, we propose spatially covariant pixel-aligned classifier (SCP) to improve the computational efficiency and meantime maintain or increase accuracy for lesion segmentation. SCP relaxes the spatial invariance constraint imposed by convolutional operations and optimizes an underlying implicit function that maps image coordinates to network weights, the parameters of which are obtained along with the backbone network training and later used for generating network weights to capture spatially covariant contextual information. We demonstrate the effectiveness and efficiency of the proposed SCP using two lesion segmentation tasks from different imaging modalities: white matter hyperintensity segmentation in magnetic resonance imaging and liver tumor segmentation in contrast-enhanced abdominal computerized tomography. The network using SCP has achieved 23.8%, 64.9% and 74.7% reduction in GPU memory usage, FLOPs, and network size with similar or better accuracy for lesion segmentation.
翻訳日:2023-01-20 15:34:04 公開日:2023-01-19
# オープンセット主観認識を用いた主観非依存型脳-コンピュータインタフェース

Subject-Independent Brain-Computer Interfaces with Open-Set Subject Recognition ( http://arxiv.org/abs/2301.07894v1 )

ライセンス: Link先を確認
Dong-Kyun Han, Dong-Young Kim, Geun-Deok Jang(参考訳) 脳-コンピュータインターフェース(BCI)は、脳波(EEG)が被験者と被験者の間で異なるため、効果的に利用できない。 BCIシステムは、対象データにモデルを調整するためにキャリブレーションステップを必要とする。 このことがBCIの発展の大きな障害であると広く認識されている。 この問題に対処するため、過去の研究では、被験者の情報を取り除き、一般化されたモデルを訓練した。 そこで本研究では,様々なソースドメインを分類し,オープンセットドメインを認識する補助タスクとして,スタイル情報エンコーダを導入する。 オープンセット認識手法は,被写体から主題関連スタイル情報を学習する補助タスクとして用いられ,同時に,共有特徴抽出器の特徴を未認識対象に支援した。 本稿では,OSSR(Open-set subject recognition)フレームワークにおけるOSR手法の比較を行う。 実験の結果,ドメイン情報を符号化するOSSR補助ネットワークが一般化性能を向上させることがわかった。

A brain-computer interface (BCI) can't be effectively used since electroencephalography (EEG) varies between and within subjects. BCI systems require calibration steps to adjust the model to subject-specific data. It is widely acknowledged that this is a major obstacle to the development of BCIs. To address this issue, previous studies have trained a generalized model by removing the subjects' information. In contrast, in this work, we introduce a style information encoder as an auxiliary task that classifies various source domains and recognizes open-set domains. Open-set recognition method was used as an auxiliary task to learn subject-related style information from the source subjects, while at the same time helping the shared feature extractor map features in an unseen target. This paper compares various OSR methods within an open-set subject recognition (OSSR) framework. As a result of our experiments, we found that the OSSR auxiliary network that encodes domain information improves generalization performance.
翻訳日:2023-01-20 15:33:42 公開日:2023-01-19
# どの微分方程式がリンドブラッド方程式に対応するか?

Which differential equations correspond to the Lindblad equation? ( http://arxiv.org/abs/2301.07887v1 )

ライセンス: Link先を確認
Victor Kasatkin, Larry Gu, Daniel A. Lidar(参考訳) リンドブラッドマスター方程式はコヒーレンスベクトルに対して常に一階線形常微分方程式 (1ode) に変換できる。 有限次元の非等質 1ode が与えられたとき、対応するリンドブラッド方程式は存在するか? もしそうなら、対応するハミルトン作用素とリンドブラッド作用素は何でしょうか。 この問題に対する一般解として, 1ODE のパラメータの観点からの完全な肯定性テストを含む。 また、独立な興味を持つ2つの表現(マスター方程式と1ODE)に関する多くの性質を導出する。

The Lindblad master equation can always be transformed into a first-order linear ordinary differential equation (1ODE) for the coherence vector. We pose the inverse problem: given a finite-dimensional, non-homogeneous 1ODE, does a corresponding Lindblad equation exist? If so, what are the corresponding Hamiltonian and Lindblad operators? We provide a general solution to this problem, including a complete positivity test in terms of the parameters of the 1ODE. We also derive a host of properties relating the two representations (master equation and 1ODE), which are of independent interest.
翻訳日:2023-01-20 15:33:27 公開日:2023-01-19
# mmd微調整による脱音拡散モデルの高速推論

Fast Inference in Denoising Diffusion Models via MMD Finetuning ( http://arxiv.org/abs/2301.07969v1 )

ライセンス: Link先を確認
Emanuele Aiello, Diego Valsesia, Enrico Magli(参考訳) Denoising Diffusion Models (DDM) は、複雑なデータ分布から高品質なサンプルを生成する一般的なツールとなっている。 これらのモデルは、データ内の高度なパターンや構造をキャプチャでき、非常に多様なサンプルを生成し、基盤となるディストリビューションを代表できる。 しかし、拡散モデルの主な制限の1つはサンプル生成の複雑さである。 本稿では,拡散モデルの高速サンプリング法であるMDD-DDMを提案する。 我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。 これにより、微調整されたモデルは、少ないステップで推論レジームの忠実度を大幅に増やしたり、ターゲットの忠実度に到達するために必要なステップ数を減らすことで、速度品質のトレードオフを大幅に改善し、幅広いアプリケーションで拡散モデルをより実用的なものにするための道を開くことができる。 CIFAR-10, CelebA, ImageNet, LSUN-Churchデータセットを対象とし, 非条件画像生成手法の評価を行った。 提案手法は,広範に普及する拡散モデルで要求される時間の一部で高品質なサンプルを生成でき,高速サンプリングのための最先端技術に勝ることを示す。 コードはhttps://github.com/diegovalsesia/mmd-ddm。

Denoising Diffusion Models (DDMs) have become a popular tool for generating high-quality samples from complex data distributions. These models are able to capture sophisticated patterns and structures in the data, and can generate samples that are highly diverse and representative of the underlying distribution. However, one of the main limitations of diffusion models is the complexity of sample generation, since a large number of inference timesteps is required to faithfully capture the data distribution. In this paper, we present MMD-DDM, a novel method for fast sampling of diffusion models. Our approach is based on the idea of using the Maximum Mean Discrepancy (MMD) to finetune the learned distribution with a given budget of timesteps. This allows the finetuned model to significantly improve the speed-quality trade-off, by substantially increasing fidelity in inference regimes with few steps or, equivalently, by reducing the required number of steps to reach a target fidelity, thus paving the way for a more practical adoption of diffusion models in a wide range of applications. We evaluate our approach on unconditional image generation with extensive experiments across the CIFAR-10, CelebA, ImageNet and LSUN-Church datasets. Our findings show that the proposed method is able to produce high-quality samples in a fraction of the time required by widely-used diffusion models, and outperforms state-of-the-art techniques for accelerated sampling. Code is available at: https://github.com/diegovalsesia/MMD-DDM.
翻訳日:2023-01-20 15:27:46 公開日:2023-01-19
# ネットワークのプルーニングをなくす - スパーシティから幾何学と線形領域へ

Getting Away with More Network Pruning: From Sparsity to Geometry and Linear Regions ( http://arxiv.org/abs/2301.07966v1 )

ライセンス: Link先を確認
Junyang Cai, Khai-Nguyen Nguyen, Nishant Shrestha, Aidan Good, Ruisen Tu, Xin Yu, Shandian Zhe, Thiago Serra(参考訳) ニューラルネットワークの驚くべき特徴の1つは、その接続が精度にほとんどか全く影響を与えない程度に刈り取ることができることである。 しかし、パラメータ空間の臨界レベルを越えると、それ以上のプルーニングが突然精度を低下させます。 この落とし穴は、避けたいモデル複雑さの損失を少なくとも反映しています。 本研究では,ニューラルネットワークによって定義される線形領域の幾何学にスパーシティがどう影響するかを考察し,その結果,そのアーキテクチャに基づく線形領域の最大数を減少させる。 プルーニングは,線形領域の数や提案する最大値のバウンドにスパルサリティがどう影響するかと同様に,精度に影響を及ぼすことを観察した。 逆に、境界を最大化するために層間のスパース性を選択することで、すべての層で同じスパース性を持つプルーニングと比較して、精度が極めて向上することが分かりました。

One surprising trait of neural networks is the extent to which their connections can be pruned with little to no effect on accuracy. But when we cross a critical level of parameter sparsity, pruning any further leads to a sudden drop in accuracy. This drop plausibly reflects a loss in model complexity, which we aim to avoid. In this work, we explore how sparsity also affects the geometry of the linear regions defined by a neural network, and consequently reduces the expected maximum number of linear regions based on the architecture. We observe that pruning affects accuracy similarly to how sparsity affects the number of linear regions and our proposed bound for the maximum number. Conversely, we find out that selecting the sparsity across layers to maximize our bound very often improves accuracy in comparison to pruning as much with the same sparsity in all layers, thereby providing us guidance on where to prune.
翻訳日:2023-01-20 15:27:21 公開日:2023-01-19
# RecolorNeRF: 3次元シーンの効率的な色編集のための層分解放射場

RecolorNeRF: Layer Decomposed Radiance Field for Efficient Color Editing of 3D Scenes ( http://arxiv.org/abs/2301.07958v1 )

ライセンス: Link先を確認
Bingchen Gong and Yuehao Wang and Xiaoguang Han and Qi Dou(参考訳) 放射場は徐々にメディアの主表現になりつつある。 外観編集は研究されているが、ビュー一貫性を効果的に再現する方法はまだ検討中である。 本稿では,ニューラルラディアンス分野におけるユーザフレンドリーなカラー編集手法であるRecolorNeRFを提案する。 私たちのキーとなるアイデアは、シーンを純粋な色の層に分解し、パレットを形成することです。 これにより、パレットの色成分を直接変更して色操作を行うことができる。 効率的なパレットベースの編集をサポートするには、各レイヤの色を可能な限り表現する必要がある。 最終的に、この問題は最適化公式のように定式化され、レイヤとそれらのブレンド方法がnerf自体と共同で最適化される。 広汎な実験により, 共同最適化された層分解は複数のバックボーンに対して利用でき, フォトリアリスティックなノベルビューレンダリングを作成できることがわかった。 recolornerfは,複雑な実世界のシーンにおいても,色編集において定量的かつ定性的にベースラインメソッドを上回ることを実証する。

Radiance fields have gradually become a main representation of media. Although its appearance editing has been studied, how to achieve view-consistent recoloring in an efficient manner is still under explored. We present RecolorNeRF, a novel user-friendly color editing approach for the neural radiance field. Our key idea is to decompose the scene into a set of pure-colored layers, forming a palette. Thus, color manipulation can be conducted by altering the color components of the palette directly. To support efficient palette-based editing, the color of each layer needs to be as representative as possible. In the end, the problem is formulated as in an optimization formula, where the layers and their blending way are jointly optimized with the NeRF itself. Extensive experiments show that our jointly-optimized layer decomposition can be used against multiple backbones and produce photo-realistic recolored novel-view renderings. We demonstrate that RecolorNeRF outperforms baseline methods both quantitatively and qualitatively for color editing even in complex real-world scenes.
翻訳日:2023-01-20 15:27:04 公開日:2023-01-19
# 3ビット状態の真の非局所性の検出

Detection of the genuine non-locality of any three-qubit state ( http://arxiv.org/abs/2301.07955v1 )

ライセンス: Link先を確認
Anuma Garg, Satyabrata Adhikari(参考訳) Svetlichnyの不等式は密度演算子$\rho_{ABC}$によって記述された任意の3ビット状態によって破られ、真の非局所性は$\rho_{ABC}$である。 しかし、3ビット状態の真の非局所性を示す問題は、複雑な最適化問題に還元されるため、これは簡単な作業ではない。 したがって、任意の3ビット状態の真の非局所性の検出は難しい課題であると考えられる。 したがって、我々は異なるアプローチを採り、スヴェットリニュ作用素の期待値の下限と上限を、任意の3量子状態に対して導出し、この問題を研究する。 得られた境界表現は、CHSH証人演算子によって検出された2ビットの絡み合った状態が減少するか否かに依存する。 以下の数量で表すことができる。 一 与えられた三量子状態の積の固有値及び一量子状態の最大混合状態と二量子状態の減少及び複合系の固有値 (ii)還元二量子状態の非局所性。 そして、違反が真の3ビット状態の非局所性を検出できる不等式を達成する。 得られた結果を支持する例は少ない。 最後に,実験室における実装の可能性について論じる。

It is known that the violation of Svetlichny inequality by any three-qubit state described by the density operator $\rho_{ABC}$ witness the genuine non-locality of $\rho_{ABC}$. But it is not an easy task as the problem of showing the genuine non-locality of any three-qubit state reduces to the problem of a complicated optimization problem. Thus, the detection of genuine non-locality of any three-qubit state may be considered as a challenging task. Therefore, we have taken the different approach and derive the lower and upper bound of the expectation value of the Svetlichny operator with respect to any three-qubit state to study this problem. The expression of the obtained bounds depend on whether the reduced two-qubit entangled state detected by the CHSH witness operator or not. It may be expressed in terms of the following quantities such as (i) the eigenvalues of the product of the given three-qubit state and the composite system of single qubit maximally mixed state and reduced two-qubit state and (ii) the non-locality of reduced two-qubit state. We then achieve the inequality whose violation may detect the genuine non-locality of any three-qubit state. Few examples are cited to support our obtained results. Lastly, we discuss its possible implementation in the laboratory.
翻訳日:2023-01-20 15:26:49 公開日:2023-01-19
# aize workspaceを用いたポイントクラウドデータシミュレーションとモデリング

Point Cloud Data Simulation and Modelling with Aize Workspace ( http://arxiv.org/abs/2301.07947v1 )

ライセンス: Link先を確認
Boris Mocialov, Eirik Eythorsson, Reza Parseh, Hoang Tran, Vegard Flovik(参考訳) この研究は、デジタルツインでよく使われるデータモデルに注目し、シミュレーションデータを用いてトレーニングされた表面再構成とセマンティックセグメンテーションモデルから予備的な結果を示す。 この研究は、デジタルツイン内のデータコンテキスト化における将来の取り組みの基盤となることが期待されている。

This work takes a look at data models often used in digital twins and presents preliminary results specifically from surface reconstruction and semantic segmentation models trained using simulated data. This work is expected to serve as a ground work for future endeavours in data contextualisation inside a digital twin.
翻訳日:2023-01-20 15:26:31 公開日:2023-01-19
# ジョブレコメンデーション:分類のための協調フィルタリング手法のベンチマーク

Job recommendations: benchmarking of collaborative filtering methods for classifieds ( http://arxiv.org/abs/2301.07946v1 )

ライセンス: Link先を確認
Robert Kwieci\'nski, Agata Filipowska, Tomasz G\'orecki and Viacheslav Dubrov(参考訳) 分類は、ユーザやアイテムに関する情報が限られているため、レコメンデーション手法に多くの課題を提供する。 本稿では,OLX Jobs の例を用いて分類の推薦手法を検討する。 本研究の目的は,広告のコンバージョン率とユーザ満足度を改善するために,職業分類の異なる推薦手法をベンチマークすることである。 本研究では, ALS, LightFM, Prod2Vec, RP3beta, SLIM といった,スケーラブルで様々な手法を推奨する手法を実装した。 精度,多様性,拡張性(トレーニング時および予測時におけるメモリおよび時間消費)に関する手法を実験室で比較した。 オンラインA/Bテストも、数百万のメッセージを送り、実際の環境でモデルを評価することを推奨することで実施された。 さらに、我々の研究のニーズに合わせて作成したデータセットも公開しました。 私たちの知る限りでは、この種のデータセットはこれが初めてです。 データセットには、3,295,942人のユーザーがolxジョブで実施した65,502,201のイベントが含まれており、2020年の2週間で185,395のジョブ広告と対話した。 実験室で試験した場合,RP3beta,SLIM,ALSはProd2Vec,LightFMよりも優れた性能を示した。 オンラインa/bテストでは、alsとrp3ベータモデルが生成したレコメンデーションでメッセージを送信すると広告主に連絡するユーザーの数が増加することも示されている。 さらに、RP3betaはALSよりも20%大きな影響を及ぼした。

Classifieds provide many challenges for recommendation methods, due to the limited information regarding users and items. In this paper, we explore recommendation methods for classifieds using the example of OLX Jobs. The goal of the paper is to benchmark different recommendation methods for jobs classifieds in order to improve advertisements' conversion rate and user satisfaction. In our research, we implemented methods that are scalable and represent different approaches to recommendation, namely ALS, LightFM, Prod2Vec, RP3beta, and SLIM. We performed a laboratory comparison of methods with regard to accuracy, diversity, and scalability (memory and time consumption during training and in prediction). Online A/B tests were also carried out by sending millions of messages with recommendations to evaluate models in a real-world setting. In addition, we have published the dataset that we created for the needs of our research. To the best of our knowledge, this is the first dataset of this kind. The dataset contains 65,502,201 events performed on OLX Jobs by 3,295,942 users, who interacted with (displayed, replied to, or bookmarked) 185,395 job ads in two weeks of 2020. We demonstrate that RP3beta, SLIM, and ALS perform significantly better than Prod2Vec and LightFM when tested in a laboratory setting. Online A/B tests also demonstrated that sending messages with recommendations generated by the ALS and RP3beta models increases the number of users contacting advertisers. Additionally, RP3beta had a 20% greater impact on this metric than ALS.
翻訳日:2023-01-20 15:26:25 公開日:2023-01-19
# PDFormer:交通流予測のための遅延対応動的長距離変圧器

PDFormer: Propagation Delay-aware Dynamic Long-range Transformer for Traffic Flow Prediction ( http://arxiv.org/abs/2301.07945v1 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang(参考訳) インテリジェント交通システムのコア技術として、トラフィックフロー予測には幅広い応用がある。 交通流予測の基本的な課題は、交通データの複雑な空間的依存関係を効果的にモデル化することである。 空間-時間グラフニューラルネットワーク(gnn)モデルは、この問題を解決する最も有望な方法の1つである。 しかし、gnnベースのモデルには交通予測に3つの大きな制限がある。 一 ほとんどの方法は、動的な都市交通パターンを学習する能力を制限する静的な方法で空間依存をモデル化する。 二 殆どの方法は、短距離空間情報のみを考慮し、長距離空間依存を捉えることができない。 三 この方法は、交通システムにおいて、場所間の交通条件の伝搬が遅延しているという事実を無視する。 そこで本研究では,トラヒックフロー予測のための新しい伝搬遅延認識動的長距離変圧器pdformerを提案する。 具体的には,動的空間依存を捕捉する空間自己認識モジュールを設計する。 次に,2つのグラフマスキング行列を導入し,短視野と長視野の空間依存性を強調する。 さらに,空間情報伝達の時間遅延を明示的にモデル化する機能を持つpdformerに対して,トラヒック遅延認識機能変換モジュールを提案する。 6つの実世界の公開トラヒックデータセットの広範な実験結果から,本手法は最先端のパフォーマンスを実現するだけでなく,計算効率も高いことがわかった。 さらに,学習した空間的-時間的注意マップを可視化し,モデルを高度に解釈可能にした。

As a core technology of Intelligent Transportation System, traffic flow prediction has a wide range of applications. The fundamental challenge in traffic flow prediction is to effectively model the complex spatial-temporal dependencies in traffic data. Spatial-temporal Graph Neural Network (GNN) models have emerged as one of the most promising methods to solve this problem. However, GNN-based models have three major limitations for traffic prediction: i) Most methods model spatial dependencies in a static manner, which limits the ability to learn dynamic urban traffic patterns; ii) Most methods only consider short-range spatial information and are unable to capture long-range spatial dependencies; iii) These methods ignore the fact that the propagation of traffic conditions between locations has a time delay in traffic systems. To this end, we propose a novel Propagation Delay-aware dynamic long-range transFormer, namely PDFormer, for accurate traffic flow prediction. Specifically, we design a spatial self-attention module to capture the dynamic spatial dependencies. Then, two graph masking matrices are introduced to highlight spatial dependencies from short- and long-range views. Moreover, a traffic delay-aware feature transformation module is proposed to empower PDFormer with the capability of explicitly modeling the time delay of spatial information propagation. Extensive experimental results on six real-world public traffic datasets show that our method can not only achieve state-of-the-art performance but also exhibit competitive computational efficiency. Moreover, we visualize the learned spatial-temporal attention map to make our model highly interpretable.
翻訳日:2023-01-20 15:25:59 公開日:2023-01-19
# ファウショット行動認識のための空間的・時間的モデリングの再検討

Revisiting the Spatial and Temporal Modeling for Few-shot Action Recognition ( http://arxiv.org/abs/2301.07944v1 )

ライセンス: Link先を確認
Jiazheng Xing, Mengmeng Wang, Boyu Mu, Yong Liu(参考訳) 空間的および時間的モデリングは、数少ないアクション認識の最も重要な側面の1つである。 従来の研究のほとんどは、重要な低レベル空間特徴と短期時間関係を考慮せずに、高レベル空間表現に基づく長期時間関係モデリングに重点を置いている。 実際には、前者の機能は豊かな局所的な意味情報をもたらし、後者の機能は隣り合うフレームの動作特性をそれぞれ表現できる。 本稿では,数発動作認識のための空間的および時間的モデリングを,より微妙な方法で再検討する新しいフレームワークであるsloshnetを提案する。 まず,低レベル空間特徴を活用すべく,低レベル空間特徴と高レベル空間特徴の最適な組み合わせを自動的に検索する機能融合アーキテクチャ探索モジュールを設計した。 次に,近年のトランスフォーマーに触発されて,抽出した空間的外観特徴に基づいて,大域的時間関係をモデル化する長期時間モデリングモジュールを提案する。 一方,隣接フレーム間の動き特性をエンコードするために,新たな短期時間モデリングモジュールを設計した。 その後、組込み豊富な時空間特徴を共通のフレームレベルクラスプロトタイプマーカに供給することにより、最終的な予測が得られる。 提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。 すべてのデータセットで最先端のメソッドに対して良好な結果が得られる。

Spatial and temporal modeling is one of the most core aspects of few-shot action recognition. Most previous works mainly focus on long-term temporal relation modeling based on high-level spatial representations, without considering the crucial low-level spatial features and short-term temporal relations. Actually, the former feature could bring rich local semantic information, and the latter feature could represent motion characteristics of adjacent frames, respectively. In this paper, we propose SloshNet, a new framework that revisits the spatial and temporal modeling for few-shot action recognition in a finer manner. First, to exploit the low-level spatial features, we design a feature fusion architecture search module to automatically search for the best combination of the low-level and high-level spatial features. Next, inspired by the recent transformer, we introduce a long-term temporal modeling module to model the global temporal relations based on the extracted spatial appearance features. Meanwhile, we design another short-term temporal modeling module to encode the motion characteristics between adjacent frame representations. After that, the final predictions can be obtained by feeding the embedded rich spatial-temporal features to a common frame-level class prototype matcher. We extensively validate the proposed SloshNet on four few-shot action recognition datasets, including Something-Something V2, Kinetics, UCF101, and HMDB51. It achieves favorable results against state-of-the-art methods in all datasets.
翻訳日:2023-01-20 15:25:36 公開日:2023-01-19
# CEnt: エントロピーに基づくモデルに依存しない説明可能性フレームワーク

CEnt: An Entropy-based Model-agnostic Explainability Framework to Contrast Classifiers' Decisions ( http://arxiv.org/abs/2301.07941v1 )

ライセンス: Link先を確認
Julia El Zini, Mohammad Mansour and Mariette Awad(参考訳) 現在の解釈可能性法は、現在の入力特徴を通して、特定のモデルの決定を説明することに焦点を当てている。 このような方法は、望ましくない場合にこれらの決定を変更する十分な条件をユーザに通知しない。 対照的な説明は、「機能 $x>x$ であれば、出力 $y$ は異なる」という形の説明を提供することでこの問題を回避する。 異なるアプローチがコントラストを見つけるために開発されているが、これらの手法が全てミュータビリティと到達可能性の制約を扱うわけではない。 本稿では,任意の分類器の予測を局所的に対比する新しい手法を提案する。 比較エントロピーに基づく説明法centは,各特徴分割のエントロピー情報を計算する決定木によって局所的にモデルに近似する。 次にグラフgが構築され、コントラストノードは1対1の短経路探索によって見つかる。 対照的な例は、低いエントロピーを維持しながらモデル決定を変更する特徴分割を反映する最短経路から生成される。 データ密度を反映する変分自動エンコーダにより計算された多様体状距離の局所サンプリングを行う。 centは、インミュータビリティ(例えば人種)とセミインミュータビリティ(例えば年齢が増加する方向にしか変化しない)を満足しながら、トレーニングデータに必ずしも存在しない多様な反事実を生成する最初の非勾配ベースのコントラスト手法である。 4つの実世界の数値データセットに対する実証的な評価は、CEntが既存の手法よりも高い近接率を達成し、レイテンシ、実現可能性、到達性を損なうことなく、カウンターファクトアルを生成する能力を示している。 さらに、CEntを画像データに拡張し、MNISTデータセットとFashion MNISTデータセットのクラスラベル間の視覚的に魅力的で有用なコントラストを導出する。 最後に,CEntがテキスト分類器の脆弱性を検出するツールとして機能することを示す。

Current interpretability methods focus on explaining a particular model's decision through present input features. Such methods do not inform the user of the sufficient conditions that alter these decisions when they are not desirable. Contrastive explanations circumvent this problem by providing explanations of the form "If the feature $X>x$, the output $Y$ would be different''. While different approaches are developed to find contrasts; these methods do not all deal with mutability and attainability constraints. In this work, we present a novel approach to locally contrast the prediction of any classifier. Our Contrastive Entropy-based explanation method, CEnt, approximates a model locally by a decision tree to compute entropy information of different feature splits. A graph, G, is then built where contrast nodes are found through a one-to-many shortest path search. Contrastive examples are generated from the shortest path to reflect feature splits that alter model decisions while maintaining lower entropy. We perform local sampling on manifold-like distances computed by variational auto-encoders to reflect data density. CEnt is the first non-gradient-based contrastive method generating diverse counterfactuals that do not necessarily exist in the training data while satisfying immutability (ex. race) and semi-immutability (ex. age can only change in an increasing direction). Empirical evaluation on four real-world numerical datasets demonstrates the ability of CEnt in generating counterfactuals that achieve better proximity rates than existing methods without compromising latency, feasibility, and attainability. We further extend CEnt to imagery data to derive visually appealing and useful contrasts between class labels on MNIST and Fashion MNIST datasets. Finally, we show how CEnt can serve as a tool to detect vulnerabilities of textual classifiers.
翻訳日:2023-01-20 15:25:11 公開日:2023-01-19
# 自動対称性検出によるハミルトンニューラルネットワーク

Hamiltonian Neural Networks with Automatic Symmetry Detection ( http://arxiv.org/abs/2301.07928v1 )

ライセンス: Link先を確認
Eva Dierkes and Christian Offen and Sina Ober-Bl\"obaum and Kathrin Fla{\ss}kamp(参考訳) 近年、ハミルトニアンニューラルネットワーク (HNN) が導入され、ハミルトニアン系の力学方程式の学習に先立つ物理知識が取り入れられている。 これにより、データ駆動モデリングアプローチにもかかわらずシンプレクティックシステム構造が保存される。 しかし、対称性の保存にはさらなる注意が必要である。 本研究では,ニューラルネットワークに対称性を検出し,組み込むために,Lie代数フレームワークを用いてHNNを強化する。 このアプローチは、システムの対称性群作用と総エネルギーを同時に学習することができる。 例として、カート上の振り子と天体力学からの2体問題を考える。

Recently, Hamiltonian neural networks (HNN) have been introduced to incorporate prior physical knowledge when learning the dynamical equations of Hamiltonian systems. Hereby, the symplectic system structure is preserved despite the data-driven modeling approach. However, preserving symmetries requires additional attention. In this research, we enhance the HNN with a Lie algebra framework to detect and embed symmetries in the neural network. This approach allows to simultaneously learn the symmetry group action and the total energy of the system. As illustrating examples, a pendulum on a cart and a two-body problem from astrodynamics are considered.
翻訳日:2023-01-20 15:24:38 公開日:2023-01-19
# 病院患者サブタイプの同定・説明・臨床評価

Identification, explanation and clinical evaluation of hospital patient subtypes ( http://arxiv.org/abs/2301.08019v1 )

ライセンス: Link先を確認
Enrico Werner, Jeffrey N. Clark, Ranjeet S. Bhamber, Michael Ambler, Christopher P. Bourdeaux, Alexander Hepburn, Christopher J. McWilliams, Raul Santos-Rodriguez(参考訳) 本報告では,2017年から2021年にかけての英国大病院における入院患者のサブタイプを,教師なしの機械学習技術を用いて自動的に同定するパイプラインを提案する。 最先端の解説技術を用いることで、特定されたサブタイプを解釈し、臨床意味を割り当てる。 同時に、臨床医は臨床知識の文脈において、特定された患者サブタイプのクラスタ内類似度とクラスタ間差異を評価した。 自動的・臨床的説明のアウトプットに直面することにより,機械学習技術と臨床専門知識を組み合わせることによる相互利益を明らかにすることを目的とする。

We present a pipeline in which unsupervised machine learning techniques are used to automatically identify subtypes of hospital patients admitted between 2017 and 2021 in a large UK teaching hospital. With the use of state-of-the-art explainability techniques, the identified subtypes are interpreted and assigned clinical meaning. In parallel, clinicians assessed intra-cluster similarities and inter-cluster differences of the identified patient subtypes within the context of their clinical knowledge. By confronting the outputs of both automatic and clinician-based explanations, we aim to highlight the mutual benefit of combining machine learning techniques with clinical expertise.
翻訳日:2023-01-20 15:18:49 公開日:2023-01-19
# 非凸多人数ゲームにおけるグローバルナッシュ平衡:理論とアルゴリズム

Global Nash Equilibrium in Non-convex Multi-player Game: Theory and Algorithms ( http://arxiv.org/abs/2301.08015v1 )

ライセンス: Link先を確認
Guanpu Chen, Gehui Xu, Fengxiang He, Yiguang Hong, Leszek Rutkowski, and Dacheng Tao(参考訳) 幅広い機械学習タスクは、nash均衡(ne)が全てのプレイヤーにとって許容可能な解決策である非凸マルチプレイヤーゲームとして定式化することができる。 非凸性への貢献により、理論上保証された実現アルゴリズムを設計するだけでも、グローバルNEの存在条件を得るのは難しい。 本稿では,非凸マルチプレイヤーゲームの定式化に共役変換を取り入れ,相補的な問題を連続擬次写像を持つ変分不等式(vi)問題にキャストする。 次に、大域的 NE の存在条件を証明し、VI 問題に対する解は双対関係を満たす。 この VI の定式化に基づき,大域的 NE に近づく共役型常微分方程式 (ODE) を設計し,指数収束率を持つことを示した。 ダイナミクスをより実装可能にするため、離散化アルゴリズムをさらに導出する。 本アルゴリズムは,マルチプレイヤー一般化モノトーンゲームとマルチプレイヤーポテンシャルゲームという2つの典型的なシナリオに適用する。 2つの設定において、ステップサイズの設定は $\mathcal{o}(1/k)$ と $\mathcal{o}(1/\sqrt k)$ であり、それぞれ $\mathcal{o}(1/k)$ と $\mathcal{o}(1/\sqrt k)$ の収束率が得られることが証明される。 堅牢なニューラルネットワークトレーニングとセンサローカライゼーションの広範な実験は、我々の理論と完全に一致している。

Wide machine learning tasks can be formulated as non-convex multi-player games, where Nash equilibrium (NE) is an acceptable solution to all players, since no one can benefit from changing its strategy unilaterally. Attributed to the non-convexity, obtaining the existence condition of global NE is challenging, let alone designing theoretically guaranteed realization algorithms. This paper takes conjugate transformation to the formulation of non-convex multi-player games, and casts the complementary problem into a variational inequality (VI) problem with a continuous pseudo-gradient mapping. We then prove the existence condition of global NE: the solution to the VI problem satisfies a duality relation. Based on this VI formulation, we design a conjugate-based ordinary differential equation (ODE) to approach global NE, which is proved to have an exponential convergence rate. To make the dynamics more implementable, we further derive a discretized algorithm. We apply our algorithm to two typical scenarios: multi-player generalized monotone game and multi-player potential game. In the two settings, we prove that the step-size setting is required to be $\mathcal{O}(1/k)$ and $\mathcal{O}(1/\sqrt k)$ to yield the convergence rates of $\mathcal{O}(1/ k)$ and $\mathcal{O}(1/\sqrt k)$, respectively. Extensive experiments in robust neural network training and sensor localization are in full agreement with our theory.
翻訳日:2023-01-20 15:18:38 公開日:2023-01-19
# 意味論的保存変換によるニューラルネットワークの厳密な理解に向けて

Towards Rigorous Understanding of Neural Networks via Semantics-preserving Transformations ( http://arxiv.org/abs/2301.08013v1 )

ライセンス: Link先を確認
Maximilian Schl\"uter and Gerrit Nolte and Alnis Murtovi and Bernhard Steffen(参考訳) 本稿では, ピースワイドアフィン関数を意味的に表現するネットワークである \emph{Piece-wise Linear Neural Networks} (PLNN) のサブクラスである \emph{Rectifier Neural Networks} の, 正確かつ大域的な検証と説明に対する代数的アプローチを提案する。 我々のアプローチの鍵は、意味的に等価な \emph{typed affine decision structures} (tads) の構築を可能にするこれらのネットワークのシンボリックな実行である。 決定論的かつ逐次的な性質から、tadは決定木と同様にホワイトボックスモデルと見なすことができ、それゆえモデルと結果説明問題の正確な解である。 TADSは線形代数であり、2つのネットワークベースの分類器が異なる入力のセットや入力のセットを正確に特徴付けることにより、障害発生時の正確な診断情報の両方を整合性や類似性について整合性ネットワークをエレガントに比較することができる。 すべての現象は、最小限で図解的な例である連続 XOR 関数の詳細な議論に沿って説明される。

In this paper we present an algebraic approach to the precise and global verification and explanation of \emph{Rectifier Neural Networks}, a subclass of \emph{Piece-wise Linear Neural Networks} (PLNNs), i.e., networks that semantically represent piece-wise affine functions. Key to our approach is the symbolic execution of these networks that allows the construction of semantically equivalent \emph{Typed Affine Decision Structures} (TADS). Due to their deterministic and sequential nature, TADS can, similarly to decision trees, be considered as white-box models and therefore as precise solutions to the model and outcome explanation problem. TADS are linear algebras which allows one to elegantly compare Rectifier Networks for equivalence or similarity, both with precise diagnostic information in case of failure, and to characterize their classification potential by precisely characterizing the set of inputs that are specifically classified or the set of inputs where two network-based classifiers differ. All phenomena are illustrated along a detailed discussion of a minimal, illustrative example: the continuous XOR function.
翻訳日:2023-01-20 15:18:08 公開日:2023-01-19
# フレーズペア注入とコーパスフィルタリングによる機械翻訳の改善

Improving Machine Translation with Phrase Pair Injection and Corpus Filtering ( http://arxiv.org/abs/2301.08008v1 )

ライセンス: Link先を確認
Akshay Batheja, Pushpak Bhattacharyya(参考訳) 本稿では,Phrase Pair Injection と Corpus Filtering を組み合わせることで,ニューラルマシン翻訳(NMT)システムの性能が向上することを示す。 擬似並列コーパスからパラレルフレーズと文を抽出し,それを並列コーパスで拡張し,NMTモデルを訓練する。 提案手法では,FLORESテストデータから,Hindi-Marathi,British-Marathi,British-Pashtoの3つの低リソース言語ペアに対する機械翻訳(MT)システムの改善と,最大2.7BLEUポイントの翻訳方向を導出する。 これらのBLEUスコアの改善は、並列コーパスを付加した擬似並列コーパス全体をトレーニングしたモデルよりも優れている。

In this paper, we show that the combination of Phrase Pair Injection and Corpus Filtering boosts the performance of Neural Machine Translation (NMT) systems. We extract parallel phrases and sentences from the pseudo-parallel corpus and augment it with the parallel corpus to train the NMT models. With the proposed approach, we observe an improvement in the Machine Translation (MT) system for 3 low-resource language pairs, Hindi-Marathi, English-Marathi, and English-Pashto, and 6 translation directions by up to 2.7 BLEU points, on the FLORES test data. These BLEU score improvements are over the models trained using the whole pseudo-parallel corpus augmented with the parallel corpus.
翻訳日:2023-01-20 15:17:44 公開日:2023-01-19
# クエリ提案のためのキーワード埋め込み

Keyword Embeddings for Query Suggestion ( http://arxiv.org/abs/2301.08006v1 )

ライセンス: Link先を確認
Jorge Gab\'in, M. Eduardo Ares and Javier Parapar(参考訳) 今日では、検索エンジンのユーザは、クエリの提案に頼って初期入力を改善している。 現在のシステムは、ユーザのクエリに対する語彙適応やスペル修正を推奨するのに非常に適しています。 しかし、ユーザのクエリから意味論的に関連のあるキーワードを提案するのに苦労することが多い。 詳細なクエリの構築は、法的検索や学術検索などのタスクにおいて重要である。 これらのシナリオでは、クエリの定式化中にユーザを導くためにキーワード提案メソッドが不可欠である。 本稿では,科学文献を用いたキーワード提案タスクのための2つの新しいモデルを提案する。 我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。 また,これらのモデルとともに,学術論文にキーワードがどのように現れるかを活用した,特別に調整された負のサンプリング手法も提示する。 既知の検索シナリオとアドホックな検索シナリオの両方に従って,ランキングに基づく評価手法を考案する。 最後に,現状語と文の埋め込みモデルに対する提案を,タスクのベースラインよりも大幅に改善したことを示す。

Nowadays, search engine users commonly rely on query suggestions to improve their initial inputs. Current systems are very good at recommending lexical adaptations or spelling corrections to users' queries. However, they often struggle to suggest semantically related keywords given a user's query. The construction of a detailed query is crucial in some tasks, such as legal retrieval or academic search. In these scenarios, keyword suggestion methods are critical to guide the user during the query formulation. This paper proposes two novel models for the keyword suggestion task trained on scientific literature. Our techniques adapt the architecture of Word2Vec and FastText to generate keyword embeddings by leveraging documents' keyword co-occurrence. Along with these models, we also present a specially tailored negative sampling approach that exploits how keywords appear in academic publications. We devise a ranking-based evaluation methodology following both known-item and ad-hoc search scenarios. Finally, we evaluate our proposals against the state-of-the-art word and sentence embedding models showing considerable improvements over the baselines for the tasks.
翻訳日:2023-01-20 15:17:19 公開日:2023-01-19
# 格子上のフェルミオンに対するカシミール効果

Casimir effect for fermions on the lattice ( http://arxiv.org/abs/2301.08002v1 )

ライセンス: Link先を確認
Katsumasa Nakayama and Kei Suzuki(参考訳) 従来のカシミール効果は連続時空において研究されてきたが、格子空間においてその効果を解明することは重要な主題である。 ここでは格子上の量子場に対する様々な種類のカシミール効果について議論する。 格子上のカシミールエネルギーの定義を用いることで、ウィルソンフェルミオンに対するカシミール効果が連続ディラックフェルミオンと類似していることが示される。 Cd$_{3}$As$_{2}$およびNa$_{3}$Bi のようなディラック半金属を記述する実効ハミルトニアンに我々の定義を適用し、半金属の膜厚の関数としてカシミールエネルギーの振動挙動を求める。 また, 格子上の非相対論的粒子場に対する磁場下でのランドーレベルとカシミール効果からの寄与についても検討した。

The conventional Casimir effect has been studied in the continuous spacetime, but to elucidate its counterpart in the lattice space is an important subject. Here, we discuss various types of Casimir effects for quantum fields on the lattice. By using a definition of the Casimir energy on the lattice, we show that the Casimir effect for the Wilson fermion is similar to that for the continuous Dirac fermion. We apply our definition to an effective Hamiltonian describing Dirac semimetals, such as Cd$_{3}$As$_{2}$ and Na$_{3}$Bi, and find an oscillatory behavior of the Casimir energy as a function of film thickness of semimetals. We also study contributions from Landau levels under magnetic fields and the Casimir effect for nonrelativistic particle fields on the lattice.
翻訳日:2023-01-20 15:16:55 公開日:2023-01-19
# DMとKSEA相互作用を持つXYZスピン加工媒体上の量子オットー熱エンジン:最大作業出力における動作モードと効率

Quantum Otto heat engines on XYZ spin working medium with DM and KSEA interactions: Operating modes and efficiency at maximal work output ( http://arxiv.org/abs/2301.07987v1 )

ライセンス: Link先を確認
Elena I. Kuznetsova, M. A. Yurischev and Saeed Haddadi(参考訳) 不均質な磁場と反対称dzyaloshinsky-moriya(dm)および対称kaplan--shekhtman--entin-wohlman-aharony(ksea)相互作用の存在下での2スピン1/2xyz作動流体に基づく磁気オットー熱機械を考える。 その動作可能なモードが見つけられ、分類される。 モデルパラメータの様々な選択に対して,最大出力でのエンジン効率を推定する。 これらの効率がノヴィコフ値を超える場合がある。 全作業の局所的最小点の新たな追加点を明らかにし,その発生機構を解析した。

The magnetic Otto thermal machine based on a two-spin-1/2 XYZ working fluid in the presence of an inhomogeneous magnetic field and antisymmetric Dzyaloshinsky--Moriya (DM) and symmetric Kaplan--Shekhtman--Entin-Wohlman--Aharony (KSEA) interactions is considered. Its possible modes of operation are found and classified. The efficiencies of engines at maximum power are estimated for various choices of model parameters. There are cases when these efficiencies exceed the Novikov value. New additional points of local minima of the total work are revealed and the mechanism of their occurrence is analyzed.
翻訳日:2023-01-20 15:16:31 公開日:2023-01-19
# 新しい正規誤情報の連続的検出 : 高密度潜在領域における意味的マスキングと対比的平滑化

Continuously Reliable Detection of New-Normal Misinformation: Semantic Masking and Contrastive Smoothing in High-Density Latent Regions ( http://arxiv.org/abs/2301.07981v1 )

ライセンス: Link先を確認
Abhijit Suprem, Joao Eduardo Ferreira, and Calton Pu(参考訳) 有害な誤情報キャンペーンは、選挙や新型コロナウイルスに関する情報認識に影響を与えるなど、社会に大きな損害をもたらしている。 残念なことに、事実の後に有害な影響が確認された誤報の(金本位制の)振り返り研究の成功にもかかわらず、彼らは時間的な介入とそのような害の軽減のために遅すぎる。 設計上、誤報は2つの特性を利用して再帰的分類を回避し、(1)従来の分類法では不可能な一般化問題を引き起こす未確認の新規性、(2)新しい分類法訓練のために手動で注釈付けできる前に終わる大規模かつ短いキャンペーンである。 これらの課題に取り組むため,ufitでは,強信号キーワードの意味的マスキングと,潜在空間における高密度領域のイントラプロキシスムースネスの正規化と,信頼性の向上と精度の維持を両立する手法を提案する。 公的な偽情報データに対するUFITの評価は、将来の(そして目に見えない)キャンペーンにおける既存のアプローチよりも30%以上改善されている。 我々の知識を最大限に活用するために、UFITは、すべてのキャンペーンの完全な知識で訓練されたオラクルと比較して、最小の譲歩(1~5%)の精度で、新しい正規の誤情報データに対するそのような高度な一般化を達成するための最初の成功である。

Toxic misinformation campaigns have caused significant societal harm, e.g., affecting elections and COVID-19 information awareness. Unfortunately, despite successes of (gold standard) retrospective studies of misinformation that confirmed their harmful effects after the fact, they arrive too late for timely intervention and reduction of such harm. By design, misinformation evades retrospective classifiers by exploiting two properties we call new-normal: (1) never-seen-before novelty that cause inescapable generalization challenges for previous classifiers, and (2) massive but short campaigns that end before they can be manually annotated for new classifier training. To tackle these challenges, we propose UFIT, which combines two techniques: semantic masking of strong signal keywords to reduce overfitting, and intra-proxy smoothness regularization of high-density regions in the latent space to improve reliability and maintain accuracy. Evaluation of UFIT on public new-normal misinformation data shows over 30% improvement over existing approaches on future (and unseen) campaigns. To the best of our knowledge, UFIT is the first successful effort to achieve such high level of generalization on new-normal misinformation data with minimal concession (1 to 5%) of accuracy compared to oracles trained with full knowledge of all campaigns.
翻訳日:2023-01-20 15:16:15 公開日:2023-01-19
# SpotHitPy:Spotifyを用いたMLベースのヒット曲予測に関する研究

SpotHitPy: A Study For ML-Based Song Hit Prediction Using Spotify ( http://arxiv.org/abs/2301.07978v1 )

ライセンス: Link先を確認
Ioannis Dimolitsas, Spyridon Kantarelis, Afroditi Fouka(参考訳) 本研究では,どの曲がビルボードヒットになるかを予測することを目的としたヒットソング予測問題にアプローチした。 私たちは約18500曲のヒット曲と非ヒット曲のデータセットを集め、Spotify Web APIを使ってオーディオ機能を抽出しました。 データセット上で4つの機械学習モデルをテストする。 我々は、約86\%の精度で、曲のビルボードの成功を予測できた。 最も成功したアルゴリズムはランダムフォレストとサポートベクターマシンである。

In this study, we approached the Hit Song Prediction problem, which aims to predict which songs will become Billboard hits. We gathered a dataset of nearly 18500 hit and non-hit songs and extracted their audio features using the Spotify Web API. We test four machine-learning models on our dataset. We were able to predict the Billboard success of a song with approximately 86\% accuracy. The most succesful algorithms were Random Forest and Support Vector Machine.
翻訳日:2023-01-20 15:15:43 公開日:2023-01-19
# 連続的動的デカップリングによって保護される四極子遷移と量子ゲート

Quadrupole transitions and quantum gates protected by continuous dynamic decoupling ( http://arxiv.org/abs/2301.07974v1 )

ライセンス: Link先を確認
V. J. Mart\'inez-Lahuerta, L. Pelzer, K. Dietze, L. Krinner, P. O. Schmidt, and K. Hammerer(参考訳) 動的デカップリング技術は、調整された性質を持つ量子状態のエンジニアリングのための汎用的なツールである。 閉じ込められたイオンでは、高周波電界ドレッシングによる連続的動的デカップリングのネスト層が支配的な磁気と電気のシフトをキャンセルし、電子状態のコヒーレンス時間を長くする。 この強化を周波数メトロロジー、量子シミュレーション、量子計算に活用し、閉じ込められたイオンの電子状態と運動状態の量子制御のためのレーザー-イオン相互作用の分離を組み合わせることが課題となる。 究極的には、服を着た分離状態から量子ビット上で量子ゲートを実行する必要がある。 ここでは、閉じ込められたイオンにおけるネストした連続的な動的デカップリングのコンパクトな表現を提供し、電子的$s$および$d$状態および光四極子遷移に適用する。 本治療は,すべての有効な遷移周波数とrabi率,ならびにこれらの遷移の効果的な選択規則を提供する。 そこで本研究では,連続的動的疎結合とM{\o}lmer-S{\o}rensenゲートの組み合わせの可能性について論じる。

Dynamical decoupling techniques are a versatile tool for engineering quantum states with tailored properties. In trapped ions, nested layers of continuous dynamical decoupling by means of radio-frequency field dressing can cancel dominant magnetic and electric shifts and therefore provide highly prolonged coherence times of electronic states. Exploiting this enhancement for frequency metrology, quantum simulation or quantum computation, poses the challenge to combine the decoupling with laser-ion interactions for the quantum control of electronic and motional states of trapped ions. Ultimately, this will require running quantum gates on qubits from dressed decoupled states. We provide here a compact representation of nested continuous dynamical decoupling in trapped ions, and apply it to electronic $S$ and $D$ states and optical quadrupole transitions. Our treatment provides all effective transition frequencies and Rabi rates, as well as the effective selection rules of these transitions. On this basis, we discuss the possibility of combining continuous dynamical decoupling and M{\o}lmer-S{\o}rensen gates.
翻訳日:2023-01-20 15:15:36 公開日:2023-01-19
# 教師なし異常検出のための位置回帰

Position Regression for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2301.08064v1 )

ライセンス: Link先を確認
Florentin Bieder, Julia Wolleb, Robin Sandk\"uhler, Philippe C. Cattin(参考訳) 近年,医療画像解析において異常検出が重要な分野となっている。 現在の医療画像の異常検出法は画像再構成に基づいている。 本研究では,座標回帰に基づく新しい異常検出手法を提案する。 本手法は,健康な被験者のデータのみに基づいて,ボリューム内のパッチの位置を推定する。 推定中、与えられたパッチの位置推定の誤差を考慮して異常を検出・局所化することができる。 頭蓋内出血と頭蓋骨骨折の3次元ctデータに本法を適用し,その評価を行った。 その結果,本手法は異常検出に有効であることがわかった。 さらに,本手法は画像再構成を伴う手法に比べて少ないメモリを必要とすることを示した。 これは、例えばCTやMRIなどの大規模な3Dボリュームの処理に非常に関係している。

In recent years, anomaly detection has become an essential field in medical image analysis. Most current anomaly detection methods for medical images are based on image reconstruction. In this work, we propose a novel anomaly detection approach based on coordinate regression. Our method estimates the position of patches within a volume, and is trained only on data of healthy subjects. During inference, we can detect and localize anomalies by considering the error of the position estimate of a given patch. We apply our method to 3D CT volumes and evaluate it on patients with intracranial haemorrhages and cranial fractures. The results show that our method performs well in detecting these anomalies. Furthermore, we show that our method requires less memory than comparable approaches that involve image reconstruction. This is highly relevant for processing large 3D volumes, for instance, CT or MRI scans.
翻訳日:2023-01-20 15:09:25 公開日:2023-01-19
# フォールトトレラント量子アルゴリズム

Fault-tolerant quantum algorithms ( http://arxiv.org/abs/2301.08057v1 )

ライセンス: Link先を確認
Pablo Antonio Moreno Casares(参考訳) この論文の枠組みはフォールトトレラント量子アルゴリズムである。 グローバーのアルゴリズムと量子ウォークは第2章で述べられている。 まず、ローテーションが量子アルゴリズムで果たす中心的な役割を強調し、グローバーがなぜ最適なのか、どのように拡張されるのかを説明する。 この領域で説明されている重要なサブルーチンは振幅増幅と量子ウォークであり、他のアルゴリズムの有用な部分を構成する。 対照的に第3章では、隠れ部分群問題の文脈においてフーリエ変換によって約束される指数関数的な利点に目を向ける。 しかし、この応用は暗号に限定されるため、量子線形代数問題におけるその利用を探求する。 ここでは、元の量子線形解法アルゴリズムの開発、その改良、そして多項式に対する量子上の優位性をしばしば制限する定式化手法について説明する。 第4章は量子シミュレーションに関するものである。 古典的な量子化学の手法を概観し、ハミルトンシミュレーションと基底状態の準備を解決すべき重要な問題として取り上げる。 特にハミルトニアンシミュレーションは、与えられた量子状態の固有値やエネルギーを計算する量子位相推定の利用を可能にする。 誤り訂正を行うグループの伝統を考えると、このテーマに最終章を捧げることなくこの論文を終わらせることはできない。 ここでは、最も重要な量子誤り訂正符号、表面および色符号、および後者の拡張であるゲージカラー符号について説明する。 これらは非クリフォード量子ゲートの実装の複雑さを示し、ボトルネックメトリックとしてそれらの考察を検証する。

The framework of this thesis is fault-tolerant quantum algorithms. Grover's algorithm and quantum walks are described in Chapter 2. We start by highlighting the central role that rotations play in quantum algorithms, explaining Grover's, why it is optimal, and how it may be extended. Key subroutines explained in this area are amplitude amplification and quantum walks, which will constitute useful parts of other algorithms. In the third chapter, in contrast, we turn to the exponential advantages promised by the Fourier transform in the context of the hidden subgroup problem. However, since this application is restricted to cryptography, we later explore its use in quantum linear algebra problems. Here we explain the development of the original quantum linear solver algorithm, its improvements, and finally the dequantization techniques that would often restrict the quantum advantage to polynomial. Chapter 4 is concerned with quantum simulation. We will review classical quantum chemistry techniques, and then focus on Hamiltonian simulation and ground state preparation as the key problems to be solved. Hamiltonian simulation, in particular, will enable the use of quantum phase estimation which computes the eigenvalues or energies of a given quantum state. Given the tradition of our group with error correction, we could not end this thesis without dedicating a final chapter to this topic. Here we explain the most important quantum error correction codes, the surface and color codes, and one extension of the latter, gauge color codes. They will show the complexity of implementing non-Clifford quantum gates, therefore validating their consideration as the bottleneck metric.
翻訳日:2023-01-20 15:09:14 公開日:2023-01-19
# 顔属性を用いた参照画像インパインティング

Reference Guided Image Inpainting using Facial Attributes ( http://arxiv.org/abs/2301.08044v1 )

ライセンス: Link先を確認
Dongsik Yoon, Jeonggi Kwak, Yuanming Li, David Han, Youngsaeng Jin and Hanseok Ko(参考訳) イメージインペインティング(image inpainting)は、領域修復の邪魔、オブジェクトの削除の邪魔、顔の完成など、欠落したピクセルを完了させる技術である。 これらの塗装作業のうち、顔補完アルゴリズムはユーザ方向に応じて顔塗装を行う。 既存のアプローチではユーザによる繊細でよく制御された入力を必要とするため、平均的なユーザがアルゴリズムが望ましい結果を生成するのに十分なガイダンスを提供するのは難しい。 この制限を克服するために、単一の参照イメージをガイドとして顔の属性を操作できる代替のユーザガイドインペイントアーキテクチャを提案する。 我々のエンドツーエンドモデルは、正確な参照画像属性転送のための属性抽出器と、その属性を現実的に正確に生成画像にマッピングするインパインティングモデルから構成される。 我々はMS-SSIMの損失をカスタマイズし、不規則な形状のマスクであっても重要構造がそのまま残る双方向の注意マップを学習可能にする。 公開データセット celeba-hq を用いた評価に基づいて,提案手法は,塗装タスクを専門とする最先端手法に比べて優れた性能を提供することを示す。

Image inpainting is a technique of completing missing pixels such as occluded region restoration, distracting objects removal, and facial completion. Among these inpainting tasks, facial completion algorithm performs face inpainting according to the user direction. Existing approaches require delicate and well controlled input by the user, thus it is difficult for an average user to provide the guidance sufficiently accurate for the algorithm to generate desired results. To overcome this limitation, we propose an alternative user-guided inpainting architecture that manipulates facial attributes using a single reference image as the guide. Our end-to-end model consists of attribute extractors for accurate reference image attribute transfer and an inpainting model to map the attributes realistically and accurately to generated images. We customize MS-SSIM loss and learnable bidirectional attention maps in which importance structures remain intact even with irregular shaped masks. Based on our evaluation using the publicly available dataset CelebA-HQ, we demonstrate that the proposed method delivers superior performance compared to some state-of-the-art methods specialized in inpainting tasks.
翻訳日:2023-01-20 15:08:53 公開日:2023-01-19
# 過敏性リプシッツ持続性のない運動性Langevin MCMCの1例

Kinetic Langevin MCMC Sampling Without Gradient Lipschitz Continuity -- the Strongly Convex Case ( http://arxiv.org/abs/2301.08039v1 )

ライセンス: Link先を確認
Tim Johnston, Iosif Lytras and Sotirios Sabanis(参考訳) 本稿では、目的勾配がグローバルリプシッツであると仮定することなく、ハミルトン集合における対数凹面分布からのサンプリングを検討する。 単調多角形(テード)オイラースキームに基づく2つのアルゴリズムを提案し,対象測度からサンプリングし,各アルゴリズムの過程の法則と対象測度との間の非漸近的な2-wasserstein距離境界を与える。 最後に,これらの結果を,関連する最適化問題の過大なリスク最適化誤差に適用する。

In this article we consider sampling from log concave distributions in Hamiltonian setting, without assuming that the objective gradient is globally Lipschitz. We propose two algorithms based on monotone polygonal (tamed) Euler schemes, to sample from a target measure, and provide non-asymptotic 2-Wasserstein distance bounds between the law of the process of each algorithm and the target measure. Finally, we apply these results to bound the excess risk optimization error of the associated optimization problem.
翻訳日:2023-01-20 15:08:26 公開日:2023-01-19
# 複合ロボットチームにおける動的役割配置と協調作業計画のための総合的アーキテクチャ

A Comprehensive Architecture for Dynamic Role Allocation and Collaborative Task Planning in Mixed Human-Robot Teams ( http://arxiv.org/abs/2301.08038v1 )

ライセンス: Link先を確認
Edoardo Lamon (1), Fabio Fusaro (1,2), Elena De Momi (1,2), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Interaction, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy)(参考訳) ハンドリング、溶接、組み立てなど、いくつかの産業アプリケーションにおける人間とロボットの協調プロセスの展開は、大規模な異種チームを管理することができるシステムの追求を拡大すると同時に、複雑なタスクの実行を監視します。 本稿では,任意のサイズの混合ロボットチームにおいて,動的役割割り当てと協調作業計画のための新しいアーキテクチャを提案する。 このアーキテクチャは、行動計画(BT)に基づく集中型リアクティブでモジュール化されたタスク非依存の計画手法を利用しており、割り込み問題はMILP(Mixed-Integer Linear Program)によって定式化され、チームのエージェントに動的に個々の役割やコラボレーションを割り当てる。 milpコストとして使用されるさまざまなメトリクスにより、アーキテクチャはコラボレーションのさまざまな側面(例えば、makespan、人間工学、人間選好)を好むことができる。 交渉段階を通じて人間の嗜好を識別し、人間エージェントが割り当てられたタスクを受理/再結合し、さらに、異なるアクションフェーズで作業者の支援と調整を行うための直感的な機能を提供する拡張現実(ar)カスタムユーザインタフェースにより、人間とシステム間の双方向通信を実現する。 提案手法の計算複雑性は、産業規模の仕事やチームにおける文学的アプローチを上回っている(最大50のアクションとコラボレーションを行うチーム内の20のエージェントが1対1で解決される)。 コスト関数が変化するにつれて、割り当てられたさまざまな役割は、アーキテクチャの柔軟性をいくつかのプロダクション要件に強調する。 最後に,対象シナリオに対する高いユーザビリティレベルと適合性を示す主観評価を行った。

The growing deployment of human-robot collaborative processes in several industrial applications, such as handling, welding, and assembly, unfolds the pursuit of systems which are able to manage large heterogeneous teams and, at the same time, monitor the execution of complex tasks. In this paper, we present a novel architecture for dynamic role allocation and collaborative task planning in a mixed human-robot team of arbitrary size. The architecture capitalizes on a centralized reactive and modular task-agnostic planning method based on Behavior Trees (BTs), in charge of actions scheduling, while the allocation problem is formulated through a Mixed-Integer Linear Program (MILP), that assigns dynamically individual roles or collaborations to the agents of the team. Different metrics used as MILP cost allow the architecture to favor various aspects of the collaboration (e.g. makespan, ergonomics, human preferences). Human preference are identified through a negotiation phase, in which, an human agent can accept/refuse to execute the assigned task.In addition, bilateral communication between humans and the system is achieved through an Augmented Reality (AR) custom user interface that provides intuitive functionalities to assist and coordinate workers in different action phases. The computational complexity of the proposed methodology outperforms literature approaches in industrial sized jobs and teams (problems up to 50 actions and 20 agents in the team with collaborations are solved within 1\;s). The different allocated roles, as the cost functions change, highlights the flexibility of the architecture to several production requirements. Finally, the subjective evaluation demonstrating the high usability level and the suitability for the targeted scenario.
翻訳日:2023-01-20 15:08:14 公開日:2023-01-19
# 量子熱エンジンと一般化不確実性原理

Quantum Heat Engines and the Generalized Uncertainty Principle ( http://arxiv.org/abs/2301.08037v1 )

ライセンス: Link先を確認
Gardo Blado, Jonathan Nguyen, Giovani Renteria, Skylar Gay, Bryce Mortimer(参考訳) 分割関数法を用いて, 量子熱機関における一般化不確実性原理(GUP)が無限平方井戸内の粒子に基づく効率に及ぼす影響について検討した。 特にカルノーとオットーの熱機関について検討する。 使用したシステムでは, GUP補正効率は GUP 効果のない効率よりも低いことがわかった。 しかし, 予想通り, 冷熱浴の温度が低下し, 電位井戸の幅が減少するにつれて, GUP効果が増大する。

We study the effects of the generalized uncertainty principle (GUP) on the efficiency of quantum heat engines based on a particle in an infinite square well using the partition function approach. In particular, we study the Carnot and Otto heat engines. For the system we used, the GUP-corrected efficiencies turned out to be lower than efficiencies without the GUP effects. However, as expected, GUP effects increase as the temperature of the cold heat bath decreases and as the width of the potential well decreases.
翻訳日:2023-01-20 15:07:43 公開日:2023-01-19
# 競争的生存環境におけるマルチエージェントインタラクション

Multi-Agent Interplay in a Competitive Survival Environment ( http://arxiv.org/abs/2301.08030v1 )

ライセンス: Link先を確認
Andrea Fanti(参考訳) ハードエクスプロレーション環境の解決は強化学習における重要な課題である。 Intrinsic Motivation、エージェントとタスクの共進化、マルチエージェント競合など、いくつかのアプローチが提案され研究されている。 特に、複数のエージェント間の相互作用は、人間関係の創発的な振る舞いを生成できることが証明されており、単一エージェントの設定で学ぶことは困難または不可能である。 本研究では,現実的な物理と人間関係のセマンティクスを特徴とするマルチエージェント・インタープレイのための拡張可能な競争環境を開発した。 さらに,この環境の異なる変種についていくつかの実験を行い,その結果,いくつかの簡単な創発的戦略と今後の改善に向けた具体的な方向性が得られた。 2022年、ローマのサピエンツァ大学で人工知能とロボティクスの修士号を取得した論文 "multi-agent interplay in a competitive survival environment" の一部となっている。

Solving hard-exploration environments in an important challenge in Reinforcement Learning. Several approaches have been proposed and studied, such as Intrinsic Motivation, co-evolution of agents and tasks, and multi-agent competition. In particular, the interplay between multiple agents has proven to be capable of generating human-relevant emergent behaviour that would be difficult or impossible to learn in single-agent settings. In this work, an extensible competitive environment for multi-agent interplay was developed, which features realistic physics and human-relevant semantics. Moreover, several experiments on different variants of this environment were performed, resulting in some simple emergent strategies and concrete directions for future improvement. The content presented here is part of the author's thesis "Multi-Agent Interplay in a Competitive Survival Environment" for the Master's Degree in Artificial Intelligence and Robotics at Sapienza University of Rome, 2022.
翻訳日:2023-01-20 15:07:34 公開日:2023-01-19
# メタ強化学習に関する調査

A Survey of Meta-Reinforcement Learning ( http://arxiv.org/abs/2301.08028v1 )

ライセンス: Link先を確認
Jacob Beck, Risto Vuorio, Evan Zheran Liu, Zheng Xiong, Luisa Zintgraf, Chelsea Finn, Shimon Whiteson(参考訳) 深層強化学習(deep reinforcement learning, rl)は、マシンラーニングにおいて複数の注目に値する成功を後押ししているが、そのデータ効率の低さと、それが生み出すポリシーの一般的性によって、より広範な採用から遠ざかっている。 これらの制限を緩和するための有望なアプローチは、メタRLと呼ばれるプロセスにおいて機械学習問題自体として、より良いRLアルゴリズムを開発することである。 meta-rlは、タスクの分散が与えられたとき、可能な限り少ないデータでタスクの分散から新しいタスクに適応できるポリシーを学ぶことを目的としている。 本稿では,メタRL問題と,その主なバリエーションについて詳述する。 本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,メタRL研究を高いレベルでクラスタ化する方法について論じる。 これらのクラスタを用いてメタRLアルゴリズムとアプリケーションを調査します。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程についてオープンな問題を提示することで、結論を下す。

While deep reinforcement learning (RL) has fueled multiple high-profile successes in machine learning, it is held back from more widespread adoption by its often poor data efficiency and the limited generality of the policies it produces. A promising approach for alleviating these limitations is to cast the development of better RL algorithms as a machine learning problem itself in a process called meta-RL. Meta-RL is most commonly studied in a problem setting where, given a distribution of tasks, the goal is to learn a policy that is capable of adapting to any new task from the task distribution with as little data as possible. In this survey, we describe the meta-RL problem setting in detail as well as its major variations. We discuss how, at a high level, meta-RL research can be clustered based on the presence of a task distribution and the learning budget available for each individual task. Using these clusters, we then survey meta-RL algorithms and applications. We conclude by presenting the open problems on the path to making meta-RL part of the standard toolbox for a deep RL practitioner.
翻訳日:2023-01-20 15:07:20 公開日:2023-01-19
# 無監督環境設計における効果的な多様性

Effective Diversity in Unsupervised Environment Design ( http://arxiv.org/abs/2301.08025v1 )

ライセンス: Link先を確認
Wenjun Li, Pradeep Varakantham, Dexun Li(参考訳) 強化学習(rl)を用いたエージェント意思決定は、環境のモデルまたはシミュレータに依存している(例えば、3部屋の8x8迷路を移動し、8x8ボードでチェスをする)。 この依存により、環境の変化(迷路内の障害物の位置や板の大きさなど)は、エージェントが学習したポリシーの有効性に重大な影響を及ぼす可能性がある。 そのために既存の研究は、環境の適応的なカリキュラム(自動生成)でRLエージェントを訓練し、アウト・オブ・ディストリビューション(OOD)テストシナリオのパフォーマンスを改善することを提案した。 具体的には、エージェントを訓練するための次の環境を選択するための鍵となる要因として、エージェントが(一般化アドバンテージ推定(GAE)を用いて取得した)環境において学習する可能性を用いている。 しかし、このようなメカニズムは類似した環境(学習する可能性が高い)を選択することで、エージェントトレーニングをこれらの環境以外のすべてで冗長にすることができる。 そこで本研究では,環境設計に関連する新しい距離尺度に基づいて,多様な環境を適応的に識別する手法を提案する。 本研究では,本手法の汎用性と有効性を実証し,文献で用いられる3つのベンチマーク問題に対する教師なし環境設計のための複数の先行手法と比較した。

Agent decision making using Reinforcement Learning (RL) heavily relies on either a model or simulator of the environment (e.g., moving in an 8x8 maze with three rooms, playing Chess on an 8x8 board). Due to this dependence, small changes in the environment (e.g. positions of obstacles in the maze, size of the board) can severely affect the effectiveness of the policy learnt by the agent. To that end, existing work has proposed training RL agents on an adaptive curriculum of environments (generated automatically) to improve performance on out-of-distribution (OOD) test scenarios. Specifically, existing research has employed the potential for the agent to learn in an environment (captured using Generalized Advantage Estimation, GAE) as the key factor to select the next environment(s) to train the agent. However, such a mechanism can select similar environments (with a high potential to learn) thereby making agent training redundant on all but one of those environments. To that end, we provide a principled approach to adaptively identify diverse environments based on a novel distance measure relevant to environment design. We empirically demonstrate the versatility and effectiveness of our method in comparison to multiple leading approaches for unsupervised environment design on three distinct benchmark problems used in literature.
翻訳日:2023-01-20 15:07:02 公開日:2023-01-19
# 高次ブロッホ球体:アジムタル位相因子を持つ電子スピン状態の一般化表現

Higher-order Bloch spheres: A generalized representation of electron spin states with azimuthal phase factor ( http://arxiv.org/abs/2301.08024v1 )

ライセンス: Link先を確認
Sota Sato, Toshiki Matsumoto, Yuichiro Nakano, Jun Ishihara, Katsuhiko Miyamoto, Takashige Omatsu, and Ken Morita(参考訳) ブロッホ球面(bs)上のスピン状態とポアンカレ球面(ps)上の偏光状態との類似性を用いて、高次ps上の光子の高次偏光状態に対応する高次bs上の高次スピン状態を構成する。 磁場中における高次スピン状態の時間的進化について検討し,従来のラーモア偏差の延長形態を確立する。 この結果は、スピンおよび軌道角モータを持つ拡張光子から拡張スピン量子ビット系へのコヒーレント移動と、拡張スピン量子ビットの操作に関する洞察を与える。

Using the similarity between spin states on the Bloch sphere (BS) and polarization states on the Poincare sphere (PS), we construct higher-order spin states on the higher-order BS corresponding to higher-order polarization states of photons on the higher-order PS. We investigate the time evolution of higher-order spin states in a magnetic field and establish an extended form of the conventional Larmor precession. The results provide insights on coherent transfer from extended photons to extended spin qubit systems with spin and orbital angular momenta and the operation of extended spin qubits.
翻訳日:2023-01-20 15:06:40 公開日:2023-01-19
# 画像強調のためのソフトスレッショニング

Soft Thresholding for Visual Image Enhancement ( http://arxiv.org/abs/2301.08113v1 )

ライセンス: Link先を確認
Christoph Dalitz(参考訳) しきい値化はグレースケール画像をバイナリイメージに変換するため、画像処理において必要なセグメンテーションステップとなることが多い。 しかし、人間のビューアーにとって、閾値付けは通常、文書画像の正当性に悪影響を及ぼす。 本報告では、しきい値の「スミアングアウト」とグレースケール画像を異なるグレースケール画像に変換する簡単な方法について述べる。 この方法はファジィしきい値法に似ているが、グレイスケール変換のより単純な文脈で議論され、ファジィしきい値法とは異なり、しきい値を求める方法とは独立である。 閾値拡散の幅を自動的に決定する簡単な式が提示される。 この方法は、例えば、オンラインファクシミリリポジトリのプレゼンテーション用の画像を強化するために使用できる。

Thresholding converts a greyscale image into a binary image, and is thus often a necessary segmentation step in image processing. For a human viewer however, thresholding usually has a negative impact on the legibility of document images. This report describes a simple method for "smearing out" the threshold and transforming the greyscale image into a different greyscale image. The method is similar to fuzzy thresholding, but is discussed here in the simpler context of greyscale transformations and, unlike fuzzy thresholding, it is independent from the method for finding the threshold. A simple formula is presented for automatically determining the width of the threshold spread. The method can be used, e.g., for enhancing images for the presentation in online facsimile repositories.
翻訳日:2023-01-20 15:00:06 公開日:2023-01-19
# AtMan: メモリ効率の良いアテンション操作によるトランスフォーマー予測の理解

AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation ( http://arxiv.org/abs/2301.08110v1 )

ライセンス: Link先を確認
Mayukh Deb, Bj\"orn Deiseroth, Samuel Weinbach, Patrick Schramowski, Kristian Kersting(参考訳) 生成トランスモデルは、多数のパラメータと複数の入力モダリティを処理する能力によって、ますます複雑になっている。 現在の予測手法はリソース集約型である。 最も重要なのは、フォワードパスの約2倍のGPUメモリを割り当てるバックプロパゲーションに依存するため、極めて大量の余分なメモリを必要とすることだ。 そのため、プロダクションで使用するのは不可能ではないにせよ、難しい。 AtManは、生成トランスモデルの説明を、ほとんど余分なコストで提供します。 特に、AtManは、変換器の注意機構を制御し、出力予測に対する入力の関連マップを生成するモーダル非依存摂動法である。 バックプロパゲーションを使う代わりに、atmanは埋め込み空間内のコサイン類似性近傍に基づく並列化可能なトークンベースの検索手法を適用する。 テキストと画像テキストのベンチマークを徹底的に実験した結果、atmanは計算効率を保ちつつ、いくつかのメトリクスで現在の最先端のグラデーションベース手法よりも優れています。 そのため、AtManは大規模なモデル推論デプロイメントでの使用に適している。

Generative transformer models have become increasingly complex, with large numbers of parameters and the ability to process multiple input modalities. Current methods for explaining their predictions are resource-intensive. Most crucially, they require prohibitively large amounts of extra memory, since they rely on backpropagation which allocates almost twice as much GPU memory as the forward pass. This makes it difficult, if not impossible, to use them in production. We present AtMan that provides explanations of generative transformer models at almost no extra cost. Specifically, AtMan is a modality-agnostic perturbation method that manipulates the attention mechanisms of transformers to produce relevance maps for the input with respect to the output prediction. Instead of using backpropagation, AtMan applies a parallelizable token-based search method based on cosine similarity neighborhood in the embedding space. Our exhaustive experiments on text and image-text benchmarks demonstrate that AtMan outperforms current state-of-the-art gradient-based methods on several metrics while being computationally efficient. As such, AtMan is suitable for use in large model inference deployments.
翻訳日:2023-01-20 14:59:53 公開日:2023-01-19
# キャラクタとナレーターとしての著者: r/AmITheAsshole Redditコミュニティから個人的ナラティブを分解する

Author as Character and Narrator: Deconstructing Personal Narratives from the r/AmITheAsshole Reddit Community ( http://arxiv.org/abs/2301.08104v1 )

ライセンス: Link先を確認
Salvatore Giorgi, Ke Zhao, Alexander H. Feng, Lara J. Martin(参考訳) r/AmITheAsshole subredditでは、人々は匿名で、道徳的なジレンマや紛争を含む第一人物の物語を共有し、誰が悪いのかを判断するようコミュニティに求める。 一般的には、一人称の物語は、作者が語り手(物語を語る人)であるが、登場人物(物語に生きる人)でもある独特の物語の領域であり、物語の中では2つの異なる声がある。 本研究では,著者に関連する言語的特徴と物語的特徴をナレーターとして識別する。 我々は、これらの特徴を用いて、以下の質問に答える: (1) くだらないキャラクターを作るのか、(2) くだらないナレーターになるのか? 我々は、物語のどの側面が最終道徳的判断と相関しているかを特定するために、著者・作者の特徴(人口統計学、物語イベント・チェーン、感情的アーク)と著者・管理者の特徴(物語全体のスタイルと感情)を抽出する。 私たちの研究は、キャラクタとしての「アスホール」が、よりポジティブな個人的なアークを持つエージェンシーの欠如を自認していることを示している。

In the r/AmITheAsshole subreddit, people anonymously share first person narratives that contain some moral dilemma or conflict and ask the community to judge who is at fault (i.e., who is "the asshole"). In general, first person narratives are a unique storytelling domain where the author is the narrator (the person telling the story) but can also be a character (the person living the story) and, thus, the author has two distinct voices presented in the story. In this study, we identify linguistic and narrative features associated with the author as the character or as a narrator. We use these features to answer the following questions: (1) what makes an asshole character and (2) what makes an asshole narrator? We extract both Author-as-Character features (e.g., demographics, narrative event chain, and emotional arc) and Author-as-Narrator features (i.e., the style and emotion of the story as a whole) in order to identify which aspects of the narrative are correlated with the final moral judgment. Our work shows that "assholes" as Characters frame themselves as lacking agency with a more positive personal arc, while "assholes" as Narrators will tell emotional and opinionated stories.
翻訳日:2023-01-20 14:59:37 公開日:2023-01-19
# 疎観測確率非線形系の推定のための幾何学的経路拡張

Geometric path augmentation for inference of sparsely observed stochastic nonlinear systems ( http://arxiv.org/abs/2301.08102v1 )

ライセンス: Link先を確認
Dimitra Maoutsa(参考訳) 決定的力と確率的力の両方の影響下で系の力学を記述する確率的進化方程式は、科学のあらゆる分野において一般的である。 しかし、これらのシステムをスパース・イン・タイムの観測から識別することは依然として困難な試みである。 既存のアプローチは、条件的期待に頼って観測の時間的構造に焦点を合わせ、したがってシステムの不変密度の幾何学的な情報を捨てるか、あるいは、保守的な力を持つシステムに制限される不変密度の幾何学的近似を用いる。 本稿では,これら2つのパラダイムを整理する手法を提案する。 局所観測幾何学を考慮した新しいデータ駆動経路拡張スキームを提案する。 拡張経路における非パラメトリック推論を用いることで,低サンプリング速度で観測されるシステムに対する基礎システムの決定論的駆動力を効率的に同定することができる。

Stochastic evolution equations describing the dynamics of systems under the influence of both deterministic and stochastic forces are prevalent in all fields of science. Yet, identifying these systems from sparse-in-time observations remains still a challenging endeavour. Existing approaches focus either on the temporal structure of the observations by relying on conditional expectations, discarding thereby information ingrained in the geometry of the system's invariant density; or employ geometric approximations of the invariant density, which are nevertheless restricted to systems with conservative forces. Here we propose a method that reconciles these two paradigms. We introduce a new data-driven path augmentation scheme that takes the local observation geometry into account. By employing non-parametric inference on the augmented paths, we can efficiently identify the deterministic driving forces of the underlying system for systems observed at low sampling rates.
翻訳日:2023-01-20 14:59:09 公開日:2023-01-19
# 近縮退連続体を有するスピン1ガス中における疎結合Few-Body状態

Loosely Bound Few-Body States in a Spin-1 Gas with Near-Degenerate Continua ( http://arxiv.org/abs/2301.08097v1 )

ライセンス: Link先を確認
Yaakov Yudkin, Paul S. Julienne, Lev Khaykovich(参考訳) ボゾンリチウム原子の超低温衝突の特徴は、2つの近接縮退した2体連続体の存在である。 狭いフェッシュバッハ共鳴近傍の体物理学に対するこのような近変性の影響は、2つの原子連続体と1つの閉じた分子チャネルを持つ最小模型の枠組みの中で研究されている。 このモデルは、ゆるく束縛されたダイマーとトリマーのスピン組成の解析を可能にする。 2体セクターでは、リチウムの現象学が定性的に再現され、その特異性が強調され、明確化される。 3体セクターでは、エフィモフ三量体エネルギーレベルが1つの連続体シナリオと比較して異なる機能形式に従っており、しきい値は触れられていない。 2つの原子連続体を持つこの3チャネルモデルは、2つの分子チャネル(Y. Yudkin and L. Khaykovich, Phys. A 103, 063303 (2021)))を持つ初期の3チャネルモデルを補完し、最初の励起エフィモフエネルギーレベル(Y. Yudkin, R. Elbaz and L. Khaykovich, arXiv:2004.02723)の実験的に観察されたエキゾチックな挙動は、おそらく相互作用ポテンシャルの短距離詳細によって引き起こされる。

A distinguishing feature of ultracold collisions of bosonic lithium atoms is the presence of two near-degenerate two-body continua. The influence of such a near-degeneracy on the few-body physics in the vicinity of a narrow Feshbach resonance is investigated within the framework of a minimal model with two atomic continua and one closed molecular channel. The model allows analysis of the spin composition of loosely bound dimers and trimers. In the two-body sector the well-established coupled-channels calculations phenomenology of lithium is qualitatively reproduced, and its particularities are emphasized and clarified. In the three-body sector we find that the Efimov trimer energy levels follow a different functional form as compared to a single continuum scenario while the thresholds remain untouched. This three-channel model with two atomic continua complements our earlier developed three-channel model with two molecular channels [Y. Yudkin and L. Khaykovich, Phys. Rev. A 103, 063303 (2021)] and suggests that the experimentally observed exotic behavior of the first excited Efimov energy level [Y. Yudkin, R. Elbaz and L. Khaykovich, arXiv:2004.02723] is most probably caused by the short-range details of the interaction potential.
翻訳日:2023-01-20 14:58:55 公開日:2023-01-19
# RNAS-CL:クロス層知識蒸留によるロバストニューラルネットワーク探索

RNAS-CL: Robust Neural Architecture Search by Cross-Layer Knowledge Distillation ( http://arxiv.org/abs/2301.08092v1 )

ライセンス: Link先を確認
Utkarsh Nath, Yancheng Wang and Yingzhen Yang(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 ディープニューラルネットワークの駆動ツールのひとつであるNeural Architecture Search(NAS)は、さまざまな機械学習アプリケーションにおいて、予測精度の優れたパフォーマンスを示す。 しかし、敵の攻撃に対してどのように行動するかは不明である。 頑健な教師の存在を考えると、NASが教師から頑健さを継承することで、堅牢な神経アーキテクチャを生み出すかどうかを調べることは興味深い。 本稿では,新しいnasアルゴリズムであるクロスレイヤー知識蒸留(rnas-cl)によるロバストニューラルネットワーク探索を提案し,ロバスト教師からクロスレイヤー知識蒸留を通じて学習することにより,nasのロバスト性を向上させる。 従来の知識蒸留法とは異なり、RNAS-CLは各生徒層を監督する最高の教師層を自動で検索する。 実験の結果、RNAS-CLの有効性が証明され、RNAS-CLが小さく頑丈な神経アーキテクチャを生み出すことが示された。

Deep Neural Networks are vulnerable to adversarial attacks. Neural Architecture Search (NAS), one of the driving tools of deep neural networks, demonstrates superior performance in prediction accuracy in various machine learning applications. However, it is unclear how it performs against adversarial attacks. Given the presence of a robust teacher, it would be interesting to investigate if NAS would produce robust neural architecture by inheriting robustness from the teacher. In this paper, we propose Robust Neural Architecture Search by Cross-Layer Knowledge Distillation (RNAS-CL), a novel NAS algorithm that improves the robustness of NAS by learning from a robust teacher through cross-layer knowledge distillation. Unlike previous knowledge distillation methods that encourage close student/teacher output only in the last layer, RNAS-CL automatically searches for the best teacher layer to supervise each student layer. Experimental result evidences the effectiveness of RNAS-CL and shows that RNAS-CL produces small and robust neural architecture.
翻訳日:2023-01-20 14:58:23 公開日:2023-01-19
# 不確定値関数を持つshapley値

Shapley Values with Uncertain Value Functions ( http://arxiv.org/abs/2301.08086v1 )

ライセンス: Link先を確認
Raoul Heese, Sascha M\"ucke, Matthias Jakobs, Thore Gerlach, Nico Piatkowski(参考訳) 確率論を用いた第一原理に基づく不確実な値関数を持つシェープリー値の新しい定義を提案する。 このような不確定値関数は、非決定論的アルゴリズムの結果として説明可能な機械学習の文脈で生じる。 ランダム効果は、ノイズのないがシフトした値関数を持つShapley値に吸収可能であることを示す。 したがって、不確実な値関数を持つシェープリー値は、正規シェープリー値と類似して用いられる。 しかし、その信頼性評価は一般により多くの計算努力を必要とする。

We propose a novel definition of Shapley values with uncertain value functions based on first principles using probability theory. Such uncertain value functions can arise in the context of explainable machine learning as a result of non-deterministic algorithms. We show that random effects can in fact be absorbed into a Shapley value with a noiseless but shifted value function. Hence, Shapley values with uncertain value functions can be used in analogy to regular Shapley values. However, their reliable evaluation typically requires more computational effort.
翻訳日:2023-01-20 14:58:05 公開日:2023-01-19
# ODEによるヘッセンの逆伝播について

On backpropagating Hessians through ODEs ( http://arxiv.org/abs/2301.08085v1 )

ライセンス: Link先を確認
Axel Ciceri and Thomas Fischbacher(参考訳) 本稿では, 常微分方程式 (odes) を用いてヘシアンを数値的に再伝播する問題について議論し, 特定の状況において異なるアプローチがいかに好まれるかを明らかにする。 本稿では,計算の労力とフレームワークのオーバーヘッドの典型的な影響など,理論的・実用的な側面について論じる。 本研究は,手動によるODE-バックプロパゲーションのアプローチに着目し,メカニカルシステムのための軌道非閉鎖ヘシアン計算を開発する。 また、コスタリット方程式の後方のODE進化をヘッセン語に拡張する数学的枠組みを最も一般的な形で明らかにした。 軌道非閉包のための Hessian のようないくつかの計算は、中間量の追跡を容易にするために、形式文法の言葉で定義される言語で実行される。 教育的な例として、高次元調和振動子に対する軌道非閉のヘッシアンと、ニュートン重力理論における概念的に関連する問題について論じる。 特に、図8の3体軌道に我々のアプローチを適用すると、元々sim\'oによって記述された歪んだ図8の解がすぐに再発見される。 考えられる応用としては、二階法による「ニューラルODE」型深層学習の訓練の改善、古典的経路周辺の量子補正の数値解析、そしてより広範に、与えられた目的関数への影響が小さいようにODEの初期構成を調整するオプションの研究などがある。

We discuss the problem of numerically backpropagating Hessians through ordinary differential equations (ODEs) in various contexts and elucidate how different approaches may be favourable in specific situations. We discuss both theoretical and pragmatic aspects such as, respectively, bounds on computational effort and typical impact of framework overhead. Focusing on the approach of hand-implemented ODE-backpropagation, we develop the computation for the Hessian of orbit-nonclosure for a mechanical system. We also clarify the mathematical framework for extending the backward-ODE-evolution of the costate-equation to Hessians, in its most generic form. Some calculations, such as that of the Hessian for orbit non-closure, are performed in a language, defined in terms of a formal grammar, that we introduce to facilitate the tracking of intermediate quantities. As pedagogical examples, we discuss the Hessian of orbit-nonclosure for the higher dimensional harmonic oscillator and conceptually related problems in Newtonian gravitational theory. In particular, applying our approach to the figure-8 three-body orbit, we readily rediscover a distorted-figure-8 solution originally described by Sim\'o. Possible applications may include: improvements to training of `neural ODE'- type deep learning with second-order methods, numerical analysis of quantum corrections around classical paths, and, more broadly, studying options for adjusting an ODE's initial configuration such that the impact on some given objective function is small.
翻訳日:2023-01-20 14:58:00 公開日:2023-01-19
# Dif-Fusion:拡散モデルを用いた赤外・可視画像融合における高色忠実度を目指して

Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models ( http://arxiv.org/abs/2301.08072v1 )

ライセンス: Link先を確認
Jun Yue, Leyuan Fang, Shaobo Xia, Yue Deng, Jiayi Ma(参考訳) 色は人間の視覚知覚において重要な役割を担い、物体のスペクトルを反映している。 しかし、既存の赤外線および可視画像融合法では、マルチスペクトル/チャンネルデータを直接処理し、高い色再現性を達成する方法がほとんどない。 本稿では,dif-fusionと呼ばれる拡散モデルを用いた新しい手法を提案し,多チャンネル入力データの分布を発生させ,多元情報集約と色彩の忠実性を向上させる。 具体的には,既存の融合法において,マルチチャネル画像から単一チャネルデータに変換する代わりに,逆拡散処理を伴う潜在空間にデノージングネットワークを持つマルチチャネルデータ分布を作成する。 そして,このデノナイジングネットワークを用いて,可視情報と赤外線情報の両方を用いて多チャンネル拡散特徴を抽出する。 最後に,マルチチャネル拡散特性を多チャンネル融合モジュールに供給し,直接3チャンネル融合画像を生成する。 テクスチャ情報と強度情報を保持するため,マルチチャネル勾配損失と強度損失を提案する。 テクスチャと強度忠実度を測定するための現在の評価指標とともに、色忠実度を定量化する新しい評価指標を導入する。 広汎な実験により,本手法は他の画像融合法よりも有効であることが示唆された。

Color plays an important role in human visual perception, reflecting the spectrum of objects. However, the existing infrared and visible image fusion methods rarely explore how to handle multi-spectral/channel data directly and achieve high color fidelity. This paper addresses the above issue by proposing a novel method with diffusion models, termed as Dif-Fusion, to generate the distribution of the multi-channel input data, which increases the ability of multi-source information aggregation and the fidelity of colors. In specific, instead of converting multi-channel images into single-channel data in existing fusion methods, we create the multi-channel data distribution with a denoising network in a latent space with forward and reverse diffusion process. Then, we use the the denoising network to extract the multi-channel diffusion features with both visible and infrared information. Finally, we feed the multi-channel diffusion features to the multi-channel fusion module to directly generate the three-channel fused image. To retain the texture and intensity information, we propose multi-channel gradient loss and intensity loss. Along with the current evaluation metrics for measuring texture and intensity fidelity, we introduce a new evaluation metric to quantify color fidelity. Extensive experiments indicate that our method is more effective than other state-of-the-art image fusion methods, especially in color fidelity.
翻訳日:2023-01-20 14:57:34 公開日:2023-01-19
# 条件付き生成逆ネットワークを用いたCNN予測の解釈

Interpreting CNN Predictions using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2301.08067v1 )

ライセンス: Link先を確認
Akash Guna R T, Raul Benitez, Sikha O K(参考訳) 本稿では,コンボリューショナルニューラルネットワーク(CNN)の視覚的解釈を生成するために,条件付きGAN(Generative Adversarial Network)を訓練する手法を提案する。 CNNを理解するために、GANは予測を行う際に、CNNがどのように画像を処理しているかに関する情報を訓練する。 情報の提供には、この情報をGANに供給可能な形でどのように表現するか、GANに効果的に表現する方法の2つの主な課題がある。 これらの問題に対処するために,中間解釈マップの累積平均化によるCNNアーキテクチャの適切な表現を開発した。 また、GANに表現を供給し、効果的なトレーニング戦略を選択するための2つの方法を提案する。 我々のアプローチはCNNの一般的な側面を学び、データセットやCNNアーキテクチャに非依存でした。 この研究は質的および定量的評価の両方を含み、提案したGANと最先端のアプローチを比較している。 CNNの初期層と最終層は,提案したGANの解釈において,CNNの解釈に等しく重要であることがわかった。 我々は,CNN を解釈するための GAN の訓練が,速いペースの深層学習の進歩を活用することで,解釈を改善するための扉を開くと信じている。 実験に使われるコードはhttps://github.com/Akash-guna/Explain-CNN-With-GANSで公開されている。

We propose a novel method that trains a conditional Generative Adversarial Network (GAN) to generate visual interpretations of a Convolutional Neural Network (CNN). To comprehend a CNN, the GAN is trained with information on how the CNN processes an image when making predictions. Supplying that information has two main challenges: how to represent this information in a form that is feedable to the GANs and how to effectively feed the representation to the GAN. To address these issues, we developed a suitable representation of CNN architectures by cumulatively averaging intermediate interpretation maps. We also propose two alternative approaches to feed the representations to the GAN and to choose an effective training strategy. Our approach learned the general aspects of CNNs and was agnostic to datasets and CNN architectures. The study includes both qualitative and quantitative evaluations and compares the proposed GANs with state-of-the-art approaches. We found that the initial layers of CNNs and final layers are equally crucial for interpreting CNNs upon interpreting the proposed GAN. We believe training a GAN to interpret CNNs would open doors for improved interpretations by leveraging fast-paced deep learning advancements. The code used for experimentation is publicly available at https://github.com/Akash-guna/Explain-CNN-With-GANS
翻訳日:2023-01-20 14:57:11 公開日:2023-01-19
# 構造的光再構成を用いた多タスク学習による正規化差分推定

Regularizing disparity estimation via multi task learning with structured light reconstruction ( http://arxiv.org/abs/2301.08140v1 )

ライセンス: Link先を確認
Alistair Weld, Joao Cartucho, Chi Xu, Joseph Davids and Stamatia Giannarou(参考訳) 3D再構成は手術計画や指導に有用なツールである。 しかし、この分野での医療データスタントの研究・開発が不十分なため、正確な異質度推定のための深層学習手法は、地上の真実情報を含む大規模なデータセットに大きく依存している。 監督に対する別のアプローチが検討されており、例えば自己監督(self-supervision)は、根拠となる真理の必要性を完全に減らすか、取り除くことができる。 しかし、提案された代替手段では、教師付きセットアップで期待される性能に近い性能を示すものはない。 この仕事はこの問題を緩和することを目指している。 本稿では,直交距離推定ネットワークの開発を促進するため,構造化光投影の学習について検討する。 暗黙的に異質性を学習することで,映像上の構造化光の投影を正確に学習できることを初めて示す。 第2に,多タスク学習(multi task learning, mtl)フレームワークを用いて,構造化光と不均質の合同トレーニングを行う。 構造光を用いたMTLは,モデルパラメータの数を増やすことなく,差分訓練を改善することを示す。 我々のMTLセットアップは、検証テスト毎に単一のタスク学習(STL)ネットワークを上回った。 特に医学的一般化テストでは、stl誤差は最高のmtl性能の1.4倍であった。 MTLを使用するメリットは、トレーニングデータに制限がある場合に強調される。 医用ファントムおよび生体外組織上の立体画像,不均一マップ,構造光投射を含むデータセットを作成し,仮想シーンとともに評価した。 このデータセットは将来的に公開される予定だ。

3D reconstruction is a useful tool for surgical planning and guidance. However, the lack of available medical data stunts research and development in this field, as supervised deep learning methods for accurate disparity estimation rely heavily on large datasets containing ground truth information. Alternative approaches to supervision have been explored, such as self-supervision, which can reduce or remove entirely the need for ground truth. However, no proposed alternatives have demonstrated performance capabilities close to what would be expected from a supervised setup. This work aims to alleviate this issue. In this paper, we investigate the learning of structured light projections to enhance the development of direct disparity estimation networks. We show for the first time that it is possible to accurately learn the projection of structured light on a scene, implicitly learning disparity. Secondly, we \textcolor{black}{explore the use of a multi task learning (MTL) framework for the joint training of structured light and disparity. We present results which show that MTL with structured light improves disparity training; without increasing the number of model parameters. Our MTL setup outperformed the single task learning (STL) network in every validation test. Notably, in the medical generalisation test, the STL error was 1.4 times worse than that of the best MTL performance. The benefit of using MTL is emphasised when the training data is limited.} A dataset containing stereoscopic images, disparity maps and structured light projections on medical phantoms and ex vivo tissue was created for evaluation together with virtual scenes. This dataset will be made publicly available in the future.
翻訳日:2023-01-20 14:50:53 公開日:2023-01-19
# su(1,1)wigner関数の局所サンプリング

Local sampling of the SU(1,1) Wigner function ( http://arxiv.org/abs/2301.08127v1 )

ライセンス: Link先を確認
N. Fabre, A. B. Klimov, G. Leuchs and L. L. Sanchez-Soto(参考訳) ウィグナー位相空間の定式化の不可分な利点にもかかわらず、これはSU(1,1)対称性を持つ系に対して広く研究されていない。 パリティ作用素のユニークな性質に乗じて、連続変数(continuous-variable)な作用素の構造を忠実に並列化する集合 \emph{bona fide} SU(1,1) のウィグナー函数を一貫した方法で導出する。 本研究では,ワイグナー関数の直接的点別サンプリングを可能にする,スクイーサーと光子数分解検出器を用いた光学スキームを提案する。 これは SU(1,1) 状態を表現するのに十分なフレームワークを提供する。

Despite the indisputable merits of the Wigner phase-space formulation, it has not been widely explored for systems with SU(1,1) symmetry, as a simple operational definition of the Wigner function has proved elusive in this case. We capitalize on the unique properties of the parity operator, to derive in a consistent way a \emph{bona fide} SU(1,1) Wigner function that faithfully parallels the structure of its continuous-variable counterpart. We propose an optical scheme, involving a squeezer and photon-number-resolving detectors, that allows for direct point-by-point sampling of that Wigner function. This provides an adequate framework to represent SU(1,1) states satisfactorily.
翻訳日:2023-01-20 14:50:16 公開日:2023-01-19
# 病理医のような診断:全スライド画像分類のためのトランスフォーマー付き階層的注意誘導型複数インスタンス学習

Diagnose Like a Pathologist: Transformer-Enabled Hierarchical Attention-Guided Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2301.08125v1 )

ライセンス: Link先を確認
Conghao Xiong, Hao Chen, Joseph Sung, Irwin King(参考訳) マルチインスタンスラーニング(MIL)とトランスフォーマーは、病理組織学的全スライド画像(WSI)分類においてますます人気がある。 しかしながら、異なる倍率の下で組織病理組織の特定の領域を選択的に観察する人間の病理学者とは異なり、ほとんどの方法はwsisの複数の解像度を階層的にも注意的にも組み込んでいないため、wsisと他の解像度からの情報に焦点を合わせない。 この問題を解決するために、我々は階層型注意誘導型多重インスタンス学習フレームワークを提案し、WSIの複数の解像度にまたがる識別領域を動的かつ注意深く発見することができる。 本稿では,トランスフォーマーの性能をさらに向上し,より包括的なwsi (bag) 表現を得るため,トランスフォーマー層と,そのバッグ内の各インスタンス表現に基づくバッグ表現を生成するアグリゲーションモジュールを組み合わせた,複数の統合型アテンションモジュールからなる統合アテンショントランスを提案する。 実験の結果,Camelyon16,TGA-RCC,TGA-NSCLC,社内IMGCデータセットなど,複数のデータセット上での最先端性能が得られた。

Multiple Instance Learning (MIL) and transformers are increasingly popular in histopathology Whole Slide Image (WSI) classification. However, unlike human pathologists who selectively observe specific regions of histopathology tissues under different magnifications, most methods do not incorporate multiple resolutions of the WSIs, hierarchically and attentively, thereby leading to a loss of focus on the WSIs and information from other resolutions. To resolve this issue, we propose the Hierarchical Attention-Guided Multiple Instance Learning framework to fully exploit the WSIs, which can dynamically and attentively discover the discriminative regions across multiple resolutions of the WSIs. Within this framework, to further enhance the performance of the transformer and obtain a more holistic WSI (bag) representation, we propose an Integrated Attention Transformer, consisting of multiple Integrated Attention Modules, which is the combination of a transformer layer and an aggregation module that produces a bag representation based on every instance representation in that bag. The results of the experiments show that our method achieved state-of-the-art performances on multiple datasets, including Camelyon16, TCGA-RCC, TCGA-NSCLC, and our in-house IMGC dataset.
翻訳日:2023-01-20 14:50:02 公開日:2023-01-19
# ゴーストスペクトロスコピーによる効率的ライン形状推定

Efficient lineshape estimation by ghost spectroscopy ( http://arxiv.org/abs/2301.08123v1 )

ライセンス: Link先を確認
Ilaria Gianani, Luis L. Sanchez Soto, Aaron Z. Goldberg, Marco Barbieri(参考訳) 送信プロファイルが拡張された機器によって得られたデータから、元のスペクトルの線形性を取り戻すことは、分光における基本的な要素である。 測定された直線のモーメントを基本変数として使用することにより、問題を線形反転に変換する。 しかし、これらのモーメントの有限個しか関係しない場合、残りのモーメントはニュアンスパラメータとして振る舞う。 これらは半パラメトリックモデルによって考慮され、興味のモーメントの推定において達成できる精度の最終的な境界を確立することができる。 我々はこの限界を簡単なゴーストスペクトロスコピーで実験的に確認する。

Recovering the original spectral lineshapes from data obtained by instruments with extended transmission profiles is a basic tenet in spectroscopy. By using the moments of the measured lines as basic variables, we turn the problem into a linear inversion. However, when only a finite number of these moments are relevant, the rest of them act as nuisance parameters. These can be taken into account with a semiparametric model, which allows us to establish the ultimate bounds on the precision attainable in the estimation of the moments of interest. We experimentally confirm these limits with a simple ghost spectroscopy demonstration.
翻訳日:2023-01-20 14:49:38 公開日:2023-01-19
# Rayleigh quotients を用いた過パラメータ化体制を超えた収束

Convergence beyond the over-parameterized regime using Rayleigh quotients ( http://arxiv.org/abs/2301.08117v1 )

ライセンス: Link先を確認
David A. R. Robin, Kevin Scaman, Marc Lelarge(参考訳) 本稿では、勾配流によるゼロトレーニング(あるいはテスト)損失に対するディープラーニングアーキテクチャの収束性を証明するための新しい戦略を提案する。 我々の分析は、より広範なニューラルネットワークアーキテクチャと損失関数の集合に対するKurtyka-{\L}ojasiewiczの不等式を証明するために、レイリー商の概念に重点を置いている。 レイリー商は文献におけるいくつかの収束解析手法の統一的視点を提供する。 我々の戦略はパラメトリック学習の様々な例に収束の証明を与える。 特に、我々の分析では無限大のパラメータの数や有限のサンプルの数を必要とせず、テスト損失最小化と過度なパラメータ化体制を超越している。

In this paper, we present a new strategy to prove the convergence of deep learning architectures to a zero training (or even testing) loss by gradient flow. Our analysis is centered on the notion of Rayleigh quotients in order to prove Kurdyka-{\L}ojasiewicz inequalities for a broader set of neural network architectures and loss functions. We show that Rayleigh quotients provide a unified view for several convergence analysis techniques in the literature. Our strategy produces a proof of convergence for various examples of parametric learning. In particular, our analysis does not require the number of parameters to tend to infinity, nor the number of samples to be finite, thus extending to test loss minimization and beyond the over-parameterized regime.
翻訳日:2023-01-20 14:49:28 公開日:2023-01-19
# MPS+MFアルゴリズムによる電荷密度波と超伝導相の解法

Resolving competition of charge-density wave and superconducting phases using the MPS+MF algorithm ( http://arxiv.org/abs/2301.08116v1 )

ライセンス: Link先を確認
Gunnar Bollmark, Thomas K\"ohler, Adrian Kantian(参考訳) 強い電子相関を持つ物質は、いくつかのパラメータをチューニングする際に超伝導(SC)相を示すが、ほとんどの場合、SCと密接に競合する絶縁性のある複数の相を持つ。 カップレートのような擬二次元材料群に対する定量的数値との競合を解決することは極めて困難である。 これは、これらの材料を単純化した最小限のモデルであっても、反発相互作用を持つドープ2次元ハバードモデルであり、熱力学限界の位相を決定する十分な大きさのクラスターを実際に扱うことは困難である。 本研究では, 弱結合した1次元電子の2次元および3次元の準一次元系が, 行列生成状態(mps)を用いて, sc と絶縁秩序の競合を解決できることを示す。 近年確立されたMPS+平均場(MPS+MF)アプローチを用いて,これらのシステムでは大規模系が容易に到達可能であることを示す。 mps+mf技法のmf成分を付加した負uハバード鎖の3次元配列を基本モデル系として,密度n=1のv=0におけるscと電荷密度波の共存を再現できることを示した。 次に、Vのチューニングとシステムドーピングの両方によって共存から遠ざける方法を示す。 この研究は、2チャンネルのmps+mf理論を高需要の高値t_c$ scシステム(例えば、反発型uドープハバードラダーの3d配列など)に展開する方法を定めており、我々は最近そのような配列の特性を1チャンネルのmps+mf計算で特徴づけた。 このアプローチは、SCを断熱競合と明示的に比較することにより、このSC順序が実際に得られることを決定的に示すことができる。

Materials with strong electronic correlations may exhibit a superconducting (SC) phase when tuning some parameters, but they almost always also have multiple other phases, typically insulating ones, that are in close competition with SC. It is highly challenging to resolve this competition with quantitative numerics for the group of quasi-two-dimensional materials such as the cuprates. This is the case even for the simplified minimal models of these materials, the doped 2D Hubbard model with repulsive interactions, where clusters of sufficient size to determine the phase in the thermodynamic limit can be hard-to-impossible to treat in practice. The present work shows how quasi-one-dimensional systems, 2D and 3D arrays of weakly coupled 1D correlated electrons, are much more amenable to resolve the competition between SC and insulating orders on an equal footing using matrix-product states (MPS). Using the recently established MPS plus mean field (MPS+MF) approach for fermions, we demonstrate that large systems are readily reachable in these systems, and thus the thermodynamic regime by extrapolation. Focusing on basic model systems, 3D arrays of negative-U Hubbard chains with additional nearest-neighbor interaction V, we show that despite the MF component of the MPS+MF technique we can reproduce the expected coexistence of SC and charge-density wave at V=0 for density n=1. We then show how we can tune away from coexistence by both tuning V and doping the system. This work paves the way to deploy two-channel MPS+MF theory on some highly demanding high-$T_c$ SC systems, such as 3D arrays of repulsive-U doped Hubbard ladders, where we have recently characterized the properties of such arrays in single-channel MPS+MF calculations. The present approach could thus conclusively show that this SC order would actually be obtained, by explicitly comparing SC against its insulating competitors.
翻訳日:2023-01-20 14:49:15 公開日:2023-01-19
# 言語埋め込みは時としてタイポロジーの一般化を含む

Language Embeddings Sometimes Contain Typological Generalizations ( http://arxiv.org/abs/2301.08115v1 )

ライセンス: Link先を確認
Robert \"Ostling, Murathan Kurfal{\i}(参考訳) ニューラルネットワークモデルは、言語構造に関する一般化をどの程度学べるのか、彼らが何を学んだのかをどうやって知るのか? 本稿では,1295 言語における聖書翻訳の多言語データセットを用いて,自然言語処理タスクのニューラルネットワークを訓練することにより,これらの疑問を探る。 学習された言語表現は、既存のタイポロジーデータベースや、注釈投影によって得られた新しい定量的構文と形態的特徴のセットと比較される。 いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、我々のモデルの多くは、以前の研究と同様、言語的に意味のある一般化をしていない。 評価における詳細への注意は偽陽性を避けるために不可欠であることが判明した。 さらに、この分野の継続作業を奨励するために、データ内の言語の大部分またはすべてをカバーするいくつかのリソースをリリースします。 (i)複数の言語表現の集合 (ii)多言語単語の埋め込み 三) 構文的・形態学的特徴の予測及び予測 (iv)言語表現の言語的に健全な評価を提供するソフトウェア

To what extent can neural network models learn generalizations about language structure, and how do we find out what they have learned? We explore these questions by training neural models for a range of natural language processing tasks on a massively multilingual dataset of Bible translations in 1295 languages. The learned language representations are then compared to existing typological databases as well as to a novel set of quantitative syntactic and morphological features obtained through annotation projection. We conclude that some generalizations are surprisingly close to traditional features from linguistic typology, but that most of our models, as well as those of previous work, do not appear to have made linguistically meaningful generalizations. Careful attention to details in the evaluation turns out to be essential to avoid false positives. Furthermore, to encourage continued work in this field, we release several resources covering most or all of the languages in our data: (i) multiple sets of language representations, (ii) multilingual word embeddings, (iii) projected and predicted syntactic and morphological features, (iv) software to provide linguistically sound evaluations of language representations.
翻訳日:2023-01-20 14:48:38 公開日:2023-01-19
# シナリオに基づくオーバーライドルールによるディープラーニングの強化:ケーススタディ

Enhancing Deep Learning with Scenario-Based Override Rules: a Case Study ( http://arxiv.org/abs/2301.08114v1 )

ライセンス: Link先を確認
Adiel Ashrov and Guy Katz(参考訳) 深層ニューラルネットワーク(dnn)は、複雑な問題を解決する能力があるため、ソフトウェア開発ツールキットにおいて重要な手段となっている。 それでも、DNNは非常に不透明であり、不慣れな入力に遭遇すると予期せぬ振る舞いをする。 この課題に対処するための有望なアプローチの1つは、DNNベースのシステムを手作りのオーバーライドルールで拡張することである。 本稿では,DNNの安全性を確保するのに十分な,シンプルで拡張性があり,パワフルなルールを生成するとともに,システムをより透明にするシナリオベースモデリングパラダイムを用いて,このようなオーバーライドルールの構築を提唱する。 本稿では,アプローチの実現可能性を示す2つのケーススタディについて報告し,それを通じてシナリオベースモデリングの拡張を提案し,DNNコンポーネントとの統合を容易にする。 この作業は、より安全で信頼性の高いDNNベースのシステムとモデルを作成するためのステップであると考えています。

Deep neural networks (DNNs) have become a crucial instrument in the software development toolkit, due to their ability to efficiently solve complex problems. Nevertheless, DNNs are highly opaque, and can behave in an unexpected manner when they encounter unfamiliar input. One promising approach for addressing this challenge is by extending DNN-based systems with hand-crafted override rules, which override the DNN's output when certain conditions are met. Here, we advocate crafting such override rules using the well-studied scenario-based modeling paradigm, which produces rules that are simple, extensible, and powerful enough to ensure the safety of the DNN, while also rendering the system more translucent. We report on two extensive case studies, which demonstrate the feasibility of the approach; and through them, propose an extension to scenario-based modeling, which facilitates its integration with DNN components. We regard this work as a step towards creating safer and more reliable DNN-based systems and models.
翻訳日:2023-01-20 14:48:25 公開日:2023-01-19
# DiME:マトリックスベースのエントロピーの違いによる相互情報の最大化

DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies ( http://arxiv.org/abs/2301.08164v1 )

ライセンス: Link先を確認
Oscar Skean, Jhoan Keider Hoyos Osorio, Austin J. Brockmeier, Luis Gonzalo Sanchez Giraldo(参考訳) 基礎となる分布を明示的に仮定することなく,データから推定可能な相互情報と同様の特性を持つ情報理論量を導入する。 この量は、最近提案された、正規化グラム行列の固有値を用いて、再生核ヒルベルト空間における非中心共分散作用素の固有値の推定を計算する行列ベースのエントロピーに基づいている。 行列に基づくエントロピー(dime)の違いは,確率変数間の相互情報の最大化に関する問題によく適合することを示す。 そのような問題に対する多くの手法は自明な解決につながるが、DMEは自然にそのような結果を罰する。 本稿では,多視点表現学習問題を含む多視点表現学習の事例について,高い相互情報を持つビュー間での共有表現の学習を促すためにDMEを用いた。 また,多種多様なタスクの目的関数として利用することで,DMEの汎用性を示す。

We introduce an information-theoretic quantity with similar properties to mutual information that can be estimated from data without making explicit assumptions on the underlying distribution. This quantity is based on a recently proposed matrix-based entropy that uses the eigenvalues of a normalized Gram matrix to compute an estimate of the eigenvalues of an uncentered covariance operator in a reproducing kernel Hilbert space. We show that a difference of matrix-based entropies (DiME) is well suited for problems involving maximization of mutual information between random variables. While many methods for such tasks can lead to trivial solutions, DiME naturally penalizes such outcomes. We provide several examples of use cases for the proposed quantity including a multi-view representation learning problem where DiME is used to encourage learning a shared representation among views with high mutual information. We also show the versatility of DiME by using it as objective function for a variety of tasks.
翻訳日:2023-01-20 14:41:43 公開日:2023-01-19
# FECANet:Feature-Enhanced Context-Aware NetworkによるFew-Shot Semantic Segmentationの強化

FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network ( http://arxiv.org/abs/2301.08160v1 )

ライセンス: Link先を確認
Huafeng Liu, Pai Peng, Tao Chen, Qiong Wang, Yazhou Yao, and Xian-Sheng Hua(参考訳) Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、いくつかの注釈付きサポートイメージで検索するタスクである。 現在の相関に基づく手法では, 相関関係を学習できないため, 多対多マッチングを確立するために, ペアワイズ特徴相関を構築している。 しかし,既存の手法は,ナイーブな相関関係に含まれるノイズや,相関関係における文脈意味情報の欠如に悩まされている。 上記の問題を緩和するため,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。 具体的には,クラス間の局所的類似性に起因する一致雑音を抑制し,ナイーブ相関におけるクラス内関連性を高める機能拡張モジュールを提案する。 さらに,前景と背景の余分な対応関係を符号化し,マルチスケールのコンテキストセマンティック特徴を符号化する新たな相関再構成モジュールを提案する。 PASCAL-$5^i$およびCOCO-$20^i$データセットによる実験により,提案したFECANetは,従来の最先端技術と比較して著しく改善され,その効果が示された。

Few-shot semantic segmentation is the task of learning to locate each pixel of the novel class in the query image with only a few annotated support images. The current correlation-based methods construct pair-wise feature correlations to establish the many-to-many matching because the typical prototype-based approaches cannot learn fine-grained correspondence relations. However, the existing methods still suffer from the noise contained in naive correlations and the lack of context semantic information in correlations. To alleviate these problems mentioned above, we propose a Feature-Enhanced Context-Aware Network (FECANet). Specifically, a feature enhancement module is proposed to suppress the matching noise caused by inter-class local similarity and enhance the intra-class relevance in the naive correlation. In addition, we propose a novel correlation reconstruction module that encodes extra correspondence relations between foreground and background and multi-scale context semantic features, significantly boosting the encoder to capture a reliable matching pattern. Experiments on PASCAL-$5^i$ and COCO-$20^i$ datasets demonstrate that our proposed FECANet leads to remarkable improvement compared to previous state-of-the-arts, demonstrating its effectiveness.
翻訳日:2023-01-20 14:41:28 公開日:2023-01-19
# fractional posteriorsを用いた半パラメトリック推定

Semiparametric inference using fractional posteriors ( http://arxiv.org/abs/2301.08158v1 )

ライセンス: Link先を確認
Alice L'Huillier, Luke Travis, Isma\"el Castillo and Kolyan Ray(参考訳) 非パラメトリック先行性に基づく分数的後続分布の概線型半パラメトリック汎函数に対する一般ベルンシュタイン-ヴォン・ミーゼスの定理を確立する。 これは多くの非パラメトリックな設定や、ガウス過程の事前を含む様々な事前分布のクラスで示される。 半パラメトリックな不確実性定量化を行うことができるが,その大きさは膨大であることを示す。 これに対処するため、我々はさらに、正則条件下で最適なサイズを持つ効率的な信頼集合である分数後集合 \textit{shifted-and-rescaled} を提案する。 また,この結果から,分数指数に対する率依存性を鋭くすることで,分数後遺症に対する既存の収縮率の精度を向上できた。

We establish a general Bernstein--von Mises theorem for approximately linear semiparametric functionals of fractional posterior distributions based on nonparametric priors. This is illustrated in a number of nonparametric settings and for different classes of prior distributions, including Gaussian process priors. We show that fractional posterior credible sets can provide reliable semiparametric uncertainty quantification, but have inflated size. To remedy this, we further propose a \textit{shifted-and-rescaled} fractional posterior set that is an efficient confidence set having optimal size under regularity conditions. As part of our proofs, we also refine existing contraction rate results for fractional posteriors by sharpening the dependence of the rate on the fractional exponent.
翻訳日:2023-01-20 14:41:04 公開日:2023-01-19
# softennet : 内視鏡内視鏡内視鏡ロボットのための共生単細胞深さ推定とルーメンセグメンテーション

SoftEnNet: Symbiotic Monocular Depth Estimation and Lumen Segmentation for Colonoscopy Endorobots ( http://arxiv.org/abs/2301.08157v1 )

ライセンス: Link先を確認
Alwyn Mathew, Ludovic Magerand, Emanuele Trucco and Luigi Manfredi(参考訳) 大腸癌は世界で3番目に多いがんの死因である。 大腸内視鏡検査は大腸癌の診断に最適であるが,術中はポリープの約25%が欠如している。 視覚ベースの自律型エンドロボットは大腸粘膜の体系的で完全なスクリーニングを通じて大腸内視鏡の手順を著しく改善することができる。 信頼性の高いロボットナビゲーションは、自律的なタスクをサポートするために環境と路面追跡を3次元的に理解する必要がある。 本稿では,深層ネットワークのアンサンブルと密集深度とルーメンセグメンテーションを同時に予測する新しいマルチタスクモデルを提案する。 深度推定サブネットワークは、ビュー合成による自己教師あり方式で訓練され、ルーメンセグメンテーションサブネットワークは教師ありである。 2つのサブネットワークは、情報交換と相互学習を可能にする経路と相互接続されている。 ルーメンは画像の最深部にあるため、ルーメンのセグメンテーションは最深部での深さ推定に役立つ。 推定深度は、ルーメン位置が最遠のシーン位置を定義するため、ルーメンセグメンテーションネットワークを誘導する。 他の環境とは異なり、ビュー合成は、変形可能な壁、テクスチャのない表面、スペクティリティ、広い視野のビューイメージ歪など、パイプラインが対処するすべての課題のために、大腸で失敗することが多い。 人工的データセットの質的解析を行い,大腸トレーニングモデルと実大腸内視鏡画像の定量的解析を行った。 実験の結果,大腸内視鏡画像から高精度なスケール不変深さマップとルーメンセグメンテーションをほぼリアルタイムに予測できることがわかった。

Colorectal cancer is the third most common cause of cancer death worldwide. Optical colonoscopy is the gold standard for detecting colorectal cancer; however, about 25 percent of polyps are missed during the procedure. A vision-based autonomous endorobot can improve colonoscopy procedures significantly through systematic, complete screening of the colonic mucosa. The reliable robot navigation needed requires a three-dimensional understanding of the environment and lumen tracking to support autonomous tasks. We propose a novel multi-task model that simultaneously predicts dense depth and lumen segmentation with an ensemble of deep networks. The depth estimation sub-network is trained in a self-supervised fashion guided by view synthesis; the lumen segmentation sub-network is supervised. The two sub-networks are interconnected with pathways that enable information exchange and thereby mutual learning. As the lumen is in the image's deepest visual space, lumen segmentation helps with the depth estimation at the farthest location. In turn, the estimated depth guides the lumen segmentation network as the lumen location defines the farthest scene location. Unlike other environments, view synthesis often fails in the colon because of the deformable wall, textureless surface, specularities, and wide field of view image distortions, all challenges that our pipeline addresses. We conducted qualitative analysis on a synthetic dataset and quantitative analysis on a colon training model and real colonoscopy videos. The experiments show that our model predicts accurate scale-invariant depth maps and lumen segmentation from colonoscopy images in near real-time.
翻訳日:2023-01-20 14:40:51 公開日:2023-01-19
# 量子状態におけるフォノンレーザー

A phonon laser in the quantum regime ( http://arxiv.org/abs/2301.08156v1 )

ライセンス: Link先を確認
T. Behrle, T. L. Nguyen, F. Reiter, D. Baur, B. de Neeve, M. Stadler, M. Marinelli, F. Lancellotti, S. F. Yelin and J. P. Home(参考訳) ポールトラップに共トラップされた2種のイオン種に対して独立に実装した2つの競合散逸チャネルを有するトラップイオンシステムを示す。 コヒーレントスピン・オシレータ結合と光ポンピング速度を制御することにより、この系の位相図を探索し、これは(フォノン)レーザーに類似した状態を示すが、平均的なフォノン数$\bar{n}<10$で量子基底状態に近い状態で動作する。 発振器の位相ロックを追加の共振器駆動に示すとともに、特性関数の測定から量子状態の再構成を行い、発振状態の位相拡散を観測する。

We demonstrate a trapped-ion system with two competing dissipation channels, implemented independently on two ion species co-trapped in a Paul trap. By controlling coherent spin-oscillator couplings and optical pumping rates we explore the phase diagram of this system, which exhibits a regime analogous to that of a (phonon) laser but operates close to the quantum ground state with an average phonon number of $\bar{n}<10$. We demonstrate phase locking of the oscillator to an additional resonant drive, and also observe the phase diffusion of the resulting state under dissipation by reconstructing the quantum state from a measurement of the characteristic function.
翻訳日:2023-01-20 14:40:27 公開日:2023-01-19
# SwiftAvatar: 任意アバターエンジン上でのパラメータ化スティル文字の効率的な自動生成

SwiftAvatar: Efficient Auto-Creation of Parameterized Stylized Character on Arbitrary Avatar Engines ( http://arxiv.org/abs/2301.08153v1 )

ライセンス: Link先を確認
Shizun Wang, Weihong Zeng, Xu Wang, Hao Yang, Li Chen, Chuang Zhang, Ming Wu, Yi Yuan, Yunzhao Zeng, Min Zheng(参考訳) パラメータ化されたスタイリッシュなキャラクタの作成には、アバターエンジンによって解釈できる「アバターベクトル」として知られる多数のパラメータを慎重に選択することが含まれる。 しかし、ユーザのためにアバターを自動生成する既存の教師なしアバターベクトル推定手法は、現実的な顔とスタイル化されたアバターイメージのドメインギャップのために、しばしば機能しない。 この目的のために,従来よりも明らかに優れている新しいアバター自動生成フレームワークであるSwiftAvatarを提案する。 SwiftAvatarはデュアルドメインジェネレータを導入し、共有潜在コードを使用して現実的な顔とアバターイメージのペアを生成する。 遅延符号は、アバターベクトルを用いてエンジンからレンダリングされたアバター画像にGAN反転を実行することにより、アバターベクトルをペアとしてブリッジすることができる。 この方法で、アバターベクターとその対応する現実的な顔からなるペアデータを可能な限り高品質で合成することができる。 また,合成の多様性を向上させるために意味増強を提案する。 最後に、合成ペア上で軽量なアバターベクトル推定器を訓練し、効率的な自動生成を実現する。 実験では2つの異なるアバターエンジンにおけるSwiftAvatarの有効性と効率を実証した。 SwiftAvatarの長所と長所の柔軟性も主観的評価と客観的評価の両方で検証されている。

The creation of a parameterized stylized character involves careful selection of numerous parameters, also known as the "avatar vectors" that can be interpreted by the avatar engine. Existing unsupervised avatar vector estimation methods that auto-create avatars for users, however, often fail to work because of the domain gap between realistic faces and stylized avatar images. To this end, we propose SwiftAvatar, a novel avatar auto-creation framework that is evidently superior to previous works. SwiftAvatar introduces dual-domain generators to create pairs of realistic faces and avatar images using shared latent codes. The latent codes can then be bridged with the avatar vectors as pairs, by performing GAN inversion on the avatar images rendered from the engine using avatar vectors. Through this way, we are able to synthesize paired data in high-quality as many as possible, consisting of avatar vectors and their corresponding realistic faces. We also propose semantic augmentation to improve the diversity of synthesis. Finally, a light-weight avatar vector estimator is trained on the synthetic pairs to implement efficient auto-creation. Our experiments demonstrate the effectiveness and efficiency of SwiftAvatar on two different avatar engines. The superiority and advantageous flexibility of SwiftAvatar are also verified in both subjective and objective evaluations.
翻訳日:2023-01-20 14:40:14 公開日:2023-01-19
# ニューラルネットワークによる月面の断片岩のグローバルマッピング:空気のない表面における岩の破壊モードへの示唆

Global mapping of fragmented rocks on the Moon with a neural network: Implications for the failure mode of rocks on airless surfaces ( http://arxiv.org/abs/2301.08151v1 )

ライセンス: Link先を確認
O. Ruesch, V. T. Bickel(参考訳) 近年、宇宙環境と接触する小惑星の表面は、微細なリゴリスではなく、センチメートルからメートルスケールの岩石からなることが認識されている。 ここでは、小天体の岩石形態が月の宇宙侵食剤にどのように反応するかを理解することを目的とする。 ニューラルネットワークをデプロイし、月面に散在する約130,000個の破砕岩をマッピングし、異なる障害モードに対応する12種類の分解形態を視覚的に識別する。 いくつかの破片状岩盤形態は小惑星ベンヌで観測された形態と等価であり、月や小惑星のこれらの形態が形成機構を診断していない可能性が示唆されている。 その結果, 岩盤の破砕過程は, 急激な衝撃破砕現象が起こるまで, 岩盤の損傷形態の限られた内部弱化期間が特徴であることが示唆された。 また, 渦巻き岩などの新しい形態を, 対流状の浸食様式で同定した。 本論文とともに, 生成した破砕岩のカタログを公開する。

It has been recently recognized that the surface of sub-km asteroids in contact with the space environment is not fine-grained regolith but consists of centimeter to meter-scale rocks. Here we aim to understand how the rocky morphology of minor bodies react to the well known space erosion agents on the Moon. We deploy a neural network and map a total of ~130,000 fragmented boulders scattered across the lunar surface and visually identify a dozen different desintegration morphologies corresponding to different failure modes. We find that several fragmented boulder morphologies are equivalent to morphologies observed on asteroid Bennu, suggesting that these morphologies on the Moon and on asteroids are likely not diagnostic of their formation mechanism. Our findings suggest that the boulder fragmentation process is characterized by an internal weakening period with limited morphological signs of damage at rock scale until a sudden highly efficient impact shattering event occurs. In addition, we identify new morphologies such as breccia boulders with an advection-like erosion style. We publicly release the produced fractured boulder catalog along with this paper.
翻訳日:2023-01-20 14:39:54 公開日:2023-01-19
# RGB-Dをベースとしたカテゴリオブジェクトマップと形状推定:方法,データセット,評価

RGB-D-Based Categorical Object Pose and Shape Estimation: Methods, Datasets, and Evaluation ( http://arxiv.org/abs/2301.08147v1 )

ライセンス: Link先を確認
Leonard Bruns, Patric Jensfelt(参考訳) 近年,6次元ポーズの方法やカテゴリ単位の物体形状推定手法が提案されている。 この研究は、メソッド、データセット、評価プロトコルの観点から、この分野の概要を提供する。 まず,既存作品の概要と共通点と相違点について述べる。 第二に、メトリクスやデータセットを含む主要な評価プロトコルを批判的に見ていく。 この結果に基づき,新しいメトリクスセットを提案し,redwoodデータセットに新しいアノテーションを提供し,公平に比較して最先端のメソッドを評価する。 その結果、既存の手法は制約のない向きにうまく一般化せず、実際には直立するオブジェクトに対して強く偏っていることが示された。 本稿では,さまざまな最先端手法(https://github.com/roym899/pose_and_shape_evaluation)による評価と比較が可能な,明確に定義されたメトリクス,メソッド,データセットインターフェースを備えた使いやすい評価ツールボックスを提供する。

Recently, various methods for 6D pose and shape estimation of objects at a per-category level have been proposed. This work provides an overview of the field in terms of methods, datasets, and evaluation protocols. First, an overview of existing works and their commonalities and differences is provided. Second, we take a critical look at the predominant evaluation protocol, including metrics and datasets. Based on the findings, we propose a new set of metrics, contribute new annotations for the Redwood dataset, and evaluate state-of-the-art methods in a fair comparison. The results indicate that existing methods do not generalize well to unconstrained orientations and are actually heavily biased towards objects being upright. We provide an easy-to-use evaluation toolbox with well-defined metrics, methods, and dataset interfaces, which allows evaluation and comparison with various state-of-the-art approaches (https://github.com/roym899/pose_and_shape_evaluation).
翻訳日:2023-01-20 14:39:37 公開日:2023-01-19
# Tsetlin Machine Clause サイズ制約による簡潔論理パターンの構築

Building Concise Logical Patterns by Constraining Tsetlin Machine Clause Size ( http://arxiv.org/abs/2301.08190v1 )

ライセンス: Link先を確認
K. Darshana Abeyrathna and Ahmed Abdulrahem Othman Abouzeid and Bimal Bhattarai and Charul Giri and Sondre Glimsdal and Ole-Christoffer Granmo and Lei Jiao and Rupsa Saha and Jivitesh Sharma and Svein Anders Tunheim and Xuan Zhang(参考訳) Tsetlin Machine(TM)は、論理ベースの機械学習アプローチであり、透明でハードウェアフレンドリな重要な利点がある。 TMは、多くのアプリケーションで深層学習の正確さにマッチするが、大きな節プールは多くのリテラル(長い節)を持つ節を生成する傾向がある。 そのため、解釈が困難になる。 さらに、長い節は、ハードウェアにおける節論理のスイッチング活性を高め、より多くの電力を消費する。 本稿では,CSC-TM(Clauuse Size Constrained TMs)の新たな変種について紹介する。 節が制約が許す以上のリテラルを含むとすぐに、リテラルを駆逐し始める。 そのため、過大な節は過渡的にのみ現れる。 CSC-TMを評価するために,木版データ,自然言語テキスト,画像,ボードゲームについて分類,クラスタリング,回帰実験を行った。 以上の結果より,CSC-TMはリテラルの最大80倍の精度を維持した。 実際、trec、imdb、bbcスポーツの短い節によって精度は向上している。 精度がピークに達した後、節のサイズが単一のリテラルに近づくと、適切に低下する。 我々は最終的にCSC-TM電力消費を分析し、新しい収束特性を導出する。

Tsetlin machine (TM) is a logic-based machine learning approach with the crucial advantages of being transparent and hardware-friendly. While TMs match or surpass deep learning accuracy for an increasing number of applications, large clause pools tend to produce clauses with many literals (long clauses). As such, they become less interpretable. Further, longer clauses increase the switching activity of the clause logic in hardware, consuming more power. This paper introduces a novel variant of TM learning - Clause Size Constrained TMs (CSC-TMs) - where one can set a soft constraint on the clause size. As soon as a clause includes more literals than the constraint allows, it starts expelling literals. Accordingly, oversized clauses only appear transiently. To evaluate CSC-TM, we conduct classification, clustering, and regression experiments on tabular data, natural language text, images, and board games. Our results show that CSC-TM maintains accuracy with up to 80 times fewer literals. Indeed, the accuracy increases with shorter clauses for TREC, IMDb, and BBC Sports. After the accuracy peaks, it drops gracefully as the clause size approaches a single literal. We finally analyze CSC-TM power consumption and derive new convergence properties.
翻訳日:2023-01-20 14:32:45 公開日:2023-01-19
# ドロップレット追跡アプリケーションのためのDeepSORTによるYOLOv5およびYOLOv7モデルのベンチマーク

Benchmarking YOLOv5 and YOLOv7 models with DeepSORT for droplet tracking applications ( http://arxiv.org/abs/2301.08189v1 )

ライセンス: Link先を確認
Mihir Durve, Sibilla Orsini, Adriano Tiribocchi, Andrea Montessori, Jean-Michel Tucny, Marco Lauricella, Andrea Camposeo, Dario Pisignano, and Sauro Succi(参考訳) マイクロ流体中の液滴の追跡は難しい課題だ。 この困難は、一般的なマイクロ流体ビデオを分析して物理量を推測するツールを選択する際に生じる。 最先端のオブジェクト検出アルゴリズム You Only Look Once (YOLO) とオブジェクト追跡アルゴリズム Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT) は、ドロップレットの識別と追跡のためにカスタマイズできる。 カスタマイズにはYOLOとDeepSORTネットワークをトレーニングし、関心のあるオブジェクトを特定し追跡する。 我々は,マイクロ流体実験ビデオから,いくつかのYOLOv5およびYOLOv7モデルとDeepSORTネットワークをトレーニングした。 各種ハードウェア構成におけるビデオ解析のトレーニング時間と時間の観点から,ドロップレット追跡アプリケーションの性能を YOLOv5 と YOLOv7 と比較した。 最新のYOLOv7は10%高速化されているが、リアルタイムトラッキングは、DeepSORTアルゴリズムによる追加のドロップレット追跡コストのため、RTX 3070 Ti GPUマシン上のより軽量なYOLOモデルによってのみ実現されている。 この研究は、マイクロ流体滴のカスタムデータセットのトレーニング時間と推論時間の観点から、DeepSORTを使ったYOLOv5とYOLOv7ネットワークのベンチマーク研究である。

Tracking droplets in microfluidics is a challenging task. The difficulty arises in choosing a tool to analyze general microfluidic videos to infer physical quantities. The state-of-the-art object detector algorithm You Only Look Once (YOLO) and the object tracking algorithm Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT) are customizable for droplet identification and tracking. The customization includes training YOLO and DeepSORT networks to identify and track the objects of interest. We trained several YOLOv5 and YOLOv7 models and the DeepSORT network for droplet identification and tracking from microfluidic experimental videos. We compare the performance of the droplet tracking applications with YOLOv5 and YOLOv7 in terms of training time and time to analyze a given video across various hardware configurations. Despite the latest YOLOv7 being 10% faster, the real-time tracking is only achieved by lighter YOLO models on RTX 3070 Ti GPU machine due to additional significant droplet tracking costs arising from the DeepSORT algorithm. This work is a benchmark study for the YOLOv5 and YOLOv7 networks with DeepSORT in terms of the training time and inference time for a custom dataset of microfluidic droplets.
翻訳日:2023-01-20 14:32:27 公開日:2023-01-19
# 階層型VAEを用いたU-Netのマルチリゾリューションフレームワーク

A Multi-Resolution Framework for U-Nets with Applications to Hierarchical VAEs ( http://arxiv.org/abs/2301.08187v1 )

ライセンス: Link先を確認
Fabian Falck, Christopher Williams, Dominic Danks, George Deligiannidis, Christopher Yau, Chris Holmes, Arnaud Doucet, Matthew Willetts(参考訳) U-Netアーキテクチャは最先端のディープラーニングではユビキタスだが、それらの正規化特性とウェーブレットとの関係は検討されている。 本稿では,U-Netを無限次元関数空間上のモデルの有限次元切り込みとして識別する多分解能フレームワークを定式化する。 平均プーリングが二乗可積分関数空間内の射影と一致することを証明し、平均プーリングを持つU-Netがデータのハールウェーブレット基底表現を暗黙的に学習することを示す理論的結果を提供する。 次に,U-Netアーキテクチャを持つ最先端階層型VAE(HVAE)を,点質量から流れる多分解能拡散過程の2段階のEuler離散化の一種として同定し,サンプリング不安定性を導入する。 また,HVAEが時間表現を学習し,重み付けによるパラメータ効率の向上を実現することも実証した。 私たちはこの観察を既存のモデルのパラメータ数の半分で最先端のhvae性能を達成するために使用し、継続的な定式化の特性を生かしています。

U-Net architectures are ubiquitous in state-of-the-art deep learning, however their regularisation properties and relationship to wavelets are understudied. In this paper, we formulate a multi-resolution framework which identifies U-Nets as finite-dimensional truncations of models on an infinite-dimensional function space. We provide theoretical results which prove that average pooling corresponds to projection within the space of square-integrable functions and show that U-Nets with average pooling implicitly learn a Haar wavelet basis representation of the data. We then leverage our framework to identify state-of-the-art hierarchical VAEs (HVAEs), which have a U-Net architecture, as a type of two-step forward Euler discretisation of multi-resolution diffusion processes which flow from a point mass, introducing sampling instabilities. We also demonstrate that HVAEs learn a representation of time which allows for improved parameter efficiency through weight-sharing. We use this observation to achieve state-of-the-art HVAE performance with half the number of parameters of existing models, exploiting the properties of our continuous-time formulation.
翻訳日:2023-01-20 14:32:04 公開日:2023-01-19
# 神経外科手術における手術指導のための協調型超音波組織スキャニング

Collaborative Robotic Ultrasound Tissue Scanning for Surgical Resection Guidance in Neurosurgery ( http://arxiv.org/abs/2301.08174v1 )

ライセンス: Link先を確認
Alistair Weld, Michael Dyck, Julian Klodmann, Giulio Anichini, Luke Dixon, Sophie Camp, Alin Albu-Sch\"affer and Stamatia Giannarou(参考訳) 本研究の目的は,ロボット支援手術中の術中診断を最適化し,外科的切除を改善するための自律型ius組織走査ロボットプラットフォームを提案することである。 解剖学的特異なロボットスキャンを誘導し、ロボットタスク空間の表現を生成するため、手術腔の3次元形態構造の回復のための迅速かつ正確な技術を開発する。 プロトタイプDLR MIRO手術用ロボットアームは、米国のトランスデューサの作用力と機内運動を制御するために使用される。 提案プラットフォームの重要な応用は、腫瘍切除をガイドする脳組織のスキャンである。

The aim of this paper is to introduce a robotic platform for autonomous iUS tissue scanning to optimise intraoperative diagnosis and improve surgical resection during robot-assisted operations. To guide anatomy specific robotic scanning and generate a representation of the robot task space, fast and accurate techniques for the recovery of 3D morphological structures of the surgical cavity are developed. The prototypic DLR MIRO surgical robotic arm is used to control the applied force and the in-plane motion of the US transducer. A key application of the proposed platform is the scanning of brain tissue to guide tumour resection.
翻訳日:2023-01-20 14:31:42 公開日:2023-01-19
# 量子古典的適応ゲーティングによる時変量子リカレントニューラルネットワーク

Time-Warping Invariant Quantum Recurrent Neural Networks via Quantum-Classical Adaptive Gating ( http://arxiv.org/abs/2301.08173v1 )

ライセンス: Link先を確認
Ivana Nikoloska, Osvaldo Simeone, Leonardo Banchi, and Petar Veli\'ckovi\'c(参考訳) アダプティブゲーティングは、未来を予測するのに必要な過去の情報の保持を容易にするため、古典的なリカレントニューラルネットワーク(rnn)による時間的データ処理において重要な役割を果たす。 本稿では,量子メモリを持つ動的モデルであるquantum recurrent neural networks (qrnns) を基盤として,(古典的)入力-出力列の時間-ウォーピング変換に対する不変性を保持する,新しい時間的データ処理量子モデルを提案する。 TWI-QRNN(Time Warping-invariant QRNN)と呼ばれるこのモデルは、古典的リカレントモデルを介して入力シーケンスの過去のサンプルの関数として、各ステップでパラメータ化されたユニタリ変換を適用するかどうかを選択する量子古典的適応ゲーティング機構でQRNNを拡張する。 twi-qrnnモデルクラスは第一原理から導出され、時制変換をうまく実装する能力は古典力学や量子力学の例で実験的に実証されている。

Adaptive gating plays a key role in temporal data processing via classical recurrent neural networks (RNN), as it facilitates retention of past information necessary to predict the future, providing a mechanism that preserves invariance to time warping transformations. This paper builds on quantum recurrent neural networks (QRNNs), a dynamic model with quantum memory, to introduce a novel class of temporal data processing quantum models that preserve invariance to time-warping transformations of the (classical) input-output sequences. The model, referred to as time warping-invariant QRNN (TWI-QRNN), augments a QRNN with a quantum-classical adaptive gating mechanism that chooses whether to apply a parameterized unitary transformation at each time step as a function of the past samples of the input sequence via a classical recurrent model. The TWI-QRNN model class is derived from first principles, and its capacity to successfully implement time-warping transformations is experimentally demonstrated on examples with classical or quantum dynamics.
翻訳日:2023-01-20 14:31:31 公開日:2023-01-19
# スピノールルビジウムボース-アインシュタイン凝縮体の迅速生成と数分解検出

Rapid generation and number-resolved detection of spinor Rubidium Bose-Einstein condensates ( http://arxiv.org/abs/2301.08172v1 )

ライセンス: Link先を確認
Cebrail P\"ur, Mareike Hetzel, Martin Quensen, Andreas H\"uper, Jiao Geng, Jens Kruse, Wolfgang Ertmer, Carsten Klempt(参考訳) 高データ取得率と超低温中性原子の低ノイズ検出は、ボース・アインシュタイン凝縮体における状態トモグラフィーと絡み合った量子状態の干渉計測において重要な課題である。 本稿では,数解検出と組み合わせた$^{87}$Rb Bose-Einstein凝縮の高フラックス源を提案する。 2\times10^5$原子のボース・アインシュタイン凝縮を3.3ドル以内で生成し、磁気・光学トラップのハイブリッド蒸発法を用いて生成する。 スピン自由度(arXiv:2207.01270)における多体量子状態の高忠実トモグラフィーでは、数分解検出のための単一のモードを選択することが望ましい。 我々は、最大16ドル原子のサブサンプルの低雑音選択と、0.2ドル原子以下のノイズによるその後の検出を実証した。 提示された手法は、前例のない性質を持つメソスコピック量子状態の生成と解析へのエキサイティングな道を提供し、基礎的およびメトロロジー的応用への利用を提供する。

High data acquisition rates and low-noise detection of ultracold neutral atoms present important challenges for the state tomography and interferometric application of entangled quantum states in Bose-Einstein condensates. In this article, we present a high-flux source of $^{87}$Rb Bose-Einstein condensates combined with a number-resolving detection. We create Bose-Einstein condensates of $2\times10^5$ atoms with no discernible thermal fraction within $3.3$ s using a hybrid evaporation approach in a magnetic/optical trap. For the high-fidelity tomography of many-body quantum states in the spin degree of freedom [arXiv:2207.01270], it is desirable to select a single mode for a number-resolving detection. We demonstrate the low-noise selection of subsamples of up to $16$ atoms and their subsequent detection with a counting noise below $0.2$ atoms. The presented techniques offer an exciting path towards the creation and analysis of mesoscopic quantum states with unprecedented fidelities, and their exploitation for fundamental and metrological applications.
翻訳日:2023-01-20 14:31:09 公開日:2023-01-19
# 連合学習におけるバックドア防御の脆弱性について

On the Vulnerability of Backdoor Defenses for Federated Learning ( http://arxiv.org/abs/2301.08170v1 )

ライセンス: Link先を確認
Pei Fang, Jinghui Chen(参考訳) Federated Learning(FL)は、クライアントのデータを共有することなくグローバルモデルの共同トレーニングを可能にする、人気のある分散機械学習パラダイムである。 しかし、その反復的なサーバ・クライアント通信は、特定のトリガーパターンが提示されたとき、グローバルモデルがターゲットの誤予測に誤認されることを目的としたバックドア攻撃の余地を与える。 連合学習に対するバックドアの脅威に対して、様々な防衛措置が提案されている。 本稿では,現在の防衛機構が,新たなバックドア攻撃手法を提案することで,フェデレート学習によるバックドアの脅威を現実的に中和するかどうかを検討する。 従来のトレーニング(トリガデータ)やリスケーリング(悪意のあるクライアントモデル)ベースのバックドアインジェクションとは異なり、提案されたバックドアアタックフレームワーク(1)は、サインフリップを介してバックドアトリガを注入するために(少数の)ローカルモデルウェイトを直接修正し、(2)トリガパターンをクライアントモデルと共同最適化することにより、既存の防御を回避するためのより永続的でステルス性が高い。 そこで本研究では,近年の連帯バックドアディフェンスの強度と弱点を3つのカテゴリから検討し,実際に連帯モデルの訓練を行う際に,実践者に提案する。

Federated Learning (FL) is a popular distributed machine learning paradigm that enables jointly training a global model without sharing clients' data. However, its repetitive server-client communication gives room for backdoor attacks with aim to mislead the global model into a targeted misprediction when a specific trigger pattern is presented. In response to such backdoor threats on federated learning, various defense measures have been proposed. In this paper, we study whether the current defense mechanisms truly neutralize the backdoor threats from federated learning in a practical setting by proposing a new federated backdoor attack method for possible countermeasures. Different from traditional training (on triggered data) and rescaling (the malicious client model) based backdoor injection, the proposed backdoor attack framework (1) directly modifies (a small proportion of) local model weights to inject the backdoor trigger via sign flips; (2) jointly optimize the trigger pattern with the client model, thus is more persistent and stealthy for circumventing existing defenses. In a case study, we examine the strength and weaknesses of recent federated backdoor defenses from three major categories and provide suggestions to the practitioners when training federated models in practice.
翻訳日:2023-01-20 14:30:49 公開日:2023-01-19
# 境界カオス: 厳密な絡み合いダイナミクス

Boundary Chaos: Exact Entanglement Dynamics ( http://arxiv.org/abs/2301.08168v1 )

ライセンス: Link先を確認
Felix Fritzsch, Roopayan Gosh, Toma\v{z} Prosen(参考訳) 我々は、エルゴードと混合量子多体力学を生成する最小のセットアップにおける絡み合いのダイナミクスを計算する。 これは自由で非相互作用のブリックワーク量子回路から成り、カオスとエルゴディシティは不純物相互作用、すなわち2量子ゲートが系の境界に配置されている。 我々は、初期積状態に対する不純物相互作用を含む連結部分系と、初期局所作用素のいわゆる作用素エンタングルメントエントロピーに関して、従来の二部交絡エントロピーを計算する。 これにより、非常に小さなサブシステムまたは非常に大きなサブシステムに対して、時間とシステムサイズの両方の特定のスケーリング制限の正確な結果を提供する。 不純物相互作用の異なるクラスは、非常に異なる絡み合いダイナミクスをもたらすことを示す。 初期状態のバルクを形成する局所生成状態を保存する不純物ゲートに対して、状態の絡み合いエントロピーは、システムサイズによって設定された周期で持続的なスパイクを示し、エルゴード系の予測線形成長とは対照的に、間の絡み合いを抑制する。 一般不純物に対する作用素絡みの同様のダイナミクスを観察する。 対照的に、部分変換の下でユニタリなT-双対不純物に対しては、状態と作用素の絡み合いエントロピーは、系の幾何学によって許容される最大速度に間に合うように線形に成長する。 あらゆるケースにおける相互作用の集中的な性質は、システムサイズに比例する広範な時間スケールで絡み合いを増大させる。

We compute the dynamics of entanglement in the minimal setup producing ergodic and mixing quantum many-body dynamics, which we previously dubbed {\em boundary chaos}. This consists of a free, non-interacting brickwork quantum circuit, in which chaos and ergodicity is induced by an impurity interaction, i.e., an entangling two-qudit gate, placed at the system's boundary. We compute both the conventional bipartite entanglement entropy with respect to a connected subsystem including the impurity interaction for initial product states as well as the so-called operator entanglement entropy of initial local operators. Thereby we provide exact results in a particular scaling limit of both time and system size going to infinity for either very small or very large subsystems. We show that different classes of impurity interactions lead to very distinct entanglement dynamics. For impurity gates preserving a local product state forming the bulk of the initial state, entanglement entropies of states show persistent spikes with period set by the system size and suppressed entanglement in between, contrary to the expected linear growth in ergodic systems. We observe similar dynamics of operator entanglement for generic impurities. In contrast, for T-dual impurities, which remain unitary under partial transposition, we find entanglement entropies of both states and operators to grow linearly in time with the maximum possible speed allowed by the geometry of the system. The intensive nature of interactions in all cases cause entanglement to grow on extensive time scales proportional to system size.
翻訳日:2023-01-20 14:30:24 公開日:2023-01-19
# メモリによる量子プロセスの学習-量子リカレントニューラルネットワーク

Learning Quantum Processes with Memory -- Quantum Recurrent Neural Networks ( http://arxiv.org/abs/2301.08167v1 )

ライセンス: Link先を確認
Dmytro Bondarenko and Robert Salzmann and Viktoria-S. Schmiesing(参考訳) リカレントニューラルネットワークは、研究と産業の両方において重要な役割を果たす。 量子機械学習の出現により、リカレントニューラルネットワークの量子化が近年重要になっている。 本研究では,分散量子ニューラルネットワークに基づく完全量子リカレントニューラルネットワークを提案し,汎用因果量子オートマトンを学習する。 量子トレーニングアルゴリズムを提案し、コスト関数として忠実性を持つ製品出力の場合の古典的なシミュレーションを行う。 これにより、時間依存ハミルトニアンが支配する量子状態の時間発展、高周波数および低周波ノイズ緩和といった、メモリを持つ複雑な量子過程を学習するアルゴリズムの可能性を実証する。 数値シミュレーションにより、我々の量子リカレントニューラルネットワークは、小さなトレーニングセットから一般化する顕著な能力を示すことが示された。

Recurrent neural networks play an important role in both research and industry. With the advent of quantum machine learning, the quantisation of recurrent neural networks has become recently relevant. We propose fully quantum recurrent neural networks, based on dissipative quantum neural networks, capable of learning general causal quantum automata. A quantum training algorithm is proposed and classical simulations for the case of product outputs with the fidelity as cost function are carried out. We thereby demonstrate the potential of these algorithms to learn complex quantum processes with memory in terms of the exemplary delay channel, the time evolution of quantum states governed by a time-dependent Hamiltonian, and high- and low-frequency noise mitigation. Numerical simulations indicate that our quantum recurrent neural networks exhibit a striking ability to generalise from small training sets.
翻訳日:2023-01-20 14:29:57 公開日:2023-01-19
# Wigner D-行列の偶数および奇数直交性とそのメトロジー的応用

Even- and odd-orthogonality properties of the Wigner D-matrix and their metrological applications ( http://arxiv.org/abs/2301.08166v1 )

ライセンス: Link先を確認
Wei Zhong and Lan Zhou and Cui-Fang Zhang and Yu-Bo Sheng(参考訳) ウィグナー D-行列は角運動量技術に必須である。 ここでは、ウィグナー d-行列の新たな偶数および奇数正方性の性質を導出し、2つの特定の量子状態を持つ2モード光干渉法に基づく線形位相推定のための最適測定値の同定に適用する。

The Wigner D-matrix is essential in the course of angular momentum techniques. We here derive the new even- and odd-orthogonality properties of the Wigner D-matrix which was yet to be demonstrated in textbooks and also apply them to identifying optimal measurements for linear phase estimation based on two-mode optical interferometry with two specific quantum states.
翻訳日:2023-01-20 14:29:43 公開日:2023-01-19
# スピン1/2ダブルキックトップのブロッホ球面上の多くの位相位相

Many topological phases on the Bloch sphere of the spin-1/2 double kicked top ( http://arxiv.org/abs/2301.08225v1 )

ライセンス: Link先を確認
J. Mumford(参考訳) フロッケ位相系は、任意に大きい巻数によって特徴づけられる位相相のような従来の位相系では一般的に見られない特徴を示すことが示されている。 これは、スピン1/2自由度(L. Zhou and J. Gong, Phys. Rev. A 97, 063603 (2018))と結合された量子二重キックローターにおいて、キック強度を調整して大きな巻数を達成することで明らかに強調される。 ここで、スピン1/2量子ダブルキックトップに結果を拡張し、この系は巻数が大きい位相相を示すだけでなく、一般的なキック強度のためにトップのブロッホ球面のトポロジーを完全に特徴付けるために多数の位相相が必要であることを発見した。 ブロッホ球面は異なるトポロジーを持つ領域に分割され、それらを分離する境界は 0 と $\pi$ の準エネルギーエッジ状態である。 巻線数の平均場,量子および平均キラル変位バージョンを比較することにより,各領域を特徴付ける。 また、プローブ状態を用いて、境界に位置するエッジ状態と大きな初期重なりを持つ状態が進化するにつれて、局在を観測することで境界の特定を行う。 最後に、スピン1/2量子ダブルキックトップとマルチステップ量子ウォークの接続について簡単に議論し、このシステムを位相相の探索における最近の実験の文脈に置く。

Floquet topological systems have been shown to exhibit features not commonly found in conventional topological systems such topological phases characterized by arbitrarily large winding numbers. This is clearly highlighted in the quantum double kicked rotor coupled to a spin-1/2 degree of freedom [L. Zhou and J. Gong, Phys. Rev. A 97, 063603 (2018)] where large winding numbers are achieved by tuning the kick strengths. Here, we extend the results to the spin-1/2 quantum double kicked top and find not only does the system exhibit topological phases with large winding numbers, but a large number of them are needed to fully characterize the topology of the Bloch sphere of the top for general kick strengths. The Bloch sphere is partitioned into regions with different topology and the boundaries separating them are home to 0 and $\pi$ quasienergy edge states. We characterize the regions by comparing the mean field, quantum and mean chiral displacement versions of the winding numbers. We also use a probe state to locate the boundaries by observing localization as the state evolves when it has a large initial overlap with the edge states located at the boundary. Finally, we briefly discuss the connections between the spin-1/2 quantum double kicked top and multi-step quantum walks, putting the system in the context of some current experiments in the exploration of topological phases.
翻訳日:2023-01-20 14:24:34 公開日:2023-01-19
# 意思決定係数を用いた対話的意思決定に対する厳密な保証

Tight Guarantees for Interactive Decision Making with the Decision-Estimation Coefficient ( http://arxiv.org/abs/2301.08215v1 )

ライセンス: Link先を確認
Dylan J. Foster, Noah Golowich, Yanjun Han(参考訳) 強化学習と対話的意思決定における基本的な問題は、モデリング仮定がサンプル効率の学習保証につながるもの、そしてアルゴリズム設計原則が最適なサンプル複雑性を達成するものを理解することである。 フォスターらは最近、バンドイットと関数近似による強化学習を包含する一般的な問題の最適標本複雑性の上限を上下に設定する統計複雑性の尺度である決定推定係数(dec)を導入した(2021年)。 本稿では,DECの新たな変種であるConstrained Decision-Estimation Coefficientを導入し,それを用いて,従来の3つの面での作業を改善する新しい下限を導出する。 -グローバルに存在し、フォスターら(2021年)のローカライズの概念には依存しない。 もっとも興味深いのは、DECが不適切なものと定義されているリファレンスモデルを許容し、不適切な参照モデルが基本的な役割を果たすことを保証することです。 我々は同じ量でスケールした後悔の上限について上界を提供し、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる(2021年)。 本研究は,pealtフレームワークとpacフレームワークの両方に適用し,より広範な利用を期待する新たな分析手法とアルゴリズム設計手法を生かした。

A foundational problem in reinforcement learning and interactive decision making is to understand what modeling assumptions lead to sample-efficient learning guarantees, and what algorithm design principles achieve optimal sample complexity. Recently, Foster et al. (2021) introduced the Decision-Estimation Coefficient (DEC), a measure of statistical complexity which leads to upper and lower bounds on the optimal sample complexity for a general class of problems encompassing bandits and reinforcement learning with function approximation. In this paper, we introduce a new variant of the DEC, the Constrained Decision-Estimation Coefficient, and use it to derive new lower bounds that improve upon prior work on three fronts: - They hold in expectation, with no restrictions on the class of algorithms under consideration. - They hold globally, and do not rely on the notion of localization used by Foster et al. (2021). - Most interestingly, they allow the reference model with respect to which the DEC is defined to be improper, establishing that improper reference models play a fundamental role. We provide upper bounds on regret that scale with the same quantity, thereby closing all but one of the gaps between upper and lower bounds in Foster et al. (2021). Our results apply to both the regret framework and PAC framework, and make use of several new analysis and algorithm design techniques that we anticipate will find broader use.
翻訳日:2023-01-20 14:24:07 公開日:2023-01-19
# すべてが繋がっている:グラフニューラルネットワーク

Everything is Connected: Graph Neural Networks ( http://arxiv.org/abs/2301.08210v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c(参考訳) 様々な意味で、グラフは自然から受信されるデータの主なモダリティである。 これは、自然系と人工系の両方で見られるパターンのほとんどが、グラフ構造の言語を使ってエレガントに表現できるという事実によるものです。 代表的な例として、分子(原子と結合のグラフとして表される)、ソーシャルネットワーク、輸送ネットワークがある。 このポテンシャルは、交通予測、薬物発見、ソーシャルネットワーク分析、レコメンデーターシステムなど、既に拡大している応用分野を含む、主要な科学および産業グループによってすでに見られている。 さらに、前年で最も成功した機械学習アプリケーション – 画像、テキスト、音声処理 – のいくつかは、グラフ表現学習の特別なケースと見なすことができ、そのため、これらの領域間で重要な情報交換が行われている。 この短い調査の主な目的は、読者がエリア内の重要な概念を統一し、関連する分野の適切なコンテキストでグラフ表現学習を配置できるようにすることである。

In many ways, graphs are the main modality of data we receive from nature. This is due to the fact that most of the patterns we see, both in natural and artificial systems, are elegantly representable using the language of graph structures. Prominent examples include molecules (represented as graphs of atoms and bonds), social networks and transportation networks. This potential has already been seen by key scientific and industrial groups, with already-impacted application areas including traffic forecasting, drug discovery, social network analysis and recommender systems. Further, some of the most successful domains of application for machine learning in previous years -- images, text and speech processing -- can be seen as special cases of graph representation learning, and consequently there has been significant exchange of information between these areas. The main aim of this short survey is to enable the reader to assimilate the key concepts in the area, and position graph representation learning in a proper context with related fields.
翻訳日:2023-01-20 14:23:40 公開日:2023-01-19
# GIPA++:グラフ学習のための汎用情報伝搬アルゴリズム

GIPA++: A General Information Propagation Algorithm for Graph Learning ( http://arxiv.org/abs/2301.08209v1 )

ライセンス: Link先を確認
Houyi Li, Zhihong Chen, Zhao Li, Qinkai Zheng, Peng Zhang, Shuigeng Zhou(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測,ネットワークレコメンデーションなど,さまざまなアプリケーションにおいて有望なパフォーマンスを示すグラフ構造化データ計算に広く使用されている。 既存の研究は主に、2つのノードの密度ベクトルによるドット積などの注意に基づく近隣ノードの重み付け集約を行う際のノードワイズ相関に焦点を当てている。 これにより、情報伝達を行う際にノード内の競合するノイズが伝播する可能性がある。 そこで本研究では,情報伝達のエッジ特性に基づいて,ビット方向と特徴方向の相関を含むよりきめ細かい情報融合を行う汎用情報伝達アルゴリズム(gipa)を提案する。 具体的には、2つのノードとそのエッジの密接な表現に基づいて、多層パーセプトロン(MLP)を介して要素単位の注意重みを算出する。 我々は,Open Graph Benchmark protein(OGBN-oproteins for short)データセットとAlibabaのAlipayデータセットにおけるGIPAの性能を評価する。 実験の結果、GIPAは予測精度において最先端モデルよりも優れており、例えば、GIPAは平均ROC-AUCが0.8901\pm 0.0011$である。

Graph neural networks (GNNs) have been widely used in graph-structured data computation, showing promising performance in various applications such as node classification, link prediction, and network recommendation. Existing works mainly focus on node-wise correlation when doing weighted aggregation of neighboring nodes based on attention, such as dot product by the dense vectors of two nodes. This may cause conflicting noise in nodes to be propagated when doing information propagation. To solve this problem, we propose a General Information Propagation Algorithm (GIPA in short), which exploits more fine-grained information fusion including bit-wise and feature-wise correlations based on edge features in their propagation. Specifically, the bit-wise correlation calculates the element-wise attention weight through a multi-layer perceptron (MLP) based on the dense representations of two nodes and their edge; The feature-wise correlation is based on the one-hot representations of node attribute features for feature selection. We evaluate the performance of GIPA on the Open Graph Benchmark proteins (OGBN-proteins for short) dataset and the Alipay dataset of Alibaba. Experimental results reveal that GIPA outperforms the state-of-the-art models in terms of prediction accuracy, e.g., GIPA achieves an average ROC-AUC of $0.8901\pm 0.0011$, which is better than that of all the existing methods listed in the OGBN-proteins leaderboard.
翻訳日:2023-01-20 14:23:25 公開日:2023-01-19
# トポロジカル秩序における混合状態絡み合い対策

Mixed State Entanglement Measures in Topological Orders ( http://arxiv.org/abs/2301.08207v1 )

ライセンス: Link先を確認
Chao Yin, Shang Liu(参考訳) いわゆる「計算可能クロスノルム(computable cross-norm or realignment)」ネガティビティ(ccnr negativity)と、よりよく知られた部分遷移(pt)ネガティビティ(partment-transpose negativity)の2つの混合状態絡み合い尺度を検討した。 まず, (2+1)D Chern-Simons (CS) 理論における純状態の空間領域間のCCNR負性度を手術法を用いて計算し, PT負性度との比較を行った。 ある単純化条件の下では、混合状態絡み合い尺度の一般表現を見つけ、異なる部分領域の絡み合いエントロピーと関連付ける。 そして、全ての空間次元の格子モデルに適用可能なパウリ安定化形式論において、CCNRとPTの負性の両方の一般公式を導出する。 最後に、この結果を $\mathbb{Z}_2$ toric code model で示す。 三分割点のない三分割に対しては、両絡み合い測度の位相的および普遍的項を抽出する戦略を提供する。 また,三分割点の存在下では,CCNR陰性率のサブリーディングはトポロジカルであり,PTは局所的形状に依存しないことが示唆された。

We study two mixed state entanglement measures in topological orders: the so-called "computable cross-norm or realignment" (CCNR) negativity, and the more well-known partial-transpose (PT) negativity, both of which are based on separability criteria. We first compute the CCNR negativity between two spatial regions for tripartite pure states in (2+1)D Chern-Simons (CS) theories using the surgery method, and compare to the previous results on PT negativity. Under certain simplifying conditions, we find general expressions of both mixed state entanglement measures and relate them to the entanglement entropies of different subregions. Then we derive general formulas for both CCNR and PT negativities in the Pauli stabilizer formalism, which is applicable to lattice models in all spatial dimensions. Finally, we demonstrate our results in the $\mathbb{Z}_2$ toric code model. For tripartitions without trisection points, we provide a strategy of extracting the provably topological and universal terms in both entanglement measures. In the presence of trisection points, our result suggests that the subleading piece in the CCNR negativity is topological, while that for PT is not and depends on the local geometry of the trisections.
翻訳日:2023-01-20 14:23:01 公開日:2023-01-19
# SAMモデリングのためのSDE:理論と展望

An SDE for Modeling SAM: Theory and Insights ( http://arxiv.org/abs/2301.08203v1 )

ライセンス: Link先を確認
Enea Monzio Compagnoni, Antonio Orvieto, Luca Biggio, Hans Kersting, Frank Norbert Proske, Aurelien Lucchi(参考訳) より古典的な確率勾配勾配よりも高い性能を持つSAM(Sharpness-Aware Minimization)オプティマイザについて検討した。 我々の主な貢献は、SAMの連続時間モデル(SDEの形で)とその非正規化されたUSAM(フルバッチとミニバッチの両方)の導出である。 これらのSDEは実離散時間アルゴリズムの厳密な近似であることを示す(弱い意味では、ステップサイズと線形にスケーリングする)。 これらのモデルを用いて、SAMがシャープなモデルよりもフラットなミニマを好む理由を説明する。 最後に、SAMが現実的な条件下でのサドル点に惹かれていることを証明する。 我々の理論結果は詳細な実験によって裏付けられている。

We study the SAM (Sharpness-Aware Minimization) optimizer which has recently attracted a lot of interest due to its increased performance over more classical variants of stochastic gradient descent. Our main contribution is the derivation of continuous-time models (in the form of SDEs) for SAM and its unnormalized variant USAM, both for the full-batch and mini-batch settings. We demonstrate that these SDEs are rigorous approximations of the real discrete-time algorithms (in a weak sense, scaling linearly with the step size). Using these models, we then offer an explanation of why SAM prefers flat minima over sharp ones - by showing that it minimizes an implicitly regularized loss with a Hessian-dependent noise structure. Finally, we prove that perhaps unexpectedly SAM is attracted to saddle points under some realistic conditions. Our theoretical results are supported by detailed experiments.
翻訳日:2023-01-20 14:22:33 公開日:2023-01-19
# adaptive truncation を用いた微分プライベートオンラインベイズ推定

Differentially Private Online Bayesian Estimation With Adaptive Truncation ( http://arxiv.org/abs/2301.08202v1 )

ライセンス: Link先を確認
Sinan Y{\i}ld{\i}r{\i}m(参考訳) 本稿では,個体群に関する静的パラメータの微分プライベートベイズオンライン推定のための,新しいオンラインおよび適応的トランザクション手法を提案する。 個人からのセンシティブな情報を逐次収集し,その個人が属する個体数に関する静的パラメータであるオンザフライ(on-the-fly)を推定する。 オンラインベイズ推定を行うために連続モンテカルロを提案する。 個人がクエリに応答してセンシティブな情報を提供する場合、その個人のプライバシーを確保するために、プライバシ保存ノイズで妨害する必要がある。 摂動量はクエリの感度に比例し、通常、クエリされた情報の範囲によって決定される。 提案手法は,前回収集した観測結果に適応し,次の個人に対する問い合わせ範囲を調整できる。 その考え方は、前回の観察に基づいて、プライバシ保護ノイズに陥る前に、次の個人の情報が途切れる間隔を慎重に調整できるということです。 このようにして、予測クエリを小さな感度で設計し、したがってプライバシー保護ノイズを小さくし、同じレベルのプライバシーを維持しながらより正確な推定を可能にする。 間隔の位置と幅を決定するために、生成された観測のフィッシャー情報に基づいて目的関数を持つラ・トンプソン・サンプリングの探索-探索手法を用いる。 数値的な例で方法論の利点を示す。

We propose a novel online and adaptive truncation method for differentially private Bayesian online estimation of a static parameter regarding a population. We assume that sensitive information from individuals is collected sequentially and the inferential aim is to estimate, on-the-fly, a static parameter regarding the population to which those individuals belong. We propose sequential Monte Carlo to perform online Bayesian estimation. When individuals provide sensitive information in response to a query, it is necessary to perturb it with privacy-preserving noise to ensure the privacy of those individuals. The amount of perturbation is proportional to the sensitivity of the query, which is determined usually by the range of the queried information. The truncation technique we propose adapts to the previously collected observations to adjust the query range for the next individual. The idea is that, based on previous observations, we can carefully arrange the interval into which the next individual's information is to be truncated before being perturbed with privacy-preserving noise. In this way, we aim to design predictive queries with small sensitivity, hence small privacy-preserving noise, enabling more accurate estimation while maintaining the same level of privacy. To decide on the location and the width of the interval, we use an exploration-exploitation approach a la Thompson sampling with an objective function based on the Fisher information of the generated observation. We show the merits of our methodology with numerical examples.
翻訳日:2023-01-20 14:22:20 公開日:2023-01-19
# マルコフ量子状態拡散の枠組みにおける量子測定に伴う確率的エントロピー生成

Stochastic entropy production associated with quantum measurement in a framework of Markovian quantum state diffusion ( http://arxiv.org/abs/2301.08197v1 )

ライセンス: Link先を確認
Claudia L. Clarke and Ian J. Ford(参考訳) 開量子系の状態を特徴づける還元密度行列は、量子系の全密度行列とその環境からの射影であり、与えられた還元されたバージョンと一致する多くの全密度行列が存在する。 したがって、環境の関連する詳細を特定することがなければ、還元密度行列の進化は通常、ダイナミクスが決定論的であるとしても予測不可能である。 このことを念頭において、量子状態拡散の枠組みを用いて2段階開量子システムについて検討する。 我々は,その密度行列の擬似ランダム進化を,漸近的に固有状態に系を送付する力学を用いて,観測可能な系の連続量子計測の環境駆動的プロセスに従えば考える。 予測不能性は確率的エントロピー生成によって特徴づけられ、その平均はシステムや環境によって採用される量子状態の主観的不確実性の増加に対応する。 これはフォン・ノイマンのエントロピーの変化と異なり、系が固有状態へ誘導されるにつれて無限に継続することができる。 予想されるように、同じフレームワーク内の2つの非可換観測器の同時測定は、システムを固有状態に送信しない。 代わりに、系の還元密度行列を記述する確率密度関数は、より確率論的エントロピーの生成をゼロに特徴付ける純粋状態の連続体上で定常となる。 このような定常状態間の遷移は、2つの測定プロセスの相対強度の変化によって引き起こされ、有限正の確率的エントロピー生成をもたらす。 研究されたフレームワークは、量子系における測定のダイナミクスと不可逆的な熱力学の両方について有用な視点を提供することができる。

The reduced density matrix that characterises the state of an open quantum system is a projection from the full density matrix of the quantum system and its environment, and there are many full density matrices consistent with a given reduced version. Without a specification of relevant details of the environment, the evolution of a reduced density matrix is therefore typically unpredictable, even if the dynamics are deterministic. With this in mind, we investigate a two level open quantum system using a framework of quantum state diffusion. We consider the pseudorandom evolution of its reduced density matrix when subjected to an environment-driven process of continuous quantum measurement of a system observable, using dynamics that asymptotically send the system to an eigenstate. The unpredictability is characterised by a stochastic entropy production, the average of which corresponds to an increase in the subjective uncertainty of the quantum state adopted by the system and environment, given the underspecified dynamics. This differs from a change in von Neumann entropy, and can continue indefinitely as the system is guided towards an eigenstate. As one would expect, the simultaneous measurement of two non-commuting observables within the same framework does not send the system to an eigenstate. Instead, the probability density function describing the reduced density matrix of the system becomes stationary over a continuum of pure states, a situation characterised by zero further stochastic entropy production. Transitions between such stationary states, brought about by changes in the relative strengths of the two measurement processes, give rise to finite positive mean stochastic entropy production. The framework investigated can offer useful perspectives on both the dynamics and irreversible thermodynamics of measurement in quantum systems.
翻訳日:2023-01-20 14:21:58 公開日:2023-01-19
# パラメトリック増幅による捕捉2次元イオン結晶による量子シミュレーションとセンシングの改善に向けて

Towards Improved Quantum Simulations and Sensing with Trapped 2D Ion Crystals via Parametric Amplification ( http://arxiv.org/abs/2301.08195v1 )

ライセンス: Link先を確認
Matt Affolter, Wenchao Ge, Bryce Bullock, Sean C. Burd, Kevin A. Gilmore, Jennifer F. Lilieholm, Allison L. Carter, John J. Bollinger(参考訳) コヒーレンスの改善は、量子シミュレーションとトラップイオンを用いたセンシング実験における根本的な課題である。 そこで我々は, スピン依存力で得られたイオンの運動パラメトリック励起により, 粒子のコヒーレントなスピン運動結合を増強する2つの異なるプロトコルの潜在的影響を, 実験的に検証し, 評価する。 実験はペニングトラップに閉じ込められた約100ドル^9$Be$^+$イオンの2次元結晶アレイ上で実施される。 中心モード周波数の約2倍のトラッピング電位を変調することにより、運動モードを圧縮し、スピンコヒーレンスを維持しながらスピン-モーションカップリングを増強する。 ストロボスコピックのプロトコルでは、基底状態の運動より下方で5.4 \pm 0.9$ dbの運動を計測し、理論では、最近実証されたプロトコル[science $\textbf{373}$, 673 (2021)]を使用して、小さな変位を測定する感度の10ドルのdbを予測している。 連続的スクイーズプロトコルを用いてパラメトリック結合強度を測定し,正確に測定する。 理論上、このプロトコルは、オフ共鳴光散乱によってシステム内で制限された量子スピンスクイーズを改善するために使用できる。 本研究では, 強いパラメトリック増幅と運動強調のトレードオフを, 中心周波数変動の形で数値的に説明し, 設定時の量子スピンスクイーズを改善する。

Improving coherence is a fundamental challenge in quantum simulation and sensing experiments with trapped ions. Here we discuss, experimentally demonstrate, and estimate the potential impacts of two different protocols that enhance, through motional parametric excitation, the coherent spin-motion coupling of ions obtained with a spin-dependent force. The experiments are performed on 2D crystal arrays of approximately one hundred $^9$Be$^+$ ions confined in a Penning trap. By modulating the trapping potential at close to twice the center-of-mass mode frequency, we squeeze the motional mode and enhance the spin-motion coupling while maintaining spin coherence. With a stroboscopic protocol, we measure $5.4 \pm 0.9$ dB of motional squeezing below the ground-state motion, from which theory predicts a $10$ dB enhancement in the sensitivity for measuring small displacements using a recently demonstrated protocol [Science $\textbf{373}$, 673 (2021)]. With a continuous squeezing protocol, we measure and accurately calibrate the parametric coupling strength. Theory suggests this protocol can be used to improve quantum spin squeezing, limited in our system by off-resonant light scatter. We illustrate numerically the trade-offs between strong parametric amplification and motional dephasing in the form of center-of-mass frequency fluctuations for improving quantum spin squeezing in our set-up.
翻訳日:2023-01-20 14:21:31 公開日:2023-01-19
# JCSE:日本語文埋め込みのコントラスト学習とその応用

JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its Applications ( http://arxiv.org/abs/2301.08193v1 )

ライセンス: Link先を確認
Zihao Chen, Hisashi Handa, Kimiaki Shirahama(参考訳) コントラスト学習は文表現学習に広く用いられている。 この傾向にもかかわらず、ほとんどの研究は英語のみに焦点をあてており、ドメイン固有の下流タスク、特にターゲットドメインデータ不足と適切なトレーニング戦略の欠如を特徴とする日本語のような低リソース言語に対するドメイン適応にはほとんど関心がない。 そこで,本稿では,日本語文表現の枠組みであるjcse(「日本語文埋め込みの連続学習」から派生した)を提案し,学習データを作成し,対象領域で利用可能な文と合成する。 具体的には、収集したコーパスを用いて、トレーニング済みのデータジェネレータをターゲットドメインに微調整する。 次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。 日本語文表現学習のもう一つの問題は、ベンチマークデータセットの欠如による既存の埋め込み手法の評価が難しいことである。 そこで我々は,様々な埋め込みモデルを評価するための総合的な日本語意味テキスト類似度(STS)ベンチマークを構築した。 このベンチマーク結果に基づき、臨床領域stsと教育領域情報検索の2つのドメイン固有のタスクにおいて、複数の埋め込み手法を選択し、jcseと比較する。 その結果,jcseはダイレクトトランスファーや他のトレーニング戦略を上回って,大幅な性能向上を達成した。 これは、低リソース言語の下流タスクに対するJCSEの有効性と実践性を実証的に示す。

Contrastive learning is widely used for sentence representation learning. Despite this prevalence, most studies have focused exclusively on English and few concern domain adaptation for domain-specific downstream tasks, especially for low-resource languages like Japanese, which are characterized by insufficient target domain data and the lack of a proper training strategy. To overcome this, we propose a novel Japanese sentence representation framework, JCSE (derived from ``Contrastive learning of Sentence Embeddings for Japanese''), that creates training data by generating sentences and synthesizing them with sentences available in a target domain. Specifically, a pre-trained data generator is finetuned to a target domain using our collected corpus. It is then used to generate contradictory sentence pairs that are used in contrastive learning for adapting a Japanese language model to a specific task in the target domain. Another problem of Japanese sentence representation learning is the difficulty of evaluating existing embedding methods due to the lack of benchmark datasets. Thus, we establish a comprehensive Japanese Semantic Textual Similarity (STS) benchmark on which various embedding models are evaluated. Based on this benchmark result, multiple embedding methods are chosen and compared with JCSE on two domain-specific tasks, STS in a clinical domain and information retrieval in an educational domain. The results show that JCSE achieves significant performance improvement surpassing direct transfer and other training strategies. This empirically demonstrates JCSE's effectiveness and practicability for downstream tasks of a low-resource language.
翻訳日:2023-01-20 14:21:02 公開日:2023-01-19
# 3次元再構成のためのマルチビュー圧縮符号化

Multiview Compressive Coding for 3D Reconstruction ( http://arxiv.org/abs/2301.08247v1 )

ライセンス: Link先を確認
Chao-Yuan Wu, Justin Johnson, Jitendra Malik, Christoph Feichtenhofer, Georgia Gkioxari(参考訳) 視覚認識の中心的な目標は、単一の画像からオブジェクトやシーンを理解することである。 2d認識は、大規模学習と汎用表現のおかげで、大きな進歩を遂げている。 対照的に、3Dは画像に描かれていない閉塞から生じる新しい課題を提起する。 先行研究では、複数のビューから推論したり、少ないcadモデルやカテゴリ固有の優先順位に依存することで、これらを克服しようとする。 本研究では,自己教師付き学習の進歩に触発された一般化表現を学習することで,単視点3次元再構成を探索する。 単一のオブジェクトやシーン全体の3Dポイントで動作するシンプルなフレームワークを,さまざまなRGB-Dビデオからカテゴリに依存しない大規模トレーニングと組み合わせて導入する。 我々のモデルであるMultiview Compressive Coding (MCC)は、入力の外観と形状を圧縮し、3D対応デコーダをクエリすることで3D構造を予測する。 MCCの汎用性と効率性により、大規模で多様なデータソースから、DALL$\cdot$E 2で想像される新しいオブジェクト、あるいはiPhoneで撮影されるオブジェクトまで、強力な汎用性を持つことができる。

A central goal of visual recognition is to understand objects and scenes from a single image. 2D recognition has witnessed tremendous progress thanks to large-scale learning and general-purpose representations. Comparatively, 3D poses new challenges stemming from occlusions not depicted in the image. Prior works try to overcome these by inferring from multiple views or rely on scarce CAD models and category-specific priors which hinder scaling to novel settings. In this work, we explore single-view 3D reconstruction by learning generalizable representations inspired by advances in self-supervised learning. We introduce a simple framework that operates on 3D points of single objects or whole scenes coupled with category-agnostic large-scale training from diverse RGB-D videos. Our model, Multiview Compressive Coding (MCC), learns to compress the input appearance and geometry to predict the 3D structure by querying a 3D-aware decoder. MCC's generality and efficiency allow it to learn from large-scale and diverse data sources with strong generalization to novel objects imagined by DALL$\cdot$E 2 or captured in-the-wild with an iPhone.
翻訳日:2023-01-20 14:15:17 公開日:2023-01-19
# Booster: スペックと透明な表面の画像の深さのベンチマーク

Booster: a Benchmark for Depth from Images of Specular and Transparent Surfaces ( http://arxiv.org/abs/2301.08245v1 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Alex Costanzino, Fabio Tosi, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) 画像から深度を推定すると、領域内精度と一般化の両面で優れた結果が得られる。 しかし,この領域では,非ランベルト材料を扱うこと,高解像度画像を効果的に処理すること,という2つの課題が解決されている。 そこで本研究では,高解像度で高精度かつ高密度な地下トラスラベルを含む新しいデータセットを提案する。 我々の獲得パイプラインは、新しい時空ステレオフレームワークを活用し、サブピクセル精度で簡単かつ正確なラベリングを可能にする。 データセットは85の異なるシーンで収集された606個のサンプルで構成され、それぞれのサンプルは高解像度のペア(12 Mpx)とアンバランスのステレオペア(12 Mpx, Right: 1.1 Mpx)の両方を含む。 さらに,手動でアノテートした材料セグメンテーションマスクと15Kの未ラベルサンプルも提供する。 データセットをトレーニングセットに分割し、2つのテストセット、後者はステレオとモノクルの深さ推定ネットワークの評価に向け、この分野におけるオープンな課題と今後の研究方向性を明らかにする。

Estimating depth from images nowadays yields outstanding results, both in terms of in-domain accuracy and generalization. However, we identify two main challenges that remain open in this field: dealing with non-Lambertian materials and effectively processing high-resolution images. Purposely, we propose a novel dataset that includes accurate and dense ground-truth labels at high resolution, featuring scenes containing several specular and transparent surfaces. Our acquisition pipeline leverages a novel deep space-time stereo framework, enabling easy and accurate labeling with sub-pixel precision. The dataset is composed of 606 samples collected in 85 different scenes, each sample includes both a high-resolution pair (12 Mpx) as well as an unbalanced stereo pair (Left: 12 Mpx, Right: 1.1 Mpx). Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. We divide the dataset into a training set, and two testing sets, the latter devoted to the evaluation of stereo and monocular depth estimation networks respectively to highlight the open challenges and future research directions in this field.
翻訳日:2023-01-20 14:14:59 公開日:2023-01-19
# 統合埋め込み予測アーキテクチャを用いた画像からの自己教師付き学習

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2301.08243v1 )

ライセンス: Link先を確認
Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas(参考訳) 本稿では,手作りデータに頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。 本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。 I-JEPAの背景にあるアイデアは単純で、単一のコンテキストブロックから、同じイメージ内の様々なターゲットブロックの表現を予測する。 I-JEPAを意味表現に導くための中核的な設計選択はマスキング戦略である。 (a)画像中の複数の対象ブロックを予測する。 (b)十分な規模(画像の15%~20%を占める)のサンプルターゲットブロック及び (c)十分な情報(分散)コンテキストブロックを使用する。 実証的には、Vision Transformersと組み合わせると、I-JEPAは高度にスケーラブルである。 例えば、イメージネット上で32のA100 GPUを使用してViT-Huge/16を38時間以内にトレーニングし、線形分類からオブジェクトカウント、深さ予測に至るまで、さまざまなレベルの抽象化を必要とするタスクにわたって、強力なダウンストリームパフォーマンスを実現する。

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) predict several target blocks in the image, (b) sample target blocks with sufficiently large scale (occupying 15%-20% of the image), and (c) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/16 on ImageNet using 32 A100 GPUs in under 38 hours to achieve strong downstream performance across a wide range of tasks requiring various levels of abstraction, from linear classification to object counting and depth prediction.
翻訳日:2023-01-20 14:14:37 公開日:2023-01-19
# 一般量子ウィーランドの不等式

A generic quantum Wielandt's inequality ( http://arxiv.org/abs/2301.08241v1 )

ライセンス: Link先を確認
Yifan Jia, Angela Capel(参考訳) 本稿では、量子ウィランドの不等式(英語版)の一般版を提供し、これは最小長$k$に最適な上限を与え、生成系内の要素の積の長さ-$k$は確率1で$M_n(\mathbb{C})$である。 総じて$k$ が $\theta(\log n)$ の順序であることを示すが、これは一般の場合とは対照的に、日付への最善のバウンドは $o(n^2 \log n)$ である。 この結果は、ランダム量子チャネルの原始性指数に新たな境界を与えることを意味する。 さらに、順序 $\omega( \log n )$ のほとんどすべての変換不変(周期境界条件付き)行列積状態は局所ハミルトニアンの一意な基底状態である。 行列リー代数の類似性を観察し,ランダムリー生成系に対する数値計算結果を提供する。

In this paper, we provide a generic version of quantum Wielandt's inequality, which gives an optimal upper bound on the minimal length $k$ such that length-$k$ products of elements in a generating system span $M_n(\mathbb{C})$ with probability one. We show that $k$ generically is of order $\Theta(\log n)$, as opposed to the general case, in which the best bound to the date is $O(n^2 \log n)$. Our result implies a new bound on the primitivity index of a random quantum channel. Furthermore, we conclude that almost any translation-invariant (with periodic boundary conditions) matrix product state with length of order $\Omega( \log n )$ is the unique ground state of a local Hamiltonian. We observe similar characteristics for matrix Lie algebras and provide numerical results for random Lie-generating systems.
翻訳日:2023-01-20 14:14:19 公開日:2023-01-19
# LoCoNet: アクティブ話者検出のための長短コンテキストネットワーク

LoCoNet: Long-Short Context Network for Active Speaker Detection ( http://arxiv.org/abs/2301.08237v1 )

ライセンス: Link先を確認
Xizi Wang, Feng Cheng, Gedas Bertasius, David Crandall(参考訳) Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。 長期話者間コンテキストと短期話者間コンテキストの2つの文脈からの音声および視覚情報からのASD理由 長期話者間コンテキストは、同じ話者の時間的依存関係をモデル化し、短期話者間コンテキストは、同じシーンにおける話者の相互作用をモデル化する。 これら2つのコンテキストは互いに補完的であり、アクティブな話者を推測するのに役立ちます。 そこで我々は,この観測結果に動機づけられて,長期的な話者間コンテキストと短期的な話者間コンテキストをモデル化する,単純かつ効果的な長短コンテキストネットワークであるloconetを提案する。 我々は、長期依存性のモデル化における有効性や、局所パターンをキャプチャして話者間コンテキストをモデル化する畳み込みブロックにより、話者間コンテキストをモデル化する。 大規模な実験によると、LoCoNetは複数のデータセットで最先端のパフォーマンスを達成し、AVA-ActiveSpeakerで95.2%(+1.1%)、コロンビアデータセットで68.1%(+22%)、トーキーデータセットで97.2%(+2.8%)、Ego4Dデータセットで59.7%(+8.0%)のmAPを達成した。 さらに、複数の話者が存在する場合、またはアクティブスピーカーの顔が同じシーンの他の顔よりもはるかに小さい場合、LoCoNetはAVA-ActiveSpeakerデータセットで従来の最先端のメソッドを3.4%上回っている。 コードはhttps://github.com/SJTUwxz/LoCoNet_ASDで公開される。

Active Speaker Detection (ASD) aims to identify who is speaking in each frame of a video. ASD reasons from audio and visual information from two contexts: long-term intra-speaker context and short-term inter-speaker context. Long-term intra-speaker context models the temporal dependencies of the same speaker, while short-term inter-speaker context models the interactions of speakers in the same scene. These two contexts are complementary to each other and can help infer the active speaker. Motivated by these observations, we propose LoCoNet, a simple yet effective Long-Short Context Network that models the long-term intra-speaker context and short-term inter-speaker context. We use self-attention to model long-term intra-speaker context due to its effectiveness in modeling long-range dependencies, and convolutional blocks that capture local patterns to model short-term inter-speaker context. Extensive experiments show that LoCoNet achieves state-of-the-art performance on multiple datasets, achieving an mAP of 95.2%(+1.1%) on AVA-ActiveSpeaker, 68.1%(+22%) on Columbia dataset, 97.2%(+2.8%) on Talkies dataset and 59.7%(+8.0%) on Ego4D dataset. Moreover, in challenging cases where multiple speakers are present, or face of active speaker is much smaller than other faces in the same scene, LoCoNet outperforms previous state-of-the-art methods by 3.4% on the AVA-ActiveSpeaker dataset. The code will be released at https://github.com/SJTUwxz/LoCoNet_ASD.
翻訳日:2023-01-20 14:14:01 公開日:2023-01-19
# リカレントネットワークを用いた高次元アメリカンオプションの効率的な価格設定とヘッジ

Efficient Pricing and Hedging of High Dimensional American Options Using Recurrent Networks ( http://arxiv.org/abs/2301.08232v1 )

ライセンス: Link先を確認
Andrew Na and Justin Wan(参考訳) 本稿では,高次元の米国オプションの価格とデルタを計算するためのディープリカレントニューラルネットワーク(RNN)フレームワークを提案する。 提案フレームワークは2つのディープRNNを用いており、1つのネットワークが価格を、もう1つのネットワークが時間ステップ毎にオプションのデルタを学習する。 提案した枠組みは、与えられた点(例えば t = 0 など)に限らず、時空全体の価格とデルタをもたらす。 提案手法の計算コストは時間的に線形であり、アメリカのオプションの価格を下げるフィードフォワードネットワークで見られる二次時間によって改善される。 本手法の計算メモリコストはメモリ内で一定であり,feedforwardネットワークで見られる線形メモリコストよりも改善されている。 我々の数値シミュレーションは、これらの貢献を実証し、提案したディープRNNフレームワークが、時間とメモリにおける従来のフィードフォワードニューラルネットワークフレームワークよりも計算効率が高いことを示す。

We propose a deep Recurrent neural network (RNN) framework for computing prices and deltas of American options in high dimensions. Our proposed framework uses two deep RNNs, where one network learns the price and the other learns the delta of the option for each timestep. Our proposed framework yields prices and deltas for the entire spacetime, not only at a given point (e.g. t = 0). The computational cost of the proposed approach is linear in time, which improves on the quadratic time seen for feedforward networks that price American options. The computational memory cost of our method is constant in memory, which is an improvement over the linear memory costs seen in feedforward networks. Our numerical simulations demonstrate these contributions, and show that the proposed deep RNN framework is computationally more efficient than traditional feedforward neural network frameworks in time and memory.
翻訳日:2023-01-20 14:13:26 公開日:2023-01-19
# 介入によるスコアベース因果表現学習

Score-based Causal Representation Learning with Interventions ( http://arxiv.org/abs/2301.08230v1 )

ライセンス: Link先を確認
Burak Varici, Emre Acarturk, Karthikeyan Shanmugam, Abhishek Kumar, Ali Tajer(参考訳) 本稿では,未知の線形変換によって潜在因果変数が間接的に観測される場合の因果表現学習問題について述べる。 目的は以下の通り。 (i)未知の線形変換(スケーリングや順序付けまで)を回収すること、及び (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定する。 観察データのみに基づいて識別可能な表現学習は不可能であるため,観察データと介入データの両方を用いる。 介入データは、異なる単一ノードランダム化ハードおよびソフトな介入の下で生成される。 これらの介入は潜在空間内の全てのノードをカバーすると仮定される。 潜伏dag構造は,以下の2ステップを通じてソフトランダムな介入により回復できることがわかった。 まず、変換候補の集合は、変換変数の \emph{score} 関数がすべての対で総和される介入環境と観測環境の間で変化する最小の座標数を持つすべての反転変換を含むことによって構成される。 その後、このセットを簡単な制約で蒸留し、潜伏DAG構造を復元する。 厳密なランダム化介入の特別な場合、追加の仮説テストステップにより、線形変換、スケーリング、有効な因果順序まで、一意に回復することができる。 これらの結果は、決定論的ハード介入または潜在空間における線形因果関係を仮定する最近の結果を一般化する。

This paper studies causal representation learning problem when the latent causal variables are observed indirectly through an unknown linear transformation. The objectives are: (i) recovering the unknown linear transformation (up to scaling and ordering), and (ii) determining the directed acyclic graph (DAG) underlying the latent variables. Since identifiable representation learning is impossible based on only observational data, this paper uses both observational and interventional data. The interventional data is generated under distinct single-node randomized hard and soft interventions. These interventions are assumed to cover all nodes in the latent space. It is established that the latent DAG structure can be recovered under soft randomized interventions via the following two steps. First, a set of transformation candidates is formed by including all inverting transformations corresponding to which the \emph{score} function of the transformed variables has the minimal number of coordinates that change between an interventional and the observational environment summed over all pairs. Subsequently, this set is distilled using a simple constraint to recover the latent DAG structure. For the special case of hard randomized interventions, with an additional hypothesis testing step, one can also uniquely recover the linear transformation, up to scaling and a valid causal ordering. These results generalize the recent results that either assume deterministic hard interventions or linear causal relationships in the latent space.
翻訳日:2023-01-20 14:13:09 公開日:2023-01-19
# 顔からの残存寿命の推定

Estimating Remaining Lifespan from the Face ( http://arxiv.org/abs/2301.08229v1 )

ライセンス: Link先を確認
Amir Fekrazad(参考訳) 顔は、人の生物学的年齢、性別、表現型、遺伝的欠陥、健康状態を推測するのに使用できる豊富な情報源である。 これらの要因はすべて、個人の残りの寿命を予測するのに関係している。 本研究では,自然死した人物の24,000枚以上の画像(wikidata/wikipediaより)のデータセットを収集し,その画像の撮影から死亡までの年数について検討した。 このデータセットを公開しました。 我々は、このデータに基づいて複数の畳み込みニューラルネットワーク(CNN)モデルを微調整し、VGGFaceを用いた検証データの平均絶対誤差を8.3年間達成した。 しかし、モデルの性能は、画像の時点で人物が若いときに低下する。 残余寿命モデルの適用可能性を示すために、新型コロナウイルスのパンデミックによる平均寿命(年数)の推定や、体重減少などの健康介入による寿命の上昇を予測するためにこれを用いた例を示す。 さらに、そのようなモデルに関連する倫理的考察についても論じる。

The face is a rich source of information that can be utilized to infer a person's biological age, sex, phenotype, genetic defects, and health status. All of these factors are relevant for predicting an individual's remaining lifespan. In this study, we collected a dataset of over 24,000 images (from Wikidata/Wikipedia) of individuals who died of natural causes, along with the number of years between when the image was taken and when the person passed away. We made this dataset publicly available. We fine-tuned multiple Convolutional Neural Network (CNN) models on this data, at best achieving a mean absolute error of 8.3 years in the validation data using VGGFace. However, the model's performance diminishes when the person was younger at the time of the image. To demonstrate the potential applications of our remaining lifespan model, we present examples of using it to estimate the average loss of life (in years) due to the COVID-19 pandemic and to predict the increase in life expectancy that might result from a health intervention such as weight loss. Additionally, we discuss the ethical considerations associated with such models.
翻訳日:2023-01-20 14:12:46 公開日:2023-01-19
# 構造状態空間モデルを用いた拡散型条件付きECG生成

Diffusion-based Conditional ECG Generation with Structured State Space Models ( http://arxiv.org/abs/2301.08227v1 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz and Nils Strodthoff(参考訳) 合成データ生成は、機密性のある健康データの配布に関するプライバシー問題に対処するための有望なソリューションである。 近年、拡散モデルは異なるデータモダリティのための生成モデルの新しい標準を定めている。 また、非常に最近、構造化状態空間モデルが、時系列における長期的な依存関係を捉える強力なモデリングパラダイムとして登場した。 我々は,SSSD-ECGとこれら2つの技術を組み合わせて,70以上の心電図を条件とした合成12誘導心電図を作成した。 また, 信頼性の高いベースラインの欠如により, 2つの無条件生成モデルの条件付き変種を提案する。 ssd-ecgがganベースの競合相手を明らかに上回る合成データのみを訓練した分類器の性能を評価することにより,生成したサンプルの品質を徹底的に評価する。 本研究では,SSSD-ECG試料の品質を幅広い条件で検証し,条件付きクラス補間と臨床チューリング試験を含むさらなる実験により,アプローチの健全性を示す。

Synthetic data generation is a promising solution to address privacy issues with the distribution of sensitive health data. Recently, diffusion models have set new standards for generative models for different data modalities. Also very recently, structured state space models emerged as a powerful modeling paradigm to capture long-term dependencies in time series. We put forward SSSD-ECG, as the combination of these two technologies, for the generation of synthetic 12-lead electrocardiograms conditioned on more than 70 ECG statements. Due to a lack of reliable baselines, we also propose conditional variants of two state-of-the-art unconditional generative models. We thoroughly evaluate the quality of the generated samples, by evaluating pretrained classifiers on the generated data and by evaluating the performance of a classifier trained only on synthetic data, where SSSD-ECG clearly outperforms its GAN-based competitors. We demonstrate the soundness of our approach through further experiments, including conditional class interpolation and a clinical Turing test demonstrating the high quality of the SSSD-ECG samples across a wide range of conditions.
翻訳日:2023-01-20 14:12:27 公開日:2023-01-19
# 量子コンピュータ上での体傷の量子化

Preparing quantum-many body scars on a quantum computer ( http://arxiv.org/abs/2301.08226v1 )

ライセンス: Link先を確認
Erik J. Gustafson, Andy C. Y. Li, Abid Kahn, Joonho Kim, Doga Murat Kurkcuoglu, M. Sohaib Alam, Peter P. Orth, Armin Rahmani, Thomas Iadecola(参考訳) 量子多体スカー状態は多体系の非常に励起された固有状態であり、同じエネルギー密度の典型的な固有状態と比較して非定型的な絡み合いと相関性を示す。 スカー状態はまた、システムがそれらと有限重なり合う特別な初期状態に準備されるとき、無限に長寿命のコヒーレントダイナミクスを引き起こす。 正確な傷跡状態を持つ多くのモデルが構築されているが、これらのモデルが摂動している際の傷跡固有状態と力学の運命は、古典的な計算手法で研究することは困難である。 本研究では,量子コンピュータを用いてこの問題を研究するための状態準備プロトコルを提案する。 特定のモデルにおける個々の傷痕状態のプロトコルと、コヒーレントなダイナミクスをもたらすそれらの重ね合わせについて述べる。 スカー状態の重畳には, システムサイズ線形深度ユニタリと有限深さ非単項状態準備プロトコルの両方が提案され, 後者は測定とポストセレクションを用いて回路深度を低減している。 個々のスカーレッド固有状態に対して、準ポリリノミアル深度回路を出力する行列積状態と多項式深度アンサッツ回路による変分アプローチに基づいて正確な状態準備アプローチを定式化する。 また、超伝導量子ハードウェアにおける原理状態準備デモも提供する。

Quantum many-body scar states are highly excited eigenstates of many-body systems that exhibit atypical entanglement and correlation properties relative to typical eigenstates at the same energy density. Scar states also give rise to infinitely long-lived coherent dynamics when the system is prepared in a special initial state having finite overlap with them. Many models with exact scar states have been constructed, but the fate of scarred eigenstates and dynamics when these models are perturbed is difficult to study with classical computational techniques. In this work, we propose state preparation protocols that enable the use of quantum computers to study this question. We present protocols both for individual scar states in a particular model, as well as superpositions of them that give rise to coherent dynamics. For superpositions of scar states, we present both a system-size-linear depth unitary and a finite-depth nonunitary state preparation protocol, the latter of which uses measurement and postselection to reduce the circuit depth. For individual scarred eigenstates, we formulate an exact state preparation approach based on matrix product states that yields quasipolynomial-depth circuits, as well as a variational approach with a polynomial-depth ansatz circuit. We also provide proof of principle state-preparation demonstrations on superconducting quantum hardware.
翻訳日:2023-01-20 14:12:11 公開日:2023-01-19
# 予後説明のためのMN-Pairコントラスト損傷表現とクラスタリング

MN-Pair Contrastive Damage Representation and Clustering for Prognostic Explanation ( http://arxiv.org/abs/2301.06077v2 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Junichiro Fujii(参考訳) インフラストラクチャマネージャは、日々の運用においてユーザの満足度を確保するために、高い標準を維持することが不可欠である。 監視カメラとドローンの検査は、損傷した特徴の検査を自動化し、劣化の健康状態を評価するための進歩をもたらした。 一対の生画像と損傷クラスラベルを作成すると、事前定義された損傷度、変位に向けて教師あり学習を訓練することができる。 しかし、そのような損傷表現は、予め定義された損傷グレードのクラスと常に一致しないため、2つの損傷グレード間の重なり合う空間から、目に見えない損傷空間やより複雑なクラスターからの詳細なクラスターが存在する可能性がある。 ダメージ表現は基本的に複雑な特徴を持つため、すべてのダメージクラスを完全に事前に定義することはできない。 提案手法は,より詳細なクラスタを含む事前定義されたクラスを超えて,埋め込み損傷表現を探索することを可能にする。 アンカーに近いM-1陽性画像の類似性を最大化し、同時にN-1負画像の相似性を最大化し、両方の重み付け損失関数を使用する。 1つの正のイメージを使うのではなく、Nペアアルゴリズムよりも高速に学習している。 本研究では,損傷表現を学習し,密度に基づく2次元縮小空間のクラスタリングを用いてクラスタ識別を自動化するパイプラインを提案する。 また,MN対損傷距離学習におけるGrad-CAMを用いた損傷特徴の可視化を行った。 本手法は, 鋼製品欠陥, デッキおよび舗装のコンクリートひび割れ, 下水道管欠陥の3つの実験で実証し, その効果について述べ, 今後の課題について考察する。

It is essential for infrastructure managers to maintain a high standard to ensure user satisfaction during daily operations. Surveillance cameras and drone inspections have enabled progress toward automating the inspection of damaged features and assessing the health condition of the deterioration. When we prepare a pair of raw images and damage class labels, we can train supervised learning toward the predefined damage grade, displacement. However, such a damage representation does not constantly match the predefined classes of damage grade, hence, there may be some detailed clusters from the unseen damage space or more complex clusters from overlapped space between two damage grades. The damage representation has fundamentally complex features, consequently, all the damage classes could not be perfectly predefined. Our proposed MN-pair contrastive learning method enables us to explore the embedding damage representation beyond the predefined classes including more detailed clusters. It maximizes the similarity of M-1 positive images close to the anchor, and simultaneously maximize the dissimilarity of N-1 negative ones, using both weighting loss functions. It has been learning faster than the N-pair algorithm, instead of using one positive image. We propose a pipeline to learn damage representation and use density-based clustering on the 2-D reduction space to automate finer cluster discrimination. We also visualize the explanation of the damage feature using Grad-CAM for MN-pair damage metric learning. We demonstrate our method in three experimental studies: steel product defect, concrete crack of deck and pavement, and sewer pipe defect and mention its effectiveness and discuss potential future works.
翻訳日:2023-01-20 11:36:48 公開日:2023-01-19
# ジャイネス・カミングス模型は、キャビティがエミッターの自由空間放出率を著しく減少させると崩壊する

The Jaynes-Cummings model breaks down when the cavity significantly reduces the emitter's free-space emission rate ( http://arxiv.org/abs/2301.07674v2 )

ライセンス: Link先を確認
Martin Blaha, Arno Rauschenbeutel and J\"urgen Volz(参考訳) 単一共振器モードと単一量子エミッタの強い結合は、量子科学と技術における多くの実験と応用の鍵であり、一般にjaynes-cummingsモデルによって記述される。 ここでは、キャビティがエミッタの放出速度を自由空間に大きく変化しない場合にのみ、Jaynes-Cummingsモデルが適用されることを示す。 特に、自由空間減衰チャネルを持たない理想的なエミッタ共振器系に近づくと、Jaynes-Cummingsモデルによる予測はますます間違っている。 我々は、回転波近似の有効範囲内で、すべての規則に適用される正しい理論的記述を提供するハミルトニアンを提案する。 したがって、自由空間モードへの結合を最小化することは多くのキャビティベースのアプリケーションにとって最重要であり、量子プロトコルの開発と最適化には強い光・物質相互作用の正確な記述が不可欠である。

Strong coupling between a single resonator mode and a single quantum emitter is key to a plethora of experiments and applications in quantum science and technology and is commonly described by means of the Jaynes-Cummings model. Here, we show that the Jaynes-Cummings model only applies when the cavity does not significantly change the emitter's emission rate into free-space. Most notably, the predictions made by the Jaynes-Cummings model become increasingly wrong when approaching the ideal emitter-resonator systems with no free-space decay channels. We present a Hamiltonian that provides, within the validity range of the rotating wave approximation, a correct theoretical description that applies to all regimes. As minimizing the coupling to free-space modes is paramount for many cavity-based applications, a correct description of strong light-matter interaction is therefore crucial for developing and optimizing quantum protocols.
翻訳日:2023-01-20 11:26:44 公開日:2023-01-19
# ベクトルメタバースにおけるAIを活用した効果的な物理仮想シンクロナイゼーション

Generative AI-empowered Effective Physical-Virtual Synchronization in the Vehicular Metaverse ( http://arxiv.org/abs/2301.07636v2 )

ライセンス: Link先を確認
Minrui Xu, Dusit Niyato, Hongliang Zhang, Jiawen Kang, Zehui Xiong, Shiwen Mao, and Zhu Han(参考訳) Metaverseはユビキタス通信とコンピューティングのインフラを通じて物理世界と仮想空間をシームレスにブレンドする。 輸送システムでは、車載メタバースは完全没入型で超現実的な走行体験(例えば、拡張現実ヘッドアップディスプレイ、AR-HUD)を、道路側ユニット(RSU)を介してドライバーや自動運転車(AV)のユーザーに提供することができる。 しかし、リアルタイムおよび没入型サービスのプロビジョニングは、物理的なエンティティと仮想エンティティ、すなわちAVとMetaverse ARレコメンダ(MAR)間の効果的な物理仮想同期を必要とする。 本稿では,車載メタバースのための生成AIを用いた物理仮想同期フレームワークを提案する。 物理-仮想同期では、AVが生成するデジタルツイン(DT)タスクは、将来のルート生成と共にRSUで実行するためにオフロードされる。 仮想と物理の同期において、MARはユーザの好みに基づいた生成AIモデルを通じて、多様で個人的なARレコメンデーションをカスタマイズする。 さらに,リアルタイムかつ効果的なサービス提供のために,マルチタスクによるAVとMARのマッチングと価格設定を行う方式を提案する。 最後に, 特性分析と実験により, 提案するメカニズムは, 50%の社会的余剰を増加させる一方で, 戦略的防御および悪選好自由であることが判明した。

Metaverse seamlessly blends the physical world and virtual space via ubiquitous communication and computing infrastructure. In transportation systems, the vehicular Metaverse can provide a fully-immersive and hyperreal traveling experience (e.g., via augmented reality head-up displays, AR-HUDs) to drivers and users in autonomous vehicles (AVs) via roadside units (RSUs). However, provisioning real-time and immersive services necessitates effective physical-virtual synchronization between physical and virtual entities, i.e., AVs and Metaverse AR recommenders (MARs). In this paper, we propose a generative AI-empowered physical-virtual synchronization framework for the vehicular Metaverse. In physical-to-virtual synchronization, digital twin (DT) tasks generated by AVs are offloaded for execution in RSU with future route generation. In virtual-to-physical synchronization, MARs customize diverse and personal AR recommendations via generative AI models based on user preferences. Furthermore, we propose a multi-task enhanced auction-based mechanism to match and price AVs and MARs for RSUs to provision real-time and effective services. Finally, property analysis and experimental results demonstrate that the proposed mechanism is strategy-proof and adverse-selection free while increasing social surplus by 50%.
翻訳日:2023-01-20 11:26:25 公開日:2023-01-19
# ケミカルシステムの効率的な量子シミュレーションのための量子ニューラルネットワークによるハードウェア適応型アンサッツ

Quantum Neural Network Inspired Hardware Adaptable Ansatz for Efficient Quantum Simulation of Chemical Systems ( http://arxiv.org/abs/2301.07542v2 )

ライセンス: Link先を確認
Xiongzhi Zeng, Yi Fan, Jie Liu, Zhenyu Li, Jinlong Yang(参考訳) 変分量子固有ソルバは、ノイズの多い中間スケール量子 (nisq) コンピュータ上でschr\"odinger方程式を解く有望な方法であるが、その成功はよく設計された波動関数 ansatz に依存している。 物理的に動機付けられたアンサーゼと比較すると、ハードウェアヒューリスティックアンサーゼは、通常より浅い回路につながるが、NISQデバイスでは深すぎる。 量子ニューラルネットワークにインスパイアされた新しいハードウェアヒューリスティックアンサッツを提案し,現在利用可能な量子コンピュータ上で20以上の原子を持つ化学反応を現実的にシミュレーションするアンシラ量子ビットを導入することにより,回路深さを著しく低減する。 より重要なことに、この新しいansatzの表現性は、回路の深さまたは幅を増加させることで改善することができ、異なるハードウェア環境に適応できる。 これらの結果は、NISQ時代の量子計算の実用的な応用を開発するための新しい道を開いた。

The variational quantum eigensolver is a promising way to solve the Schr\"odinger equation on a noisy intermediate-scale quantum (NISQ) computer, while its success relies on a well-designed wavefunction ansatz. Compared to physically motivated ansatzes, hardware heuristic ansatzes usually lead to a shallower circuit, but it may still be too deep for an NISQ device. Inspired by the quantum neural network, we propose a new hardware heuristic ansatz where the circuit depth can be significantly reduced by introducing ancilla qubits, which makes a practical simulation of a chemical reaction with more than 20 atoms feasible on a currently available quantum computer. More importantly, the expressibility of this new ansatz can be improved by increasing either the depth or the width of the circuit, which makes it adaptable to different hardware environments. These results open a new avenue to develop practical applications of quantum computation in the NISQ era.
翻訳日:2023-01-20 11:26:00 公開日:2023-01-19
# ReFresh: グラフニューラルネットワークトレーニングのための安定な履歴埋め込みからのメモリアクセス削減

ReFresh: Reducing Memory Access from Exploiting Stable Historical Embeddings for Graph Neural Network Training ( http://arxiv.org/abs/2301.07482v2 )

ライセンス: Link先を確認
Kezhao Huang, Haitian Jiang, Minjie Wang, Guangxuan Xiao, David Wipf, Xiang Song, Quan Gan, Zengfeng Huang, Jidong Zhai, Zheng Zhang(参考訳) 大きな実世界のグラフ上でグラフニューラルネットワーク(GNN)モデルをトレーニングする際の重要なパフォーマンスボトルネックは、ノード機能をGPUにロードすることだ。 gpuメモリが限られているため、アクセスが遅い代替デバイス(cpuメモリなど)でこれらの機能のストレージを容易にするには、高価なデータ移動が必要である。 さらに、グラフ構造の不規則性は、その問題をさらに悪化させるデータ局所性に寄与する。 したがって、大規模なGNNモデルを効率的に訓練できる既存のフレームワークは、通常、避けられないショートカットのため、かなりの精度の劣化を引き起こす。 これらの制限に対処するため、我々は、GNNノードの埋め込みを保存・再利用するための履歴キャッシュを活用する汎用的なGNNミニバッチトレーニングフレームワークであるReFreshを提案する。 その成功のために、対応するキャッシュポリシーは、相対的に安定でキャッシュ可能な埋め込みを、見積もりエラーとその後の下流精度の損失を減らすために再計算する必要があるものから選択的にスクリーニングするために、勾配ベースと停滞基準を組み合わせて設計されている。 この選択された履歴キャッシュをサポートするための補完的なシステム拡張と組み合わせることで、ReFreshはogbn-papers100MやMAG240Mといったグラフデータセットのトレーニング速度を4.6倍から23.6倍に高速化し、メモリアクセスを64.5%(生のフィーチャーキャッシュよりも85.7%高い)削減し、1%未満の精度でテストできる。

A key performance bottleneck when training graph neural network (GNN) models on large, real-world graphs is loading node features onto a GPU. Due to limited GPU memory, expensive data movement is necessary to facilitate the storage of these features on alternative devices with slower access (e.g. CPU memory). Moreover, the irregularity of graph structures contributes to poor data locality which further exacerbates the problem. Consequently, existing frameworks capable of efficiently training large GNN models usually incur a significant accuracy degradation because of the inevitable shortcuts involved. To address these limitations, we instead propose ReFresh, a general-purpose GNN mini-batch training framework that leverages a historical cache for storing and reusing GNN node embeddings instead of re-computing them through fetching raw features at every iteration. Critical to its success, the corresponding cache policy is designed, using a combination of gradient-based and staleness criteria, to selectively screen those embeddings which are relatively stable and can be cached, from those that need to be re-computed to reduce estimation errors and subsequent downstream accuracy loss. When paired with complementary system enhancements to support this selective historical cache, ReFresh is able to accelerate the training speed on large graph datasets such as ogbn-papers100M and MAG240M by 4.6x up to 23.6x and reduce the memory access by 64.5% (85.7% higher than a raw feature cache), with less than 1% influence on test accuracy.
翻訳日:2023-01-20 11:25:41 公開日:2023-01-19
# 量子コンピュータ上のスレーター行列式と相関状態の効率的な調製のための浅量子回路

Shallow quantum circuits for efficient preparation of Slater determinants and correlated states on a quantum computer ( http://arxiv.org/abs/2301.07477v2 )

ライセンス: Link先を確認
Chong Hian Chee, Daniel Leykam, Adrian M. Mak, Dimitris G. Angelakis(参考訳) 量子アンサーゼの調製は、変分量子固有解法のような多くの量子化学において必要不可欠である。 スレーター行列式やユニタリ結合型クラスターを含む広く使われているアンサットは、パラメータ化されたフェルミイオン励起ゲートを採用しており、後者はシステムサイズ$n$で少なくとも多項式スケールの深い量子回路となる。 本稿では,量子機械学習のために開発されたデータローディング回路法に触発されたフェルミオンアンサッツ状態生成のための代替パラダイムを提案する。 提案手法は,d$-fermion slater 行列式と相関状態の,より浅くスケーラブルでスケーラブルな$o(d\log^2 n)$ 2-qubit ゲート深さ合成を提供する。 これは、キュービットスワップオーバーヘッドなしに平面アーキテクチャ上で実装できるため、短期量子デバイスにおける高精度量子化学研究に必要なより大きな基底セットの使用を可能にするため、特に重要である。

Preparing quantum ansatzes is a necessary prerequisite in many quantum algorithms for quantum chemistry such as the variational quantum eigensolver. Widely-used ansatzes including the Slater determinants and Unitary Coupled Cluster, employ parameterized fermionic excitation gates, with the latter resulting in deep quantum circuits that scale at least polynomially with the system size $N$. Here we propose an alternate paradigm for fermionic ansatz state preparation inspired by data-loading circuits methods developed for quantum machine learning. Our approach provides a shallower, yet scalable $O(d\log^2 N)$ two-qubit gate depth preparation of $d$-fermion Slater determinants and correlated states, a subexponential improvement in gate depth over existing approaches. This is particularly important as it can be implemented on planar architectures without qubit swapping overheads, thereby enabling the use of larger basis sets needed for high-precision quantum chemistry studies on near-term quantum devices.
翻訳日:2023-01-20 11:25:14 公開日:2023-01-19
# 機械学習に基づくシステムの脅威,脆弱性,制御:調査と分類

Threats, Vulnerabilities, and Controls of Machine Learning Based Systems: A Survey and Taxonomy ( http://arxiv.org/abs/2301.07474v2 )

ライセンス: Link先を確認
Yusuke Kawamoto and Kazumasa Miyake and Koichi Konishi and Yutaka Oiwa(参考訳) 本稿では,機械学習システム(MLベース)の脅威,脆弱性,セキュリティ制御の知識を体系化する人工知能セキュリティ分類を提案する。 まず、MLベースのシステムに対する攻撃による被害を分類し、ML固有のセキュリティを定義し、その特性について議論する。 次に、関連するすべての資産と利害関係者を列挙し、ML固有の脅威に対する一般的な分類法を提供する。 そして、最近の文献の広範なレビューを通じて、ML固有の脅威に対する幅広いセキュリティ制御を収集する。 最後に、MLベースのシステムの脆弱性とコントロールを、システムのライフサイクル全体における各脆弱な資産の観点から分類する。

In this article, we propose the Artificial Intelligence Security Taxonomy to systematize the knowledge of threats, vulnerabilities, and security controls of machine-learning-based (ML-based) systems. We first classify the damage caused by attacks against ML-based systems, define ML-specific security, and discuss its characteristics. Next, we enumerate all relevant assets and stakeholders and provide a general taxonomy for ML-specific threats. Then, we collect a wide range of security controls against ML-specific threats through an extensive review of recent literature. Finally, we classify the vulnerabilities and controls of an ML-based system in terms of each vulnerable asset in the system's entire lifecycle.
翻訳日:2023-01-20 11:24:53 公開日:2023-01-19
# グローバル多相推定のためのプロトコル

A protocol for global multiphase estimation ( http://arxiv.org/abs/2301.07380v2 )

ライセンス: Link先を確認
Giovanni Chesi, Roberto Rubboli, Alberto Riccardi, Lorenzo Maccone and Chiara Macchiavello(参考訳) グローバルな推定戦略は、事前の知識を使わずに相や相の集合に関する情報を抽出し、代わりに局所的な推定戦略に必要となる。 我々は、ホールボ推定理論に基づく大域的多相プロトコルを考案し、デジタル推定の場合、すなわち、それらと対応する推定子の間の相互情報の観点から位相を推定することに適用する。 単一相のシナリオでは、プロトコルは2つの特定の既知の最適戦略を含んでいる。 2つの位相の同時推定に拡張し,その性能評価を行った。 そして、位相の一般数を同時に推定するときに、精度で最終的なデジタルバウンドを求める。 多相戦略では、独立な単相推定の列に関して一定の量子長所しか存在しないことを示す。 これは近年の類似の結果を拡張し、多相増強の探索に関する論争が解決した。

Global estimation strategies allow to extract information on a phase or a set of phases without any prior knowledge, which is, instead, required for local estimation strategies. We devise a global multiphase protocol based on Holevo's estimation theory and apply it to the case of digital estimation, i.e. we estimate the phases in terms of the mutual information between them and the corresponding estimators. In the single-phase scenario, the protocol encompasses two specific known optimal strategies. We extend them to the simultaneous estimation of two phases and evaluate their performance. Then, we retrieve the ultimate digital bound on precision when a generic number of phases is simultaneously estimated. We show that in the multiphase strategy there is only a constant quantum advantage with respect to a sequence of independent single-phase estimations. This extends a recent similar result, which settled a controversy on the search for the multiphase enhancement.
翻訳日:2023-01-20 11:24:45 公開日:2023-01-19
# デジタル双生児の因果偽造

Causal Falsification of Digital Twins ( http://arxiv.org/abs/2301.07210v2 )

ライセンス: Link先を確認
Rob Cornish, Muhammad Faaiz Taufiq, Arnaud Doucet, Chris Holmes(参考訳) デジタル双生児は多くのアプリケーションで大きな可能性を秘めているが、その正確性を評価する厳格な手順は、安全クリティカルな環境での展開に不可欠である。 因果推論の枠組みの中でこのタスクを定式化することにより、実世界の観測データを用いて双子が「正しい」ことを証明できないことを示す。 これらの仮定を避けるために、双子が正しくないケースを見つけることを目的とした評価戦略を提案し、多種多様なアプリケーションや双子モデルにまたがって使用されるようにするための汎用統計手法を提案する。 このアプローチは、実世界の観測のi.i.d.データセットのみを仮定して、双生児について信頼できる、かつ実行可能な情報を導き出す。 ICU患者のMIMIC-IIIデータセットを用いて,Pulse Physiology Engine内のセシスモデリングを含む大規模ケーススタディにより,本手法の有効性を実証した。

Digital twins hold substantial promise in many applications, but rigorous procedures for assessing their accuracy are essential for their widespread deployment in safety-critical settings. By formulating this task within the framework of causal inference, we show it is not possible to certify that a twin is "correct" using real-world observational data unless potentially tenuous assumptions are made about the data-generating process. To avoid these assumptions, we propose an assessment strategy that instead aims to find cases where the twin is not correct, and present a general-purpose statistical procedure for doing so that may be used across a wide variety of applications and twin models. Our approach yields reliable and actionable information about the twin under only the assumption of an i.i.d. dataset of real-world observations, and in particular remains sound even in the presence of arbitrary unmeasured confounding. We demonstrate the effectiveness of our methodology via a large-scale case study involving sepsis modelling within the Pulse Physiology Engine, which we assess using the MIMIC-III dataset of ICU patients.
翻訳日:2023-01-20 11:24:34 公開日:2023-01-19
# スポーツによるスケーラブルなビデオ理解ベンチマークの構築

Building Scalable Video Understanding Benchmarks through Sports ( http://arxiv.org/abs/2301.06866v2 )

ライセンス: Link先を確認
Aniket Agarwal, Alex Zhang, Karthik Narasimhan, Igor Gilitschenski, Vishvak Murahari, Yash Kant(参考訳) 長いビデオ理解を評価するための既存のベンチマークは、スケールやアノテーションの品質の欠如など、複数の面で不足している。 これらの制限は、長いビデオ(アクションや対話など)に密接な注釈を付けることの難しさから生じており、毎秒に多くのフレームを手作業でラベル付けすることで得られることが多い。 本稿では,自動アノテーションとビデオストリームアライメントパイプライン(ASAP)を紹介する。 我々は,4つのスポーツ(クリケット,サッカー,バスケットボール,アメリカンフットボール)のラベル付きビデオと対応する濃密アノテーション(注釈)をウェブ上で自由に利用できるようにすることで,ASAPの一般性を実証する。 人間の研究では、ASAPがビデオやアノテーションを高い忠実度、精度、スピードで調整できることが示されています。 そして、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成し、1000時間以上の高精細な注釈付きCricketビデオ(平均サンプル長50分)を、ほぼゼロのアノテーションコストで収集します。 我々は,LCric 上の最新の映像理解モデルについて,大規模な合成多重選択クエリと回帰クエリを用いてベンチマークおよび解析を行った。 我々は、新たな研究の余地を示す人間のベースラインを確立する。 asapとベースラインのコードとともにデータセットは、ここでアクセスすることができる。

Existing benchmarks for evaluating long video understanding falls short on multiple aspects, either lacking in scale or quality of annotations. These limitations arise from the difficulty in collecting dense annotations for long videos (e.g. actions, dialogues, etc.), which are often obtained by manually labeling many frames per second. In this work, we introduce an automated Annotation and Video Stream Alignment Pipeline (abbreviated ASAP). We demonstrate the generality of ASAP by aligning unlabeled videos of four different sports (Cricket, Football, Basketball, and American Football) with their corresponding dense annotations (i.e. commentary) freely available on the web. Our human studies indicate that ASAP can align videos and annotations with high fidelity, precision, and speed. We then leverage ASAP scalability to create LCric, a large-scale long video understanding benchmark, with over 1000 hours of densely annotated long Cricket videos (with an average sample length of 50 mins) collected at virtually zero annotation cost. We benchmark and analyze state-of-the-art video understanding models on LCric through a large set of compositional multi-choice and regression queries. We establish a human baseline that indicates significant room for new research to explore. The dataset along with the code for ASAP and baselines can be accessed here: https://asap-benchmark.github.io/.
翻訳日:2023-01-20 11:24:14 公開日:2023-01-19
# 光管による高帯域近距離情報伝送

High-bandwidth Close-Range Information Transport through Light Pipes ( http://arxiv.org/abs/2301.06496v2 )

ライセンス: Link先を確認
Joowon Lim, Jannes Gladrow, Douglas Kelly, Greg O'Shea, Govert Verkes, Ioan Stefanovici, Sebastian Nowozin, and Benn Thomsen(参考訳) マルチモードファイバによる伝播後の画像検索は,光を包み込み,コンパクトなシステムで効率的に移動する能力から注目されている。 本稿では,最大エントロピー(データ)画像を送信し,サブメーター距離を超越した情報伝送を最大化するための一般的な情報理論フレームワークを提案する。 この目的のために、ミリサイズの正方形導波路を用いて、メガピクセル8ビット空間光変調器を撮像する。 したがって、データは8ビット値(シンボル)の2次元配列として表現される。 100000のシンボルを送信するには、トランスミッションマトリクスアプローチ以上のイノベーションが必要である。 ディープニューラルネットワークは、最近画像の検索に利用されているが、小さな(シンボルの数)と自然な(エントロピーの低い)画像に限られている。 帯域最適化ホモダイン検出器と実験装置のディジタル双対とu-netからなる可微分ハイブリッドニューラルネットワークを組み合わせることで情報伝達を最大化する。 デジタル双生児の場合、異なるモードベースの双生児と異なる線ベースの双生児を実装、比較する。 重要なことに、後者はトレーニング中に製造関連設定の不完全さに適応できる。 我々のパイプラインは、相互情報推定器に基づいて達成可能な情報ページサイズを最大化しながら、デジタル入力画像の復元のためにエンドツーエンドで訓練されている。 平均記号あたり1.7ビットの最大66kBの検索を0.3 - 3.4ビットの範囲で示す。

Image retrieval after propagation through multi-mode fibers is gaining attention due to their capacity to confine light and efficiently transport it over distances in a compact system. Here, we propose a generally applicable information-theoretic framework to transmit maximal-entropy (data) images and maximize the information transmission over sub-meter distances, a crucial capability that allows optical storage applications to scale and address different parts of storage media. To this end, we use millimeter-sized square optical waveguides to image a megapixel 8-bit spatial-light modulator. Data is thus represented as a 2D array of 8-bit values (symbols). Transmitting 100000s of symbols requires innovation beyond transmission matrix approaches. Deep neural networks have been recently utilized to retrieve images, but have been limited to small (thousands of symbols) and natural looking (low entropy) images. We maximize information transmission by combining a bandwidth-optimized homodyne detector with a differentiable hybrid neural-network consisting of a digital twin of the experiment setup and a U-Net. For the digital twin, we implement and compare a differentiable mode-based twin with a differentiable ray-based twin. Importantly, the latter can adapt to manufacturing-related setup imperfections during training which we show to be crucial. Our pipeline is trained end-to-end to recover digital input images while maximizing the achievable information page size based on a differentiable mutual-information estimator. We demonstrate retrieval of 66 kB at maximum with 1.7 bit per symbol on average with a range of 0.3 - 3.4 bit.
翻訳日:2023-01-20 11:23:55 公開日:2023-01-19