このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230111となっている論文です。

PDF登録状況(公開日: 20230111)

TitleAuthorsAbstract論文公表日・翻訳日
# ユニタリ演算による量子状態移動におけるデコヒーレンス抑制

Suppressing decoherence in quantum state transfer with unitary operations ( http://arxiv.org/abs/2208.04926v3 )

ライセンス: Link先を確認
Maxim A. Gavreev, Evgeniy O. Kiktenko, Alena S. Mastiukova, Aleksey K. Fedorov(参考訳) デコヒーレンスは、量子情報処理装置の性能を制限する基本的な障害である。 量子状態(未知または未知)をある場所から別の場所に伝達する問題は、この文脈において非常に興味深い。 この研究では最近の理論的提案に従えばよい. Eng! bf 59}, 061625 (2020)] では、与えられた(マルチキュービット)量子状態から全てのキュービットに作用するデコヒーレンスの効果を保護できる量子状態依存前処理および後処理ユニタリ演算の応用について検討した。 我々は、全てのユニタリが完全である量子エミュレーション実験と、ユニタリ自体がノイズの影響を受けているクラウドアクセス可能な量子プロセッサによる実実験の両方において、出力量子状態の忠実度の増加を観察する。 提案手法は,既知の量子状態の伝達における量子情報処理装置の機能解析に有用であると考えられる。 また,量子プロセッサの物理量子ビット上の2量子状態の分散過程において,デコヒーレンスを抑制する手法の適用性を示す。

Decoherence is the fundamental obstacle limiting the performance of quantum information processing devices. The problem of transmitting a quantum state (known or unknown) from one place to another is of great interest in this context. In this work, by following the recent theoretical proposal [Opt. Eng. {\bf 59}, 061625 (2020)] we study an application of quantum state-dependent pre- and post-processing unitary operations for protecting the given (multi-qubit) quantum state against the effect of decoherence acting on all qubits. We observe the increase in the fidelity of the output quantum state both in a quantum emulation experiment, where all protecting unitaries are perfect, and in a real experiment with a cloud-accessible quantum processor, where protecting unitaries themselves are affected by the noise. We expect the considered approach can be useful for analyzing capabilities of quantum information processing devices in transmitting known quantum states. We also demonstrate an applicability of the developed approach for suppressing decoherence in the process of distributing a two-qubit state over remote physical qubits of a quantum processor.
翻訳日:2023-02-01 19:03:23 公開日:2023-01-11
# 有限時間駆動における非ガウシアン作業統計

Non-Gaussian work statistics at finite-time driving ( http://arxiv.org/abs/2208.06199v2 )

ライセンス: Link先を確認
Krissia Zawadzki, Anthony Kiely, Gabriel T. Landi and Steve Campbell(参考訳) 有限時間における量子相転移によって駆動される多体系の作業分布の特性について検討する。 我々は分布の非ガウス性に注目し,2つの定量的指標であるスキューネスとネゲントロピーを特徴付ける。 特に、量子イジングモデルに着目し、ランプの有限長が有限サイズの系の分布の非ガウス性を高めることを示した。 完全分布の特徴を調べることにより, 突然のクエンチと断熱限界との間には, 分布がますます歪むような明らかな中間構造が存在することを観察した。

We study properties of the work distribution of a many-body system driven through a quantum phase transition in finite time. We focus on the non-Gaussianity of the distribution, which we characterize through two quantitative metrics: skewness and negentropy. In particular, we focus on the quantum Ising model and show that a finite duration of the ramp enhances the non-Gaussianity of the distribution for a finite size system. By examining the characteristics of the full distribution, we observe that there is a clear intermediate regime between the sudden quench and adiabatic limits, where the distribution becomes increasingly skewed.
翻訳日:2023-01-31 08:42:26 公開日:2023-01-11
# 群コホモロジーからの固有ゲップレスSPTに対するバルク境界対応

Bulk-boundary correspondence for intrinsically-gapless SPTs from group cohomology ( http://arxiv.org/abs/2208.09001v2 )

ライセンス: Link先を確認
Rui Wen, Andrew C. Potter(参考訳) 本質的にギャップレス対称性保護位相相(igspt)は、同じ対称性と次元を持つガッピング系では生じない性質を持つsptエッジ状態を持つギャップレス系である。 igSPT状態は、低エネルギー(IR)対称性群の異常が拡張された異常のない顕微鏡(UV)対称性から出現するギャップレス系から生じ、グループコホモロジーによって分類された創発的異常を持つigSPT位相の格子モデルを構築するための一般的な枠組みを構築し、拡張対称性をゲージすることで創発的異常、グループ伸長、トポロジカルエッジ状態間の直接的な接続を確立する。 多くの例では、エッジ状態保護は物理的に透明なメカニズムを持っている: 拡張されたuv対称性操作は、igsptエッジに低次元のsptをポンプし、ir対称性によって保護される異なるspt間の(複数の)臨界点にエッジをチューニングする。 2次元と3次元のシステムでは、創発的異常が異常対称性エンリッチ位相秩序によって満たされる可能性があり、これは商対称性エンリッチ位相秩序 (qset) と呼ばれ、これは非異常なuv集合とエッジ相遷移によって鋭く区別される。 我々はQSET順序で正確に解ける格子モデルを構築する。

Intrinsically gapless symmetry protected topological phases (igSPT) are gapless systems with SPT edge states with properties that could not arise in a gapped system with the same symmetry and dimensionality. igSPT states arise from gapless systems in which an anomaly in the low-energy (IR) symmetry group emerges from an extended anomaly-free microscopic (UV) symmetry We construct a general framework for constructing lattice models for igSPT phases with emergent anomalies classified by group cohomology, and establish a direct connection between the emergent anomaly, group-extension, and topological edge states by gauging the extending symmetry. In many examples, the edge-state protection has a physically transparent mechanism: the extending UV symmetry operations pump lower dimensional SPTs onto the igSPT edge, tuning the edge to a (multi)critical point between different SPTs protected by the IR symmetry. In two- and three- dimensional systems, an additional possibility is that the emergent anomaly can be satisfied by an anomalous symmetry-enriched topological order, which we call a quotient-symmetry enriched topological order (QSET) that is sharply distinguished from the non-anomalous UV SETs by an edge phase transition. We construct exactly solvable lattice models with QSET order.
翻訳日:2023-01-30 17:42:43 公開日:2023-01-11
# Thou Shalt not pick allItems if Thou is First: of Strategyproof and Fair Picking Sequences

Thou Shalt not Pick all Items if Thou are First: of Strategyproof and Fair Picking Sequences ( http://arxiv.org/abs/2301.06086v1 )

ライセンス: Link先を確認
Sylvain Bouveret, Hugo Gilbert, J\'er\^ome Lang, Guillaume M\'erou\'e(参考訳) 不特定項目をエージェントに割り当てる際、比較的穏やかな条件を満たす唯一の戦略防御機構が連続独裁であり、各ステップにおいて指定されたエージェントが与えられたアイテム数(シーケンスにおける彼女の位置に依存する)を選択する。 これらの規則は、非インターリーブピッキングシーケンスとしても知られており、シーケンスの早い段階で来るエージェントはアイテムの選択肢を大きくする。 しかし、この利点は後から来る者によって受け取られるアイテムの数が増えることで補うことができる。 シーケンスと受信したアイテム数で優先順位のバランスをとる方法は、簡単な質問ではない。 これまでのモデルでは,ランクからスコアへのマッピング,社会福祉機能,選好プロファイル上の分布によってパラメータ化されている。 パラメータの有意義な選択について、最適列は多項式時間で計算可能であることを示す。 最後に,評価ベクトルを抽出するための簡単な手順を提示し,エージェントから職種への割り当てがポスト社会福祉に与える影響について検討する。

When allocating indivisible items to agents, it is known that the only strategyproof mechanisms that satisfy a set of rather mild conditions are constrained serial dictatorships: given a fixed order over agents, at each step the designated agent chooses a given number of items (depending on her position in the sequence). With these rules, also known as non-interleaving picking sequences, agents who come earlier in the sequence have a larger choice of items. However, this advantage can be compensated by a higher number of items received by those who come later. How to balance priority in the sequence and number of items received is a nontrivial question. We use a previous model, parameterized by a mapping from ranks to scores, a social welfare functional, and a distribution over preference profiles. For several meaningful choices of parameters, we show that the optimal sequence can be computed in polynomial time. Last, we give a simple procedure for eliciting scoring vectors and we study the impact of the assignment from agents to positions on the ex-post social welfare.
翻訳日:2023-01-29 14:17:21 公開日:2023-01-11
# 動的攻撃者に対する準最適侵入応答の学習

Learning Near-Optimal Intrusion Responses Against Dynamic Attackers ( http://arxiv.org/abs/2301.06085v1 )

ライセンス: Link先を確認
Kim Hammar and Rolf Stadler(参考訳) 攻撃と防御戦略が強化学習と自己遊びを通じて進化する最適停止ゲームとして、自動侵入応答を研究し、攻撃者と防御者の相互作用を定式化する。 ゲーム理論のモデリングにより、動的攻撃者、すなわち防御戦略に応じて戦略を適用する攻撃者に対して効果的な防御戦略を見つけることができる。 さらに, 最適停止定式化により, 最適戦略がしきい値特性を持つことを示すことができる。 確率近似によりナッシュ平衡を学習する架空の自己プレーアルゴリズムであるThreshold Fictitious Self-Play (T-FP) を開発した。 我々は,T-FPが我々のユースケースに対して最先端のアルゴリズムより優れていることを示す。 本研究の実験的部分は,ディフェンダー戦略を段階的に学習するシミュレーションシステムと,シミュレーションを実行する統計を収集し,学習戦略を評価するエミュレーションシステムである。 このアプローチは、実用的なITインフラストラクチャのための効果的なディフェンダー戦略を生み出すことができる、と私たちは主張する。

We study automated intrusion response and formulate the interaction between an attacker and a defender as an optimal stopping game where attack and defense strategies evolve through reinforcement learning and self-play. The game-theoretic modeling enables us to find defender strategies that are effective against a dynamic attacker, i.e. an attacker that adapts its strategy in response to the defender strategy. Further, the optimal stopping formulation allows us to prove that optimal strategies have threshold properties. To obtain near-optimal defender strategies, we develop Threshold Fictitious Self-Play (T-FP), a fictitious self-play algorithm that learns Nash equilibria through stochastic approximation. We show that T-FP outperforms a state-of-the-art algorithm for our use case. The experimental part of this investigation includes two systems: a simulation system where defender strategies are incrementally learned and an emulation system where statistics are collected that drive simulation runs and where learned strategies are evaluated. We argue that this approach can produce effective defender strategies for a practical IT infrastructure.
翻訳日:2023-01-29 14:17:00 公開日:2023-01-11
# $\text{Parkinson's Disease}$におけるドーパミンニューロンのセグメンテーションと定量化のための自己教師型学習

Self-supervised Learning for Segmentation and Quantification of Dopamine Neurons in $\text{Parkinson's Disease}$ ( http://arxiv.org/abs/2301.08141v1 )

ライセンス: Link先を確認
Fatemeh Haghighi, Soumitra Ghosh, Hai Ngu, Sarah Chu, Han Lin, Mohsen Hejrati, Baris Bingol, Somaye Hashemifar(参考訳) $\text{Parkinson's Disease}$ (PD)はヒトで2番目に一般的な神経変性疾患である。 PDの特徴は、スタテンティア・ニグラ(中脳の一部)でドパミン作動性ニューロンが徐々に失われることである。 スタスタティア・ニグラのドーパミン作動性ニューロン数を数えることは、PD動物モデルにおける薬物効果を評価する上で最も重要な指標の1つである。 現在, ドパミン作動性ニューロンの解析と定量化は, 手間がかかり, 時間を要する, 主観的なデジタル病理画像の解析を通じて, 専門家によって手作業で行われている。 そのため、デジタル病理画像におけるドーパミン作動性ニューロンの定量化には、信頼性と偏りのない自動システムが必要である。 PD動物モデルにおけるドーパミン作動性ニューロンの分画と定量化のためのエンドツーエンドディープラーニングフレームワークを提案する。 これは、ドーパミン作動性ニューロンの細胞体を検出し、ドーパミン作動性ニューロンの数を数え、個々のドーパミン作動性ニューロンの表現特性を数値出力として提供する最初の機械学習モデルである。 幅広い実験により,ドーパミン作動性ニューロンの健康状態の把握,pd前臨床研究における不偏性結果の把握がより迅速に行えるように,高精度なニューロン定量におけるモデルの有効性が実証された。

$\text{Parkinson's Disease}$ (PD) is the second most common neurodegenerative disease in humans. PD is characterized by the gradual loss of dopaminergic neurons in the Substantia Nigra (a part of the mid-brain). Counting the number of dopaminergic neurons in the Substantia Nigra is one of the most important indexes in evaluating drug efficacy in PD animal models. Currently, analyzing and quantifying dopaminergic neurons is conducted manually by experts through analysis of digital pathology images which is laborious, time-consuming, and highly subjective. As such, a reliable and unbiased automated system is demanded for the quantification of dopaminergic neurons in digital pathology images. We propose an end-to-end deep learning framework for the segmentation and quantification of dopaminergic neurons in PD animal models. To the best of knowledge, this is the first machine learning model that detects the cell body of dopaminergic neurons, counts the number of dopaminergic neurons and provides the phenotypic characteristics of individual dopaminergic neurons as a numerical output. Extensive experiments demonstrate the effectiveness of our model in quantifying neurons with a high precision, which can provide quicker turnaround for drug efficacy studies, better understanding of dopaminergic neuronal health status and unbiased results in PD pre-clinical research.
翻訳日:2023-01-29 13:59:07 公開日:2023-01-11
# 気候変動以外の要因は、現在、果樹園の経営状況を予測する上でより重要である。

Factors other than climate change are currently more important in predicting how well fruit farms are doing financially ( http://arxiv.org/abs/2301.07685v1 )

ライセンス: Link先を確認
Fabian Obster, Heidi Bohle and Paul M. Pechan(参考訳) チュニジアとチリの果樹農家の財政的幸福度に及ぼす気候変動の影響を機械学習と統計モデルを用いて分析した。 この分析は801人の農家の対面インタビューに基づいている。 3つの研究課題が調査された。 第一に、気候変動の影響が農業がいかに経済的にうまくいっているかに影響を及ぼした。 第二に、気候変動が影響しない場合、農業の財政的健全性を予測する上で重要な要因は何か。 そして第3に、農家の経済的幸福に対する影響が予測変数間の相互作用の結果であるかどうかを確かめた。 これは、気候変動と他の要因が農業の経済的幸福に影響を及ぼす可能性を直接比較した最初の報告である。 特定の気候変動要因、すなわち気温の上昇と降水量の減少は、果樹農家の自給自足経済に地域的に影響を及ぼす可能性がある。 特に、気温の上昇と降水量の減少は、チリの農場の財政的健康に悪影響を及ぼす可能性がある。 この効果はチュニジアでは顕著でない。 チリでは気候の影響の違いが見られたが、チュニジアでは見られなかった。 しかし、気候変動は農業財政の健全性を予測する上で、特に既に財政的に良い農夫にとって、わずかな重要性しか持たない。 チュニジアを中心に重要な要因は、情報ソースへの信頼と、以前の農場所有である。 その他の重要な要因は、農場の大きさ、水管理システムの使用、作物の栽培の多様性などである。 また、重要な要因として、農家の経営状況の違いや、財政面の良さがあげられる。 要因間の相互作用は、農業財政の健全化を改善または悪化させる可能性がある。

Machine learning and statistical modeling methods were used to analyze the impact of climate change on financial wellbeing of fruit farmers in Tunisia and Chile. The analysis was based on face to face interviews with 801 farmers. Three research questions were investigated. First, whether climate change impacts had an effect on how well the farm was doing financially. Second, if climate change was not influential, what factors were important for predicting financial wellbeing of the farm. And third, ascertain whether observed effects on the financial wellbeing of the farm were a result of interactions between predictor variables. This is the first report directly comparing climate change with other factors potentially impacting financial wellbeing of farms. Certain climate change factors, namely increases in temperature and reductions in precipitation, can regionally impact self-perceived financial wellbeing of fruit farmers. Specifically, increases in temperature and reduction in precipitation can have a measurable negative impact on the financial wellbeing of farms in Chile. This effect is less pronounced in Tunisia. Climate impact differences were observed within Chile but not in Tunisia. However, climate change is only of minor importance for predicting farm financial wellbeing, especially for farms already doing financially well. Factors that are more important, mainly in Tunisia, included trust in information sources and prior farm ownership. Other important factors include farm size, water management systems used and diversity of fruit crops grown. Moreover, some of the important factors identified differed between farms doing and not doing well financially. Interactions between factors may improve or worsen farm financial wellbeing.
翻訳日:2023-01-29 13:57:18 公開日:2023-01-11
# 微分可能リグ関数のトレーニングによるリグインバージョン

Rig Inversion by Training a Differentiable Rig Function ( http://arxiv.org/abs/2301.09567v1 )

ライセンス: Link先を確認
Mathieu Marquis Bolduc, Hau Nghiep Phan(参考訳) リグ反転は、与えられた入力メッシュを最もよく近似するrigパラメータベクトルを見つける方法を作成する問題である。 本稿では,まず,多層パーセプトロンをトレーニングして,そのリグ関数を近似することにより,微分可能なリグ関数を求める。 この微分可能なリグ関数は、リグ反転のディープラーニングモデルのトレーニングに使用できる。

Rig inversion is the problem of creating a method that can find the rig parameter vector that best approximates a given input mesh. In this paper we propose to solve this problem by first obtaining a differentiable rig function by training a multi layer perceptron to approximate the rig function. This differentiable rig function can then be used to train a deep learning model of rig inversion.
翻訳日:2023-01-29 13:50:22 公開日:2023-01-11
# ロボットから本へ:教育におけるaiのスマート応用入門(aied)

From Robots to Books: An Introduction to Smart Applications of AI in Education (AIEd) ( http://arxiv.org/abs/2301.10026v1 )

ライセンス: Link先を確認
Shubham Ojha, Aditya Narendra, Siddharth Mohapatra, Ipsit Misra(参考訳) 私たちを取り巻く世界は、近年の急速な技術進歩により、急激な変革を遂げています。 次世代の産業は進化しており、人工知能は業界4.0として広く知られるものに次の変化をもたらす。 実際、専門家は人工知能(AI)が、私たちの滞在、会話、研究、生活、コミュニケーション、ビジネスの運営方法において、次の大きな仮想シフトの背景にあると予測している。 社会的つながりのあらゆる面は、この成長するテクノロジーによって変化しつつある。 教育技術の最新分野の1つは、教育分野における人工知能(aied)である。 本研究は,産業と学術の両方の観点から,人工知能の教育への応用を強調した。 高度学習システムにおける最新の文脈学習の革新的評価と進歩を強調した。 aiedの倫理的要素と、移行が人々、特に学生やインストラクターに与える影響を分析した。 最後に、この記事ではaiedの将来の研究と実践について触れる。 本研究の目的は、現在の応用を観客に紹介することである。

The world around us has undergone a radical transformation due to rapid technological advancement in recent decades. The industry of the future generation is evolving, and artificial intelligence is the following change in the making popularly known as Industry 4.0. Indeed, experts predict that artificial intelligence(AI) will be the main force behind the following significant virtual shift in the way we stay, converse, study, live, communicate and conduct business. All facets of our social connection are being transformed by this growing technology. One of the newest areas of educational technology is Artificial Intelligence in the field of Education(AIEd).This study emphasizes the different applications of artificial intelligence in education from both an industrial and academic standpoint. It highlights the most recent contextualized learning novel transformative evaluations and advancements in sophisticated tutoring systems. It analyses the AIEd's ethical component and the influence of the transition on people, particularly students and instructors as well. Finally, this article touches on AIEd's potential future research and practices. The goal of this study is to introduce the present-day applications to its intended audience.
翻訳日:2023-01-29 13:41:26 公開日:2023-01-11
# Biparametric MRIによる前立腺病変の評価

Prostate Lesion Estimation using Prostate Masks from Biparametric MRI ( http://arxiv.org/abs/2301.09673v1 )

ライセンス: Link先を確認
Ahmet Karagoz, Mustafa Ege Seker, Mert Yergin, Tarkan Atak Kan, Mustafa Said Kartal, Ercan Karaarslan, Deniz Alis, Ilkay Oksuz(参考訳) マルチパラメトリックMRIの代替としてバイパラメトリックMRI(Biparametric MRI)が登場しており、造影剤による患者への潜在的な害を排除している。 biparametric mriの大きな問題は、臨床的に有意な前立腺癌(cspca)を検出するのが難しいことである。 ディープラーニングアルゴリズムはコホート研究において、csPCAを検出する代替ソリューションとして登場した。 我々は,biparametric prostate mri pi-cai 2022におけるcspcaを予測するワークフローについて述べる。 我々はまず前立腺を中心腺(転移+中心領域)と末梢腺に分節することを提案する。 そして、これらのプレドクチオンとT2, ADC, DWI画像を組み合わせて、アンサンブルnnU-Netモデルを訓練する。 最後に, 病変部位のPSAおよびADC強度分布の臨床的指標を用いて偽陽性を減少させる。 本手法は, auroc 0.888 および ap 0.732 の開裂期において, 最高値を達成する。

Biparametric MRI has emerged as an alternative to multiparametric prostate MRI, which eliminates the need for the potential harms to the patient due to the contrast medium. One major issue with biparametric MRI is difficulty to detect clinically significant prostate cancer (csPCA). Deep learning algorithms have emerged as an alternative solution to detect csPCA in cohort studies. We present a workflow which predicts csPCA on biparametric prostate MRI PI-CAI 2022 Challenge with over 10,000 carefully-curated prostate MRI exams. We propose to to segment the prostate gland first to the central gland (transition + central zone) and the peripheral gland. Then we utilize these predcitions in combination with T2, ADC and DWI images to train an ensemble nnU-Net model. Finally, we utilize clinical indices PSA and ADC intensity distributions of lesion regions to reduce the false positives. Our method achieves top results on open-validation stage with a AUROC of 0.888 and AP of 0.732.
翻訳日:2023-01-29 13:38:44 公開日:2023-01-11
# 量子r\'enyiの発散の連続性

Some continuity properties of quantum R\'enyi divergences ( http://arxiv.org/abs/2209.00646v3 )

ライセンス: Link先を確認
Mil\'an Mosonyi and Fumio Hiai(参考訳) 積入力による2進量子チャネル識別問題において、最適なタイプiエラーがゼロになるすべてのタイプiiエラー指数の上限は、ウメガキチャネル相対エントロピーに等しいのに対して、最適なタイプiエラーが1になるすべてのタイプiiエラー指数の上限は、すべての$\alpha>1$に対してサンドイッチされたチャンネルr\'enyi $\alpha$-divergencesのインフィムに等しい。 この2つのしきい値(したがってこの問題の強い逆特性)の等式を、サンドイッチしたr\'enyi divergencesの新しく確立された連続性に基づくminimax引数を用いて証明する。 この動機付けにより、様々な量子(チャネル)r\'enyiダイバージェンスの連続性の詳細解析を行い、独立興味を持つかもしれない。

In the problem of binary quantum channel discrimination with product inputs, the supremum of all type II error exponents for which the optimal type I errors go to zero is equal to the Umegaki channel relative entropy, while the infimum of all type II error exponents for which the optimal type I errors go to one is equal to the infimum of the sandwiched channel R\'enyi $\alpha$-divergences over all $\alpha>1$. We prove the equality of these two threshold values (and therefore the strong converse property for this problem) using a minimax argument based on a newly established continuity property of the sandwiched R\'enyi divergences. Motivated by this, we give a detailed analysis of the continuity properties of various other quantum (channel) R\'enyi divergences, which may be of independent interest.
翻訳日:2023-01-28 06:31:47 公開日:2023-01-11
# 強い不規則相互作用鎖におけるエルゴディクティの回復

Restoring ergodicity in a strongly disordered interacting chain ( http://arxiv.org/abs/2209.00661v2 )

ライセンス: Link先を確認
B. Krajewski, L. Vidmar, J. Bonca, M. Mierzejewski(参考訳) 我々は,多体局在の文脈で集中的に研究されたランダム障害と相互作用するフェルミオンの連鎖を考える。 2体相互作用のごく一部だけがアンダーソン絶縁体に対する真の局所摂動を表していることを示す。 この真の摂動は、任意の有限障害強度 W において 0 でないが、W の増加とともに減少する。これにより、強い乱れた系は弱摂動可積分モデル、すなわち弱摂動アンダーソン絶縁体として見るべきであるという見方が確立される。 その結果、大きな w における有限次元の計算における厳密な可積分系とは区別できない。次に、真の摂動がハミルトニアンの他の項と同じ等級であるような再スケールモデルを導入し、任意の大きな乱れにおいてシステムがエルゴードのままであることを示す。

We consider a chain of interacting fermions with random disorder that was intensively studied in the context of many-body localization. We show that only a small fraction of the two-body interaction represents a true local perturbation to the Anderson insulator. While this true perturbation is nonzero at any finite disorder strength W, it decreases with increasing W. This establishes a view that the strongly disordered system should be viewed as a weakly perturbed integrable model, i.e., a weakly perturbed Anderson insulator. As a consequence, the latter can hardly be distinguished from a strictly integrable system in finite-size calculations at large W. We then introduce a rescaled model in which the true perturbation is of the same order of magnitude as the other terms of the Hamiltonian, and show that the system remains ergodic at arbitrary large disorder.
翻訳日:2023-01-28 06:20:01 公開日:2023-01-11
# 量子計測による重力場重畳の推定

Inference of gravitational field superposition from quantum measurements ( http://arxiv.org/abs/2209.02214v2 )

ライセンス: Link先を確認
Chris Overstreet, Joseph Curti, Minjeong Kim, Peter Asenbaum, Mark A. Kasevich, and Flaminia Giacomini(参考訳) 量子粒子と重力場との相互作用は、一様場を超越した実験が始まっている。 非相対論的量子力学において、そのような実験における重力場は重ね合わせ状態として書くことができる。 重力の代替理論は、量子粒子の時間発展から重力場エネルギーを分離することによってのみ重力重畳状態を避けることができることを実証的に実証する。 さらに、そのような理論は、運動方程式が有効である好ましい量子参照フレームを指定しなければならない。 これらの性質が理論的に証明できない程度に、最近の実験は重力が量子的特徴を持つという間接的な証拠を与えている。 重ね合わせの重力源を用いた実験は、重力が非古典的であるというより強い証拠を与えるだろう。

Experiments are beginning to probe the interaction of quantum particles with gravitational fields beyond the uniform-field regime. In non-relativistic quantum mechanics, the gravitational field in such experiments can be written as a superposition state. We empirically demonstrate that alternative theories of gravity can avoid gravitational superposition states only by decoupling the gravitational field energy from the quantum particle's time evolution. Furthermore, such theories must specify a preferred quantum reference frame in which the equations of motion are valid. To the extent that these properties are theoretically implausible, recent experiments provide indirect evidence that gravity has quantum features. Proposed experiments with superposed gravitational sources would provide even stronger evidence that gravity is nonclassical.
翻訳日:2023-01-27 18:35:14 公開日:2023-01-11
# 量子6-および19-頂点モデルからのFredkinとMotzkinの結合鎖

Coupled Fredkin and Motzkin chains from quantum six- and nineteen-vertex models ( http://arxiv.org/abs/2210.03038v2 )

ライセンス: Link先を確認
Zhao Zhang, Israel Klich(参考訳) 我々は、フレドキンとモツキンのスピン鎖の領域法則違反モデルを2次元に一般化し、相関相互作用を持つ量子6頂点モデルと19頂点モデルを構築する。 ハミルトニアンはフラストレーションが無く、そのプロジェクタは非負な高さ構成の部分空間内でエルゴード力学を生成する。 基底状態は、バルクの非負の高さと境界のゼロの高さを持つ古典的な二色頂点配置の体積および色重み付き重ね合わせである。 サブシステム間の絡み合いエントロピーは、$q$-deformationパラメータがチューニングされるにつれて位相遷移を持ち、自由度に作用する外部フィールドの存在下ではロバストであることが示されている。 基底状態は領域-と体積-法則の絡み合い相の間で遷移し、絡み合いエントロピーが函数 $L\log L$ の線形系サイズ $L$ としてスケールする臨界点を持つ。 L^2$ と $L^2$ の間の中間電力法則スケーリングは、熱力学限界の異なる速度で 1 に近づく不均一な変形パラメータによって達成できる。

We generalize the area-law violating models of Fredkin and Motzkin spin chains into two dimensions by building quantum six- and nineteen-vertex models with correlated interactions. The Hamiltonian is frustration free, and its projectors generate ergodic dynamics within the subspace of height configuration that are non negative. The ground state is a volume- and color-weighted superposition of classical bicolor vertex configurations with non-negative heights in the bulk and zero height on the boundary. The entanglement entropy between subsystems has a phase transition as the $q$-deformation parameter is tuned, which is shown to be robust in the presence of an external field acting on the color degree of freedom. The ground state transitions between area- and volume-law entanglement phases with a critical point where entanglement entropy scales as a function $L\log L$ of the linear system size $L$. Intermediate power law scalings between $L\log L$ and $L^2$ can be achieved with an inhomogeneous deformation parameter that approaches 1 at different rates in the thermodynamic limit.
翻訳日:2023-01-23 14:41:17 公開日:2023-01-11
# 雑音量子進化の幾何学的対応による普遍ロバスト量子ゲート

Universal robust quantum gates by geometric correspondence of noisy quantum evolution ( http://arxiv.org/abs/2210.14521v2 )

ライセンス: Link先を確認
Yong-Ju Hai, Junning Li, Junkai Zeng, Dapeng Yu, and Xiu-Hao Deng(参考訳) 量子技術と量子コンピューティングの次の飛躍の鍵は、ノイズの多い量子システムの正確かつ堅牢な制御に依存している。 はじめて、我々の理論は、駆動ノイズ量子進化と様々なノイズに関連する多重空間曲線との本質的な対応を明らかにする。 各二座系の雑音力学は、曲線で形成された図形に対応する。 曲線の性質は、進化誤差の計量幾何学的計量を与える。 一方、幾何対応は様々な雑音に対して頑健な量子ゲートを設計するための明示的なモデルである。 さらに、ノイズの多い量子システムの進化を堅牢に制御できるかどうかを特定する基準も与えている。 解析-数値ハイブリッドプロトコルは、任意のゲート時間に対して非常に単純で滑らかなパルスを持つ普遍的ロバスト量子ゲートの構築を可能にする。 半導体スピン量子ビットと超伝導トランスモンの現実的なモデルに基づいて, 広範囲の雑音強度に対する耐故障しきい値以上のゲート忠実度を示す数値シミュレーションを行った。 これらの堅実で有望な結果は、我々の普遍的なロバストな制御パルスが実験の準備ができていることを証明します。 したがって、この研究は一般的な堅牢な量子制御問題の解決に光を当てている。

A key to the next leap in quantum technologies and quantum computing relies on precise and robust control over noisy quantum systems. For the first time, our theory uncovers an essential correspondence between the driven noisy quantum evolution and multiplex space curves relating to various noises. Each two-sate system's noisy dynamics correspond to a diagram formed of the curves. The curve's properties provide a quantitative geometric metric of evolution error. On the other hand, the geometric correspondence is an explicit model to engineer quantum gates robust against various noises. It further gives the criteria to identify whether a noisy quantum system's evolution could be controlled robustly. Our analytic-numerical hybrid protocol enables the construction of universal robust quantum gates with very simple and smooth pulses for any given gate time. Based on realistic models of semiconductor spin qubits and superconducting transmons, our numerical simulations demonstrate plateaus of gate fidelity above the fault-tolerance threshold over a broad range of noise strength. These solid and promising results prove that our universal robust control pulses are ready for experiments. Therefore, this work shines some light on resolving the general robust quantum control problems.
翻訳日:2023-01-21 13:32:19 公開日:2023-01-11
# 自明かつトポロジカルな励起を持つ系に対するプログラマブルアダバティック・デマグネティゼーション

Programmable adiabatic demagnetization for systems with trivial and topological excitations ( http://arxiv.org/abs/2210.17256v2 )

ライセンス: Link先を確認
Anne Matthies and Mark Rudner and Achim Rosch and Erez Berg(参考訳) 量子コンピュータやプログラム可能な量子シミュレータ上で任意のハミルトニアンの低エネルギー状態を作成するための、単純で堅牢なプロトコルを提案する。 このプロトコルは、固体システムを極低温に冷却するために使用される断熱脱磁性技術にインスパイアされている。 クビット(またはスピン)のごく一部は、システムに結合したスピン浴をモデル化するために使用される。 バススピンに作用するシミュレーションゼーマン場の断熱ランプダウンにより、システムからエネルギー及びエントロピーを抽出する。 その後、浴のスピンが測定され、偏極状態にリセットされ、低エネルギーの定常状態への収束が完了するまでプロセスが繰り返される。 量子イジングモデルへの応用によるプロトコルの実証を行う。 提案手法は, 雑音の存在下での性能を検証し, 冷却過程の監視に浴のスピン測定から得られる情報をどのように利用できるかを示す。 アルゴリズムの性能はシステムの励起の性質に依存するが、非局所的な(位相的)励起を持つ系は局所的な励起を持つ系よりも冷却が難しい。 トポロジカルな励起をトラップすることでこの問題の緩和の可能性を探る。

We propose a simple, robust protocol to prepare a low-energy state of an arbitrary Hamiltonian on a quantum computer or programmable quantum simulator. The protocol is inspired by the adiabatic demagnetization technique, used to cool solid-state systems to extremely low temperatures. A fraction of the qubits (or spins) is used to model a spin bath that is coupled to the system. By an adiabatic ramp down of a simulated Zeeman field acting on the bath spins, energy and entropy are extracted from the system. The bath spins are then measured and reset to the polarized state, and the process is repeated until convergence to a low-energy steady state is achieved. We demonstrate the protocol via application to the quantum Ising model. We study the protocol's performance in the presence of noise and show how the information from the measurement of the bath spins can be used to monitor the cooling process. The performance of the algorithm depends on the nature of the excitations of the system; systems with non-local (topological) excitations are more difficult to cool than those with local excitations. We explore the possible mitigation of this problem by trapping topological excitations.
翻訳日:2023-01-20 22:14:52 公開日:2023-01-11
# フェルミオンテンソルネットワークを持つ格子ゲージ理論の基底状態:$2+1d$$$\mathbb{z}_2$デモ

Finding the ground state of a lattice gauge theory with fermionic tensor networks: a $2+1d$ $\mathbb{Z}_2$ demonstration ( http://arxiv.org/abs/2211.00023v2 )

ライセンス: Link先を確認
Patrick Emonts, Ariel Kelman, Umberto Borla, Sergej Moroz, Snir Gazit, Erez Zohar(参考訳) テンソルネットワーク状態、特に投影されたエンタングル対状態(peps)は、エントロピー領域の法則が組み込まれているため、複雑な量子多体系の変分研究において強いアンサッツとなっている。 本研究では、ガウス型ガウス型フェルミオン型PEPS(GGFPEPS)という特殊な種類のPEPSを用いて、幅広い結合定数に対する2+1d$次元純$\mathbb{Z}_2$格子ゲージ理論の基底状態を求める。 我々はPEPS法とモンテカルロ計算を組み合わせることで,PEPSの効率的な縮約と相関関数の計算を可能にした。 これまで、このような数値計算は、システムサイズでスケールする行列のパフィアンを計算し、深刻なボトルネックを生じさせ、この問題を克服する方法を示してきた。 これにより、ここで提案する手法を他のゲージ群、高次元、フェルミオン性物質を持つモデルに効率よく、符号-確率自由な方法で適用する方法が舗装される。

Tensor network states, and in particular Projected Entangled Pair States (PEPS) have been a strong ansatz for the variational study of complicated quantum many-body systems, thanks to their built-in entanglement entropy area law. In this work, we use a special kind of PEPS - Gauged Gaussian Fermionic PEPS (GGFPEPS) to find the ground state of $2+1d$ dimensional pure $\mathbb{Z}_2$ lattice gauge theories for a wide range of coupling constants. We do so by combining PEPS methods with Monte-Carlo computations, allowing for efficient contraction of the PEPS and computation of correlation functions. Previously, such numerical computations involved the calculation of the Pfaffian of a matrix scaling with the system size, forming a severe bottleneck; in this work we show how to overcome this problem. This paves the way for applying the method we propose and benchmark here to other gauge groups, higher dimensions, and models with fermionic matter, in an efficient, sign-problem-free way.
翻訳日:2023-01-20 22:07:59 公開日:2023-01-11
# 量子クラウドコンピューティングのための確率的量子ビット資源割り当て

Stochastic Qubit Resource Allocation for Quantum Cloud Computing ( http://arxiv.org/abs/2210.12343v2 )

ライセンス: Link先を確認
Rakpong Kaewpuang, Minrui Xu, Dusit Niyato, Han Yu, Zehui Xiong and Jiawen Kang(参考訳) 量子クラウドコンピューティングは、量子リソース(すなわち量子ビット)をユーザに効率的に供給するための有望なパラダイムである。 量子クラウドコンピューティングでは、量子クラウドプロバイダが予約およびオンデマンドプランで量子リソースをプロビジョニングする。 文字通り、予約計画における量子リソースのコストは、オンデマンド計画の量子リソースのコストよりも安いと期待されている。 しかし、予約計画における量子資源は、事前に量子回路の要件に関する情報を必要とせず、事前に予約されなければならない。 したがって、オンデマンド計画における量子リソースは、必要とされる不満足な量子リソースの補償に使用できる。 そこで本研究では,量子コンピューティングシステムにおける量子リソース割り当てと,量子回路の最低待ち時間とを協調的に最適化する量子リソース割り当てを提案する。 特に、量子ビット要求と量子回路の待ち時間に関する不確実性の下で、量子回路の総コストを最小化する。 実験では、量子フーリエ変換の実用的な回路を適用し、提案する量子ビットリソース割り当てを評価する。 その結果,提案したキュービット資源割り当ては最適な総コストを達成できることを示した。

Quantum cloud computing is a promising paradigm for efficiently provisioning quantum resources (i.e., qubits) to users. In quantum cloud computing, quantum cloud providers provision quantum resources in reservation and on-demand plans for users. Literally, the cost of quantum resources in the reservation plan is expected to be cheaper than the cost of quantum resources in the on-demand plan. However, quantum resources in the reservation plan have to be reserved in advance without information about the requirement of quantum circuits beforehand, and consequently, the resources are insufficient, i.e., under-reservation. Hence, quantum resources in the on-demand plan can be used to compensate for the unsatisfied quantum resources required. To end this, we propose a quantum resource allocation for the quantum cloud computing system in which quantum resources and the minimum waiting time of quantum circuits are jointly optimized. Particularly, the objective is to minimize the total costs of quantum circuits under uncertainties regarding qubit requirement and minimum waiting time of quantum circuits. In experiments, practical circuits of quantum Fourier transform are applied to evaluate the proposed qubit resource allocation. The results illustrate that the proposed qubit resource allocation can achieve the optimal total costs.
翻訳日:2023-01-18 10:01:20 公開日:2023-01-11
# 運用研究と量子情報科学の相乗効果

Synergies Between Operations Research and Quantum Information Science ( http://arxiv.org/abs/2301.05554v1 )

ライセンス: Link先を確認
Ojas Parekh(参考訳) 本稿では,量子情報科学 (qis) と qis-curious operations researchers (および vice-versa) の運用研究の相乗効果について述べる。

This article highlights synergies between quantum information science (QIS) and operations research for QIS-curious operations researchers (and vice-versa).
翻訳日:2023-01-16 15:46:27 公開日:2023-01-11
# 多体波動関数からのベリー接続による超電流および起電力発生

Supercurrent and Electromotive force generations by the Berry connection from many-body wave functions ( http://arxiv.org/abs/2301.05559v1 )

ライセンス: Link先を確認
Hiroyasu Koizumi(参考訳) 電磁場ベクトルポテンシャルと多体波動関数からのベリー接続からなる速度場は、超電流発生、電気運動力(EMF)生成に関するファラデーの法則、および電磁界ではない他のEMF世代を説明する。 Berry接続からのEMFの例計算は、銅酸化物超伝導のモデルを用いて行う。

The velocity field composed of the electromagnetic field vector potential and the Berry connection from many-body wave functions explains supercurrent generation, Faraday's law for the electromotive force (EMF) generation, and other EMF generations whose origins are not electromagnetism. An example calculation for the EMF from the Berry connection is performed using a model for the cuprate superconductivity.
翻訳日:2023-01-16 15:46:05 公開日:2023-01-11
# MPAS-Oとグローバルドリフトデータセットの動的データ同化

Dynamic Data Assimilation of MPAS-O and the Global Drifter Dataset ( http://arxiv.org/abs/2301.05551v1 )

ライセンス: Link先を確認
Derek DeSantis, Ayan Biswas, Earl Lawrence, Phillip Wolfram(参考訳) 本研究では,海洋における温度予測の精度を向上させるために,地球系モデル(esms)とin situ buoy測定を組み合わせた新しい手法を提案する。 この技術はesmで識別されるダイナミクスとモードを利用して、季節性などの特徴を保ちながらブイ測定の精度を向上させる。 この手法を用いることで,MPAS-Oモデルによる局所温度予測の誤差を補正することができる。 提案手法は他の補間法やデータ同化法に比べて精度が向上することを示す。 本手法は,グローバル・ドリフト・プログラムの海洋ブイデータセットを用いて,スケールス・オーシャン・コンポーネント (mpas-o) の予測モデルを適用した。

In this study, we propose a new method for combining in situ buoy measurements with Earth system models (ESMs) to improve the accuracy of temperature predictions in the ocean. The technique utilizes the dynamics and modes identified in ESMs to improve the accuracy of buoy measurements while still preserving features such as seasonality. Using this technique, errors in localized temperature predictions made by the MPAS-O model can be corrected. We demonstrate that our approach improves accuracy compared to other interpolation and data assimilation methods. We apply our method to assimilate the Model for Prediction Across Scales Ocean component (MPAS-O) with the Global Drifter Program's in-situ ocean buoy dataset.
翻訳日:2023-01-16 15:38:37 公開日:2023-01-11
# 自動テキスト要約手法の総合的レビュー:方法、データ、評価および符号化

A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding ( http://arxiv.org/abs/2301.03403v2 )

ライセンス: Link先を確認
Daniel O. Cajueiro, Arthur G. Nery, Igor Tavares, Ma\'isa K. De Melo, Silvia A. dos Reis, Li Weigang, Victor R. R. Celestino(参考訳) 本稿では,ATS(Automatic Text Summarization)システムに関する文献レビューを行う。 引用に基づくアプローチを考える。 まず、私たちがカバーしたい各トピックについて手元に持っている人気で有名な論文から始め、"backward citations"(前もって知っていた論文のセットによって引用された論文)と"forward citations"(前もって知っていた論文のセットを引用する新しい論文)を追跡しました。 異なる手法を整理するために、我々は、それらが要約を生成するメカニズムによって導かれる様々なアプローチをATSに提示する。 また,提案手法の提示に加えて,要約タスクに利用可能なデータセットや,要約の質を評価するための手法についても概説する。 最後に,CNN Corpusデータセットを用いて,抽出および抽象的手法に黄金の要約を提供する実験的な手法を提案する。

We provide a literature review about Automatic Text Summarization (ATS) systems. We consider a citation-based approach. We start with some popular and well-known papers that we have in hand about each topic we want to cover and we have tracked the "backward citations" (papers that are cited by the set of papers we knew beforehand) and the "forward citations" (newer papers that cite the set of papers we knew beforehand). In order to organize the different methods, we present the diverse approaches to ATS guided by the mechanisms they use to generate a summary. Besides presenting the methods, we also present an extensive review of the datasets available for summarization tasks and the methods used to evaluate the quality of the summaries. Finally, we present an empirical exploration of these methods using the CNN Corpus dataset that provides golden summaries for extractive and abstractive methods.
翻訳日:2023-01-15 23:00:13 公開日:2023-01-11
# グラフェン増幅器は量子ノイズ限界に達する

Graphene amplifier reaches the quantum-noise limit ( http://arxiv.org/abs/2301.04730v1 )

ライセンス: Link先を確認
Kin Chung Fong(参考訳) グラフェンを用いたジョセフソンパラメトリック増幅器のニューズ&ビュー

News & Views on the graphene-based Josephson parametric amplifiers.
翻訳日:2023-01-13 15:47:59 公開日:2023-01-11
# 3次元リドバーグ原子配列における量子スピン氷

Quantum spin ice in three-dimensional Rydberg atom arrays ( http://arxiv.org/abs/2301.04657v1 )

ライセンス: Link先を確認
Jeet Shah, Gautam Nambiar, Alexey V. Gorshkov and Victor Galitski(参考訳) 量子スピン液体は物質のエキゾチック相であり、低エネルギー物理学は創発ゲージ理論の分解相として記述される。 最近の理論の提案と、$\mathbb{Z}_2$トポロジカルオーダー [G. Semeghini et al., Science 374, 1242 (2021)] の事前の兆候を示す実験により、リドバーグ原子配列は量子スピン液体を実現するための有望なプラットフォームとして現れた。 本研究では, ピロクロル格子リドベルグ原子アレイにおいて, $u(1)$ゲージ理論の解圧位相によって記述された, 3次元の空間的に, u(1)$ 量子スピン液体を実現する方法を提案する。 提案するrydberg系の基底状態図を実験的に関連するパラメータの関数として検討する。 我々の計算では、Rabi周波数をチューニングすることにより、磁化モノポールの拡散によって引き起こされる閉じ込め分解遷移と、創発ゲージ理論の「電化」電荷の拡散によって引き起こされるヒッグス遷移の両方にアクセスできる。 解凍相を秩序相と区別するための実験プローブを提案する。 この研究は、Rydbergベースの量子シミュレータ上で3次元の閉じ込め分解遷移にアクセスするための提案として機能する。

Quantum spin liquids are exotic phases of matter whose low-energy physics is described as the deconfined phase of an emergent gauge theory. With recent theory proposals and an experiment showing preliminary signs of $\mathbb{Z}_2$ topological order [G. Semeghini et al., Science 374, 1242 (2021)], Rydberg atom arrays have emerged as a promising platform to realize a quantum spin liquid. In this work, we propose a way to realize a $U(1)$ quantum spin liquid in three spatial dimensions, described by the deconfined phase of $U(1)$ gauge theory in a pyrochlore lattice Rydberg atom array. We study the ground state phase diagram of the proposed Rydberg system as a function of experimentally relevant parameters. Within our calculation, we find that by tuning the Rabi frequency, one can access both the confinement-deconfinement transition driven by a proliferation of "magnetic" monopoles and the Higgs transition driven by a proliferation of "electric" charges of the emergent gauge theory. We suggest experimental probes for distinguishing the deconfined phase from ordered phases. This work serves as a proposal to access a confinement-deconfinement transition in three spatial dimensions on a Rydberg-based quantum simulator.
翻訳日:2023-01-13 15:46:47 公開日:2023-01-11
# テラヘルツSISOへのミリ波とMIMO連続可変量子鍵分布

Millimetre-waves to Terahertz SISO and MIMO Continuous Variable Quantum Key Distribution ( http://arxiv.org/abs/2301.04723v1 )

ライセンス: Link先を確認
Mingqi Zhang, Stefano Pirandola, and Kaveh Delfanazari(参考訳) 大きな帯域幅の需要が急増する中で、通信ネットワークにおける情報のセキュリティとプライバシだけでなく、最高のネットワークプラットフォームを考えることが重要である。 超広帯域信号を提供することで既存の通信システムのシャノンチャネル容量制限を克服できる技術としてミリメートル(mm)波とテラヘルツ(thz)を提案する。 Mm波とTHzは、光通信システムと互換性のある無線リンクを構築することもできる。 しかし、これらの周波数範囲(100GHz-10THz)で合理的に効率的に動作できるほとんどの固体成分、特に源や検出器は、ほとんどの量子系の要求と同様に低温冷却を必要とする。 ここでは, 発生源と検出器が低温でT=4Kまで動作した場合に, 安全なmm波とTHz QKDが得られることを示す。 単一入力単一出力 (siso) と複数入力多重出力 (mimo) 連続変数 thz 量子鍵分布 (cvqkd) を比較し, f=100 ghz と 1 thz の周波数範囲で正の秘密鍵速度を求める。 さらに,1024*1024アンテナを用いて,最大伝送距離を延長し,秘密鍵レートを低温で向上し,f=100GHz,T=4Kで最大秘密通信距離を5km以上達成できることがわかった。 我々の成果は、衛星間・深宇宙から屋内・短距離通信まで、次世代のセキュアな無線通信システムと量子インターネットの開発に寄与する可能性がある。

With the exponentially increased demands for large bandwidth, it is important to think about the best network platform as well as the security and privacy of the information in communication networks. Millimetre (mm)-waves and terahertz (THz) with high carrier frequency are proposed as the enabling technologies to overcome Shannons channel capacity limit of existing communication systems by providing ultrawide bandwidth signals. Mm-waves and THz are also able to build wireless links compatible with optical communication systems. However, most solid-state components that can operate reasonably efficiently at these frequency ranges (100GHz-10THz), especially sources and detectors, require cryogenic cooling, as is a requirement for most quantum systems. Here, we show that secure mm-waves and THz QKD can be achieved when the sources and detectors operate at cryogenic temperatures down to T= 4K. We compare single-input single-output (SISO) and multiple-input multiple-output (MIMO) Continuous Variable THz Quantum Key Distribution (CVQKD) schemes and find the positive secret key rate in the frequency ranges between f=100 GHz and 1 THz. Moreover, we find that the maximum transmission distance could be extended, the secret key rate could be improved in lower temperatures, and achieve a maximum secrete communication distance of more than 5 km at f=100GHz and T=4K by using 1024*1024 antennas. Our results may contribute to the efforts to develop next-generation secure wireless communication systems and quantum internet for applications from inter-satellite and deep space, to indoor and short-distance communications.
翻訳日:2023-01-13 15:46:22 公開日:2023-01-11
# 異常,表現,自己スーパービジョン

Anomalies, Representations, and Self-Supervision ( http://arxiv.org/abs/2301.04660v1 )

ライセンス: Link先を確認
Barry M. Dillon, Luigi Favaro, Friedrich Feiden, Tanmoy Modak, Tilman Plehn(参考訳) 本研究では,CMS ADC2021のイベントレベル異常データを用いて,コントラスト学習を用いた自己教師付き密度ベース異常検出法を開発した。 AnomalyCLRのテクニックはデータ駆動であり、背景データの拡張を使用して、モデルに依存しない方法で非標準モデルイベントを模倣する。 それは置換不変トランスフォーマエンコーダアーキテクチャを使用して、衝突型事象で測定されたオブジェクトを表現空間にマッピングし、データ拡張は潜在的な異常な特徴に敏感な表現空間を定義する。 背景表現を訓練したオートエンコーダは、表現空間内の様々な信号に対する異常スコアを計算する。 AnomalyCLRでは、生のデータベースラインと比較して、すべての信号のパフォーマンス指標が大幅に改善されています。

We develop a self-supervised method for density-based anomaly detection using contrastive learning, and test it using event-level anomaly data from CMS ADC2021. The AnomalyCLR technique is data-driven and uses augmentations of the background data to mimic non-Standard-Model events in a model-agnostic way. It uses a permutation-invariant Transformer Encoder architecture to map the objects measured in a collider event to the representation space, where the data augmentations define a representation space which is sensitive to potential anomalous features. An AutoEncoder trained on background representations then computes anomaly scores for a variety of signals in the representation space. With AnomalyCLR we find significant improvements on performance metrics for all signals when compared to the raw data baseline.
翻訳日:2023-01-13 15:40:20 公開日:2023-01-11
# 多体局在の雪崩不安定性における多体共鳴

Many-body resonances in the avalanche instability of many-body localization ( http://arxiv.org/abs/2301.04658v1 )

ライセンス: Link先を確認
Hyunsoo Ha, Alan Morningstar, David A. Huse(参考訳) 多体局在(MBL)系は相互作用し、非可積分であり、広範囲な励起状態であっても、自身の力学の下で熱平衡に達することができない。 mblシステムの熱化に対する1つの不安定性はいわゆる'avalanche'であり、局所的な熱化レア領域は全システムを通して熱化を拡散することができる。 アバランシェの拡散は、無限温度浴を系の一方の端に弱結合させることにより、有限1次元MBL系でモデル化し、数値的に研究することができる。 雪崩は主に閉鎖系の稀な近接共鳴固有状態間の強い多体共鳴によって拡散する。 したがって、MBL系における多体共鳴と雪崩の詳細な関係を探索する。

Many-body localized (MBL) systems fail to reach thermal equilibrium under their own dynamics, even though they are interacting, nonintegrable, and in an extensively excited state. One instability towards thermalization of MBL systems is the so-called ``avalanche'', where a locally thermalizing rare region is able to spread thermalization through the full system. The spreading of the avalanche may be modeled and numerically studied in finite one-dimensional MBL systems by weakly coupling an infinite-temperature bath to one end of the system. We find that the avalanche spreads primarily via strong many-body resonances between rare near-resonant eigenstates of the closed system. Thus we find and explore a detailed connection between many-body resonances and avalanches in MBL systems.
翻訳日:2023-01-13 15:39:20 公開日:2023-01-11
# 光トワイザーとマグヌス効果を用いた閉じ込め型イオン量子計算

Trapped Ion Quantum Computing using Optical Tweezers and the Magnus Effect ( http://arxiv.org/abs/2301.04668v1 )

ライセンス: Link先を確認
M. Mazzanti, R. Gerritsma, R. J. C. Spreeuw, and A. Safavi-Naini(参考訳) 密集光ツイーザを用いたトラップイオンにおける量子論理ゲートの実装について検討する。 トワイザー焦点付近の強い偏光勾配は、イオンの量子状態依存力に繋がる。 これらは結晶中のイオン量子ビットの対に量子論理ゲートを実装するために使われる可能性がある。 この効果によって生じるクビット状態依存力は、イオン結晶の運動モードに結合する新しい方法を開くレーザビームの伝播方向に垂直な平面上に存在する。 提案されたゲートはイオンの基底状態の冷却を必要とせず、ラムダイク近似には依存しないが、密集したビームのウエストは必要な磁場曲率を達成するためにその波長に匹敵する必要がある。 さらに、ゲートは、対向伝搬レーザを必要とせずに、接地状態及び磁界非感受性クロック状態キュービットの両方で実行することができる。 これによりセットアップが簡単になり、ゲートレーザビーム間の位相不安定によるエラーが排除される。 最後に、ゲート実行の不完全性、特にツイーザにおけるエラーを指摘すれば、ゲート忠実度を$\mathcal F\gtrsim 0.99998$から$\gtrsim 0.999$に下げる。

We consider the implementation of quantum logic gates in trapped ions using tightly focused optical tweezers. Strong polarization gradients near the tweezer focus lead to qubit-state dependent forces on the ion. We show that these may be used to implement quantum logic gates on pairs of ion qubits in a crystal. The qubit-state dependent forces generated by this effect live on the plane perpendicular to the direction of propagation of the laser beams opening new ways of coupling to motional modes of an ion crystal. The proposed gate does not require ground state cooling of the ions and does not rely on the Lamb-Dicke approximation, although the waist of the tightly focused beam needs to be comparable with its wavelength in order to achieve the needed field curvature. Furthermore, the gate can be performed on both ground state and magnetic field insensitive clock state qubits without the need for counter-propagating laser fields. This simplifies the setup and eliminates errors due to phase instabilities between the gate laser beams. Finally, we show that imperfections in the gate execution, in particular pointing errors $<30$ nm in the tweezers reduce the gate fidelity from $\mathcal F\gtrsim 0.99998$ to $\gtrsim 0.999$.
翻訳日:2023-01-13 15:39:08 公開日:2023-01-11
# スロー光と捕捉寒冷原子を接合するロバストなハーフw1フォトニック結晶導波路の系統設計

Systematic design of a robust half-W1 photonic crystal waveguide for interfacing slow light and trapped cold atoms ( http://arxiv.org/abs/2301.04675v1 )

ライセンス: Link先を確認
Adrien Bouscal, Malik Kemiche, Sukanya Mahapatra, Nikos Fayard, J\'er\'emy Berroir, Tridib Ray, Jean-Jacques Greffet, Fabrice Raineri, Ariel Levenson, Kamel Bencheikh, Christophe Sauvan, Alban Urvoy, Julien Laurat(参考訳) ナノスケールの導波路において、閉じ込められたコールド原子と誘導光に面した新しいプラットフォームは、量子非線形光学および量子シミュレーションへの応用を含む、光と原子の強い結合状態を達成するための有望な経路である。 この新興導波路-QED分野の実験的発展のための強力な課題は、原子輸送の容易な光アクセス、誘導モードによる原子トラップ、および固有のナノファブリケーション不完全性への堅牢性を組み合わせることである。 本稿では,大型インデックスGaInPスラブをベースとしたフォトニック結晶導波路を用いたルビジウム原子の界面設計を提案する。 ハーフw1の設計を具体化し、導波路への大きなカップリングを得ることができ、導波路モードを用いて、構造の端から約100nmの原子に対して2色の双極子トラップを形成することができることを示した。 この最適化されたデバイスは、実験的な制御のレベルを大幅に改善し、atom統合を促進する。

Novel platforms interfacing trapped cold atoms and guided light in nanoscale waveguides are a promising route to achieve a regime of strong coupling between light and atoms in single pass, with applications to quantum non-linear optics and quantum simulation. A strong challenge for the experimental development of this emerging waveguide-QED field of research is to combine facilitated optical access for atom transport, atom trapping via guided modes and robustness to inherent nanofabrication imperfections. In this endeavor, here we propose to interface Rubidium atoms with a photonic crystal waveguide based on a large-index GaInP slab. With a specifically tailored half-W1 design, we show that a large coupling to the waveguide can be obtained and guided modes can be used to form two-color dipole traps for atoms at about 100 nm from the edge of the structure. This optimized device should greatly improve the level of experimental control and facilitate the atom integration.
翻訳日:2023-01-13 15:38:52 公開日:2023-01-11
# 古典量子力学のための経路積分

Path integrals for classical-quantum dynamics ( http://arxiv.org/abs/2301.04677v1 )

ライセンス: Link先を確認
Jonathan Oppenheim and Zachary Weller-Davies(参考訳) 古典と量子自由度を結合する一貫性力学が存在する。 このダイナミクスはハイブリッド状態において線形であり、完全な正とトレース保存である。 完全正の古典量子マスター方程式から始まり、古典量子作用の観点からそのような力学に対する一般的な経路積分表現を導き、完全正の正とトレース保存に必要な条件を含む。 私たちが研究する経路積分は、量子系に対するファインマン経路積分の一般化であり、古典的確率過程の研究に使用される確率的経路積分は、古典的および量子システム間の相互作用を可能にする。 古典量子ハミルトニアンが瞬間において最も二次的であるとき、構成空間パス積分を導出することができ、マスター方程式と共変古典量子パス積分の間の写像を提供する。

Consistent dynamics which couples classical and quantum degrees of freedom exists. This dynamics is linear in the hybrid state, completely positive and trace preserving. Starting from completely positive classical-quantum master equations, we derive a general path integral representation for such dynamics in terms of a classical-quantum action, which includes the necessary and sufficient conditions for complete positivity and trace preservation. The path integral we study is a generalization of the Feynman path integral for quantum systems, and the stochastic path integral used to study classical stochastic processes, allowing for interaction between the classical and quantum systems. When the classical-quantum Hamiltonian is at most quadratic in the momenta we are able to derive a configuration space path integral, providing a map between master equations and covariant classical-quantum path integrals.
翻訳日:2023-01-13 15:38:31 公開日:2023-01-11
# 畳み込みオートエンコーダを用いた低PAPRMIMO-OFDM設計

Low PAPR MIMO-OFDM Design Based on Convolutional Autoencoder ( http://arxiv.org/abs/2301.05017v1 )

ライセンス: Link先を確認
Yara Huleihel and Haim H. Permuter(参考訳) 多入力多重出力(\mathsf{mimo}$)直交周波数分割多重化(\mathsf{ofdm}$)システムのピーク平均電力比(\mathsf{papr}$)削減と波形設計のための拡張フレームワークについて,畳み込み自動符号化($\mathsf{cae}$)アーキテクチャに基づいて述べる。 通信ネットワークのためのエンドツーエンドの学習ベースのオートエンコーダ($\mathsf{ae}$)は、エンコーダとデコーダによってネットワークを表現する。 本研究では,非線形高出力増幅器(\mathsf{hpa}$)とマルチパスフェージングチャネルの影響下でのスペクトルマスク挙動とmimo検出を最適化するために,投影勾配降下反復に基づく合同学習方式を提案する。 提案された効率的な実装の新規な波形設計手法は、全てのアンテナに対して1ドル$\mathsf{PAPR}$リダクションブロックのみを使用する。 デコーダではサイド情報を必要としないため、スループットが失われる。 性能は、ビットエラー率($\mathsf{BER}$)、$\mathsf{PAPR}$、およびスペクトル応答を調べ、古典的な$\mathsf{PAPR}$ reduction $\mathsf{MIMO}$を5Gシミュレートしたデータで比較して分析する。 提案システムは,全ての最適化基準を同時に検討する際の競合性能を示す。 段階的損失学習を多目的最適化に適用し,1つのトレーニングされたモデルが,広いSNRレベルにわたって,$\mathsf{PAPR}$リダクション,スペクトル設計,$\mathsf{MIMO}$検出のタスクをカバーすることを実証的に示す。

An enhanced framework for peak-to-average power ratio ($\mathsf{PAPR}$) reduction and waveform design for Multiple-Input-Multiple-Output ($\mathsf{MIMO}$) orthogonal frequency-division multiplexing ($\mathsf{OFDM}$) systems, based on a convolutional-autoencoder ($\mathsf{CAE}$) architecture, is presented. The end-to-end learning-based autoencoder ($\mathsf{AE}$) for communication networks represents the network by an encoder and decoder, where in between, the learned latent representation goes through a physical communication channel. We introduce a joint learning scheme based on projected gradient descent iteration to optimize the spectral mask behavior and MIMO detection under the influence of a non-linear high power amplifier ($\mathsf{HPA}$) and a multipath fading channel. The offered efficient implementation novel waveform design technique utilizes only a single $\mathsf{PAPR}$ reduction block for all antennas. It is throughput-lossless, as no side information is required at the decoder. Performance is analyzed by examining the bit error rate ($\mathsf{BER}$), the $\mathsf{PAPR}$, and the spectral response and compared with classical $\mathsf{PAPR}$ reduction $\mathsf{MIMO}$ detector methods on 5G simulated data. The suggested system exhibits competitive performance when considering all optimization criteria simultaneously. We apply gradual loss learning for multi-objective optimization and show empirically that a single trained model covers the tasks of $\mathsf{PAPR}$ reduction, spectrum design, and $\mathsf{MIMO}$ detection together over a wide range of SNR levels.
翻訳日:2023-01-13 15:33:14 公開日:2023-01-11
# 古典および量子楕円ビリヤード:混合位相空間と一重項と双対の短相関

Classical and Quantum Elliptical Billiards: Mixed Phase Space and Short Correlations in Singlets and Doublets ( http://arxiv.org/abs/2301.04654v1 )

ライセンス: Link先を確認
T. Ara\'ujo Lima and R. B. do Carmo(参考訳) ビリヤードは、粒子が境界との弾性衝突の間を自由に移動できる平らな空洞である。 カオス理論ではこれらの系は単純なプロトタイプであり、ビリヤードの保存的なダイナミクスは通常のものからカオスのものまで、境界のみによって異なる。 ここで報告された結果は、古典的カオスシステムの量子化に光を当てようとしている。 ビリヤードの2つの双パラメトリック族である楕円スタジアムビリヤード(esb)と楕円-$c_3$ビリヤード(e-$c_3$b)の古典的および量子的性質に関する数値的結果を示す。 どちらも、もともと境界に円形の領域を持つカオスビリヤードの楕円形摂動である。 我々の数値計算は、楕円族が量子スペクトルの分析を導くために用いられるパラメータ $\rho_\text{c} < 1$ で同定された混合古典位相空間を提示できることを示す。 これは古典位相空間の混合領域において、esb のberry-robnik-brody (brb) 分布により、$p(s)$ が良く説明されていることを示している。 いわゆるエルゴードパラメータ $\alpha = t_\text{H}/t_\text{T}$ の期待値と一致して、ハイゼンベルク時間と古典的な拡散的な輸送時間との比は、$\alpha < 1$ のときの量子力学局在の可能性を示唆する。 E-$C_3$B 族では、固有状態は単項と二重項に分けられる。 brbは、singletsに対する$p(s)$を混合領域の以前のファミリーとして記述している。 しかし、$p(s)$ for doubletsは、最近文献で紹介された新しい分布によって記述されるが、$\rho_\text{c} < 1$のケースでのみテストされる。 我々は$\rho_\text{c}$が減少するにつれて、$p(s)$'sはGOE(シングルレット)とGUE(ダブルレット)の分布から同時に離れる傾向があることを観察した。

Billiards are flat cavities where a particle is free to move between elastic collisions with the boundary. In chaos theory these systems are simple prototypes, their conservative dynamics of a billiard may vary from regular to chaotic, depending only on the border. The results reported here seek to shed light on the quantization of classically chaotic systems. We present numerical results on classical and quantum properties in two bi-parametric families of Billiards, Elliptical Stadium Billiard (ESB) and Elliptical-$C_3$ Billiards (E-$C_3$B). Both are elliptical perturbations of chaotic billiards with originally circular sectors on their borders. Our numerical calculations show evidence that the elliptical families can present a mixed classical phase space, identified by a parameter $\rho_\text{c} < 1$, which we use to guide our analysis of quantum spectra. We explored the short correlations through nearest neighbor spacing distribution $p(s)$, which showed that in the mixed region of the classical phase space, $p(s)$ is well described by the Berry-Robnik-Brody (BRB) distributions for the ESB. In agreement with the expected from the so-called ergodic parameter $\alpha = t_\text{H}/t_\text{T}$, the ratio between the Heisenberg time and the classical diffusive-like transport time signals the possibility of quantum dynamical localization when $\alpha < 1$. For the E-$C_3$B family, the eigenstates can be split into singlets and doublets. BRB describes $p(s)$ for singlets as the previous family in the mixed region. However, the $p(s)$ for doublets are described by new distributions recently introduced in the literature but only tested in a few cases for $\rho_\text{c} < 1$. We observed that as $\rho_\text{c}$ decreases, the $p(s)$'s tend to move away simultaneously from the GOE (singlets) and GUE (doublets) distributions.
翻訳日:2023-01-13 15:30:51 公開日:2023-01-11
# 炭素分子に結合した電子の結合エネルギーと単一炭素アニオンの電子結合エネルギーの結合について

About the connection of the electron binding energy of a single carbon anion with binding energies of an electron attached to carbon molecules ( http://arxiv.org/abs/2301.04718v1 )

ライセンス: Link先を確認
Arkadiy S. Baltenkov and Igor Woiciechowski(参考訳) ゼロレンジポテンシャルのモデルは、原子や分子のアニオン、例えば負の荷電炭素クラスター中の結合電子の記述にうまく応用できることを実証する。 このモデルの能力を説明するために、結合した電子のエネルギーは、鎖構造を有するc3分子と同様に、2つの3つの(正三角形)炭素原子と4つの(四面体)炭素原子からなる炭素クラスターアニオンの族で計算する。 考えられるアプローチは、任意の数個の原子を任意の配置で配置した炭素クラスターに容易に拡張できる。

We demonstrate that the model of zero-range potentials can be successfully employed for the description of attached electrons in atomic and molecular anions, for example, negatively charged carbon clusters. To illustrate the capability of the model we calculate the energies of the attached electron for the family of carbon cluster anions consisting of two-, three- (equilateral triangle), and four (tetrahedron) carbon atoms equidistant from each other as well as for a C3 molecule having a chain structure. The considered approach can be easily extended to carbon clusters containing an arbitrary number of atoms arranged in an arbitrary configuration.
翻訳日:2023-01-13 15:30:08 公開日:2023-01-11
# optirank: 最適ランキング参照遺伝子を用いたrna-seqデータの分類

Optirank: classification for RNA-Seq data with optimal ranking reference genes ( http://arxiv.org/abs/2301.04653v1 )

ライセンス: Link先を確認
Paola Malsot (1), Filipe Martins (1), Didier Trono (1), Guillaume Obozinski (1, 2 and 3) ((1) Ecole Polytechnique F\'ed\'erale de Lausanne, (2) Swiss Data Science Center, (3) ETH Z\"urich)(参考訳) RNAシークエンシング(RNA-Seq)データを入力として使用する分類アルゴリズムは、様々な生物学的応用に用いられている。 本質的に、RNA-Seqデータはデータセット内、特にデータセット間の制御不能な変動を受けており、トレーニングされた分類器が外部データセットに一般化するのが大きな困難である。 生の遺伝子数を観察中の遺伝子数に置き換えることは、この問題を軽減するのに有効であることが証明されている。 しかし、特徴のランクは、そのランクにノイズをもたらす高度に可変な特徴を含む、他のすべての特徴と比較して定義される。 この問題に対処し、より堅牢なランクを得るために、モデルと遺伝子のパラメータを同時に学習し、ランキングの参照セットとして使用するロジスティック回帰モデル、オプティランクを提案する。 シミュレーションデータに対する本手法の有効性を示す。 また,列車データと試験データの間で異なる分布シフトを示す実分類タスクについても検討する。 これらのタスクは、未知の一次分類のがん、特定の遺伝子シグネチャの同定、単一細胞RNA-Seqデータセットにおける細胞型の決定など、様々な応用に関係している。 これらの実際のタスクでは、optirankは少なくとも古典的なランクのバニラロジスティック回帰と同様に、スパルサー解を生成する。 さらに,データセットシフトに対するロバスト性を高めるために,多元学習方式を提案し,ランクベースの分類器と組み合わせて使用する場合の有効性を示す。

Classification algorithms using RNA-Sequencing (RNA-Seq) data as input are used in a variety of biological applications. By nature, RNA-Seq data is subject to uncontrolled fluctuations both within and especially across datasets, which presents a major difficulty for a trained classifier to generalize to an external dataset. Replacing raw gene counts with the rank of gene counts inside an observation has proven effective to mitigate this problem. However, the rank of a feature is by definition relative to all other features, including highly variable features that introduce noise in the ranking. To address this problem and obtain more robust ranks, we propose a logistic regression model, optirank, which learns simultaneously the parameters of the model and the genes to use as a reference set in the ranking. We show the effectiveness of this method on simulated data. We also consider real classification tasks, which present different kinds of distribution shifts between train and test data. Those tasks concern a variety of applications, such as cancer of unknown primary classification, identification of specific gene signatures, and determination of cell type in single-cell RNA-Seq datasets. On those real tasks, optirank performs at least as well as the vanilla logistic regression on classical ranks, while producing sparser solutions. In addition, to increase the robustness against dataset shifts, we propose a multi-source learning scheme and demonstrate its effectiveness when used in combination with rank-based classifiers.
翻訳日:2023-01-13 15:22:02 公開日:2023-01-11
# 双レベル学習のための不規則なハイパーグラディエンスの分析

Analyzing Inexact Hypergradients for Bilevel Learning ( http://arxiv.org/abs/2301.04764v1 )

ライセンス: Link先を確認
Matthias J. Ehrhardt and Lindon Roberts(参考訳) ハイパーパラメータの推定は、機械学習における長年の問題だった。 我々は,手前のタスクが最適化問題の解としてモデル化される場合を考える。 ここでは、ハイパーパラメータに関する正確な勾配を計算できず、近似戦略が必要となる。 暗黙の関数定理と自動微分/バックプロパゲーションに基づいて既存の手法を一般化した過次関数計算のための統一的なフレームワークを導入し、これら2つの異なるアプローチが実際に密接な関係にあることを示す。 我々のフレームワークは非常に柔軟であり、そのサブプロブレムを任意の精度で適切な方法で解決することができる。 我々は全ての方法において、優先順位と計算可能な後方誤差境界を導出し、a後方境界は通常より正確であることが数値的に示される。 また, 計算結果から, 効率のよい2次最適化では, 低次解法の場合と同様に, 超次アルゴリズムの選択が重要であることが示された。

Estimating hyperparameters has been a long-standing problem in machine learning. We consider the case where the task at hand is modeled as the solution to an optimization problem. Here the exact gradient with respect to the hyperparameters cannot be feasibly computed and approximate strategies are required. We introduce a unified framework for computing hypergradients that generalizes existing methods based on the implicit function theorem and automatic differentiation/backpropagation, showing that these two seemingly disparate approaches are actually tightly connected. Our framework is extremely flexible, allowing its subproblems to be solved with any suitable method, to any degree of accuracy. We derive a priori and computable a posteriori error bounds for all our methods, and numerically show that our a posteriori bounds are usually more accurate. Our numerical results also show that, surprisingly, for efficient bilevel optimization, the choice of hypergradient algorithm is at least as important as the choice of lower-level solver.
翻訳日:2023-01-13 15:21:37 公開日:2023-01-11
# MotorFactory:小型電動機の大容量データ生成のためのブレンダーアドオン

MotorFactory: A Blender Add-on for Large Dataset Generation of Small Electric Motors ( http://arxiv.org/abs/2301.05028v1 )

ライセンス: Link先を確認
Chengzhi Wu, Kanran Zhou, Jan-Philipp Kaiser, Norbert Mitschke, Jan-Felix Klein, Julius Pfrommer, J\"urgen Beyerer, Gisela Lanza, Michael Heizmann and Kai Furmans(参考訳) 再生産において、不確かな条件と摩耗度を有する異なる製品タイプの自動分解を可能にするために、要求の変更に動的に適応できるアジャイル生産システムが必要である。 機械学習アルゴリズムは、様々な種類の製品から学習する一般化能力によって採用することができる。 しかし、実際には、モデルのトレーニングに使用できるサンプルの多様性を持つデータセットは、初期段階では取得が困難である。 これは、システムが将来目に見えない新しい入力データに適応しようとすると、パフォーマンスが悪くなる可能性がある。 学習目的の異なる大規模データセットを生成するために,本プロジェクトでは,様々なモータインスタンスのメッシュモデルを生成するために motorfactory というブレンダアドオンを提案する。 MotorFactoryは、追加のアドオンを補完するメッシュモデルを作成し、合成RGBイメージ、深度画像、通常の画像、セグメンテーショングラウンドの真実マスク、ポイントワイドなセマンティックラベルを持つ3Dポイントクラウドデータセットを作成するためにさらに使用できる。 生成された合成データセットは、モータータイプ分類、分散された物質転送タスクのオブジェクト検出、分解と処理のための部分セグメンテーション、強化された学習に基づくロボティクス制御やビュープランニングなど、さまざまなタスクに使用することができる。

To enable automatic disassembly of different product types with uncertain conditions and degrees of wear in remanufacturing, agile production systems that can adapt dynamically to changing requirements are needed. Machine learning algorithms can be employed due to their generalization capabilities of learning from various types and variants of products. However, in reality, datasets with a diversity of samples that can be used to train models are difficult to obtain in the initial period. This may cause bad performances when the system tries to adapt to new unseen input data in the future. In order to generate large datasets for different learning purposes, in our project, we present a Blender add-on named MotorFactory to generate customized mesh models of various motor instances. MotorFactory allows to create mesh models which, complemented with additional add-ons, can be further used to create synthetic RGB images, depth images, normal images, segmentation ground truth masks, and 3D point cloud datasets with point-wise semantic labels. The created synthetic datasets may be used for various tasks including motor type classification, object detection for decentralized material transfer tasks, part segmentation for disassembly and handling tasks, or even reinforcement learning-based robotics control or view-planning.
翻訳日:2023-01-13 15:12:23 公開日:2023-01-11
# SARSA最適化を用いたネットワークスライシング通信資源のモデリング

On Modeling Network Slicing Communication Resources with SARSA Optimization ( http://arxiv.org/abs/2301.04696v1 )

ライセンス: Link先を確認
Eduardo S. Xavier and Nazim Agoulmine and Joberto S. B. Martins(参考訳) ネットワークスライシングは、5G/6Gモバイルネットワーク、IoT対応ネットワーク、eヘルスシステム、自動車のインターネット(IoV)や業界4.0といった産業分野のネットワークの動的振る舞いによって要求される仮想ネットワークインフラストラクチャの構成と展開をサポートするための重要な手段である。 通信スライスとその割り当てされた通信リソースは、リソースオーケストレーションとアロケーション、仮想ネットワーク機能(VNF)デプロイメント、スライス操作機能のためのスライスアーキテクチャに不可欠である。 通信スライスにより、スライス操作、SLA保証、QoS/QoEアプリケーション要求をサポートするのに必要な通信機能を提供する。 そこで本稿では,通信スライス間の通信リソースの共有に関する最適化問題を定式化するネットワークスライス概念モデルを提案する。 まず,ネットワークスライシングの概念モデルを提案し,そのモデルと最適化問題のいくつかの側面を解析的に定式化する。 次に,SARSAエージェントを用いて問題を解決し,概念実証のプロトタイプを実装することを提案した。 最後に、得られた結果を提示し、議論する。

Network slicing is a crucial enabler to support the composition and deployment of virtual network infrastructures required by the dynamic behavior of networks like 5G/6G mobile networks, IoT-aware networks, e-health systems, and industry verticals like the internet of vehicles (IoV) and industry 4.0. The communication slices and their allocated communication resources are essential in slicing architectures for resource orchestration and allocation, virtual network function (VNF) deployment, and slice operation functionalities. The communication slices provide the communications capabilities required to support slice operation, SLA guarantees, and QoS/ QoE application requirements. Therefore, this contribution proposes a networking slicing conceptual model to formulate the optimization problem related to the sharing of communication resources among communication slices. First, we present a conceptual model of network slicing, we then formulate analytically some aspects of the model and the optimization problem to address. Next, we proposed to use a SARSA agent to solve the problem and implement a proof of concept prototype. Finally, we present the obtained results and discuss them.
翻訳日:2023-01-13 15:03:48 公開日:2023-01-11
# 刑事司法当局のためのアルゴリズム的意思決定ツールを構築する際に「技術的な」設計はどのようにして憲法上の危険をもたらすのか?

How do "technical" design-choices made when building algorithmic decision-making tools for criminal justice authorities create constitutional dangers? ( http://arxiv.org/abs/2301.04713v1 )

ライセンス: Link先を確認
Karen Yeung and Adam Harkens(参考訳) この2つの論文は、犯罪司法当局による決定を知らせるために使用される機械学習ベースのアルゴリズムツールの開発者による「技術的」な選択は、重大な憲法上の危険を生じさせ、意思決定力の乱用の可能性と不当な範囲と大きさを高めることができると主張している。 刑事司法当局がどのように扱うべきかを個人が知らせる「リスク」を評価するために使われる3つのアルゴリズムツールについて、我々はデータサイエンスと公共法奨学金の洞察を統合し、これらの原則に根ざした公共法原則とより具体的な法的義務がアルゴリズム的ツール構築と実装において日常的に見過ごされていることを示す。 技術開発者は、もしアルゴリズムによる決定支援ツールが刑事司法決定を知らせるならば、これらのツールは、ツール構築プロセスを通して、公法原則や人権の尊重を含む原則に明らかに準拠した方法で構成され、実装されるように、公法専門家と密接に協力する必要がある、と我々は主張する。

This two part paper argues that seemingly "technical" choices made by developers of machine-learning based algorithmic tools used to inform decisions by criminal justice authorities can create serious constitutional dangers, enhancing the likelihood of abuse of decision-making power and the scope and magnitude of injustice. Drawing on three algorithmic tools in use, or recently used, to assess the "risk" posed by individuals to inform how they should be treated by criminal justice authorities, we integrate insights from data science and public law scholarship to show how public law principles and more specific legal duties that are rooted in these principles, are routinely overlooked in algorithmic tool-building and implementation. We argue that technical developers must collaborate closely with public law experts to ensure that if algorithmic decision-support tools are to inform criminal justice decisions, those tools are configured and implemented in a manner that is demonstrably compliant with public law principles and doctrine, including respect for human rights, throughout the tool-building process.
翻訳日:2023-01-13 15:03:28 公開日:2023-01-11
# デコード構造-スペクトル関係と物理的に整理された潜在空間

Decoding Structure-Spectrum Relationships with Physically Organized Latent Spaces ( http://arxiv.org/abs/2301.04724v1 )

ライセンス: Link先を確認
Zhu Liang, Matthew R. Carbone, Wei Chen, Fanchen Meng, Eli Stavitski, Deyu Lu, Mark S. Hybertsen, and Xiaohui Qu(参考訳) X線吸収近接端構造(XANES)スペクトルの解釈の具体例を用いて,構造スペクトル関係の発見のための新しい半教師付き機械学習手法を開発した。 本手法は,個々の構造記述子とスペクトル傾向の1対1マッピングを構成する。 具体的には、対向オートエンコーダを新規なランク制約(RankAAE)で拡張する。 RankAAE法は連続的で解釈可能な潜在空間を生成し、各次元は個々の構造記述子を追跡することができる。 このプロセスの一部として、このモデルは、複数の構造特性から相互に結合したスペクトルコントリビューションを分離することにより、構造とスペクトルの関係を堅牢かつ定量的に測定する。 これはスペクトル解釈と新しい記述子の発見に理想的である。 この手順の能力は、8つの1列の遷移金属酸化物ファミリーにまたがる5万以上のシミュレートxanesスペクトルのデータベースと5つの局所構造記述子を考慮に入れることで示される。 結果として得られた構造とスペクトルの関係は、文献の既知の傾向を再現するだけでなく、大きなデータセットでは視覚的に識別できない直観的な傾向も明らかにする。 RankAAEの手法は、研究者が複雑な科学的データを解釈し、物理仮説を検証し、科学的洞察を広げる新しいパターンを明らかにするのに大いに役立つことを示唆している。

A new semi-supervised machine learning method for the discovery of structure-spectrum relationships is developed and demonstrated using the specific example of interpreting X-ray absorption near-edge structure (XANES) spectra. This method constructs a one-to-one mapping between individual structure descriptors and spectral trends. Specifically, an adversarial autoencoder is augmented with a novel rank constraint (RankAAE). The RankAAE methodology produces a continuous and interpretable latent space, where each dimension can track an individual structure descriptor. As a part of this process, the model provides a robust and quantitative measure of the structure-spectrum relationship by decoupling intertwined spectral contributions from multiple structural characteristics. This makes it ideal for spectral interpretation and the discovery of new descriptors. The capability of this procedure is showcased by considering five local structure descriptors and a database of over fifty thousand simulated XANES spectra across eight first-row transition metal oxide families. The resulting structure-spectrum relationships not only reproduce known trends in the literature, but also reveal unintuitive ones that are visually indiscernible in large data sets. The results suggest that the RankAAE methodology has great potential to assist researchers to interpret complex scientific data, test physical hypotheses, and reveal new patterns that extend scientific insight.
翻訳日:2023-01-13 15:03:05 公開日:2023-01-11
# 相転移による回路複雑度:量子状態形成における結果

Circuit Complexity through phase transitions: consequences in quantum state preparation ( http://arxiv.org/abs/2301.04671v1 )

ライセンス: Link先を確認
Sebasti\'an Roca-Jerat, Teresa Sancho-Lorente, Juan Rom\'an-Roche and David Zueco(参考訳) 本稿では,量子多体系の基底状態を作成するための回路複雑性の解析を行う。 特に、基底状態が量子相転移に近づくにつれて、この複雑さがどのように成長するか。 複雑性の異なる定義、すなわちフビニ・スタディ計量(Fubini-Study metric)やニールセン複雑性(Nielsen complexity)について論じる。 また、Ising、ZZXZ、Dickeといったモデルも検討しています。 さらに, 解析的, 正確な対角化技術, 断熱アルゴリズム(近距離・非近距離), 量子変量固有解法など, 様々な形態の状態準備について検討した。 位相遷移近傍の複雑性の発散(またはその欠如)は、基底状態に到達するのに使用される操作の非局所的性質に依存する。 フビニ・スタディに基づく複雑性については、普遍的性質とその臨界指数を抽出する。 実用的なアルゴリズムでは、複雑性は状態を準備する際にシステムが量子臨界点に近づくかどうかに大きく依存する。 断熱的な場合、参照状態とターゲット状態が異なる位相にある場合、臨界点を横切ることは困難であるが、VQEでは、アルゴリズムは臨界点を避ける方法を見つけることができる。

In this paper, we analyze the circuit complexity for preparing ground states of quantum many-body systems. In particular, how this complexity grows as the ground state approaches a quantum phase transition. We discuss different definitions of complexity, namely the one following the Fubini-Study metric or the Nielsen complexity. We also explore different models: Ising, ZZXZ or Dicke. In addition, different forms of state preparation are investigated: analytic or exact diagonalization techniques, adiabatic algorithms (with and without shortcuts), and Quantum Variational Eigensolvers. We find that the divergence (or lack thereof) of the complexity near a phase transition depends on the non-local character of the operations used to reach the ground state. For Fubini-Study based complexity, we extract the universal properties and their critical exponents. In practical algorithms, we find that the complexity depends crucially on whether or not the system passes close to a quantum critical point when preparing the state. While in the adiabatic case it is difficult not to cross a critical point when the reference and target states are in different phases, for VQE the algorithm can find a way to avoid criticality.
翻訳日:2023-01-13 14:55:56 公開日:2023-01-11
# 量子グラフニューラルネットワークによる物理シミュレーション

Physics Simulation Via Quantum Graph Neural Network ( http://arxiv.org/abs/2301.04702v1 )

ライセンス: Link先を確認
Benjamin Collis, Saahil Patel, Daniel Koch, Massimiliano Cutugno, Laura Wessing, and Paul M. Alsing(参考訳) 本稿では,量子グラフニューラルネットワーク(QGNN)の2つの実現法を開発し,粒子相互作用シミュレーションの課題に適用する。 第1QGNNは、古典的な情報として重ね合わせ状態を直接実装し、粒子間で情報を伝達する投機的量子古典ハイブリッド学習モデルであり、第2QGNNは、RX$回転ゲートのパラメータを介して直接粒子情報を伝播する実行可能な量子古典ハイブリッド学習モデルである。 従来のグラフニューラルネットワーク(CGNN)も同じタスクでトレーニングされている。 投機的QGNNとCGNNはどちらも実現可能なQGNNに対する制御として機能する。 古典モデルと量子モデルの比較は、トレーニングを通して各モデルの損失値と精度に基づいている。 全体として、各モデルの性能は極めてよく似ている。 3つのモデルはそれぞれ高い学習効率を持ち、トレーニング中に損失値が急速にゼロに近づく。 対照的に、各モデルの精度は低い。 相対的に言えば、実現可能なqgnnの学習効率は高く、トレーニング中のcgnnよりも高い精度を持つが、検証データセットでテストすると、測定された精度は同一になる。 これらの結果は、実現可能なQGNNがCGNNに対して潜在的に有利であることを示している。 さらに,ハイパーパラメータのわずかな変更により精度が向上し,さらなる微調整により精度の低下が生じる可能性が示唆された。

We develop and implement two realizations of quantum graph neural networks (QGNN), applied to the task of particle interaction simulation. The first QGNN is a speculative quantum-classical hybrid learning model that relies on the ability to directly implement superposition states as classical information to propagate information between particles, while the second is a feasible quantum-classical hybrid learning model that propagates particle information directly through the parameters of $RX$ rotation gates. A classical graph neural network (CGNN) is also trained in the same task. Both the speculative QGNN and CGNN act as controls against the feasible QGNN. Comparison between classical and quantum models is based on the loss value and the accuracy of each model throughout training. Overall, the performance of each model is highly similar. Each of the three models has a high learning efficiency, in which the loss value rapidly approaches zero during training. Contrarily, the accuracy of each model is poor. In relative terms, the learning efficiency of the feasible QGNN is highest, and it has a greater accuracy than the CGNN during training; however, their measured accuracies become identical when tested on a validation data set. These outcomes suggests that the feasible QGNN has a potential advantage over the CGNN. Additionally, we show that a slight alteration in hyperparameters notably improves accuracy, suggesting that further fine tuning these could mitigate the issue of high inaccuracy.
翻訳日:2023-01-13 14:55:37 公開日:2023-01-11
# ゼロ通信による純粋状態変換の再検討

Revisiting Pure State Transformations with Zero Communication ( http://arxiv.org/abs/2301.04735v1 )

ライセンス: Link先を確認
Ian George, Eric Chitambar(参考訳) 古典的通信がなければ、2成分の絡み合った状態の一般変換性は任意誤差では不可能であることが知られている。 通信コストと変換エラーの間のトレードオフが証明されているが、これらの境界は非常に緩い。 特に、許容可能なエラーがゼロ通信プロトコルを使って達成可能である場合が多い。 本研究では,局所ユニタリの下での純粋状態変換の最適忠実性と局所演算と共有ランダム性(losr)を導出することで,これらの問題に対処する。 また、これらの結果を用いて、純粋な状態間の触媒変換をゼロ通信を用いて探究する。

It is known that general convertibility of bipartite entangled states is not possible to arbitrary error without some classical communication. While some trade-offs between communication cost and conversion error have been proven, these bounds can be very loose. In particular, there are many cases in which tolerable error might be achievable using zero-communication protocols. In this work we address these cases by deriving the optimal fidelity of pure state conversions under local unitaries as well as local operations and shared randomness (LOSR). We also uses these results to explore catalytic conversions between pure states using zero communication.
翻訳日:2023-01-13 14:55:14 公開日:2023-01-11
# 説明可能なブースティングマシンを用いた非延性rcせん断壁の変形容量の推定

Estimate Deformation Capacity of Non-Ductile RC Shear Walls using Explainable Boosting Machine ( http://arxiv.org/abs/2301.04652v1 )

ライセンス: Link先を確認
Zeynep Tuna Deger, Gulsen Taskin Kaya, John W Wallace(参考訳) 地震工学の課題に取り組み、かなり信頼できる正確な予測を提供するために、機械学習がますます普及している。 しかしながら、機械学習モデルが一般的に高度に洗練されており、不透明なブラックボックスモデルになるため、意思決定方法はほとんど不明である。 自然に解釈可能であり、説明を使うよりも独自の意思決定説明を提供する機械学習モデルは、モデルが実際に何を計算するかを決定する上でより正確である。 本研究の目的は, 世界中から収集した実験データをもとに, 非延性鉄筋コンクリートせん断壁の変形能力を予測するため, 完全に説明可能な機械学習モデルを開発することである。 提案された Explainable Boosting Machines (EBM) ベースのモデルは、解釈可能で堅牢で、自然に説明可能なガラス箱モデルであるが、ブラックボックスと同等の精度を提供する。 このモデルにより、各壁特性の個々の寄与とそれらの相関を定量化することにより、壁特性と変形能力の関係を観察することができる。 判定R2の平均係数と、テストデータセットに基づいて予測された実値に対する平均比はそれぞれ0.92と1.05である。 提案した予測モデルは, 精度を犠牲にすることなく, 科学的知識, 実用性, 解釈可能性と総合的に整合性を示す。

Machine learning is becoming increasingly prevalent for tackling challenges in earthquake engineering and providing fairly reliable and accurate predictions. However, it is mostly unclear how decisions are made because machine learning models are generally highly sophisticated, resulting in opaque black-box models. Machine learning models that are naturally interpretable and provide their own decision explanation, rather than using an explanatory, are more accurate in determining what the model actually computes. With this motivation, this study aims to develop a fully explainable machine learning model to predict the deformation capacity of non-ductile reinforced concrete shear walls based on experimental data collected worldwide. The proposed Explainable Boosting Machines (EBM)-based model is an interpretable, robust, naturally explainable glass-box model, yet provides high accuracy comparable to its black-box counterparts. The model enables the user to observe the relationship between the wall properties and the deformation capacity by quantifying the individual contribution of each wall property as well as the correlations among them. The mean coefficient of determination R2 and the mean ratio of predicted to actual value based on the test dataset are 0.92 and 1.05, respectively. The proposed predictive model stands out with its overall consistency with scientific knowledge, practicality, and interpretability without sacrificing high accuracy.
翻訳日:2023-01-13 14:45:59 公開日:2023-01-11
# 学習ダイナミクスモデルを用いた効率的選好に基づく強化学習

Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models ( http://arxiv.org/abs/2301.04741v1 )

ライセンス: Link先を確認
Yi Liu, Gaurav Datta, Ellen Novoseller, Daniel S. Brown(参考訳) 優先度に基づく強化学習(PbRL)により、ロボットは手作りの報酬関数を必要とせず、個人の好みに基づいてタスクを実行することができる。 しかしながら、既存のアプローチは高忠実度シミュレータや分析モデルへのアクセスを想定するか、大規模で安全でないオンライン環境インタラクションを必要とするモデルフリーのアプローチを取るかのどちらかである。 本稿では,PbRLを実行する際の学習力学モデルの有用性と課題について考察する。 特に,学習されたダイナミクスモデルがpbrlを行う際に,(1)選好誘発と政策最適化は,モデルフリーのpbrlよりも環境相互作用を著しく少なくし,(2)標準モデルに基づくrlの副産物として多様な選好クエリを安全かつ効率的に合成できる,(3)環境相互作用を伴わないサブオプティカルデモンストレーションに基づく事前トレーニングを報酬として実施できる,という利点がある。 本稿は,学習したダイナミクスモデルが,事前選好学習アプローチよりも安全でサンプル効率の良い方法で,ユーザの選好に基づいてカスタマイズされたポリシーを学習できることを示す実証的証拠を提供する。

Preference-based reinforcement learning (PbRL) can enable robots to learn to perform tasks based on an individual's preferences without requiring a hand-crafted reward function. However, existing approaches either assume access to a high-fidelity simulator or analytic model or take a model-free approach that requires extensive, possibly unsafe online environment interactions. In this paper, we study the benefits and challenges of using a learned dynamics model when performing PbRL. In particular, we provide evidence that a learned dynamics model offers the following benefits when performing PbRL: (1) preference elicitation and policy optimization require significantly fewer environment interactions than model-free PbRL, (2) diverse preference queries can be synthesized safely and efficiently as a byproduct of standard model-based RL, and (3) reward pre-training based on suboptimal demonstrations can be performed without any environmental interaction. Our paper provides empirical evidence that learned dynamics models enable robots to learn customized policies based on user preferences in ways that are safer and more sample efficient than prior preference learning approaches.
翻訳日:2023-01-13 14:45:38 公開日:2023-01-11
# SynMotor: オブジェクト属性回帰とマルチタスク学習のためのベンチマークスイート

SynMotor: A Benchmark Suite for Object Attribute Regression and Multi-task Learning ( http://arxiv.org/abs/2301.05027v1 )

ライセンス: Link先を確認
Chengzhi Wu, Linxi Qiu, Kanran Zhou, Julius Pfrommer and J\"urgen Beyerer(参考訳) 本稿では,2次元合成画像データセットと3次元合成点クラウドデータセットの両方を含む新しいベンチマークスイートを開発する。 私たちの仕事は、小さな電動モーターを基本オブジェクトとして使用する、再製造プロジェクトのフレームワークにおけるサブタスクです。 与えられた検出、分類、セグメンテーションアノテーションとは別に、キーオブジェクトは基底真理を持つ複数の学習可能な属性も備えている。 このベンチマークは、2D/3D検出、分類、セグメンテーション、マルチ属性学習などのコンピュータビジョンタスクに使用できる。 モーターのほとんどの属性は、バイナリではなく連続的な変数として定量化されているので、我々のベンチマークは、調査の少ない回帰タスクに適している。 さらに、各タスクに適切な評価指標を採用または開発し、有望なベースライン結果を提供する。 このベンチマークは、オブジェクト属性学習とマルチタスク学習のサブドメインに関するさらなる研究活動を促進することを願っている。

In this paper, we develop a novel benchmark suite including both a 2D synthetic image dataset and a 3D synthetic point cloud dataset. Our work is a sub-task in the framework of a remanufacturing project, in which small electric motors are used as fundamental objects. Apart from the given detection, classification, and segmentation annotations, the key objects also have multiple learnable attributes with ground truth provided. This benchmark can be used for computer vision tasks including 2D/3D detection, classification, segmentation, and multi-attribute learning. It is worth mentioning that most attributes of the motors are quantified as continuously variable rather than binary, which makes our benchmark well-suited for the less explored regression tasks. In addition, appropriate evaluation metrics are adopted or developed for each task and promising baseline results are provided. We hope this benchmark can stimulate more research efforts on the sub-domain of object attribute learning and multi-task learning in the future.
翻訳日:2023-01-13 14:37:20 公開日:2023-01-11
# 球面不規則表面による連続メッシュ表現の学習

Learning Continuous Mesh Representation with Spherical Implicit Surface ( http://arxiv.org/abs/2301.04695v1 )

ライセンス: Link先を確認
Zhongpai Gao(参考訳) 3次元形状の最も一般的な表現として、メッシュはしばしば頂点と面の配列で離散的に保存される。 しかし,実世界の3次元形状は連続的に提示される。 本稿では,多くの顔・手・身体関連アプリケーションにおいて,固定トポロジを持つメッシュの連続表現を共通かつ実践的に学習することを提案する。 まず、テンプレートを複数の閉多様体種数-0メッシュに分割し、各種数-0メッシュを単位球面上にパラメータ化できるようにした。 次に球面の暗黙的曲面(sis)を学習し、球面の座標と大域的な特徴、あるいは座標の周りの局所的な特徴を入力とし、座標に対応する頂点を出力として予測する。 球面座標は連続であるため、SISは任意の解像度でメッシュを描くことができる。 SIS表現は3次元形状の離散表現と連続表現の間に橋渡しを形成する。 具体的には、リコンストラクションタスクと超解像タスクの2つのタスクに対して、SISネットワークを自己教師型でトレーニングする。 実験により、私たちのSIS表現は、固定解像度のメッシュ用に特別に設計され、任意の解像度で動作するメソッドよりも大幅に優れています。

As the most common representation for 3D shapes, mesh is often stored discretely with arrays of vertices and faces. However, 3D shapes in the real world are presented continuously. In this paper, we propose to learn a continuous representation for meshes with fixed topology, a common and practical setting in many faces-, hand-, and body-related applications. First, we split the template into multiple closed manifold genus-0 meshes so that each genus-0 mesh can be parameterized onto the unit sphere. Then we learn spherical implicit surface (SIS), which takes a spherical coordinate and a global feature or a set of local features around the coordinate as inputs, predicting the vertex corresponding to the coordinate as an output. Since the spherical coordinates are continuous, SIS can depict a mesh in an arbitrary resolution. SIS representation builds a bridge between discrete and continuous representation in 3D shapes. Specifically, we train SIS networks in a self-supervised manner for two tasks: a reconstruction task and a super-resolution task. Experiments show that our SIS representation is comparable with state-of-the-art methods that are specifically designed for meshes with a fixed resolution and significantly outperforms methods that work in arbitrary resolutions.
翻訳日:2023-01-13 14:29:36 公開日:2023-01-11
# HADA: 画像テキスト検索のためのグラフベースのアマルガメーションフレームワーク

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval ( http://arxiv.org/abs/2301.04742v1 )

ライセンス: Link先を確認
Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin(参考訳) 視覚や言語タスク、特に画像テキスト検索タスクには多くのモデルが提案されている。 この課題におけるすべての最先端(SOTA)モデルには数億のパラメータが含まれていた。 それらはまた、全体的なパフォーマンスを大きく改善することが証明された大きな外部データセットで事前トレーニングされた。 新しいアーキテクチャで新しいモデルを提案し、多くのgpuを備えた巨大なデータセットで集中的にトレーニングすることで、すでにインターネットで使用可能な多くのsataモデルを超えることは容易ではない。 本稿では,事前学習モデルを組み合わせることで,スクラッチから構築するよりも優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。 まず,事前学習したモデルから抽出した特徴とそれらを接続するエッジをノードとするグラフ構造を作成した。 グラフ構造は、事前訓練されたすべてのモデルから情報を取り込み、融合するために使用される。 その後、グラフニューラルネットワークを適用してノード間の接続を更新し、画像とテキストの代表的な埋め込みベクトルを取得する。 最後に、コサイン類似性を用いて、画像と関連するテキストをマッチングし、その逆で低推論時間を確保する。 私たちの実験では、hadaはトレーニング可能なパラメータの数が少ないが、flickr30kデータセットの評価基準で、ベースラインのパフォーマンスが3.6%以上向上することを示しました。 さらに、提案モデルは外部データセットをトレーニングせず、パラメータが少ないため、多くのgpuを必要としないが、1つしかトレーニングできない。 ソースコードはhttps://github.com/m2man/hada。

Many models have been proposed for vision and language tasks, especially the image-text retrieval task. All state-of-the-art (SOTA) models in this challenge contained hundreds of millions of parameters. They also were pretrained on a large external dataset that has been proven to make a big improvement in overall performance. It is not easy to propose a new model with a novel architecture and intensively train it on a massive dataset with many GPUs to surpass many SOTA models, which are already available to use on the Internet. In this paper, we proposed a compact graph-based framework, named HADA, which can combine pretrained models to produce a better result, rather than building from scratch. First, we created a graph structure in which the nodes were the features extracted from the pretrained models and the edges connecting them. The graph structure was employed to capture and fuse the information from every pretrained model with each other. Then a graph neural network was applied to update the connection between the nodes to get the representative embedding vector for an image and text. Finally, we used the cosine similarity to match images with their relevant texts and vice versa to ensure a low inference time. Our experiments showed that, although HADA contained a tiny number of trainable parameters, it could increase baseline performance by more than 3.6% in terms of evaluation metrics in the Flickr30k dataset. Additionally, the proposed model did not train on any external dataset and did not require many GPUs but only 1 to train due to its small number of parameters. The source code is available at https://github.com/m2man/HADA.
翻訳日:2023-01-13 14:29:18 公開日:2023-01-11
# LSDMによる超音波ランドマーク追跡の高精度化

LSDM: Long-Short Diffeomorphic Motion for Weakly-Supervised Ultrasound Landmark Tracking ( http://arxiv.org/abs/2301.04748v1 )

ライセンス: Link先を確認
Zhihua Liu, Bin Yang, Yan Shen, Xuejun Ni, Huiyu Zhou(参考訳) 解剖学的ランドマークの正確な追跡は、低侵襲手術や腫瘍放射線治療などの疾患評価に高い関心を集めてきた。 超音波イメージングは、低コストでリアルタイムな取得の恩恵を受ける有望なモダリティである。 しかし、正確なランドマークのトラックレットの生成は非常に困難であり、ランドマークの変形、視覚的あいまいさ、部分的な観察などの異なる干渉によって試みは容易に歪められる。 本稿では,ランドマークの可塑性変形を探索する前に学習可能な変形を有するマルチタスク・フレームワークである長短微分同相運動ネットワークを提案する。 具体的には,長周期領域と短周期領域の両方に新たな微分同相表現を設計し,長期累積追跡誤差を低減させる。 さらに, 局所解剖学的曖昧さを緩和するために, 長変形と短変形の両方を反復的に最適化する期待最大化運動アライメントモジュールを提案する。 提案したマルチタスクシステムは,長短変形学習のための目覚しいアノテーションとゼロアノテーションをほとんど必要とせず,弱教師付きでトレーニングすることができる。 2つの超音波ランドマーク追跡データセットについて広範な実験を行った。 実験結果から,提案手法は,他の最先端の追跡手法と比較して,より優れた,あるいは競争力のあるランドマーク追跡性能を達成できることが示唆された。

Accurate tracking of an anatomical landmark over time has been of high interests for disease assessment such as minimally invasive surgery and tumor radiation therapy. Ultrasound imaging is a promising modality benefiting from low-cost and real-time acquisition. However, generating a precise landmark tracklet is very challenging, as attempts can be easily distorted by different interference such as landmark deformation, visual ambiguity and partial observation. In this paper, we propose a long-short diffeomorphic motion network, which is a multi-task framework with a learnable deformation prior to search for the plausible deformation of landmark. Specifically, we design a novel diffeomorphism representation in both long and short temporal domains for delineating motion margins and reducing long-term cumulative tracking errors. To further mitigate local anatomical ambiguity, we propose an expectation maximisation motion alignment module to iteratively optimize both long and short deformation, aligning to the same directional and spatial representation. The proposed multi-task system can be trained in a weakly-supervised manner, which only requires few landmark annotations for tracking and zero annotation for long-short deformation learning. We conduct extensive experiments on two ultrasound landmark tracking datasets. Experimental results show that our proposed method can achieve better or competitive landmark tracking performance compared with other state-of-the-art tracking methods, with a strong generalization capability across different scanner types and different ultrasound modalities.
翻訳日:2023-01-13 14:28:53 公開日:2023-01-11
# サイズ比較のための人工知能生成コイル

Artificial Intelligence Generated Coins for Size Comparison ( http://arxiv.org/abs/2301.04751v1 )

ライセンス: Link先を確認
Gerald Artner(参考訳) 科学記事の著者は、写真のコインを物体の大きさの基準として使っている。 この目的のために、写真を撮る際にオブジェクトの横にコインが置かれる。 本稿では,人工知能(AI)が生成したコインの画像を用いて画像中のサイズ参照を提供する新しい手法を提案する。 最新の世代は、テキスト記述から現実的な高品質な画像を素早く生成できる。 提案手法では,写真を撮りながら物理的なコインは不要である。 コインは写真に追加できるが、写真には含まれない。 さらに,コインのモチーフが対象物とどのように一致しているかを示す。

Authors of scientific articles use coins in photographs as a size reference for objects. For this purpose, coins are placed next to objects when taking the photo. In this letter we propose a novel method that uses artificial intelligence (AI) generated images of coins to provide a size reference in photos. The newest generation is able to quickly generate realistic high-quality images from textual descriptions. With the proposed method no physical coin is required while taking photos. Coins can be added to photos that contain none. Furthermore, we show how the coin motif can be matched to the object.
翻訳日:2023-01-13 14:28:25 公開日:2023-01-11
# 忠実なモデル解釈のための因果的抽象化

Causal Abstraction for Faithful Model Interpretation ( http://arxiv.org/abs/2301.04709v1 )

ライセンス: Link先を確認
Atticus Geiger and Chris Potts and Thomas Icard(参考訳) aiモデルの振る舞いと内部構造に関する忠実で解釈可能な説明は、人間の知性は高いが、既知の、しかししばしば不透明なモデルの因果的詳細と一致している高レベルの説明である。 因果的抽象の理論は、望ましいモデル説明の数学的基礎を提供すると主張する。 因果抽象化解析では、モデル内部の状態に対する介入を用いて、解釈可能な高レベル因果モデルがAIモデルの忠実な記述であるかどうかを厳格に評価する。 1) 因果抽象を循環因果構造と型付き高レベル変数に一般化する。 2) 因果的抽象分析を行うためにマルチソースインターチェンジをいかに活用できるかを示す。 (3)高次因果モデルが下位レベルの因果的抽象化の因果的抽象化である程度を評価することができるような因果的抽象化の概念を定義する。 (4) 構成因果抽象は, 余剰化, 変数マージ, 値マージの3つの操作に分解できることを示す。 (5) LIME, 因果効果推定, 因果媒介分析, 繰り返しヌル空間投影, 回路に基づく説明のXAI法を因果抽象解析の特別な場合として定式化する。

A faithful and interpretable explanation of an AI model's behavior and internal structure is a high-level explanation that is human-intelligible but also consistent with the known, but often opaque low-level causal details of the model. We argue that the theory of causal abstraction provides the mathematical foundations for the desired kinds of model explanations. In causal abstraction analysis, we use interventions on model-internal states to rigorously assess whether an interpretable high-level causal model is a faithful description of an AI model. Our contributions in this area are: (1) We generalize causal abstraction to cyclic causal structures and typed high-level variables. (2) We show how multi-source interchange interventions can be used to conduct causal abstraction analyses. (3) We define a notion of approximate causal abstraction that allows us to assess the degree to which a high-level causal model is a causal abstraction of a lower-level one. (4) We prove constructive causal abstraction can be decomposed into three operations we refer to as marginalization, variable-merge, and value-merge. (5) We formalize the XAI methods of LIME, causal effect estimation, causal mediation analysis, iterated nullspace projection, and circuit-based explanations as special cases of causal abstraction analysis.
翻訳日:2023-01-13 14:19:55 公開日:2023-01-11
# EgoTracks: 長期的なエゴセントリックなビジュアルオブジェクト追跡データセット

EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset ( http://arxiv.org/abs/2301.03213v2 )

ライセンス: Link先を確認
Hao Tang, Kevin Liang, Kristen Grauman, Matt Feiszli, Weiyao Wang(参考訳) 視覚オブジェクトのトラッキングは多くのエゴセントリックな視覚問題の主要なコンポーネントである。 しかし、具体化されたaiが直面するエゴセントリックなトラッキングの課題のスペクトルは、既存の多くのデータセットで過小評価されている。 エゴセントリックビデオは、過去のデータセットでよく見られるいくつかの特徴がある: しばしば大きなカメラの動きとオブジェクトとの手動相互作用は、一般的に、フレームから出る閉塞や物体につながり、オブジェクトの外観は、視野、スケール、またはオブジェクトの状態が広く異なるため、急速に変化する。 身体的なトラッキングも自然に長期的であり、寿命が重要である限り、オブジェクトの出現や消失に一貫して(再)関連付けることができる。 以前のデータセットは、この再検出問題を過度に強調しており、その「フレーム」の性質は、我々が必ずしも自我中心ビデオに一般化しない様々な時空間前置法の採用につながった。 EgoTracksは、長期的エゴセントリックなビジュアルオブジェクト追跡のための新しいデータセットである。 Ego4Dデータセットから引用したこの新しいデータセットは、最近の最先端の単一オブジェクト追跡モデルに重大な課題をもたらします。 我々はさらに、EgoSTARKと呼ばれるベースラインモデルにより、エゴセントリックなデータの性能を大幅に向上させるためにSTARKトラッカーにできる改善を示す。 当社はアノテーションとベンチマークを公開し、データセットがトラッキングのさらなる進歩につながることを期待しています。

Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their "framed" nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.
翻訳日:2023-01-13 14:17:58 公開日:2023-01-11
# SHUNIT:未ペア画像変換のためのスタイル調和

SHUNIT: Style Harmonization for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2301.04685v1 )

ライセンス: Link先を確認
Seokbeom Song, Suhyeon Lee, Hongje Seong, Kyoungwon Min, Euntai Kim(参考訳) 画像対画像変換(i2i)のための新しい解法を提案する。 複雑なイメージを広い範囲のオブジェクトで異なるドメインに変換するために、最近のアプローチでは、クラス毎のソースからターゲットへのマッピングを行うためにオブジェクトアノテーションを使うことが多い。 しかし、私たちがI2Iで活用すべきポイントは残っています。 各クラスのオブジェクトは複数のコンポーネントで構成され、すべてのサブオブジェクトコンポーネントは異なる特性を持っています。 例えば、カークラスの車は車体、タイヤ、窓、ヘッド、テールランプなどで構成されており、現実的なi2i翻訳のために別々に扱う必要がある。 この問題に対する最も単純な解決策は、単純なオブジェクトアノテーションよりもサブオブジェクトコンポーネントアノテーションを使ったより詳細なアノテーションを使うことですが、それは不可能です。 本論文の主な考え方は,サブオブジェクトコンポーネントのアノテーションを回避し,入力画像の本来のスタイルを活用することである。 具体的には、各画素に対して、ソースとターゲットドメイン間のクラスごとのスタイルギャップだけでなく、画素の本来のスタイルを使って、画素のターゲットスタイルを決定する。 そこで本稿では,非ペア化i2i翻訳(shunit)のスタイル調和について述べる。 クラスメモリから取得した対象ドメインスタイルと元のソースイメージスタイルを調和させることで,新たなスタイルを生成します。 ソースからターゲットへの直接マッピングではなく、ソースとターゲットのスタイルの調和を目指しています。 我々は,本手法を広範囲な実験で検証し,最新のベンチマークで最新性能を得る。 ソースコードはhttps://github.com/bluejangbaljang/shunit。

We propose a novel solution for unpaired image-to-image (I2I) translation. To translate complex images with a wide range of objects to a different domain, recent approaches often use the object annotations to perform per-class source-to-target style mapping. However, there remains a point for us to exploit in the I2I. An object in each class consists of multiple components, and all the sub-object components have different characteristics. For example, a car in CAR class consists of a car body, tires, windows and head and tail lamps, etc., and they should be handled separately for realistic I2I translation. The simplest solution to the problem will be to use more detailed annotations with sub-object component annotations than the simple object annotations, but it is not possible. The key idea of this paper is to bypass the sub-object component annotations by leveraging the original style of the input image because the original style will include the information about the characteristics of the sub-object components. Specifically, for each pixel, we use not only the per-class style gap between the source and target domains but also the pixel's original style to determine the target style of a pixel. To this end, we present Style Harmonization for unpaired I2I translation (SHUNIT). Our SHUNIT generates a new style by harmonizing the target domain style retrieved from a class memory and an original source image style. Instead of direct source-to-target style mapping, we aim for source and target styles harmonization. We validate our method with extensive experiments and achieve state-of-the-art performance on the latest benchmark sets. The source code is available online: https://github.com/bluejangbaljang/SHUNIT.
翻訳日:2023-01-13 14:17:31 公開日:2023-01-11
# berkelmans-pries特徴重要度法:特徴のインフォメーション性に関する総括的尺度

The Berkelmans-Pries Feature Importance Method: A Generic Measure of Informativeness of Features ( http://arxiv.org/abs/2301.04740v1 )

ライセンス: Link先を確認
Joris Pries, Guus Berkelmans, Sandjai Bhulai, Rob van der Mei(参考訳) ここ数年、機械学習モデルの利用は、予測のための汎用的で強力な手段として現れてきた。 同時に、予測モデルの解釈可能性に対する需要が高まっている。 ターゲット変数の$Y$を予測するためにデータセットのどの機能が重要かを判断するために、Feature Importance(FI)メソッドを使用することができる。 y$を予測するための各機能の重要性を定量化することで、無関係な機能を識別および削除することが可能になり、モデルの速度と精度が向上し、さらに重要な機能の発見が可能になるため、貴重な洞察が得られます。 FI法の評価における大きな問題は、基底真理FIがしばしば未知であることである。 その結果、既存のfiメソッドは正確なfi値を与えない。 これがfiメソッドの結果を適切に解釈することが難しい多くの理由の1つです。 そこで本研究では,シェープリー値とベルケルマンズ・プライス依存性関数の組み合わせに基づく,berkelmans-pries fi法という新たなグローバルアプローチを提案する。 本手法は,多くの有用な特性を有することを証明し,基底真理fiが正確な方法で導出できる複数の場合の正確なfi値を精度良く予測する。 本研究は,既存手法が有用性に欠けるFI手法の大規模なコレクション(468)について実験的に示すものである。 これは、berkelmans-pries fi法が複雑な相互依存性を持つデータセットを解析するための非常に貴重なツールであることを示している。

Over the past few years, the use of machine learning models has emerged as a generic and powerful means for prediction purposes. At the same time, there is a growing demand for interpretability of prediction models. To determine which features of a dataset are important to predict a target variable $Y$, a Feature Importance (FI) method can be used. By quantifying how important each feature is for predicting $Y$, irrelevant features can be identified and removed, which could increase the speed and accuracy of a model, and moreover, important features can be discovered, which could lead to valuable insights. A major problem with evaluating FI methods, is that the ground truth FI is often unknown. As a consequence, existing FI methods do not give the exact correct FI values. This is one of the many reasons why it can be hard to properly interpret the results of an FI method. Motivated by this, we introduce a new global approach named the Berkelmans-Pries FI method, which is based on a combination of Shapley values and the Berkelmans-Pries dependency function. We prove that our method has many useful properties, and accurately predicts the correct FI values for several cases where the ground truth FI can be derived in an exact manner. We experimentally show for a large collection of FI methods (468) that existing methods do not have the same useful properties. This shows that the Berkelmans-Pries FI method is a highly valuable tool for analyzing datasets with complex interdependencies.
翻訳日:2023-01-13 14:08:13 公開日:2023-01-11
# 確率ブロックモデルと混合モデルのプライベート推定アルゴリズム

Private estimation algorithms for stochastic block models and mixture models ( http://arxiv.org/abs/2301.04822v1 )

ライセンス: Link先を確認
Hongjie Chen, Vincent Cohen-Addad, Tommaso d'Orsi, Alessandro Epasto, Jacob Imola, David Steurer, Stefan Tiegel(参考訳) 我々は,非プライベートアルゴリズムの統計的保証とほぼ一致する高次元設定において,効率的なプライベート推定アルゴリズムを設計するための汎用ツールを導入する。 本手法を説明するために,確率ブロックモデルの復元と球状ガウスの混合学習という2つの問題を考える。 前者に対しては,弱い回復と正確な回復の両方のために,最初の効率的な$(\epsilon, \delta)$-differentially privateアルゴリズムを提案する。 従来知られていたアルゴリズムは、準多項時間を必要とする。 後者については、最小分離が少なくとも$ o(k^{1/t}\sqrt{t})$であるときに$k$-mixtureの中心を回復する$(\epsilon, \delta)$-微分的プライベートアルゴリズムを設計する。 t$のすべての選択に対して、このアルゴリズムはサンプル複雑性$n\geq k^{O(1)}d^{O(t)}$と時間複雑性$(nd)^{O(t)}$を必要とする。 以前の作業では、少なくとも$O(\sqrt{k})$の最小分離と、中心のユークリッドノルムの明示的な上限が必要だった。

We introduce general tools for designing efficient private estimation algorithms, in the high-dimensional settings, whose statistical guarantees almost match those of the best known non-private algorithms. To illustrate our techniques, we consider two problems: recovery of stochastic block models and learning mixtures of spherical Gaussians. For the former, we present the first efficient $(\epsilon, \delta)$-differentially private algorithm for both weak recovery and exact recovery. Previously known algorithms achieving comparable guarantees required quasi-polynomial time. For the latter, we design an $(\epsilon, \delta)$-differentially private algorithm that recovers the centers of the $k$-mixture when the minimum separation is at least $ O(k^{1/t}\sqrt{t})$. For all choices of $t$, this algorithm requires sample complexity $n\geq k^{O(1)}d^{O(t)}$ and time complexity $(nd)^{O(t)}$. Prior work required minimum separation at least $O(\sqrt{k})$ as well as an explicit upper bound on the Euclidean norm of the centers.
翻訳日:2023-01-13 13:59:59 公開日:2023-01-11
# 授業増分学習のためのオンラインハイパーパラメータ最適化

Online Hyperparameter Optimization for Class-Incremental Learning ( http://arxiv.org/abs/2301.05032v1 )

ライセンス: Link先を確認
Yaoyao Liu, Yingying Li, Bernt Schiele, Qianru Sun(参考訳) class-incremental learning (cil) は分類モデルを訓練することを目的としており、クラスの数は段階ごとに増加する。 CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。 しかし、既存のCILモデルでは、異なるデータ受信設定で最適なトレードオフを達成できない。通常、トレーニング・アット・ハーフ(TFH)設定はより安定性を必要とするが、トレーニング・アット・スクラッチ(TFS)はより可塑性を必要とする。 そこで我々は,事前設定を知らずにトレードオフを適応的に最適化できるオンライン学習手法を設計する。 具体的には、まず、トレードオフ、例えば知識蒸留(KD)損失重み、学習率、分類器タイプに影響を与える重要なハイパーパラメータを紹介する。 次に,ハイパーパラメータ最適化プロセスをオンラインマルコフ決定プロセス(mdp)問題として定式化し,それを解決するアルゴリズムを提案する。 我々は,CILプロトコルにオンラインMDP手法を適用する際の問題を解決するために,局所推定報酬と古典的帯域幅アルゴリズムExp3[4]を適用した。 提案手法は, TFH と TFS の両方の設定において, TFH と TFS の平均精度を ImageNet-Full で2.2 ポイント向上するなど, 最高性能の CIL 手法を常に改善する。

Class-incremental learning (CIL) aims to train a classification model while the number of classes increases phase-by-phase. An inherent challenge of CIL is the stability-plasticity tradeoff, i.e., CIL models should keep stable to retain old knowledge and keep plastic to absorb new knowledge. However, none of the existing CIL models can achieve the optimal tradeoff in different data-receiving settings--where typically the training-from-half (TFH) setting needs more stability, but the training-from-scratch (TFS) needs more plasticity. To this end, we design an online learning method that can adaptively optimize the tradeoff without knowing the setting as a priori. Specifically, we first introduce the key hyperparameters that influence the trade-off, e.g., knowledge distillation (KD) loss weights, learning rates, and classifier types. Then, we formulate the hyperparameter optimization process as an online Markov Decision Process (MDP) problem and propose a specific algorithm to solve it. We apply local estimated rewards and a classic bandit algorithm Exp3 [4] to address the issues when applying online MDP methods to the CIL protocol. Our method consistently improves top-performing CIL methods in both TFH and TFS settings, e.g., boosting the average accuracy of TFH and TFS by 2.2 percentage points on ImageNet-Full, compared to the state-of-the-art [23].
翻訳日:2023-01-13 13:50:06 公開日:2023-01-11
# NarrowBERT: タスク付き言語モデルの事前トレーニングと推論の高速化

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference ( http://arxiv.org/abs/2301.04761v1 )

ライセンス: Link先を確認
Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith(参考訳) 大規模言語モデル事前学習は、自然言語処理における自己教師型学習の非常に成功した形態であるが、モデルと事前学習コーパスが時間とともに大きくなるにつれて、実行コストが増大する。 我々は,マスク言語モデルの事前学習のスループットを$2\times$ 以上向上させるトランスフォーマティブエンコーダである narrowbert を提案する。 NarrowBERTは、トランスフォーマーモデルにおいて、通常のトランスフォーマーエンコーダのように全てのトークンではなく、事前トレーニング中に各文のマスク付きトークンに対してのみ、自己アテンションクエリとフィードフォワード層が動作するようにスペーサーする。 また, mnli などの文符号化タスクの性能低下を最小限に抑えることで, 推定時のスループットを最大$3.5\times$ で向上させることを示した。 最後に,IMDBおよびAmazonレビューにおけるNarrowBERTの性能とCoNLL NERタスクについて検討し,標準BERT性能と同等であることを示す。

Large-scale language model pretraining is a very successful form of self-supervised learning in natural language processing, but it is increasingly expensive to perform as the models and pretraining corpora have become larger over time. We propose NarrowBERT, a modified transformer encoder that increases the throughput for masked language model pretraining by more than $2\times$. NarrowBERT sparsifies the transformer model such that the self-attention queries and feedforward layers only operate on the masked tokens of each sentence during pretraining, rather than all of the tokens as with the usual transformer encoder. We also show that NarrowBERT increases the throughput at inference time by as much as $3.5\times$ with minimal (or no) performance degradation on sentence encoding tasks like MNLI. Finally, we examine the performance of NarrowBERT on the IMDB and Amazon reviews classification and CoNLL NER tasks and show that it is also comparable to standard BERT performance.
翻訳日:2023-01-13 13:44:43 公開日:2023-01-11
# agmn : アソシエーショングラフに基づく冠動脈セマンティックラベリングのためのグラフマッチングネットワーク

AGMN: Association Graph-based Graph Matching Network for Coronary Artery Semantic Labeling on Invasive Coronary Angiograms ( http://arxiv.org/abs/2301.04733v1 )

ライセンス: Link先を確認
Chen Zhao, Zhihui Xu, Jingfeng Jiang, Michele Esposito, Drew Pienta, Guang-Uei Hung, Weihua Zhou(参考訳) 冠状動脈病変(CAD)の診断における冠状動脈狭窄の自動評価と報告には,侵襲的冠動脈造影(ICA)における冠状動脈セグメントのセマンティックラベリングが重要である。 冠動脈構造を解釈するための介入的心科医の訓練手順に触発されて,冠動脈意味表示のためのアソシエーショングラフベースグラフマッチングネットワーク (agmn) を提案する。 まず, 侵襲的冠動脈造影(ica)から血管樹を抽出し, 複数の個別グラフに変換する。 次に、各頂点が2つの動脈セグメント間の関係を表す2つの個別グラフから関連グラフを構築する。 関連グラフを用いて、AGMNは埋め込みモジュールによって頂点特徴を抽出し、隣接する頂点とエッジからグラフ畳み込みネットワークによって特徴を集約し、特徴をデコードして動脈間の意味マッピングを生成する。 2つのグラフ間の動脈枝のマッピングを学習することにより、ラベル付き動脈セグメントをラベル付きセグメントで分類し、意味的ラベル付けを実現する。 263 icasを含むデータセットを用いて,提案モデルの学習と検証を行い,5倍のクロスバリデーションを行った。 AGMNモデルでは平均精度0.8264,平均精度0.8276,平均リコール0.8264,F1スコア0.8262を達成し,既存の冠動脈セマンティックラベリング法よりも優れていた。 その結果, ICAを用いた冠動脈セマンティックラベリングの精度, 解釈可能性, 堅牢性を考慮した新しいアルゴリズムを開発した。

Semantic labeling of coronary arterial segments in invasive coronary angiography (ICA) is important for automated assessment and report generation of coronary artery stenosis in the computer-aided diagnosis of coronary artery disease (CAD). Inspired by the training procedure of interventional cardiologists for interpreting the structure of coronary arteries, we propose an association graph-based graph matching network (AGMN) for coronary arterial semantic labeling. We first extract the vascular tree from invasive coronary angiography (ICA) and convert it into multiple individual graphs. Then, an association graph is constructed from two individual graphs where each vertex represents the relationship between two arterial segments. Using the association graph, the AGMN extracts the vertex features by the embedding module, aggregates the features from adjacent vertices and edges by graph convolution network, and decodes the features to generate the semantic mappings between arteries. By learning the mapping of arterial branches between two individual graphs, the unlabeled arterial segments are classified by the labeled segments to achieve semantic labeling. A dataset containing 263 ICAs was employed to train and validate the proposed model, and a five-fold cross-validation scheme was performed. Our AGMN model achieved an average accuracy of 0.8264, an average precision of 0.8276, an average recall of 0.8264, and an average F1-score of 0.8262, which significantly outperformed existing coronary artery semantic labeling methods. In conclusion, we have developed and validated a new algorithm with high accuracy, interpretability, and robustness for coronary artery semantic labeling on ICAs.
翻訳日:2023-01-13 13:43:50 公開日:2023-01-11
# ChatGPTは必要なだけではありません。 大規模生成型aiモデルのアートレビューの現状

ChatGPT is not all you need. A State of the Art Review of large Generative AI models ( http://arxiv.org/abs/2301.04655v1 )

ライセンス: Link先を確認
Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merchan(参考訳) 過去2年間、chatgptや安定拡散といった大規模な生成モデルが数多く発表されてきた。 具体的には、これらのモデルは一般的な質問や回答システム、あるいはいくつかの分野に革命をもたらす芸術的イメージを自動生成するといったタスクを実行できる。 その結果、これらの生成モデルが産業や社会に持つ意味は巨大であり、いくつかの職位が転換される可能性がある。 例えば、Generative AIは、DALLE-2モデルのような効果的で創造的なテキストから、Dreamfusionモデルのような3D画像へのテキスト変換、Flamingoモデルのようなテキストへのテキスト、Phenakiモデルのようなビデオへのテキスト、AudioLMモデルのようなオーディオへのテキスト、ChatGPTのような他のテキストへのテキスト、Codexモデルのようなコードへのテキスト、Galacticaモデルのような科学テキストへのテキスト、さらにはAlphaTensorのようなアルゴリズムの作成といったことができる。 この研究は、生成AIによって影響を受けるセクターのモデルを、簡潔な方法で記述し、最近公開された主要な生成モデルの分類を提供する試みである。

During the last two years there has been a plethora of large generative models such as ChatGPT or Stable Diffusion that have been published. Concretely, these models are able to perform tasks such as being a general question and answering system or automatically creating artistic images that are revolutionizing several sectors. Consequently, the implications that these generative models have in the industry and society are enormous, as several job positions may be transformed. For example, Generative AI is capable of transforming effectively and creatively texts to images, like the DALLE-2 model; text to 3D images, like the Dreamfusion model; images to text, like the Flamingo model; texts to video, like the Phenaki model; texts to audio, like the AudioLM model; texts to other texts, like ChatGPT; texts to code, like the Codex model; texts to scientific texts, like the Galactica model or even create algorithms like AlphaTensor. This work consists on an attempt to describe in a concise way the main models are sectors that are affected by generative AI and to provide a taxonomy of the main generative models published recently.
翻訳日:2023-01-13 13:42:18 公開日:2023-01-11
# 非教師付き画像分割のための逆量子フーリエ変換インスパイアアルゴリズム

Inverse Quantum Fourier Transform Inspired Algorithm for Unsupervised Image Segmentation ( http://arxiv.org/abs/2301.04705v1 )

ライセンス: Link先を確認
Taoreed Akinola, Xiangfang Li, Richard Wilkins, Pamela Obiomon, Lijun Qian(参考訳) イメージセグメンテーションはコンピュータビジョンにおいて非常に人気があり重要なタスクである。 本稿では,画像セグメンテーションのための逆量子フーリエ変換(IQFT)を提案し,その基礎となる数学的構造を利用した新しいIQFTインスピレーションアルゴリズムを提案する。 具体的には、画像中の画素の位相情報を利用して、画素の強度を量子相対位相に符号化し、IQFTを適用して画素を異なるセグメントに自動かつ効率的に分類する。 我々の知る限りでは、非教師なし画像分割にIQFTを使用する最初の試みである。 提案手法は,ディープラーニングに基づく手法と比較して計算コストが低く,トレーニングを必要としないため,リアルタイムアプリケーションに適している。 提案手法の性能をK平均とOsto-thresholdingと比較した。 提案手法は, PASCAL VOC 2012セグメンテーションベンチマークとxVIEW2チャレンジデータセットにおいて, 平均インターセクション・オーバー・ユニオン(mIOU)で最大50%性能を向上する。

Image segmentation is a very popular and important task in computer vision. In this paper, inverse quantum Fourier transform (IQFT) for image segmentation has been explored and a novel IQFT-inspired algorithm is proposed and implemented by leveraging the underlying mathematical structure of the IQFT. Specifically, the proposed method takes advantage of the phase information of the pixels in the image by encoding the pixels' intensity into qubit relative phases and applying IQFT to classify the pixels into different segments automatically and efficiently. To the best of our knowledge, this is the first attempt of using IQFT for unsupervised image segmentation. The proposed method has low computational cost comparing to the deep learning-based methods and more importantly it does not require training, thus make it suitable for real-time applications. The performance of the proposed method is compared with K-means and Otsu-thresholding. The proposed method outperforms both of them on the PASCAL VOC 2012 segmentation benchmark and the xVIEW2 challenge dataset by as much as 50% in terms of mean Intersection-Over-Union (mIOU).
翻訳日:2023-01-13 13:33:22 公開日:2023-01-11
# semantic web による地理質問応答フレームワーク: geotr

Semantic Web Enabled Geographic Question Answering Framework: GeoTR ( http://arxiv.org/abs/2301.04752v1 )

ライセンス: Link先を確認
Ceren Ocal Tasar, Murat Komesli, Murat Osman Unalir(参考訳) リンクデータの相当な増加に伴い、研究者は、現実のシステムに実用的な用途を提供するためにセマンティックWeb技術の可用性を高める方法に焦点を合わせてきた。 質問応答システムは、エンドユーザと直接通信し、ユーザの意図を理解し、回答を生成する実生活システムの例である。 エンドユーザは、構造的なクエリ言語や、問題のポイントが発生する知識ベースの語彙を気にしません。 本研究では,トルコ語の自然言語入力を地理的領域のSPARQLクエリに変換する質問応答フレームワークを提案する。 さらに、空間合成トルコという10年生の地理授業をカバーする新しいトルコオントロジーが、リンクデータプロバイダとして使用されるように開発されている。 さらに、地理的領域におけるリンクデータを利用したトルコ語質問応答システムに関する文献のギャップを解消する。 また,自然言語処理技術とリンクデータ技術を組み合わせて回答を生成するハイブリッドシステムアーキテクチャを提案する。 さらなる研究分野が提案されている。

With the considerable growth of linked data, researchers have focused on how to increase the availability of semantic web technologies to provide practical usages for real life systems. Question answering systems are an example of real-life systems that communicate directly with end users, understand user intention and generate answers. End users do not care about the structural query language or the vocabulary of the knowledge base where the point of a problem arises. In this study, a question answering framework that converts Turkish natural language input into SPARQL queries in the geographical domain is proposed. Additionally, a novel Turkish ontology, which covers a 10th grade geography lesson named Spatial Synthesis Turkey, has been developed to be used as a linked data provider. Moreover, a gap in the literature on Turkish question answering systems, which utilizes linked data in the geographical domain, is addressed. A hybrid system architecture that combines natural language processing techniques with linked data technologies to generate answers is also proposed. Further related research areas are suggested.
翻訳日:2023-01-13 13:33:02 公開日:2023-01-11
# SensePOLAR:事前学習した文脈単語埋め込みのための単語知覚認識能力

SensePOLAR: Word sense aware interpretability for pre-trained contextual word embeddings ( http://arxiv.org/abs/2301.04704v1 )

ライセンス: Link先を確認
Jan Engler, Sandipan Sikdar, Marlene Lutz and Markus Strohmaier(参考訳) 単語埋め込みに解釈可能性を加えることは、テキスト表現における活発な研究領域である。 最近の研究は、いわゆる極性次元(善対悪、正対悪)による単語の埋め込みの可能性を探っている。 最近のアプローチには、SemAxis、POLAR、FrameAxis、BiImpなどがある。 これらの手法は単語の解釈可能な次元を提供するが、多意味性を扱うように設計されていない。 この制限に対処するため、SensePOLARは、事前学習した文脈単語の埋め込みに対して、単語認識による解釈を可能にするオリジナルのPOLARフレームワークの拡張である。 その結果得られる解釈可能な単語埋め込みは、glue や squad ベンチマークを含む様々な自然言語処理タスクにまたがる元の文脈的単語埋め込みに匹敵するレベルのパフォーマンスを達成する。 本研究は,文脈的単語埋め込みに対するユーザ認識解釈を提供することにより,既存のアプローチの基本的な制限を取り除く。

Adding interpretability to word embeddings represents an area of active research in text representation. Recent work has explored thepotential of embedding words via so-called polar dimensions (e.g. good vs. bad, correct vs. wrong). Examples of such recent approaches include SemAxis, POLAR, FrameAxis, and BiImp. Although these approaches provide interpretable dimensions for words, they have not been designed to deal with polysemy, i.e. they can not easily distinguish between different senses of words. To address this limitation, we present SensePOLAR, an extension of the original POLAR framework that enables word-sense aware interpretability for pre-trained contextual word embeddings. The resulting interpretable word embeddings achieve a level of performance that is comparable to original contextual word embeddings across a variety of natural language processing tasks including the GLUE and SQuAD benchmarks. Our work removes a fundamental limitation of existing approaches by offering users sense aware interpretations for contextual word embeddings.
翻訳日:2023-01-13 13:31:59 公開日:2023-01-11
# サンプルサイズ削減と学習速度向上のためのCNNによる切換え型軽量非対称処理(SLAP) -- 五目強化学習への応用

Switchable Lightweight Anti-symmetric Processing (SLAP) with CNN to Reduce Sample Size and Speed up Learning -- Application in Gomoku Reinforcement Learning ( http://arxiv.org/abs/2301.04746v1 )

ライセンス: Link先を確認
Chi-Hang Suen (City, University of London)(参考訳) 本稿では,データ拡張の代替としてSLAPという手法を提案し,機械学習を高速化し,サンプルサイズを削減する。 SLAPはモデルに依存しないプロトコル/関数であり、異なる変換変種を与えられた同じ出力を生成する。 SLAPは、データ拡張と比較してサンプルサイズの8分の1に過ぎず、ゴモクゲーム状態での実験において畳み込みニューラルネットワーク学習の収束速度を83%改善した。 また,AlphaGo Zero/AlphaZeroアルゴリズムをベースラインとした強化学習において,SLAPはトレーニングサンプル数を8倍に削減し,同じ評価器に対して同様の勝利率を達成したが,強化学習を高速化できるかどうかは明らかになっていない。 この利点は少なくとも対称性やある種の変換に不変な領域に適用すべきである。 将来の研究として、SLAPは、対称性に不変でない領域について、より説明可能な学習と伝達学習を支援することができる。

To replace data augmentation, this paper proposed a method called SLAP to intensify experience to speed up machine learning and reduce the sample size. SLAP is a model-independent protocol/function to produce the same output given different transformation variants. SLAP improved the convergence speed of convolutional neural network learning by 83% in the experiments with Gomoku game states, with only one eighth of the sample size compared with data augmentation. In reinforcement learning for Gomoku, using AlphaGo Zero/AlphaZero algorithm with data augmentation as baseline, SLAP reduced the number of training samples by a factor of 8 and achieved similar winning rate against the same evaluator, but it was not yet evident that it could speed up reinforcement learning. The benefits should at least apply to domains that are invariant to symmetry or certain transformations. As future work, SLAP may aid more explainable learning and transfer learning for domains that are not invariant to symmetry, as a small step towards artificial general intelligence.
翻訳日:2023-01-13 13:23:13 公開日:2023-01-11
# 近縮退型熱機械の同期低周波化

Synchronization Lower Bounds the Efficiency of Near-Degenerate Thermal Machines ( http://arxiv.org/abs/2301.04323v1 )

ライセンス: Link先を確認
Taufiq Murtadho, Juzar Thingna and Sai Vinjanampathy(参考訳) 本研究では, Scovil-Schulz Duboisサーマルメーザーの4レベル近傍縮退過程における量子同期と熱力学特性の関係について検討した。 相互作用するコヒーレンスの存在が、そのようなメーザーの同期とコヒーレント出力の関係をいかに変化させるかを示す。 特に、相互作用するコヒーレンス間の協調と競合は、よく研究されたパワー同期境界に加えて、コヒーレントな熱と効率を同期測度によって境界付ける。 全体として,熱機械の動作において量子同期が果たす役割を強調する。

We study the relationship between quantum synchronization and the thermodynamic performance of a four-level near-degenerate extension of the Scovil-Schulz Dubois thermal maser. We show how the existence of interacting coherences can potentially modify the relationship between synchronization and the coherent power output of such a maser. In particular, the cooperation and competition between interacting coherences, causes the coherent heat and efficiency to be bounded by the synchronization measure in addition to the well-studied power synchronization bound. Overall, our results highlight the role of quantum synchronization in the working of a thermal machine.
翻訳日:2023-01-12 18:22:38 公開日:2023-01-11
# おもちゃモデルにおける創発的微分同相不変性

Emergent diffeomorphism invariance in toy models ( http://arxiv.org/abs/2301.04448v1 )

ライセンス: Link先を確認
Hrvoje Nikolic(参考訳) 半古典的および量子重力の概念上の困難は、古典的な一般相対性理論の微分同相不変性から生じる。 これらの困難に光を当てる動機付けとして, 1次元微分同相不変性,すなわち時間再パラメータ化不変性がエネルギー保存から古典レベルに出現する玩具モデルの研究を行った。 不変性を取りながらモデルを定量化しようとする試みは、量子重力、宇宙定数問題、ブラックホールのファイアウォール問題における時間の問題のおもちゃ版につながる。 それでもこれらの問題は、不変性が古典的なレベルでのみ現れることを考慮すると容易に解決できるが、量子化する必要がある基本理論は微分同相不変ではない。

Conceptual difficulties in semiclassical and quantum gravity arise from diffeomorphism invariance of classical general relativity. With a motivation to shed some light on these difficulties, we study a class of toy models for which one-dimensional diffeomorphism invariance, namely time-reparametrization invariance, emerges at the classical level from energy conservation. An attempt to quantize the models while taking the invariance seriously leads to toy versions of the problem of time in quantum gravity, of the cosmological constant problem, and of the black hole firewall problem. Nevertheless, all these problems are easily resolved by taking into account that the invariance emerges only at the classical level, while the fundamental theory that needs to be quantized is not diffeomorphism invariant.
翻訳日:2023-01-12 18:22:29 公開日:2023-01-11
# 散逸ダイナミクスによる密度行列トポロジーの遷移

Dissipation Dynamics Driven Transitions of the Density Matrix Topology ( http://arxiv.org/abs/2301.04345v1 )

ライセンス: Link先を確認
Liang Mao, Fan Yang, and Hui Zhai(参考訳) 開量子系の動的進化は密度行列のリンドブラッド方程式によって制御できる。 本報告では,密度行列トポロジーがリンドブラジアン力学進化中に遷移することができることを示唆する。 ここでは、密度行列位相をモジュラーハミルトニアンの位相不変量によって特徴づける。 我々は、モジュラーハミルトニアンがフェルミオン作用素の集合の二次作用素であるフェルミオンガウス状態に焦点を当てる。 そのようなハミルトニアンの位相分類は対称性クラスに依存する。 したがって、本研究で扱う主要な問題は、モジュラーハミルトニアンが力学進化の間、その対称性クラスを維持できるリンドブラッド作用素の要件を決定することである。 これらの条件が満たされると、モジュラーハミルトニアンの対称性クラスの非自明な位相分類とともに、時が進むにつれて位相遷移が起こる。 モジュラーハミルトニアンがそれぞれ U(1) 対称性を持つ AIII クラスと U(1) 対称性を持たない DIII クラスに存在するような散逸駆動位相遷移の2つの例を示す。 位相遷移の表象として、遷移点における密度行列の固有値のシグネチャを示す。

The dynamical evolution of an open quantum system can be governed by the Lindblad equation of the density matrix. In this letter, we propose that the density matrix topology can undergo a transition during the Lindbladian dynamical evolution. Here we characterize the density matrix topology by the topological invariant of its modular Hamiltonian. We focus on the fermionic Gaussian state, where the modular Hamiltonian is a quadratic operator of a set of fermionic operators. The topological classification of such Hamiltonians depends on their symmetry classes. Hence, a primary issue we deal with in this work is to determine the requirement for the Lindbladian operators, under which the modular Hamiltonian can maintain its symmetry class during the dynamical evolution. When these conditions are satisfied, along with a nontrivial topological classification of the symmetry class of the modular Hamiltonian, a topological transition can occur as time evolves. We present two examples of dissipation driven topological transitions where the modular Hamiltonian lies in the AIII class with U(1) symmetry and in the DIII class without U(1) symmetry, respectively. As a manifestation of the topological transition, we present the signature of the eigenvalues of the density matrix at the transition point.
翻訳日:2023-01-12 18:21:41 公開日:2023-01-11
# 幾何学演算子量子速度限界,ウェグナーハミルトン流と演算子成長

Geometric Operator Quantum Speed Limit, Wegner Hamiltonian Flow and Operator Growth ( http://arxiv.org/abs/2301.04372v1 )

ライセンス: Link先を確認
Niklas H\"ornedal, Nicoletta Carabba, Kazutaka Takahashi, Adolfo del Campo(参考訳) 量子速度制限(QSL)は、量子状態間の距離を使い、進化の速度やその上界を特定することによって、プロセスが展開するために必要な最小時間での低い境界を提供する。 ユニタリで共役する一般作用素の進化を特徴付けるために、QSLの一般化を導入する。 結果として得られる演算子 QSL (OQSL) は幾何学的解釈を認め、厳密であることが示され、任意のユニタリ、すなわち時間依存あるいはパラメータ依存のジェネレータによって誘導される演算子フローを保持する。 導出された oqsl はハミルトン再正規化群論のウェグナーフロー方程式とクリロフ複雑性によって定量化された作用素成長に適用される。

Quantum speed limits (QSLs) provide lower bounds on the minimum time required for a process to unfold by using a distance between quantum states and identifying the speed of evolution or an upper bound to it. We introduce a generalization of QSL to characterize the evolution of a general operator when conjugated by a unitary. The resulting operator QSL (OQSL) admits a geometric interpretation, is shown to be tight, and holds for operator flows induced by arbitrary unitaries, i.e., with time- or parameter-dependent generators. The derived OQSL is applied to the Wegner flow equations in Hamiltonian renormalization group theory and the operator growth quantified by the Krylov complexity.
翻訳日:2023-01-12 18:21:21 公開日:2023-01-11
# Rydbergパワー光格子における原子のサブナノメータ閉じ込めと束縛

Subnanometer confinement and bundling of atoms in a Rydberg empowered optical lattice ( http://arxiv.org/abs/2301.04450v1 )

ライセンス: Link先を確認
Mohammadsadegh Khazali(参考訳) 光格子は原子量子技術の基本的なブロックである。 これらの格子のスケールと分解能は、光波長に制限される。 従来の格子内の単一点の密閉には過剰なレーザー強度が必要であり、散乱の増大によりコヒーレンスが抑制される。 本稿では,サブ波長空間構造を持つ原子光格子の新しいスキームを提案する。 このポテンシャルは、駆動場の回折限界に制約されない3レベルリドバーグ配位原子の非線形光学応答によって形成される。 格子は、サブナノメータ幅を持つ超狭ローレンツ井戸の3dアレイで構成されている。 この方式では、近接する場所をサブナノメータの解像度で近距離まで移動することができる。 これらの極端なスケールは、原子の固有状態の双極子相互作用と光学的ねじれを配置するハイブリッドスキームによって光学的にアクセス可能である。 トラップ電位を形成する相互作用誘起二体共鳴は、特別なレーザー強度でのみ発生し、固定波駆動場上の極小領域にトラップ部位を局在させる。 2\AA幅と30MHz深さのローレンツトラップ電位は1Hz以下の散乱速度で実現可能である。 前述の改良により、rydberg-fermi相互作用による量子論理演算が可能となった。 これらの手法は特に原子トロニクス、量子ウォーク、ハバードモデル、中性原子量子シミュレーションの実現を要求している。

Optical lattices are the basic blocks of atomic quantum technology. The scale and resolution of these lattices are diffraction-limited to the light wavelength. Tight confinement of single sites in conventional lattices requires excessive laser intensity which in turn suppresses the coherence due to enhanced scattering. This article proposes a new scheme for atomic optical lattice with sub-wavelength spatial structure. The potential is formed by the nonlinear optical response of the three-level Rydberg-dressed atoms, which is not constrained by the diffraction limit of the driving fields. The lattice consists of a 3D array of ultra-narrow Lorentzian wells with sub-nanometer widths. The scheme allows moving adjacent sites to close distances with sub-nanometer resolution. These extreme scales are now optically accessible by a hybrid scheme deploying the dipolar interaction and optical twist of atomic eigenstates. The interaction-induced two-body resonance that forms the trapping potential, only occurs at a peculiar laser intensity, localizing the trap sites to ultra-narrow regions over the standing-wave driving field. The Lorentzian trapping potentials with 2\AA width and 30MHz depth are realizable with scattering rates as low as 1Hz. The mentioned improvements allow quantum logic operations with Rydberg-Fermi interaction. These techniques are particularly demanding for the realization of atomtronics, quantum walks, Hubbard models, and neutral-atom quantum simulation.
翻訳日:2023-01-12 18:21:06 公開日:2023-01-11
# 巡回グラフ上の量子ウォークによる最大絡み合った単一粒子状態の繰り返し生成

Recurrent generation of maximally entangled single particle states via quantum walks on cyclic graphs ( http://arxiv.org/abs/2301.04501v1 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin(参考訳) 最大絡み合った単一粒子状態(MESPS)は、より多くの情報をエンコードする可能性があり、非局所的な2粒子に比べてデコヒーレンスに強いため、量子技術の新たな可能性を開く。 ここで、離散時間量子ウォークは$k$-cyclesで、$k\in\{3,4,5,8\}$であり、1つのコインまたは2つのコインを様々な決定論的シーケンスで使用することにより、繰り返し時間ステップのためのMESPSを生成する。 これらの配列は、量子ウォークを命令し、周期4, 6, 9, 12, 15でMESPSを生成する。 初めて、Hadamardのような、周期的なMESPS(周期4と12)を4ドルと8ドルサイクルで生成できる単一コインを公開します。 このスキームは資源節約であり、同じコインが各タイミングで適用されるため、おそらく最も単純な実験的な実現である。

Maximally entangled single particle states (MESPS) are opening new possibilities in quantum technologies as they have the potential to encode more information and are robust to decoherence compared to their non-local two-particle counterparts. Herein, using discrete-time quantum walks on $k$-cycles where $k\in\{3,4,5,8\}$ and by using either a single coin or effective-single coin or two coins in various deterministic sequences, we generate MESPS for recurring time steps. These sequences beget ordered quantum walks and yield MESPS with periods 4, 6, 9, 12, and 15. For the first time, we reveal single coins such as Hadamard, which can generate periodic MESPS (with periods 4 and 12) on $4$ and $8$-cycles. This scheme is resource-saving with possibly the most straightforward experimental realization since the same coin is applied at each time step.
翻訳日:2023-01-12 18:20:49 公開日:2023-01-11
# 大規模分子動力学シミュレーションデータの高速コンフォメーションクラスタリング

Fast conformational clustering of extensive molecular dynamics simulation data ( http://arxiv.org/abs/2301.04492v1 )

ライセンス: Link先を確認
Simon Hunkler, Kay Diederichs, Oleksandra Kukharenko, Christine Peter(参考訳) 本稿では,分子動力学シミュレーションの高速なクラスタリングを実現するために,教師なしデータ処理ワークフローを提案する。 このアプローチでは,2つの次元分解アルゴリズム (cc\_analysis と encodermap) と密度ベース空間クラスタリングアルゴリズム (HDBSCAN) を組み合わせる。 提案手法は,各手法の欠点を回避しつつ,3つのアルゴリズムの強みを生かしたものである。 ここでは、cc\_ analysisアルゴリズムが初めて分子シミュレーションデータに適用される。 Encodermapは、大量のデータをクラスタに処理し割り当てする効率的な方法を提供することで、cc\_analysisを補完する。 この手順の主な目標は、見つかったクラスタの明確なコンフォメーションアイデンティティを維持しながら、与えられた軌道の割り当てられたフレームの数を最大化することである。 実際に、最終クラスタ割り当てにおいて反復クラスタリングアプローチと可変ルート平均平方偏差に基づく基準を用いてこれを実現する。 これにより、異なる密度のクラスタと異なる構造的アイデンティティを見つけることができる。 4つのテストシステムの助けを借りて、このクラスタリングワークフローの機能と性能を説明します。trp-cageタンパク質(tc5b、tc10b)、ntl9、プロテインbのワイルドタイプおよびサーモスタブル変異体です。これらのシステムはそれぞれ、スキームに個別の課題をもたらします。

We present an unsupervised data processing workflow that is specifically designed to obtain a fast conformational clustering of long molecular dynamics simulation trajectories. In this approach we combine two dimensionality reduction algorithms (cc\_analysis and encodermap) with a density-based spatial clustering algorithm (HDBSCAN). The proposed scheme benefits from the strengths of the three algorithms while avoiding most of the drawbacks of the individual methods. Here the cc\_analysis algorithm is for the first time applied to molecular simulation data. Encodermap complements cc\_analysis by providing an efficient way to process and assign large amounts of data to clusters. The main goal of the procedure is to maximize the number of assigned frames of a given trajectory, while keeping a clear conformational identity of the clusters that are found. In practice we achieve this by using an iterative clustering approach and a tunable root-mean-square-deviation-based criterion in the final cluster assignment. This allows to find clusters of different densities as well as different degrees of structural identity. With the help of four test systems we illustrate the capability and performance of this clustering workflow: wild-type and thermostable mutant of the Trp-cage protein (TC5b and TC10b), NTL9 and Protein B. Each of these systems poses individual challenges to the scheme, which in total give a nice overview of the advantages, as well as potential difficulties that can arise when using the proposed method.
翻訳日:2023-01-12 18:15:35 公開日:2023-01-11
# 予測医療におけるフェデレーション学習とブロックチェーン対応フォグオットプラットフォーム

Federated Learning and Blockchain-enabled Fog-IoT Platform for Wearables in Predictive Healthcare ( http://arxiv.org/abs/2301.04511v1 )

ライセンス: Link先を確認
Marc Baucas, Petros Spachos and Konstantinos Plataniotis(参考訳) 長年にわたり、いくつかのヘルスケアサービスにおけるウェアラブルIoT(Internet of Things)デバイスの人気と利用が増加している。 このようなデバイスの使用から恩恵を受けるサービスには、eヘルスの早期診断を改善する予測分析がある。 しかし、ウェアラブルIoTデバイスの制限により、データのプライバシ、サービス整合性、ネットワーク構造への適応性といった課題が発生した。 これらの問題に対処するため,フォグIoTネットワーク内のフェデレーション学習とプライベートブロックチェーン技術を用いたプラットフォームを提案する。 これらの技術は、ネットワーク内のデータを保護するプライバシー保護機能を備えている。 我々はフォグIoTネットワークの分散構造を利用して、ウェアラブルIoTデバイスのための適応型ネットワークを作成しました。 提案するプラットフォームが分類器の完全性を維持する能力を調べるためのテストベッドを設計した。 実験結果によると、導入した実装は患者のプライバシと予測サービスの整合性を効果的に維持することができる。 さらに、IoTネットワークのセキュリティと適応性に対する他の技術の貢献についても検討した。 全体として、分析、シミュレーション、実験を通じて予測医療におけるウェアラブルIoTデバイスのセキュリティとプライバシの重大な課題に対処する上で、当社のプラットフォームが可能であることを実証しました。

Over the years, the popularity and usage of wearable Internet of Things (IoT) devices in several healthcare services are increased. Among the services that benefit from the usage of such devices is predictive analysis, which can improve early diagnosis in e-health. However, due to the limitations of wearable IoT devices, challenges in data privacy, service integrity, and network structure adaptability arose. To address these concerns, we propose a platform using federated learning and private blockchain technology within a fog-IoT network. These technologies have privacy-preserving features securing data within the network. We utilized the fog-IoT network's distributive structure to create an adaptive network for wearable IoT devices. We designed a testbed to examine the proposed platform's ability to preserve the integrity of a classifier. According to experimental results, the introduced implementation can effectively preserve a patient's privacy and a predictive service's integrity. We further investigated the contributions of other technologies to the security and adaptability of the IoT network. Overall, we proved the feasibility of our platform in addressing significant security and privacy challenges of wearable IoT devices in predictive healthcare through analysis, simulation, and experimentation.
翻訳日:2023-01-12 18:15:09 公開日:2023-01-11
# 物理誘導深層学習による粘弾性組織挙動のリアルタイムシミュレーション

Real-time simulation of viscoelastic tissue behavior with physics-guided deep learning ( http://arxiv.org/abs/2301.04614v1 )

ライセンス: Link先を確認
Mohammad Karami and Herv\'e Lombaert and David Rivest-H\'enault(参考訳) 有限要素法(FEM)は弾性または粘弾性挙動を持つ軟組織をシミュレーションするための一般的な手法である。 しかし、仮想現実手術訓練などのリアルタイムアプリケーションでの使用は、計算コストによって制限される。 通常、転送可能なシミュレータを含むこのアプリケーションシナリオでは、計算ハードウェアはシミュレーションされたシーンのサイズや詳細レベルを厳しく制約する。 この制限に対処するため、FEM生成データセットからマッピングルールを学習することで、機械的変形をシミュレートするデータ駆動アプローチが提案されている。 本稿では,粘弾性特性を有する軟組織の変位場を予測するための深層学習法を提案する。 この研究の主な貢献は、ディープラーニングモデルパラメータの最適化に物理誘導損失関数を使用することである。 提案する深層学習モデルは畳み込み層(cnn)と再帰層(lstm)に基づいて時空間変動を予測する。 物理的に矛盾した結果の発生を防止するために、失われた関数に大量保存法則を付加する。 ディープラーニングモデルは、市販の最先端数値神経外科シミュレータから生成される一連のFEMデータセットに基づいて訓練される。 深層学習モデルにおける物理誘導損失関数の利用は,未発見のシミュレーションケースにおける変形予測の一般化に繋がる。 さらに, 従来のCNNモデルよりも精度が向上し, 外部力の大きさに応じて, 目立たない組織では8%から30%の改善が見られた。 本研究は、仮想現実シミュレーターにおけるディープラーニングの適用ギャップを埋め、計算性能(FEMシミュレーションと比較)を改善し、最終的には有用性を高めることが期待されている。

Finite element methods (FEM) are popular approaches for simulation of soft tissues with elastic or viscoelastic behavior. However, their usage in real-time applications, such as in virtual reality surgical training, is limited by computational cost. In this application scenario, which typically involves transportable simulators, the computing hardware severely constrains the size or the level of details of the simulated scene. To address this limitation, data-driven approaches have been suggested to simulate mechanical deformations by learning the mapping rules from FEM generated datasets. Herein, we propose a deep learning method for predicting displacement fields of soft tissues with viscoelastic properties. The main contribution of this work is the use of a physics-guided loss function for the optimization of the deep learning model parameters. The proposed deep learning model is based on convolutional (CNN) and recurrent layers (LSTM) to predict spatiotemporal variations. It is augmented with a mass conservation law in the lost function to prevent the generation of physically inconsistent results. The deep learning model is trained on a set of FEM datasets that are generated from a commercially available state-of-the-art numerical neurosurgery simulator. The use of the physics-guided loss function in a deep learning model has led to a better generalization in the prediction of deformations in unseen simulation cases. Moreover, the proposed method achieves a better accuracy over the conventional CNN models, where improvements were observed in unseen tissue from 8% to 30% depending on the magnitude of external forces. It is hoped that the present investigation will help in filling the gap in applying deep learning in virtual reality simulators, hence improving their computational performance (compared to FEM simulations) and ultimately their usefulness.
翻訳日:2023-01-12 18:14:51 公開日:2023-01-11
# 超伝導・狭窄型超導体トランスモン量子ビットの性能解析

Performance Analysis of Superconductor-constriction-Superconductor Transmon Qubits ( http://arxiv.org/abs/2301.04276v1 )

ライセンス: Link先を確認
Mingzhao Liu, Charles T. Black(参考訳) 本研究は、超伝導体-絶縁体-スーパーコンダクタ(sis)ジョセフソン接合を共平面超伝導体-拘束型スーパーコンダクタ(scs)接合に置き換えた超伝導トランスモン量子ビット設計の計算解析を示す。 kulik-omelyanchuk電流相関係を持つ短い接合では、scsトランスモンはsisトランスモンに比べて電荷分散が改善され、50%小さい非調和性がトレードオフされた。 これらの計算は、典型的なギガヘルツ周波数での適切なscsトランスモン操作に必要な超伝導体特性と接合寸法を推定するための枠組みを提供する。

This work presents a computational analysis of a superconducting transmon qubit design, in which the superconductor-insulator-superconductor (SIS) Josephson junction is replaced by a co-planar, superconductor-constriction-superconductor (ScS) junction. For short junctions having a Kulik-Omelyanchuk current-phase relationship, we find that the ScS transmon has an improved charge dispersion compared to the SIS transmon, with a tradeoff of 50% smaller anharmonicity. These calculations provide a framework for estimating the superconductor material properties and junction dimensions needed to provide proper ScS transmon operation at typical gigahertz frequencies.
翻訳日:2023-01-12 18:13:15 公開日:2023-01-11
# ワンショットの分散ソースシミュレーション:できる限り量子化

One-Shot Distributed Source Simulation: As Quantum as it Can Get ( http://arxiv.org/abs/2301.04301v1 )

ライセンス: Link先を確認
Ian George, Min-Hsiu Hsieh, Eric Chitambar(参考訳) 分散ソースシミュレーション(distributed source simulation)は、2つの(またはそれ以上の)パーティが何らかの相関したランダム性を共有し、ローカル操作を使用し、それを目標となる相関に変換する通信を使わないタスクである。 ワイナーの独創的な結果は、漸近的にこのタスクに必要な一様共有ランダム性の割合が、現在ワイナーの共通情報と呼ばれる相互情報誘導測度によって与えられることを示した。 この漸近的な結果は林によって量子状態から分離可能な状態へと拡張され、このタスクを実行することができる最も大きな状態のクラスとなった。 本研究では,このタスクをスムーズなエントロピーフレームワークを用いてワンショット設定で特徴付ける。 我々は,それらを特徴付ける一発の操作量と相関尺度を導入することでこれを行う。 相関尺度に対する漸近的等分性を確立し,上記の漸近的結果の回復と強化を図る。 そこで我々は,ワンショットネットワーク情報理論の技術的ポイントを考察し,サポート補題を古典的量子設定に一般化する。 また、分散ソースシミュレーションタスクの絡み合いバージョンを導入し、量子エンベジングによりこの設定における境界を決定する。

Distributed source simulation is the task where two (or more) parties share some correlated randomness and use local operations and no communication to convert this into some target correlation. Wyner's seminal result showed that asymptotically the rate of uniform shared randomness needed for this task is given by a mutual information induced measure, now referred to as Wyner's common information. This asymptotic result was extended by Hayashi in the quantum setting to separable states, the largest class of states for which this task can be performed. In this work we characterize this task in the one-shot setting using the smooth entropy framework. We do this by introducing one-shot operational quantities and correlation measures that characterize them. We establish asymptotic equipartition properties for our correlation measures thereby recovering, and in fact strengthening, the aforementioned asymptotic results. In doing so, we consider technical points in one-shot network information theory and generalize the support lemma to the classical-quantum setting. We also introduce entanglement versions of the distributed source simulation task and determine bounds in this setting via quantum embezzling.
翻訳日:2023-01-12 18:13:02 公開日:2023-01-11
# 同期オープン量子システムにおける協調と競争

Cooperation and Competition in Synchronous Open Quantum Systems ( http://arxiv.org/abs/2301.04322v1 )

ライセンス: Link先を確認
Taufiq Murtadho and Sai Vinjanampathy and Juzar Thingna(参考訳) リミットサイクル発振器間の同期は、外部ドライブへのエントレインや相互結合によって生じる。 2つの機構間の相互作用は古典同期系で研究されてきたが、量子系では研究されていない。 ここでは、2つのメカニズム間の競合と協調は、量子系における位相引き込みと位相反発によって起こりうることを指摘する。 これらのメカニズムは, 機械の動作モード(冷凍機やエンジン)に応じて協調するか, 競合するかのどちらかを示す。 エントレメント-ミューチュアル同期相互作用は退化レベルの増加とともに持続するが、縮退の熱力学的限界では相互同期が支配的である。 全体として,量子同期の縮退性とマルチレベルスケーリングの効果を調査し,異なる同期機構が量子システムにおいてどのように連携し,競合するかを示す。

Synchronization between limit cycle oscillators can arise through entrainment to an external drive or through mutual coupling. The interplay between the two mechanisms has been studied in classical synchronizing systems, but not in quantum systems. Here, we point out that competition and cooperation between the two mechanisms can occur due to phase pulling and phase repulsion in quantum systems. We study their interplay in collectively driven degenerate quantum thermal machines and show that these mechanisms either cooperate or compete depending on the working mode of the machine (refrigerator or engine). The entrainment-mutual synchronization interplay persists with an increase in the number of degenerate levels, while in the thermodynamic limit of degeneracy, mutual synchronization dominates. Overall, our work investigates the effect of degeneracy and multilevel scaling of quantum synchronization and shows how different synchronizing mechanisms can cooperate and compete in quantum systems.
翻訳日:2023-01-12 18:12:43 公開日:2023-01-11
# 強ラング結合極限における2次元ハイゼンベルク模型の絡み合いの推定

Estimating entanglement in 2D Heisenberg model in the strong rung-coupling limit ( http://arxiv.org/abs/2301.04615v1 )

ライセンス: Link先を確認
Chandrima B. Pushpan, Harikrishnan K. J., Prithvi Narayan, Amit Kumar Pal(参考訳) 本稿では,強ラング結合限界における2次元矩形ジグザグ格子上の磁場中の等方的ハイゼンベルクモデルの絡み合いを,一次元XXZモデルをプロキシとして計算する。 摂動の先頭の順序に着目して、格子の任意の大きさについて、1次元の有効記述がどのように現れるかを示す。 1次元スピン1/2xxzモデルによって近似される2次元モデルの低エネルギーセクタの特定の状態を指摘する。 本研究では, 2次元モデル上で定義された作用素の行列要素を, 1次元XXZモデル上で低エネルギーモデルにマッピングする手法を提案する。 また, 2次元モデルにおける絡み合いの部分的トレースに基づく記述は, 1次元XXZモデルを代用として十分近似できることを示した。 さらに,測定されたエルミート作用素の特定の選択のための2次元モデルにおいて,測度に基づくアプローチを用いて定量化した1次元XXZモデルの有効性を数値的に示す。

In this paper, we calculate entanglement in the isotropic Heisenberg model in a magnetic field on a two-dimensional rectangular zig-zag lattice in the strong rung-coupling limit, using the one-dimensional XXZ model as a proxy. Focusing on the leading order in perturbation, for arbitrary size of the lattice, we show how the one-dimensional effective description emerges. We point out specific states in the low-energy sector of the two-dimensional model that are well-approximated by the one-dimensional spin-1/2 XXZ model. We propose a systematic approach for mapping matrix-elements of operators defined on the two-dimensional model to their low-energy counterparts on the one-dimensional XXZ model. We also show that partial trace-based description of entanglement in the two-dimensional model can be satisfactorily approximated using the one-dimensional XXZ model as a substitute. We further show numerically that the one-dimensional XXZ model performs well in estimating entanglement quantified using a measurement-based approach in the two-dimensional model for specific choices of measured Hermitian operators.
翻訳日:2023-01-12 18:06:50 公開日:2023-01-11
# 逐次生成テンソルネットワーク状態の典型的な相関長

Typical Correlation Length of Sequentially Generated Tensor Network States ( http://arxiv.org/abs/2301.04624v1 )

ライセンス: Link先を確認
Daniel Haag, Flavio Baccari, Georgios Styliaris(参考訳) 量子多体系の複雑性は、それらの相関の膨大な多様性に現れ、ジェネリックと非定型的な特徴を区別することが困難である。 これは、関連する物理的性質を忠実に具現化するために選択されたランダム状態のアンサンブルを通して相関を分析することで対処できる。 ここでは、テンソルネットワーク状態によって相関が極めてよく捉えられる局所相互作用を持つスピンに焦点を当てる。 オペレーショナル・パースペクティブを用いて、逐次生成を許容する1次元と2次元の空間次元におけるランダムテンソルネットワーク状態のアンサンブルを定義する。 したがって、それらはシーケンシャルなアーキテクチャとランダムゲートを持つ量子回路の出力に直接対応する。 1つの空間次元では、アンサンブルは行列積状態の全族を探索し、2つの空間次元ではランダム等尺テンソルネットワーク状態に対応する。 距離関数として,2つのサブシステム間の平均相関のスケーリング挙動を抽出した。 基本濃度結果を用いて、フォン・ノイマンの相互情報やヒルベルト・シュミットノルムから生じる測度のような相関の尺度の典型例を導出する。 典型的な振る舞いが指数的減衰(一次元と二次元の両方)であると考えられる全ての場合を見いだす。 検討対象の空間次元にのみ依存する相関長が一貫した出現を観察する。 顕著なことに、結合次元の増大は1つの空間次元において高い相関長をもたらすが、2つの空間次元では反対の効果を持つ。

The complexity of quantum many-body systems is manifested in the vast diversity of their correlations, making it challenging to distinguish the generic from the atypical features. This can be addressed by analyzing correlations through ensembles of random states, chosen so as to faithfully embody the relevant physical properties. Here we focus on spins with local interactions, whose correlations are extremely well captured by tensor network states. Adopting an operational perspective, we define ensembles of random tensor network states in one and two spatial dimensions that admit a sequential generation. As such, they directly correspond to outputs of quantum circuits with a sequential architecture and random gates. In one spatial dimension, the ensemble explores the entire family of matrix product states, while in two spatial dimensions, it corresponds to random isometric tensor network states. We extract the scaling behavior of the average correlations between two subsystems as a function of their distance. Using elementary concentration results, we then deduce the typical case for measures of correlation such as the von Neumann mutual information and a measure arising from the Hilbert-Schmidt norm. We find for all considered cases that the typical behavior is an exponential decay (for both one and two spatial dimensions). We observe the consistent emergence of a correlation length that only depends on the underlying spatial dimension and not the considered measure. Remarkably, increasing the bond dimension leads to a higher correlation length in one spatial dimension but has the opposite effect in two spatial dimensions.
翻訳日:2023-01-12 18:06:30 公開日:2023-01-11
# タブレットPC上での署名検証によるセキュアアクセスシステム

Secure access system using signature verification over tablet PC ( http://arxiv.org/abs/2301.04402v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez-Aguilar, Javier Ortega-Garcia, Joaquin Gonzalez-Rodriguez(参考訳) 署名信号をキャプチャできる安価なポータブルデバイスが、ますます利用されている。 さらに、認証目的の署名書の社会的および法的承認は、新しいアプリケーションの範囲を広げることである。 署名検証を用いたWebベースのセキュアアクセスのための,高度に汎用的でスケーラブルなプロトタイプについて述べる。 提案するアーキテクチャは,様々なセンサや大規模データベースで動作するように容易に拡張することができる。 ネットワークベースの署名検証のセキュリティとプライバシについても,いくつかの意見が述べられている。

Low-cost portable devices capable of capturing signature signals are being increasingly used. Additionally, the social and legal acceptance of the written signature for authentication purposes is opening a range of new applications. We describe a highly versatile and scalable prototype for Web-based secure access using signature verification. The proposed architecture can be easily extended to work with different kinds of sensors and large-scale databases. Several remarks are also given on security and privacy of network-based signature verification.
翻訳日:2023-01-12 18:06:05 公開日:2023-01-11
# pyssam - 生物医学的形状と外観の統計モデリングのためのpythonライブラリ

pyssam -- a Python library for statistical modelling of biomedical shape and appearance ( http://arxiv.org/abs/2301.04416v1 )

ライセンス: Link先を確認
Josh Williams, Ali Ozel, Uwe Wolfram(参考訳) pyssamはpythonライブラリで、骨、肺、その他の臓器などの生物学的(および他の)形状のための統計形状および外観モデル(ssam)を作成する。 臓器の解剖学的「ランドマーク」を最もよく記述する点雲は、少ない集団のサンプルから入力として要求される。 ランドマークグレー値のような追加情報は、モデルに形状と「出現」のジョイント相関を組み込むために含めることができる。 本ライブラリは,入力データのアライメントとスケーリングを行い,集団間の共分散に基づくSSAMを生成する。 出力SSAMは、集団全体の形状変化をパラメータ化し定量化するために使用することができる。 pyssamは、いくつかの一般的なSSAM計算のためのJupyterノートブックのような、小さくて低依存性のコードベースである。 与えられた例は、別のデータセットに簡単に拡張でき、また、SSAMをセグメント化された臓器の制約として組み込むことで、医療画像のセグメンテーションのような代替タスクにも拡張できる。

pyssam is a Python library for creating statistical shape and appearance models (SSAMs) for biological (and other) shapes such as bones, lungs or other organs. A point cloud best describing the anatomical 'landmarks' of the organ are required from each sample in a small population as an input. Additional information such as landmark gray-value can be included to incorporate joint correlations of shape and 'appearance' into the model. Our library performs alignment and scaling of the input data and creates a SSAM based on covariance across the population. The output SSAM can be used to parameterise and quantify shape change across a population. pyssam is a small and low dependency codebase with examples included as Jupyter notebooks for several common SSAM computations. The given examples can easily be extended to alternative datasets, and also alternative tasks such as medical image segmentation by incorporating a SSAM as a constraint for segmented organs.
翻訳日:2023-01-12 18:05:59 公開日:2023-01-11
# 機械学習技術による太陽系外惑星候補画像の復号化の可能性

A Possible Converter to Denoise the Images of Exoplanet Candidates through Machine Learning Techniques ( http://arxiv.org/abs/2301.04292v1 )

ライセンス: Link先を確認
Pattana Chintarungruangchai, Ing-Guey Jiang, Jun Hashimoto, Yu Komatsu, Mihoko Konishi(参考訳) 直接撮像法は多くの太陽系外惑星を検出し、惑星形成の分野に重要な貢献をした。 標準手法は角微分画像法(ADI)を用いており、より多くのADI画像フレームがより大きい信号対雑音比(SNR)で結果をもたらす可能性がある。 しかし、常に過度に登録されている大型望遠鏡からの貴重な観測時間が必要となる。 そこで我々は,より少ないADIフレームから得られるSNRを増大させるコンバータを生成する可能性を検討する。 2次元畳み込みニューラルネットワーク(2D-CNN)を用いた機械学習技術をテストする。 いくつかの2D-CNNモデルが訓練され、その性能が示され、比較される。 その結果,残差学習法とバッチ正規化法(mwin5-rb)を併用した修正型5層広層推論ネットワークが最適であることがわかった。 このMWIN5-RBは将来の観測データのコンバータとして使用できる。

The method of direct imaging has detected many exoplanets and made important contribution to the field of planet formation. The standard method employs angular differential imaging (ADI) technique, and more ADI image frames could lead to the results with larger signal-to-noise-ratio (SNR). However, it would need precious observational time from large telescopes, which are always over-subscribed. We thus explore the possibility to generate a converter which can increase the SNR derived from a smaller number of ADI frames. The machine learning technique with two-dimension convolutional neural network (2D-CNN) is tested here. Several 2D-CNN models are trained and their performances of denoising are presented and compared. It is found that our proposed Modified five-layer Wide Inference Network with the Residual learning technique and Batch normalization (MWIN5-RB) can give the best result. We conclude that this MWIN5-RB can be employed as a converter for future observational data.
翻訳日:2023-01-12 18:05:21 公開日:2023-01-11
# モノーラル音声強調のための複素値深層ニューラルネットワークの再考

Rethinking complex-valued deep neural networks for monaural speech enhancement ( http://arxiv.org/abs/2301.04320v1 )

ライセンス: Link先を確認
Haibin Wu, Ke Tan, Buye Xu, Anurag Kumar, Daniel Wong(参考訳) 複雑な価値を持つディープニューラルネットワーク(DNN)の採用に向けた複数の取り組みにもかかわらず、複雑な価値を持つDNNが、モノラルな音声強調のための実価値を持つDNNよりも一般的に有効であるかどうかには疑問が残る。 本研究は, 複合価値DNNと実価値DNNとを体系的に検討し, 批判的評価を行うものである。 具体的には、線形層、畳み込み層、長い短期記憶(LSTM)、ゲート線形単位を含む複素数値DNN原子単位について検討する。 最近開発されたGCRN(gate convolutional Recurrent Network)において,基本ブロックの複合的および実数値的バージョンを比較することにより,基本ブロックの異なる機構が性能に与える影響を示す。 また,複素数値演算を用いることで,モデルサイズが小さい場合のモデルキャパシティを損なうことも判明した。 さらに,最近の複素値dnn,すなわちdccrn(deep complex convolutional recurrent network)とdcunet(deep complex u-net)について検討した。 評価の結果,両DNNは実測値と同等の性能を示し,計算量を大きく増やすことができた。 これらの包括的比較から、複素数値dnnは実数値の音声強調に対して性能向上を提供しておらず、計算コストが高いため望ましくないと結論づけた。

Despite multiple efforts made towards adopting complex-valued deep neural networks (DNNs), it remains an open question whether complex-valued DNNs are generally more effective than real-valued DNNs for monaural speech enhancement. This work is devoted to presenting a critical assessment by systematically examining complex-valued DNNs against their real-valued counterparts. Specifically, we investigate complex-valued DNN atomic units, including linear layers, convolutional layers, long short-term memory (LSTM), and gated linear units. By comparing complex- and real-valued versions of fundamental building blocks in the recently developed gated convolutional recurrent network (GCRN), we show how different mechanisms for basic blocks affect the performance. We also find that the use of complex-valued operations hinders the model capacity when the model size is small. In addition, we examine two recent complex-valued DNNs, i.e. deep complex convolutional recurrent network (DCCRN) and deep complex U-Net (DCUNET). Evaluation results show that both DNNs produce identical performance to their real-valued counterparts while requiring much more computation. Based on these comprehensive comparisons, we conclude that complex-valued DNNs do not provide a performance gain over their real-valued counterparts for monaural speech enhancement, and thus are less desirable due to their higher computational costs.
翻訳日:2023-01-12 18:05:06 公開日:2023-01-11
# 放射加速度関係の機能形式について

On the functional form of the radial acceleration relation ( http://arxiv.org/abs/2301.04368v1 )

ライセンス: Link先を確認
Harry Desmond, Deaglan J. Bartlett, Pedro G. Ferreira(参考訳) 我々は、放射加速度関係(RAR)にカプセル化される後期型の銀河力学に対して、データから新しい方程式の学習法、すなわち排他的シンボリック回帰(ESR)を適用した。 バリオンによる遠心加速度($g_\text{bar}$)と総力学加速度($g_\text{obs}$)を関連付けると、RARは修正ニュートン力学(MOND)に則って、その正則性と厳密性により自然の新たな法則を示すと主張されている。 この関係は、特定の機能形式に対する事前の期待によって制限されているが、ESRは、関数パラメータ空間を通した徹底的でほとんど事前の探索を行い、方程式を最適に精度と単純さで取引する。 SPARC のデータを扱うと、通常、最高の関数は $g_\text{obs} \propto g_\text{bar}$ at high $g_\text{bar}$ を満たすが、比例係数は明らかにユニティではなく、深いMOND の極限 $g_\text{obs} \propto \sqrt{g_\text{bar}}$ as $g_\text{bar} \to 0$ はほとんど明らかではない。 MONDを外界効果の有無にかかわらずモックデータを生成することにより、シンボリックレグレッションは、生成関数を特定したり、漸近斜面の再構築に成功したりすることは期待できない。 我々は、SPARC RARの限られた力学範囲と重大な不確実性は、その機能形態の決定的なステートメントを妨げていると結論付け、このデータだけでは法のような重力の振る舞いを証明・排除できない。

We apply a new method for learning equations from data -- Exhaustive Symbolic Regression (ESR) -- to late-type galaxy dynamics as encapsulated in the radial acceleration relation (RAR). Relating the centripetal acceleration due to baryons, $g_\text{bar}$, to the total dynamical acceleration, $g_\text{obs}$, the RAR has been claimed to manifest a new law of nature due to its regularity and tightness, in agreement with Modified Newtonian Dynamics (MOND). Fits to this relation have been restricted by prior expectations to particular functional forms, while ESR affords an exhaustive and nearly prior-free search through functional parameter space to identify the equations optimally trading accuracy with simplicity. Working with the SPARC data, we find the best functions typically satisfy $g_\text{obs} \propto g_\text{bar}$ at high $g_\text{bar}$, although the coefficient of proportionality is not clearly unity and the deep-MOND limit $g_\text{obs} \propto \sqrt{g_\text{bar}}$ as $g_\text{bar} \to 0$ is little evident at all. By generating mock data according to MOND with or without the external field effect, we find that symbolic regression would not be expected to identify the generating function or reconstruct successfully the asymptotic slopes. We conclude that the limited dynamical range and significant uncertainties of the SPARC RAR preclude a definitive statement of its functional form, and hence that this data alone can neither demonstrate nor rule out law-like gravitational behaviour.
翻訳日:2023-01-12 18:04:37 公開日:2023-01-11
# BINN:境界積分方程式に基づく計算力学問題に対するディープラーニングアプローチ

BINN: A deep learning approach for computational mechanics problems based on boundary integral equations ( http://arxiv.org/abs/2301.04480v1 )

ライセンス: Link先を確認
Jia Sun, Yinghua Liu, Yizheng Wang, Zhenhan Yao, Xiaoping Zheng(参考訳) 計算力学における境界値問題に対する境界積分型ニューラルネットワーク(BINN)を提案する。 境界積分方程式は、未知数すべてを境界に移すために用いられ、未知数をニューラルネットワークを用いて近似し、訓練過程を通じて解く。 損失関数は境界積分方程式の残差として選択される。 正規化法は境界積分方程式における弱特異およびコーシー原理積分を効率的に評価するために用いられる。 本論文では, 主に実演として, 潜在的な問題とエラストスタティックな問題について論じる。 提案手法にはいくつかの顕著な利点がある: まず、元の問題の次元を1つ減らし、自由度を大幅に減らした。 第二に,提案手法は境界積分方程式によって自然に考慮されるので,境界条件を導入するために余分な処理を必要としない。 したがって、この方法は複素幾何学に適している。 第三に、BINNは無限領域や半無限領域の問題に適している。 さらに、BINNはドメインを分解することなく単一のニューラルネットワークで異種問題を容易に処理できる。

We proposed the boundary-integral type neural networks (BINN) for the boundary value problems in computational mechanics. The boundary integral equations are employed to transfer all the unknowns to the boundary, then the unknowns are approximated using neural networks and solved through a training process. The loss function is chosen as the residuals of the boundary integral equations. Regularization techniques are adopted to efficiently evaluate the weakly singular and Cauchy principle integrals in boundary integral equations. Potential problems and elastostatic problems are mainly concerned in this article as a demonstration. The proposed method has several outstanding advantages: First, the dimensions of the original problem are reduced by one, thus the freedoms are greatly reduced. Second, the proposed method does not require any extra treatment to introduce the boundary conditions, since they are naturally considered through the boundary integral equations. Therefore, the method is suitable for complex geometries. Third, BINN is suitable for problems on the infinite or semi-infinite domains. Moreover, BINN can easily handle heterogeneous problems with a single neural network without domain decomposition.
翻訳日:2023-01-12 18:03:56 公開日:2023-01-11
# WuYun:知識強化深層学習を用いた階層型骨格誘導メロディ生成の探索

WuYun: Exploring hierarchical skeleton-guided melody generation using knowledge-enhanced deep learning ( http://arxiv.org/abs/2301.04488v1 )

ライセンス: Link先を確認
Kejun Zhang, Xinda Wu, Tieyao Zhang, Zhijie Huang, Xu Tan, Qihao Liang, Songruoyao Wu, and Lingyun Sun(参考訳) ディープ・ラーニングは音楽生成に革命をもたらしたが、既存の構造化メロディ生成手法は、左右のノート・バイ・ノート生成パラダイムに従い、各ノートを等しく扱う。 本稿では,メロディ構造を改善するための知識に富んだ深層学習アーキテクチャであるWuYunについて紹介する。 具体的には,音楽領域の知識を用いて旋律生成過程の補助的指導を行うための追加知識として,旋律骨格を抽出し,シーケンス学習を用いて再構築する。 以上の結果から, ウーユンは, 長期的構造と音楽性に優れる旋律を生成でき, 主観的評価指標の平均で0.51 % の精度で他の最先端手法を上回った。 本研究は,メロディックな階層構造を設計し,データ駆動型と知識に基づく多くの音楽生成タスクのギャップを埋めるための多分野レンズを提供する。

Although deep learning has revolutionized music generation, existing methods for structured melody generation follow an end-to-end left-to-right note-by-note generative paradigm and treat each note equally. Here, we present WuYun, a knowledge-enhanced deep learning architecture for improving the structure of generated melodies, which first generates the most structurally important notes to construct a melodic skeleton and subsequently infills it with dynamically decorative notes into a full-fledged melody. Specifically, we use music domain knowledge to extract melodic skeletons and employ sequence learning to reconstruct them, which serve as additional knowledge to provide auxiliary guidance for the melody generation process. We demonstrate that WuYun can generate melodies with better long-term structure and musicality and outperforms other state-of-the-art methods by 0.51 on average on all subjective evaluation metrics. Our study provides a multidisciplinary lens to design melodic hierarchical structures and bridge the gap between data-driven and knowledge-based approaches for numerous music generation tasks.
翻訳日:2023-01-12 18:03:42 公開日:2023-01-11
# き裂を伴う分子動力学データの粗粒化のための統一的非局所ペリダイナミックスフレームワークを目指して

Towards a unified nonlocal, peridynamics framework for the coarse-graining of molecular dynamics data with fractures ( http://arxiv.org/abs/2301.04540v1 )

ライセンス: Link先を確認
Huaiqian You, Xiao Xu, Yue Yu, Stewart Silling, Marta D'Elia, John Foster(参考訳) 分子動力学 (md) は、実験室試験に依存しない材料を設計するための強力なツールである。 しかし、メソスケールにおける材料の変形と破壊を直接処理するためにMDを用いることは、まだほとんど不可能である。 本稿では,MD模擬材料破壊データセットからメソスケール連続体として周辺力学モデルを抽出する学習フレームワークを提案する。 まず,md変位データセットにおける材料破壊とその不連続を自動的に処理する新しい粗粒化法を開発した。 重み付けされた非振動スキームにインスパイアされた鍵となるアイデアは、局所的に最も滑らかなステンシルを自動的に選択し、粗粒状物質変位場を不連続性を含むスムーズな解として再構成する適応的な手順にある。 次に, 粗粒mdデータに基づいて2相最適化に基づく学習手法を提案し, 損傷基準を満たした最適ペリダイナミックスモデルを推算した。 第1フェーズでは、材料損傷のないデータセットから最適な非局所カーネル関数を特定し、材料剛性特性を捉える。 そして、第2フェーズでは、破壊を伴うデータから、材料損傷基準をスムーズなステップ関数として学習する。 その結果、ペリダイナミックスサーロゲートが得られる。 私たちのperiondynamics surrogateモデルは、トレーニングから異なるグリッド解像度のさらなる予測タスクに使用できるため、mdと比較して計算コストを大幅に削減することができます。 単層グラフェンの数値実験により,提案手法の有効性を明らかにした。 私たちのテストでは、データ駆動モデルが堅牢で一般化可能であることを示し、トレーニングで使用するものと異なる離散化と負荷設定の下で骨折の初期化と成長をモデル化することができることを示した。

Molecular dynamics (MD) has served as a powerful tool for designing materials with reduced reliance on laboratory testing. However, the use of MD directly to treat the deformation and failure of materials at the mesoscale is still largely beyond reach. Herein, we propose a learning framework to extract a peridynamic model as a mesoscale continuum surrogate from MD simulated material fracture datasets. Firstly, we develop a novel coarse-graining method, to automatically handle the material fracture and its corresponding discontinuities in MD displacement dataset. Inspired by the Weighted Essentially Non-Oscillatory scheme, the key idea lies at an adaptive procedure to automatically choose the locally smoothest stencil, then reconstruct the coarse-grained material displacement field as piecewise smooth solutions containing discontinuities. Then, based on the coarse-grained MD data, a two-phase optimization-based learning approach is proposed to infer the optimal peridynamics model with damage criterion. In the first phase, we identify the optimal nonlocal kernel function from datasets without material damage, to capture the material stiffness properties. Then, in the second phase, the material damage criterion is learnt as a smoothed step function from the data with fractures. As a result, a peridynamics surrogate is obtained. Our peridynamics surrogate model can be employed in further prediction tasks with different grid resolutions from training, and hence allows for substantial reductions in computational cost compared with MD. We illustrate the efficacy of the proposed approach with several numerical tests for single layer graphene. Our tests show that the proposed data-driven model is robust and generalizable: it is capable in modeling the initialization and growth of fractures under discretization and loading settings that are different from the ones used during training.
翻訳日:2023-01-12 17:57:17 公開日:2023-01-11
# データ駆動型ミニマルクーエット流の低次元低次元モデルのダイナミクス

Dynamics of a data-driven low-dimensional model of turbulent minimal Couette flow ( http://arxiv.org/abs/2301.04638v1 )

ライセンス: Link先を確認
Alec J. Linot and Michael D. Graham(参考訳) ナビエ・ストークス方程式は散逸であるため、状態空間内の流れの長時間のダイナミクスは、解決されたシミュレーションに必要な次元よりも次元がずっと低い多様体上で崩壊することが期待される。 この多様体上では、系の状態は多様体をパラメータ化する座標系で正確に記述することができる。 この低次元座標系でシステムを記述することで、より高速なシミュレーションと解析が可能になる。 本研究では, 乱流クーエット流に対して, データ駆動型多様体動力学モデリング手法を用いて, この力学記述が可能となることを示す。 このアプローチは、低次元多様体座標系と、ニューラルネットワークによって定義される常微分方程式の集合を見つけるオートエンコーダからなる。 具体的には、この手法を最小フロー単位乱流面Couette Flow at $\textit{Re}=400$に適用し、完全な解は$\mathcal{O}(10^5)$自由度を必要とする。 このシミュレーションのデータのみを使用して、ストリーク破壊や再生サイクルを含むフローの重要な特性を定量的にキャプチャする、20ドル未満の自由度を持つモデルを構築します。 短時間で、モデルは複数のリャプノフ時間の真の軌道を追跡し、長い時間にレイノルズ応力とエネルギーバランスを捕捉する。 比較のために、モデルがPOD-Galerkinモデルより$\sim$2000自由度で優れていることを示す。 最後に、不安定周期軌道をモデルから計算する。 これらの軌道の多くは、以前に計算された全系軌道によく似ており、さらに、全系における未知の解に対応する9つの軌道が存在する。

Because the Navier-Stokes equations are dissipative, the long-time dynamics of a flow in state space are expected to collapse onto a manifold whose dimension may be much lower than the dimension required for a resolved simulation. On this manifold, the state of the system can be exactly described in a coordinate system parameterizing the manifold. Describing the system in this low-dimensional coordinate system allows for much faster simulations and analysis. We show, for turbulent Couette flow, that this description of the dynamics is possible using a data-driven manifold dynamics modeling method. This approach consists of an autoencoder to find a low-dimensional manifold coordinate system and a set of ordinary differential equations defined by a neural network. Specifically, we apply this method to minimal flow unit turbulent plane Couette flow at $\textit{Re}=400$, where a fully resolved solutions requires $\mathcal{O}(10^5)$ degrees of freedom. Using only data from this simulation we build models with fewer than $20$ degrees of freedom that quantitatively capture key characteristics of the flow, including the streak breakdown and regeneration cycle. At short-times, the models track the true trajectory for multiple Lyapunov times, and, at long-times, the models capture the Reynolds stress and the energy balance. For comparison, we show that the models outperform POD-Galerkin models with $\sim$2000 degrees of freedom. Finally, we compute unstable periodic orbits from the models. Many of these closely resemble previously computed orbits for the full system; additionally, we find nine orbits that correspond to previously unknown solutions in the full system.
翻訳日:2023-01-12 17:56:49 公開日:2023-01-11
# パンチャラトナムの幾何学的位相の発見の解読

Deciphering Pancharatnam's discovery of geometric phase ( http://arxiv.org/abs/2301.04359v1 )

ライセンス: Link先を確認
Luis Garza-Soto, Nathan Hagen, Dorilian Lopez-Mago(参考訳) パンチャラトナムは1956年に幾何学的な段階を発見したが、彼の作品は1987年にベリーが支持するまで広く認知されなかった。 しかしながら、パンチャラトナムの論文は従うのが非常に難しいため、ベリーの著作がパンチャラトナムの著作に現れていないにもかかわらず、ベリーの著作が国家のサイクルに焦点を当てたように、彼の研究は偏極状態の進化を指すと誤解されることが多い。 我々は、pancharatnamのオリジナルの導出から読者を歩き回り、pancharatnamのアプローチが最近の幾何学的段階の仕事とどのように結びついているかを示す。 この広く引用された古典的論文をよりアクセスしやすくし、理解を深めたいと願っています。

While Pancharatnam discovered the geometric phase in 1956, his work was not widely recognized until its endorsement by Berry in 1987, after which it received wide appreciation. However, because Pancharatnam's paper is unusually difficult to follow, his work has often been misinterpreted as referring to an evolution of states of polarization, just as Berry's work focused on a cycle of states, even though this consideration does not appear in Pancharatnam's work. We walk the reader through Pancharatnam's original derivation and show how Pancharatnam's approach connects to recent work in geometric phase. It is our hope to make this widely cited classic paper more accessible and better understood.
翻訳日:2023-01-12 17:55:03 公開日:2023-01-11
# art超電導回路の状態におけるタンタル上の酸化物の化学プロファイル

Chemical profiles of the oxides on tantalum in state of the art superconducting circuits ( http://arxiv.org/abs/2301.04567v1 )

ライセンス: Link先を確認
Russell A. McLellan, Aveek Dutta, Chenyu Zhou, Yichen Jia, Conan Weiland, Xin Gui, Alexander P. M. Place, Kevin D. Crowley, Xuan Hoang Le, Trisha Madhavan, Youqi Gang, Lukas Baker, Ashley R. Head, Iradwikanari Waluyo, Ruoshui Li, Kim Kisslinger, Adrian Hunt, Ignace Jarrige, Stephen A. Lyon, Andi M. Barbour, Robert J. Cava, Andrew A. Houck, Steven L. Hulbert, Mingzhao Liu, Andrew L. Walter, Nathalie P. de Leon(参考訳) 過去数十年間、超伝導量子ビットは量子プロセッサを実現するための主要なハードウェアプラットフォームの一つとして現れてきた。 その結果、研究者は超伝導量子ビットのコヒーレンス時間を制限する損失チャネルを理解することに多大な努力をした。 損失の主な原因は、材料界面に存在する2つのレベルシステムに起因する。 近年,トランスモンのコンデンサ中の金属をタンタルに置き換えることで,超伝導量子ビットの磁気緩和とコヒーレンス時間が得られることが明らかとなり,タンタル表面の詳細な研究が動機となった。 本研究では, 可変エネルギーX線光電子分光法(VEXPS)を用いて, C面サファイア上に成長したタンタル膜の表面の化学組成を調べた。 大気に曝露して自然酸化物に存在するタンタルの異なる酸化状態を同定し,膜の深さを通してその分布を計測した。 さらに, 様々な化学処理によってタンタル酸化状態の体積と深さの分布が変化することを示した。 これらの測定を量子デバイスの詳細な測定と相関させることで、顕微鏡デバイス損失の理解を深めることができる。

Over the past decades, superconducting qubits have emerged as one of the leading hardware platforms for realizing a quantum processor. Consequently, researchers have made significant effort to understand the loss channels that limit the coherence times of superconducting qubits. A major source of loss has been attributed to two level systems that are present at the material interfaces. We recently showed that replacing the metal in the capacitor of a transmon with tantalum yields record relaxation and coherence times for superconducting qubits, motivating a detailed study of the tantalum surface. In this work, we study the chemical profile of the surface of tantalum films grown on c-plane sapphire using variable energy X-ray photoelectron spectroscopy (VEXPS). We identify the different oxidation states of tantalum that are present in the native oxide resulting from exposure to air, and we measure their distribution through the depth of the film. Furthermore, we show how the volume and depth distribution of these tantalum oxidation states can be altered by various chemical treatments. By correlating these measurements with detailed measurements of quantum devices, we can improve our understanding of the microscopic device losses.
翻訳日:2023-01-12 17:54:48 公開日:2023-01-11
# ビーム偏光のための干渉法ロバスト光機械カプラ

An Interferometrically Robust Opto-Mechanical Coupler to Beam Polarisation ( http://arxiv.org/abs/2301.04577v1 )

ライセンス: Link先を確認
Hayat Abbas and Thomas Fernholz(参考訳) 本研究では,マイクロメカニカル膜の位置変化をレーザービームの偏光にマッピングするトランスデューサを実装したハイブリッド量子システムのためのツールについて検討する。 これは、安定化の必要性を低減した干渉式セットアップで達成される。 特に、非対称光学キャビティの中央に配置された振動する窒化ケイ素膜は、反射された近共鳴光電界の位相シフトを引き起こす。 ビーム変位器は、信号ビームとモードマッチングされた直交偏光基準ビームを結合して偏光符号化を行う。 その後の平衡ホモダイン測定は、熱膜ノイズを検出するために用いられる。 設計の微妙な改善は、高オプティカル・メカニカルカップリング強度の条件下での運動量子ノイズの検出に十分高い信号対雑音比を達成する必要がある。 このセットアップは、マイクロメカニカル発振器とアトミックアンサンブルのような他のシステムとの間の堅牢な量子リンクを提供することができる。

In this work, we investigate a tool for hybrid quantum systems that implements a transducer to map small position changes of a micro-mechanical membrane onto the polarization of a laser beam. This is achieved with an interferometric setup that has reduced needs for stabilization. Specifically, an oscillating silicon nitride membrane placed in the middle of an asymmetric optical cavity causes phase shifts in the reflected, near-resonant light field. A beam displacer is used to combine the signal beam with a mode-matched, orthogonally polarized reference beam for polarization encoding. Subsequent balanced homodyne measurement is used to detect thermal membrane noise. Minor improvements in the design should achieve sufficiently high signal-to-noise ratio for the detection of motional quantum noise in the regime of high opto-mechanical coupling strength. This setup can provide a robust quantum link between a micro-mechanical oscillator and other systems such as atomic ensembles.
翻訳日:2023-01-12 17:54:31 公開日:2023-01-11
# 犬の皮膚扁平上皮癌病理組織学データセット

Multi-Scanner Canine Cutaneous Squamous Cell Carcinoma Histopathology Dataset ( http://arxiv.org/abs/2301.04423v1 )

ライセンス: Link先を確認
Frauke Wilm, Marco Fragoso, Christof A. Bertram, Nikolas Stathonikos, Mathias \"Ottl, Jingna Qiu, Robert Klopfleisch, Andreas Maier, Katharina Breininger, Marc Aubreville(参考訳) 病理組織学では、スキャナによって誘導されるドメインシフトは、未知のデータでテストした場合、トレーニングされたニューラルネットワークのパフォーマンスを妨げることが知られている。 ドメインの事前トレーニングや専用のドメイン一般化技術は、ドメインに依存しないアルゴリズムの開発に役立つ。 このために、多種多様なスライドスキャンシステムを持つマルチスキャナデータセットが非常に望ましい。 本稿では,犬皮膚扁平上皮癌の病理組織像のマルチスキャンデータセットを公開し,44例のサンプルを5例のスライドスキャナーでデジタル化した。 このデータセットは画像間の局所的な対応を提供し、それによってスキャナによって誘導されるドメインシフトを他の固有のドメインシフトから分離する。 スキャナの違いを強調するために,個々のスキャナサブセットの色分布,シャープネス,コントラストの詳細な評価を行う。 さらに,固有スキャナによるドメインシフトを定量化するために,各スキャナサブセット上の腫瘍分節ネットワークを訓練し,インドメインとクロスドメインの両方のパフォーマンスを評価する。 最大0.08の結合係数のクラス平均的インドメイン交叉を達成し、提示されたデータセットの固有領域シフトとディープニューラルネットワークの性能に負の影響を確認するクロスドメイン性能低下を観測する。

In histopathology, scanner-induced domain shifts are known to impede the performance of trained neural networks when tested on unseen data. Multi-domain pre-training or dedicated domain-generalization techniques can help to develop domain-agnostic algorithms. For this, multi-scanner datasets with a high variety of slide scanning systems are highly desirable. We present a publicly available multi-scanner dataset of canine cutaneous squamous cell carcinoma histopathology images, composed of 44 samples digitized with five slide scanners. This dataset provides local correspondences between images and thereby isolates the scanner-induced domain shift from other inherent, e.g. morphology-induced domain shifts. To highlight scanner differences, we present a detailed evaluation of color distributions, sharpness, and contrast of the individual scanner subsets. Additionally, to quantify the inherent scanner-induced domain shift, we train a tumor segmentation network on each scanner subset and evaluate the performance both in- and cross-domain. We achieve a class-averaged in-domain intersection over union coefficient of up to 0.86 and observe a cross-domain performance decrease of up to 0.38, which confirms the inherent domain shift of the presented dataset and its negative impact on the performance of deep neural networks.
翻訳日:2023-01-12 17:48:43 公開日:2023-01-11
# 高密度顕微鏡データにおける高速スプライン検出

Fast spline detection in high density microscopy data ( http://arxiv.org/abs/2301.04460v1 )

ライセンス: Link先を確認
Albert Alonso and Julius B. Kirkegaard(参考訳) 生体顕微鏡データのコンピュータ支援分析は,汎用深層学習技術の利用により大幅に改善されている。 しかし、多分子系の顕微鏡的研究では、衝突と重なりの問題は依然として困難である。 これは特に、線虫をクロールしたり、精子を泳いだり、真核生物や原核生物の鞭毛を叩くような細い体から成るシステムに当てはまる。 そこで,本研究では,一般的なモチーフと重なり合うスプラインの正確な形状軌跡を抽出する,エンドツーエンドの深層学習手法を開発した。 提案手法は,特徴キーポイントの定義や検出が難しい低解像度設定で動作する。 検出は高速で、同時に何千もの重なり合う生物を追跡する能力を示す。 我々のアプローチは応用分野に依存しないが,crawling caenorhabditis elegansの密集した実験において,その使用性の設定と実例を示す。 モデルトレーニングは、線虫運動の物理モデルを用いて、純粋に合成データに基づいて達成され、シミュレーションから実験ビデオまでモデルを一般化する能力を実証する。

Computer-aided analysis of biological microscopy data has seen a massive improvement with the utilization of general-purpose deep learning techniques. Yet, in microscopy studies of multi-organism systems, the problem of collision and overlap remains challenging. This is particularly true for systems composed of slender bodies such as crawling nematodes, swimming spermatozoa, or the beating of eukaryotic or prokaryotic flagella. Here, we develop a novel end-to-end deep learning approach to extract precise shape trajectories of generally motile and overlapping splines. Our method works in low resolution settings where feature keypoints are hard to define and detect. Detection is fast and we demonstrate the ability to track thousands of overlapping organisms simultaneously. While our approach is agnostic to area of application, we present it in the setting of and exemplify its usability on dense experiments of crawling Caenorhabditis elegans. The model training is achieved purely on synthetic data, utilizing a physics-based model for nematode motility, and we demonstrate the model's ability to generalize from simulations to experimental videos.
翻訳日:2023-01-12 17:48:22 公開日:2023-01-11
# 加齢黄斑変性におけるバイオマーカー発見のための対比特徴空間におけるクラスタリング疾患軌跡

Clustering disease trajectories in contrastive feature space for biomarker discovery in age-related macular degeneration ( http://arxiv.org/abs/2301.04525v1 )

ライセンス: Link先を確認
Robbie Holland, Oliver Leingang, Christopher Holmes, Philipp Anders, Johannes C. Paetzold, Rebecca Kaye, Sophie Riedl, Hrvoje Bogunovi\'c, Ursula Schmidt-Erfurth, Lars Fritsche, Hendrik P. N. Scholl, Sobha Sivaprasad, Andrew J. Lotery, Daniel Rueckert, Martin J. Menten(参考訳) 加齢関連黄斑変性症(AMD)は高齢者の視覚障害の主要な原因である。 それにもかかわらず、疾患の進行の正確なダイナミクスはよく分かっていない。 amdの診断、予後、管理を支援する網膜光学コヒーレンス断層撮影(oct)におけるバイオマーカーのイメージングの必要性は明らかである。 しかし, 早期および中期のAMDを記述した幅広いカテゴリに大まかに分類した現在のグレーディングシステムは, 後期AMDへの転換の予後に極めて限定的である。 本稿では,自己管理型特徴空間におけるクラスタ化された軌跡として,疾患の進行を初めて解析する。 提案手法はまず,時系列から特徴空間上の点へ画像を投影するコントラスト学習を用いたエンコーダを事前訓練する。 これにより、病気の軌跡が作成でき、それを分断し、分割し、クラスタにグループ化する。 これらのクラスターは8年間に撮影された7,912人の時系列を含む2つのデータセットから発見され、既知のOCTバイオマーカーと相関した。 これは、amdの進行を記述した時間依存バイオマーカーの候補として、臨床比較と解釈タスク中にクラスターを調査する4人の専門眼科医の努力を強化した。

Age-related macular degeneration (AMD) is the leading cause of blindness in the elderly. Despite this, the exact dynamics of disease progression are poorly understood. There is a clear need for imaging biomarkers in retinal optical coherence tomography (OCT) that aid the diagnosis, prognosis and management of AMD. However, current grading systems, which coarsely group disease stage into broad categories describing early and intermediate AMD, have very limited prognostic value for the conversion to late AMD. In this paper, we are the first to analyse disease progression as clustered trajectories in a self-supervised feature space. Our method first pretrains an encoder with contrastive learning to project images from longitudinal time series to points in feature space. This enables the creation of disease trajectories, which are then denoised, partitioned and grouped into clusters. These clusters, found in two datasets containing time series of 7,912 patients imaged over eight years, were correlated with known OCT biomarkers. This reinforced efforts by four expert ophthalmologists to investigate clusters, during a clinical comparison and interpretation task, as candidates for time-dependent biomarkers that describe progression of AMD.
翻訳日:2023-01-12 17:48:04 公開日:2023-01-11
# ShadowNav: 夜間と永久影の地域月面航法のためのクレーターベースローカライゼーション

ShadowNav: Crater-Based Localization for Nighttime and Permanently Shadowed Region Lunar Navigation ( http://arxiv.org/abs/2301.04630v1 )

ライセンス: Link先を確認
Abhishek Cauligi and R. Michael Swan and Hiro Ono and Shreyansh Daftry and John Elliott and Larry Matthies and Deegan Atha(参考訳) ミッションへの関心が高まり、現在行われているものよりも1日あたりの距離が大幅に長くなっている。 さらに、これらのミッションのいくつかは、自律運転と暗闇における絶対的な位置決めを必要とする。 例えば、エンデュアランスAミッションでは、夜間に総走行距離1200kmを走行することを提案している。 このようなミッションで利用可能な自然光の不足は、視覚的なランドマークとして使用できるものや、ランドマークが観測できる範囲を制限する。 惑星ローバーが長距離を横切るためには、ローバーが計画された軌道を維持し、既知の危険領域を避けるために絶対的な位置決めが不可欠である。 現在、絶対的なローカライゼーションを達成するために、人間のオペレータがオンボード上のローカルマップやイメージと軌道画像やマップとをマッチングする、ループ内のグラウンド(GITL)操作が行われる。 このgitl操作は、1日で走行できる距離を数百メートルに制限する。 これまでの研究によると、クレーターをランドマークとして使うことは、その日の月面に絶対的な位置決めを行うための有望なアプローチである。 本研究では, クレーターをランドマークとして利用し, 検出されたクレーター縁と既知のクレーターとの軌道図を一致させる絶対位置推定法を提案する。 本研究では,外部照明装置とステレオカメラを備えた知覚システムに基づく位置決め手法に着目した。 本研究は,(1)単眼およびステレオを用いた表面クレーターエッジ検出技術,(2)クレーターエッジマッチの最適位置決定法,(3)夜間の模擬月面画像における位置決め性能を評価した。 この手法は、ほとんどの惑星探査ミッションで必要となる10m未満の絶対位置推定誤差を維持できることを示す。

There has been an increase in interest in missions that drive significantly longer distances per day than what has currently been performed. Further, some of these proposed missions require autonomous driving and absolute localization in darkness. For example, the Endurance A mission proposes to drive 1200km of its total traverse at night. The lack of natural light available during such missions limits what can be used as visual landmarks and the range at which landmarks can be observed. In order for planetary rovers to traverse long ranges, onboard absolute localization is critical to the ability of the rover to maintain its planned trajectory and avoid known hazardous regions. Currently, to accomplish absolute localization, a ground in the loop (GITL) operation is performed wherein a human operator matches local maps or images from onboard with orbital images and maps. This GITL operation limits the distance that can be driven in a day to a few hundred meters, which is the distance that the rover can maintain acceptable localization error via relative methods. Previous work has shown that using craters as landmarks is a promising approach for performing absolute localization on the moon during the day. In this work we present a method of absolute localization that utilizes craters as landmarks and matches detected crater edges on the surface with known craters in orbital maps. We focus on a localization method based on a perception system which has an external illuminator and a stereo camera. We evaluate (1) both monocular and stereo based surface crater edge detection techniques, (2) methods of scoring the crater edge matches for optimal localization, and (3) localization performance on simulated Lunar surface imagery at night. We demonstrate that this technique shows promise for maintaining absolute localization error of less than 10m required for most planetary rover missions.
翻訳日:2023-01-12 17:47:42 公開日:2023-01-11
# 奥行き軸ネットワーク

Deep Residual Axial Networks ( http://arxiv.org/abs/2301.04631v1 )

ライセンス: Link先を確認
Nazmul Shahadat, Anthony S. Maida(参考訳) 残余ネットワーク(ResNets)はコンピュータビジョンタスクにおいて優れた性能を示すが、その計算コストは依然として高い。 本稿では,空間的な2次元畳み込み操作を2つの連続する1次元畳み込み操作に置き換える新しいネットワークアーキテクチャであるアキシアル・レスネクタの提案により,コスト削減に重点を置く。 非常に深い軸方向ResNetの収束性は、ネットワークの効率を損なう劣化問題に直面している。 これを緩和するために,各1次元畳み込み動作に残差接続を適用し,残差軸ネットワーク (rans) という新しいアーキテクチャを提案する。 CIFARベンチマーク、SVHN、Tiny ImageNetイメージ分類データセットでは、RANはResNetsよりも約49%少ないパラメータでパフォーマンスが向上している。 さらに,提案するRANは,CIFARベンチマークのResNetと画像超解像データセットの深部再帰残差ネットワークと比較して,検証性能が大幅に向上したことを示す。

While residual networks (ResNets) demonstrate outstanding performance on computer vision tasks, their computational cost still remains high. Here, we focus on reducing this cost by proposing a new network architecture, axial ResNet, which replaces spatial 2D convolution operations with two consecutive 1D convolution operations. Convergence of very deep axial ResNets has faced degradation problems which prevent the networks from performing efficiently. To mitigate this, we apply a residual connection to each 1D convolutional operation and propose our final novel architecture namely residual axial networks (RANs). Extensive benchmark evaluation shows that RANs outperform with about 49% fewer parameters than ResNets on CIFAR benchmarks, SVHN, and Tiny ImageNet image classification datasets. Moreover, our proposed RANs show significant improvement in validation performance in comparison to the wide ResNets on CIFAR benchmarks and the deep recursive residual networks on image super-resolution dataset.
翻訳日:2023-01-12 17:47:10 公開日:2023-01-11
# 不愉快な施設立地における公平性

Proportional Fairness in Obnoxious Facility Location ( http://arxiv.org/abs/2301.04340v1 )

ライセンス: Link先を確認
Haris Aziz, Alexander Lam, Bo Li, Fahimeh Ramezani, Toby Walsh(参考訳) 我々は,施設立地問題(エージェントが施設立地を離れた場所を好む場合)を考察し,その問題に対する距離ベース比例フェアネス概念の階層を提案する。 これらの公正公理は、同じ位置にあるエージェントの群が、そのグループサイズに比例する施設からの距離であることが保証される。 決定論的・ランダム化機構を検討し,比例フェアネスの価格の厳密な境界を計算する。 決定論的な設定では、我々の比例的公平性公理は戦略的確実性と相容れないだけでなく、ナッシュ均衡は最適な福祉の一定の要素内で福祉を保証するものではない。 一方, ランダム化環境では, 最適福祉の一定要因内で期待される福祉を付与する比例的公平かつ戦略的防御機構を同定する。

We consider the obnoxious facility location problem (in which agents prefer the facility location to be far from them) and propose a hierarchy of distance-based proportional fairness concepts for the problem. These fairness axioms ensure that groups of agents at the same location are guaranteed to be a distance from the facility proportional to their group size. We consider deterministic and randomized mechanisms, and compute tight bounds on the price of proportional fairness. In the deterministic setting, not only are our proportional fairness axioms incompatible with strategyproofness, the Nash equilibria may not guarantee welfare within a constant factor of the optimal welfare. On the other hand, in the randomized setting, we identify proportionally fair and strategyproof mechanisms that give an expected welfare within a constant factor of the optimal welfare.
翻訳日:2023-01-12 17:46:52 公開日:2023-01-11
# 持続可能情報を用いたオンラインマルチエージェント経路探索問題への効率的なアプローチ

An Efficient Approach to the Online Multi-Agent Path Finding Problem by Using Sustainable Information ( http://arxiv.org/abs/2301.04446v1 )

ライセンス: Link先を確認
Mingkai Tang, Boyi Liu, Yuanhang Li, Hongji Liu, Ming Liu, Lujia Wang(参考訳) 多エージェント経路探索 (MAPF) は, 衝突せずに目標頂点へエージェントを移動させる問題である。 オンラインMAPF問題では、新しいエージェントがいつでも環境に追加され、現在のエージェントは将来のエージェントに関する情報を持っていない。 既存のオンラインメソッドが以前の計画コンテキストを再利用できないため、冗長な計算が可能となり、アルゴリズム効率が低下する。 そこで本稿では,持続可能情報を利用したオンラインmapfの3段階解法を提案する。 高レベルの解決アルゴリズムであるSustainable Replan Algorithm (SR)は、計画コンテキストを管理し、環境をシミュレートする。 中レベルの解決アルゴリズムであるSustainable Conflict-Based Search (SCBS)は、コンフリクトツリーを構築し、計画コンテキストを維持する。 低レベルソルバであるsustainable reverse safe interval path planning algorithm (srsipp)は、以前のプランニングコンテキストを使用して重複計算を減らす効率的な単一エージェントソルバである。 実験により,提案手法は計算効率の点で有意な改善が得られた。 テストシナリオの1つでは、エージェント数設定の異なる平均で、我々のアルゴリズムはSOTAの1.48倍高速である。

Multi-agent path finding (MAPF) is the problem of moving agents to the goal vertex without collision. In the online MAPF problem, new agents may be added to the environment at any time, and the current agents have no information about future agents. The inability of existing online methods to reuse previous planning contexts results in redundant computation and reduces algorithm efficiency. Hence, we propose a three-level approach to solve online MAPF utilizing sustainable information, which can decrease its redundant calculations. The high-level solver, the Sustainable Replan algorithm (SR), manages the planning context and simulates the environment. The middle-level solver, the Sustainable Conflict-Based Search algorithm (SCBS), builds a conflict tree and maintains the planning context. The low-level solver, the Sustainable Reverse Safe Interval Path Planning algorithm (SRSIPP), is an efficient single-agent solver that uses previous planning context to reduce duplicate calculations. Experiments show that our proposed method has significant improvement in terms of computational efficiency. In one of the test scenarios, our algorithm can be 1.48 times faster than SOTA on average under different agent number settings.
翻訳日:2023-01-12 17:46:38 公開日:2023-01-11
# ガスフレアリングへの機械学習の適用

Application of machine learning to gas flaring ( http://arxiv.org/abs/2301.04141v1 )

ライセンス: Link先を確認
Rong Lu(参考訳) 現在、石油産業では、生産されたガスを商品化せずに燃やすことがしばしばある。 火花の大きさはいくつかの州で大きく、エネルギー廃棄物や二酸化炭素排出の問題を構成する。 ノースダコタ州では、オペレーターはボリュームのフレアを見積もって報告する必要がある。 質問は、このレポートの品質と、そこから得られる洞察がどの程度優れているか、ということだ。 ノースダコタ工業委員会(NDIC)が公表した統計は別として、衛星リモートセンシングによって、偏光量の推定が可能で、バイアスのないベンチマークとして機能する。 ランドサット8画像の解釈は、光による人工物によって妨げられているため、可視赤外イメージングラジオメータスイート(VIIRS)に基づく推定ボリュームが使用される。 逆ジオコーディングは、NDICおよびVIIRSデータを、郡や油田など様々なレベルで比較および対比するために行われる。 MCMC法で実装されたベイズ学習は,すべてのデータを収集・前処理することにより,郡レベルのモデル開発,フラリング時系列解析,分布推定という3つの問題に対処する。 まず、NDIC巻とVIIRS巻の関連において、異なる郡間に異質性がある。 このような観点から、階層モデルを利用して各郡向けにモデルを開発する。 第2に、騒がしい時系列にはトレンドやパターンに関する情報が含まれており、オペレータのアプローチに関する洞察を提供する。 ガウス過程は多くの異なるパターン認識シナリオにおいて有効である。 第三に、分布的洞察は教師なし学習によって得られる。 負の二項数とGMMは油田フレア数とフレア体積分布をそれぞれ効果的に表す。 最後に、オペレータレベルの監視と分析に最も近いアプローチを紹介する。

Currently in the petroleum industry, operators often flare the produced gas instead of commodifying it. The flaring magnitudes are large in some states, which constitute problems with energy waste and CO2 emissions. In North Dakota, operators are required to estimate and report the volume flared. The questions are, how good is the quality of this reporting, and what insights can be drawn from it? Apart from the company-reported statistics, which are available from the North Dakota Industrial Commission (NDIC), flared volumes can be estimated via satellite remote sensing, serving as an unbiased benchmark. Since interpretation of the Landsat 8 imagery is hindered by artifacts due to glow, the estimated volumes based on the Visible Infrared Imaging Radiometer Suite (VIIRS) are used. Reverse geocoding is performed for comparing and contrasting the NDIC and VIIRS data at different levels, such as county and oilfield. With all the data gathered and preprocessed, Bayesian learning implemented by MCMC methods is performed to address three problems: county level model development, flaring time series analytics, and distribution estimation. First, there is heterogeneity among the different counties, in the associations between the NDIC and VIIRS volumes. In light of such, models are developed for each county by exploiting hierarchical models. Second, the flaring time series, albeit noisy, contains information regarding trends and patterns, which provide some insights into operator approaches. Gaussian processes are found to be effective in many different pattern recognition scenarios. Third, distributional insights are obtained through unsupervised learning. The negative binomial and GMMs are found to effectively describe the oilfield flare count and flared volume distributions, respectively. Finally, a nearest-neighbor-based approach for operator level monitoring and analytics is introduced.
翻訳日:2023-01-12 17:46:18 公開日:2023-01-11
# メタパスに基づくソーシャルメディアの反響検出手法

A Meta Path-based Approach for Rumor Detection on Social Media ( http://arxiv.org/abs/2301.04341v1 )

ライセンス: Link先を確認
Bita Azarijoo, Mostafa Salehi, Shaghayegh Najari(参考訳) 人々の日常生活におけるソーシャルメディアの役割は、従来の情報源よりもソーシャルネットワークを通じてニュースを受け取る傾向が強まっている。 この公衆行動の変化は、ソーシャルメディア上で偽ニュースを広めるための扉を開き、その後、経済、政治、社会の悪影響を招き、大衆の信頼を損なう。 噂を検知する手法は数多く提案されているが,そのほとんどは,ニュース伝搬ネットワークの異種性を完全に活用するものではない。 この目的から,提案するアーキテクチャをベースラインとして検討し,メタパスに基づく埋め込みの概念を用いて,そのアーキテクチャ上の異種うわさの伝搬から構造的特徴抽出を行う。 我々はメタパスに基づくGlobal Local Attention Network (MGLAN) と名付けた。 3つの最先端データセットに関する広範な実験分析により、mglanは異なるノードタイプに対するノードレベルの識別を捉えることで、他のモデルよりも優れていることが示されている。

The prominent role of social media in people's daily lives has made them more inclined to receive news through social networks than traditional sources. This shift in public behavior has opened doors for some to diffuse fake news on social media; and subsequently cause negative economic, political, and social consequences as well as distrust among the public. There are many proposed methods to solve the rumor detection problem, most of which do not take full advantage of the heterogeneous nature of news propagation networks. With this intention, we considered a previously proposed architecture as our baseline and performed the idea of structural feature extraction from the heterogeneous rumor propagation over its architecture using the concept of meta path-based embeddings. We named our model Meta Path-based Global Local Attention Network (MGLAN). Extensive experimental analysis on three state-of-the-art datasets has demonstrated that MGLAN outperforms other models by capturing node-level discrimination to different node types.
翻訳日:2023-01-12 17:45:34 公開日:2023-01-11
# スパースフェルミオンハミルトニアンの近似法の改良

An Improved Approximation for Sparse Fermionic Hamiltonians ( http://arxiv.org/abs/2301.04627v1 )

ライセンス: Link先を確認
Daniel Hothem, Ojas Parekh, and Kevin Thompson(参考訳) 古典的1/(qk+1)$近似は、k$-sparse fermionic hamiltonianの最大固有値に対して、q$-local項と1/(4k+1)$approximationを与える。

We give a classical $1/(qk+1)$-approximation for the maximum eigenvalue of $k$-sparse fermionic Hamiltonians with $q$-local terms as well as a $1/(4k+1)$-approximation when the Hamiltonian has both $2$-local and $4$-local terms
翻訳日:2023-01-12 17:39:26 公開日:2023-01-11
# ニューラルネットワークを用いた拘束多様体の高速動力学的計画

Fast Kinodynamic Planning on the Constraint Manifold with Deep Neural Networks ( http://arxiv.org/abs/2301.04330v1 )

ライセンス: Link先を確認
Piotr Kicki, Puze Liu, Davide Tateo, Haitham Bou-Ammar, Krzysztof Walas, Piotr Skrzypczy\'nski, Jan Peters(参考訳) 運動計画はロボット工学における成熟した研究分野であり、運動計画の解法に適した状態空間の最適化やサンプリングに基づく多くの確立された方法がある。 しかし、制約の下での動的動きが必要で計算時間が限られているとき、制約多様体の高速キノダイナミックプランニングは不可欠である。 近年、学習ベースのソリューションは古典的なアプローチに代わるものとなっているが、ロボットの力学を考慮しつつタスク空間の低次元多様体を計画するといった複雑な制約の包括的処理はいまだに欠けている。 本稿では,力学やニューラルプランニングなどを含む制約多様体の概念を活用する新しい学習・計画フレームワークを提案する。 我々の手法は任意の制約を満たす計画を生成し、ニューラルネットワークの推論時間という短い一定時間でそれらを計算する。 これによりロボットは、動的環境に適したアプローチを、反応的に計画し、再設計することができる。 我々は,2つのシミュレートされたタスクと,ロボットのエアホッケーにおける打撃動作を実行するために,クカLBRアイワ14ロボットアームを用いた実世界のシナリオに対して,我々のアプローチを検証する。

Motion planning is a mature area of research in robotics with many well-established methods based on optimization or sampling the state space, suitable for solving kinematic motion planning. However, when dynamic motions under constraints are needed and computation time is limited, fast kinodynamic planning on the constraint manifold is indispensable. In recent years, learning-based solutions have become alternatives to classical approaches, but they still lack comprehensive handling of complex constraints, such as planning on a lower-dimensional manifold of the task space while considering the robot's dynamics. This paper introduces a novel learning-to-plan framework that exploits the concept of constraint manifold, including dynamics, and neural planning methods. Our approach generates plans satisfying an arbitrary set of constraints and computes them in a short constant time, namely the inference time of a neural network. This allows the robot to plan and replan reactively, making our approach suitable for dynamic environments. We validate our approach on two simulated tasks and in a demanding real-world scenario, where we use a Kuka LBR Iiwa 14 robotic arm to perform the hitting movement in robotic Air Hockey.
翻訳日:2023-01-12 17:38:53 公開日:2023-01-11
# リハビリテーションのための人工知能による上肢軟部外骨格の概観

An Overview of Artificial Intelligence-based Soft Upper Limb Exoskeleton for Rehabilitation: A Descriptive Review ( http://arxiv.org/abs/2301.04336v1 )

ライセンス: Link先を確認
Sanjukta Halder, Dr. Amit Kumar(参考訳) 上肢のロボット外骨格は、リハビリテーション分野での運動機能障害の回復に使用される電気機械装置である。 反復的、包括的、集中的、ポジティブ、正確な訓練を提供し、関節と筋肉の能力を取り戻すことができる。 既存のロボット外骨格は一般に剛体モーターや機械構造で使用されている。 ソフトロボットデバイスは、剛性のあるデバイスの代わりになり得る。 ソフトエクソスーツは柔軟で、ポータブルで、快適で、ユーザーフレンドリーで、低コストで、旅行に優しい。 いずれにせよ、これらのデバイスを支援するには専門知識やセラピストが必要だ。 また,身元不明の身体的パラメータや様々なリハビリテーションニーズのある患者にも適応できない。 そのため,近年では,既往のデータから学習し,患者の意図に従って行動する知的外骨格が必要である。 また、これらのエキソ骨格の理論的応用と実用的応用の間には大きなギャップがある。 ほとんどの知的外骨格はプロトタイプである。 この問題を解決するために、ロボット外骨格はエルゴノミクスとポータブルの両方の基準を定める必要がある。 外骨格は、専門知識の存在を避けるために意思決定の力を持つ。 この成長分野において、現在の傾向は、外骨格を知性を持たせ、臨床での使用をより信頼性を高めることである。

The upper limb robotic exoskeleton is an electromechanical device which use to recover a patients motor dysfunction in the rehabilitation field. It can provide repetitive, comprehensive, focused, positive, and precise training to regain the joints and muscles capability. It has been shown that existing robotic exoskeletons are generally used rigid motors and mechanical structures. Soft robotic devices can be a correct substitute for rigid ones. Soft exosuits are flexible, portable, comfortable, user-friendly, low-cost, and travel-friendly. Somehow, they need expertise or therapist to assist those devices. Also, they cannot be adaptable to different patients with non-identical physical parameters and various rehabilitation needs. For that reason, nowadays we need intelligent exoskeletons during rehabilitation which have to learn from patients previous data and act according to it with patients intention. There also has a big gap between theoretical and practical applications for using those exoskeletons. Most of the intelligent exoskeletons are prototype in manner. To solve this problem, the robotic exoskeleton should be made both criteria as ergonomic and portable. The exoskeletons have to the power of decision-making to avoid the presence of expertise. In this growing field, the present trend is to make the exoskeleton intelligent and make it more reliable to use in clinical practice.
翻訳日:2023-01-12 17:38:34 公開日:2023-01-11
# アクセント特異的ttsフロントエンドを伴わない低リソースアクセントのモデリング

Modelling low-resource accents without accent-specific TTS frontend ( http://arxiv.org/abs/2301.04606v1 )

ライセンス: Link先を確認
Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu(参考訳) 本研究は、G2P(Grapheme-to-phoneme)モジュールを含む、TTS(Text-to-Speech)フロントエンドを持たない話者のアクセントをモデル化することに焦点を当てる。 アクセントのモデル化に関する以前の作業では、ターゲットアクセントに対して音声の書き起こしが利用可能であると仮定しており、低リソースの地域アクセントには当てはまらない。 そこで本研究では,まず,音声変換により対象のアクセントデータをドナー音声のように拡張し,録音データと合成データを組み合わせたマルチスピーカ・マルチアセントTSモデルを訓練し,対象のアクセントの中でドナーの声を生成する手法を提案する。 プロシージャを通して、同じ言語で開発されたTSフロントエンドを使うが、アクセントが異なる。 提案手法が,他の生成モデルと比較して最先端の結果が得られる質的,定量的な分析を行う。 我々の研究は、アクセント固有のTSフロントエンドを開発することなく、低リソースアクセントを比較的少ないデータでモデル化できることを示します。 モデルから複数のアクセントに変換するオーディオサンプルは、私たちのWebページにある。

This work focuses on modelling a speaker's accent that does not have a dedicated text-to-speech (TTS) frontend, including a grapheme-to-phoneme (G2P) module. Prior work on modelling accents assumes a phonetic transcription is available for the target accent, which might not be the case for low-resource, regional accents. In our work, we propose an approach whereby we first augment the target accent data to sound like the donor voice via voice conversion, then train a multi-speaker multi-accent TTS model on the combination of recordings and synthetic data, to generate the donor's voice speaking in the target accent. Throughout the procedure, we use a TTS frontend developed for the same language but a different accent. We show qualitative and quantitative analysis where the proposed strategy achieves state-of-the-art results compared to other generative models. Our work demonstrates that low resource accents can be modelled with relatively little data and without developing an accent-specific TTS frontend. Audio samples of our model converting to multiple accents are available on our web page.
翻訳日:2023-01-12 17:38:14 公開日:2023-01-11
# メカニカルCADオブジェクトの3次元点雲における幾何学的プリミティブの認識

Recognising geometric primitives in 3D point clouds of mechanical CAD objects ( http://arxiv.org/abs/2301.04371v1 )

ライセンス: Link先を確認
Chiara Romanengo, Andrea Raffo, Silvia Biasotti, Bianca Falcidieno(参考訳) 本稿では,メカニカルCADオブジェクトのスキャンによる点雲における単純かつ複雑な幾何学的プリミティブの認識について論じる。 多くの点、ノイズの存在、外れ値、欠落または冗長な部分、不均一な分布などが、このニーズを満たすために対処すべき主な問題である。 本稿では, 単純かつ複雑な幾何学的プリミティブを認識でき, ノイズ, 外れ値, 欠落部分に対して頑健なHough変換に基づく解を提案する。 さらに、プリミティブを一意に特徴付ける一連の幾何学的ディスクリプタを抽出し、それらに基づいて出力を最大または複合プリミティブに集約することで、オーバーセグメンテーションを削減できる。 本論文では,本手法のロバスト性と,文献に提示された他の解との競合性を示す。

The problem faced in this paper concerns the recognition of simple and complex geometric primitives in point clouds resulting from scans of mechanical CAD objects. A large number of points, the presence of noise, outliers, missing or redundant parts and uneven distribution are the main problems to be addressed to meet this need. In this article we propose a solution, based on the Hough transform, that can recognize simple and complex geometric primitives and is robust to noise, outliers, and missing parts. Additionally, we can extract a series of geometric descriptors that uniquely characterize a primitive and, based on them, aggregate the output into maximal or compound primitives, thus reducing oversegmentation. The results presented in the paper demonstrate the robustness of the method and its competitiveness with respect to other solutions proposed in the literature.
翻訳日:2023-01-12 17:37:35 公開日:2023-01-11
# 位置案内とシャム調整を併用したアトリウムセグメンテーションネットワーク

An atrium segmentation network with location guidance and siamese adjustment ( http://arxiv.org/abs/2301.04401v1 )

ライセンス: Link先を確認
Yuhan Xie, Zhiyong Zhang, Shaolong Chen, Changzhen Qiu(参考訳) 心房スキャン画像のセグメンテーションは,心房の3次元再構築と手術的位置決めに非常に重要である。 既存のセグメンテーションネットワークの多くは2D構造を採用しており、元の画像のみを入力とし、3D画像のコンテキスト情報や事前情報の役割を無視している。 本稿では,位置誘導とサイムズ調整を併用したアトリム分割ネットワークLGSANetを提案し,隣接する3つの画像のスライスを入力とし,粗大な心房細動を実現するためのエンドツーエンドアプローチを採用する。 位置案内(LG)ブロックは、ローカライゼーションマップの事前情報を使用して、微細セグメント化ステージの符号化特徴を案内し、シアム調整(SA)ブロックは、コンテキスト情報を使用してセグメント化エッジを調整する。 acdc と asc のアトリウムデータセット上では、本手法が従来の2次元セグメンテーションネットワークに適応できることを十分に実験した結果、性能が大幅に向上した。

The segmentation of atrial scan images is of great significance for the three-dimensional reconstruction of the atrium and the surgical positioning. Most of the existing segmentation networks adopt a 2D structure and only take original images as input, ignoring the context information of 3D images and the role of prior information. In this paper, we propose an atrium segmentation network LGSANet with location guidance and siamese adjustment, which takes adjacent three slices of images as input and adopts an end-to-end approach to achieve coarse-to-fine atrial segmentation. The location guidance(LG) block uses the prior information of the localization map to guide the encoding features of the fine segmentation stage, and the siamese adjustment(SA) block uses the context information to adjust the segmentation edges. On the atrium datasets of ACDC and ASC, sufficient experiments prove that our method can adapt to many classic 2D segmentation networks, so that it can obtain significant performance improvements.
翻訳日:2023-01-12 17:37:22 公開日:2023-01-11
# 自律走行の動作予測のための故障検出:不確実性の観点から

Failure Detection for Motion Prediction of Autonomous Driving: An Uncertainty Perspective ( http://arxiv.org/abs/2301.04421v1 )

ライセンス: Link先を確認
Wenbo Shao, Yanchao Xu, Liang Peng, Jun Li, Hong Wang(参考訳) 運動予測は安全で効率的な自動運転に不可欠である。 しかし、複雑な人工知能モデルの説明不可能性と不確実性は、モーション予測モジュールの予測不可能な失敗につながる可能性がある。 したがって、故障検出が潜在的方向である信頼性の高い自律運転を保証する方法を開発する必要がある。 不確実性推定は、モデルがその予測における信頼度を定量化し、故障検出に有用である可能性がある。 不確かさとモデル不確実性の両方を考慮して,不確実性の観点からの動作予測のための故障検出の枠組みを提案し,異なる予測段階に応じて様々な不確実性スコアを定式化する。 提案手法は, 異なる動作予測アルゴリズム, 不確実性推定法, 不確実性スコアなどに基づいて評価され, 不確実性は動作予測の故障検出に有望であるが注意を要することが示された。

Motion prediction is essential for safe and efficient autonomous driving. However, the inexplicability and uncertainty of complex artificial intelligence models may lead to unpredictable failures of the motion prediction module, which may mislead the system to make unsafe decisions. Therefore, it is necessary to develop methods to guarantee reliable autonomous driving, where failure detection is a potential direction. Uncertainty estimates can be used to quantify the degree of confidence a model has in its predictions and may be valuable for failure detection. We propose a framework of failure detection for motion prediction from the uncertainty perspective, considering both motion uncertainty and model uncertainty, and formulate various uncertainty scores according to different prediction stages. The proposed approach is evaluated based on different motion prediction algorithms, uncertainty estimation methods, uncertainty scores, etc., and the results show that uncertainty is promising for failure detection for motion prediction but should be used with caution.
翻訳日:2023-01-12 17:37:02 公開日:2023-01-11
# 自律運転のためのオプティカルフロー:応用,課題,改善

Optical Flow for Autonomous Driving: Applications, Challenges and Improvements ( http://arxiv.org/abs/2301.04422v1 )

ライセンス: Link先を確認
Shihao Shen, Louis Kerofsky and Senthil Yogamani(参考訳) 光フロー推定は、自動運転アプリケーションでよく研究されているトピックである。 多くの優れた光学フロー推定法が提案されているが、一般に遭遇する困難なシナリオでテストすると誤用される。 自動走行における近距離センシングにおける魚眼カメラの利用は増加しているが、強いレンズ歪みを伴う光学フロー推定に関する文献は非常に限られている。 そこで本研究では,既存の魚眼データセットとオプティカルフローグラウンド真理のみを活用して,学習ベースのオプティカルフローアルゴリズムを改善するためのトレーニング戦略を提案し,評価する。 合成データを訓練しながら、モデルは実世界の魚眼データに一般化する強力な能力を示す。 既存の最先端アルゴリズムによって無視されるもう1つの課題は、低照度である。 本稿では,既存の手法の性能を大幅に向上させる,新しい汎用的な半教師付きフレームワークを提案する。 私たちの知る限りでは、これは低光度での光フロー推定を明示的に扱う最初のアプローチです。

Optical flow estimation is a well-studied topic for automated driving applications. Many outstanding optical flow estimation methods have been proposed, but they become erroneous when tested in challenging scenarios that are commonly encountered. Despite the increasing use of fisheye cameras for near-field sensing in automated driving, there is very limited literature on optical flow estimation with strong lens distortion. Thus we propose and evaluate training strategies to improve a learning-based optical flow algorithm by leveraging the only existing fisheye dataset with optical flow ground truth. While trained with synthetic data, the model demonstrates strong capabilities to generalize to real world fisheye data. The other challenge neglected by existing state-of-the-art algorithms is low light. We propose a novel, generic semi-supervised framework that significantly boosts performances of existing methods in such conditions. To the best of our knowledge, this is the first approach that explicitly handles optical flow estimation in low light.
翻訳日:2023-01-12 17:36:44 公開日:2023-01-11
# 対称トップ分子の配向の量子追跡制御

Quantum tracking control of the orientation of symmetric top molecules ( http://arxiv.org/abs/2301.04255v1 )

ライセンス: Link先を確認
Alicia B. Magann, Tak-San Ho, Christian Arenz, Herschel A. Rabitz(参考訳) 量子トラッキング制御の目標は、指定された時間依存トラックに沿って観測可能な期待値を操縦するために、形状のフィールドを特定することである。 フィールドは、制御された可観測性を管理する基礎となる力学方程式の反転に基づく反復のない手順によって決定される。 本稿では、Physにおけるアイデアを一般化する。 98, 043429 (2018) 3dにおける対称トップ分子の配向に関する課題 この目的のために、3次元双極子配向ベクトルの期待値を直接追跡できる制御場に対する方程式を所望の経路に沿って導出する。 本稿では, この枠組みを線形分子の配向の追跡にも利用できることを示すとともに, 対称トップトラッキング制御問題に対するこれらの原理の数値図示を示す。

The goal of quantum tracking control is to identify shaped fields to steer observable expectation values along designated time-dependent tracks. The fields are determined via an iteration-free procedure, which is based on inverting the underlying dynamical equations governing the controlled observables. In this article, we generalize the ideas in Phys. Rev. A 98, 043429 (2018) to the task of orienting symmetric top molecules in 3D. To this end, we derive equations for the control fields capable of directly tracking the expected value of the 3D dipole orientation vector along a desired path in time. We show this framework can be utilized for tracking the orientation of linear molecules as well, and present numerical illustrations of these principles for symmetric top tracking control problems.
翻訳日:2023-01-12 17:30:20 公開日:2023-01-11
# 高精細空洞におけるエンタングルメント強化物質波干渉計

Matters Arising: Entanglement-enhanced matter-wave interferometry in a high-finesse cavity ( http://arxiv.org/abs/2301.04396v1 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 論文 "Entanglement-enhanced matter-wave interferometry in a high-finesse cavity" Nature (2022) https://doi.org/10.1038/s41586-022-05197-9, Greve et。 al.は、標準量子極限(SQL)として知られる、同じ数の独立粒子で達成できる以上の感度を達成するために、物質波干渉計で絡み合いを使用すると主張している。 特に700個の原子の圧縮運動量状態を用いて、著者らはSQLの下の感度3.4\,dB(1.5倍)を直接観測すると主張している。 この主張は誤りだ。 著者らはSQL以外のものは測定せず、単一の原子で得られるもの以上の感度も達成していない。 達成された感度は、請求値よりも少なくとも39の因子である。

In their paper "Entanglement-enhanced matter-wave interferometry in a high-finesse cavity" Nature (2022) https://doi.org/10.1038/s41586-022-05197-9, Greve et. al. claim to use entanglement in a matter-wave interferometer to achieve a sensitivity beyond that achievable with the same number of independent particles -- a limit known as the standard quantum limit (SQL). In particular, using squeezed momentum states of 700 atoms, the authors claim to directly observe a sensitivity 3.4\,dB (a factor of 1.5) below the SQL. This claim is incorrect. The authors do not measure anything beyond the SQL, nor do they achieve a sensitivity beyond what one could obtain with a single atom. The achieved sensitivity is at least a factor of 39 worse than the claimed value.
翻訳日:2023-01-12 17:30:08 公開日:2023-01-11
# ナノダイヤモンド中のNV中心を有する液体電解質の電界分布の量子センシング

Quantum sensing of electric field distributions of liquid electrolytes with NV-centers in nanodiamonds ( http://arxiv.org/abs/2301.04427v1 )

ライセンス: Link先を確認
M. Hollendonner, S. Sharma, D. B. R. Dasari, A. Finkler, S. V. Kusminskiy, and R. Nagy(参考訳) 電池を大規模エネルギー貯蔵システムとして使用するには、劣化する \textit{in-situ} と \textit{in-operando} の測定と理解が必要である。 電池の劣化は電解質内部の分子過程の結果であることが多いため、高空間分解能でイオンを測定することができるセンシングプラットフォームが必要である。 そのようなプラットフォームの主要な候補はダイヤモンドのnv中心である。 マイクロ波パルスシーケンスを用いて, 電解質内部のイオンが生成する電界分布を推定するために, 単一NV中心を用いる。 電界の標準偏差を$\sigma_E$で測定するために、平均電界成分と修正されたハーン・エチョパルスシーケンスを得るためのフリー誘導減衰の異なるバリエーションを含むプロトコルを用いて、電界を高精度に再構成可能であることを示す。 半分析的なアンサッツから、リチウムイオン電池には、$\sigma_e$ とイオン濃度の間に直接関係があることが分かる。 その結果,NV中心をセンサとして,電解質中の電界分布と局所イオン濃度の両方を測定することが可能であることが示唆された。

To use batteries as large-scale energy storage systems it is necessary to measure and understand their degradation \textit{in-situ} and \textit{in-operando}. As a battery's degradation is often the result of molecular processes inside the electrolyte, a sensing platform which allows to measure the ions with a high spatial resolution is needed. Primary candidates for such a platform are NV-centers in diamonds. We propose to use a single NV-center to deduce the electric field distribution generated by the ions inside the electrolyte through microwave pulse sequences. We show that the electric field can be reconstructed with great accuracy by using a protocol which includes different variations of the Free Induction Decay to obtain the mean electric field components and a modified Hahn-echo pulse sequence to measure the electric field's standard deviation $\sigma_E$. From a semi-analytical ansatz we find that for a lithium ion battery there is a direct relationship between $\sigma_E$ and the ionic concentration. Our results show that it is therefore possible to use NV-centers as sensors to measure both the electric field distribution and the local ionic concentration inside electrolytes.
翻訳日:2023-01-12 17:29:55 公開日:2023-01-11
# 絡み合った状態は製品状態よりも移動が難しい

Entangled States are Harder to Transfer than Product States ( http://arxiv.org/abs/2301.04443v1 )

ライセンス: Link先を確認
Tony J. G. Apollaro, Salvatore Lorenzo, Francesco Plastina, Mirko Consiglio, Karol \.Zyczkowski(参考訳) 絡み合った状態の分布は、多くの量子情報処理プロトコルにおいて最も重要なタスクである。 量子状態の分散のための一般的に採用されている設定は、ある場所における状態の生成を想定し、ある量子チャネルを通して(おそらく異なる)遠隔受信機に送られる。 エンタングル量子状態の分布は製品状態の分布よりも効率的ではないと直感的に予想されているが、この非効率性の徹底的な定量化(つまり、エンタングル量子状態と因子化状態の量子状態転移忠実性の違い)は行われていない。 この目的のために、この研究では、$n$非依存の振幅減衰チャネルを並列に、すなわち各局所的に、$n$-qubit状態の一部分に作用する。 初期状態における絡み合いの存在下での積状態に関して、最大4キュービットまでの忠実度減少の正確な解析結果を導出する。 興味深いことに、真のマルチパート・エンタングルメントは2ビット・エンタングルメントよりも忠実度に有害な影響がある。 我々の結果は、より大きなn$-qubit状態において、製品と絡み合った状態の平均忠実度の違いは、シングルキュービット忠実度の増加に伴って増加するという事実を示唆している。

The distribution of entangled states is a key task of utmost importance for many quantum information processing protocols. A commonly adopted setup for distributing quantum states envisages the creation of the state in one location, which is then sent to (possibly different) distant receivers through some quantum channels. While it is undoubted and, perhaps, intuitively expected that the distribution of entangled quantum states is less efficient than that of product states, a thorough quantification of this inefficiency (namely, of the difference between the quantum-state transfer fidelity for entangled and factorized states) has not been performed. To this end, in this work, we consider $n$-independent amplitude-damping channels, acting in parallel, i.e., each, locally, on one part of an $n$-qubit state. We derive exact analytical results for the fidelity decrease, with respect to the case of product states, in the presence of entanglement in the initial state, for up to four qubits. Interestingly, we find that genuine multipartite entanglement has a more detrimental effect on the fidelity than two-qubit entanglement. Our results hint at the fact that, for larger $n$-qubit states, the difference in the average fidelity between product and entangled states increases with increasing single-qubit fidelity, thus making the latter a less trustworthy figure of merit.
翻訳日:2023-01-12 17:29:34 公開日:2023-01-11
# キラルナノフォトニック導波路における量子ドット二励起子カスケードの絡み合い特性

Entanglement properties of a quantum-dot biexciton cascade in a chiral nanophotonic waveguide ( http://arxiv.org/abs/2301.04444v1 )

ライセンス: Link先を確認
Eva M. Gonz\'alez-Ruiz, Freja T. {\O}stfeldt, Ravitej Uppu, Peter Lodahl, and Anders S. S{\o}rensen(参考訳) 我々は,量子ドットバイエクシトンカスケードの放射をキラルナノフォトニック導波管に結合させることによって生じる決定論的経路交絡フォトニック状態の絡み合い特性を, {\O}stfeldtらにより解析した。 [PRX Quantum 3, 020363 (2022)] 実際の実験的不完全性の存在下での2光子絡み合い状態の一致を通じて絡み合いの程度をモデル化する。 このモデルでは、導波路における不完全なキラルエミッタ-光子相互作用と、微細構造分裂によって引き起こされる励起子レベルの非対称結合と、光子の検出における時間ジッタが説明できる。 この分析は、本手法が現実的な実験的不完全性の存在下で、集積ナノフォトニクス系の絡み合いを決定的に生成するための有望なプラットフォームを提供することを示している。

We analyse the entanglement properties of deterministic path-entangled photonic states generated by coupling the emission of a quantum-dot biexciton cascade to a chiral nanophotonic waveguide, as implemented by {\O}stfeldt et al. [PRX Quantum 3, 020363 (2022)]. We model the degree of entanglement through the concurrence of the two-photon entangled state in the presence of realistic experimental imperfections. The model accounts for imperfect chiral emitter-photon interactions in the waveguide and the asymmetric coupling of the exciton levels introduced by fine-structure splitting along with time-jitter in the detection of photons. The analysis shows that the approach offers a promising platform for deterministically generating entanglement in integrated nanophotonic systems in the presence of realistic experimental imperfections.
翻訳日:2023-01-12 17:29:07 公開日:2023-01-11
# 立方体非線形ダイナミクスを用いたエンタングリングスピン

Entangling spins using cubic nonlinear dynamics ( http://arxiv.org/abs/2301.04520v1 )

ライセンス: Link先を確認
Lingxia Wang, Yani Wang, Yujing Cheng, Zhiqi Yan, Lei Xie, Gang Liu, Jinmin Fan, Di Wang, Yiling Song, Linli He, Wei Xiong, Mingfeng Wang(参考訳) 多数の$N$原子スピンを持つ絡み合った状態は、量子情報処理と量子気象学の重要な要素である。 今日では、そのような状態の準備は主に二次的な非線形力学に依存している。 本稿では,量子フィッシャー情報によって観測されるスピンスピン多粒子の絡み合いについて,立方晶非線形ダイナミクスを用いて検討する。 弱い結合状態においては、立方体スキームは二次的なスキーム(約$N$倍)と比較して、絡み合いの発生速度を大幅に高速化することができる。 強結合状態において、立方体非線形ダイナミクスは、様々な新しいタイプのマクロ重ね合わせ状態の周期的インタイム生成を可能にするため、ニアハイゼンベルク-リミット位相感度を実現することができる。 さらに、立方体スキームが生成する絡み合いの量は、二次的非線形力学に匹敵しない$N$のパリティに対してマクロ的な感度を持ち、単スピンレベルでの$N$のパリティの検知に利用することができるという興味深い特徴も明らかにした。 また,最大絡み合ったグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)を高速かつ高忠実に生成する手法を提案する。 代替の立方体四重項混合型非線形相互作用を用いることで、GHZ状態生成の手順を加速できることを示す。 また、立方体非線形力学の実現も考慮され、線型および二次非線形力学を繰り返すか、あるいは光を媒介とする相互作用を1ステップで利用することで立方体非線形力学を実現することができる。 最後に,現実的な不完全性を考慮して,この立方体スキームが強結合系における単一スピン減衰に敏感であるのに対し,集団的不完全性に対して頑健であることを見いだす。

Entangled states with a large number of $N$ atomic spins are a key ingredient for quantum information processing and quantum metrology. Nowadays, the preparation of such states has mainly relied on the quadratic nonlinear dynamics. Here, we investigate the preparation of spin-spin multipartite entanglement, witnessed by quantum Fisher information, by using the cubic nonlinear dynamics. We find that, in the regime of weak coupling, the cubic scheme can greatly speed up the rate of entanglement generation as compared to the quadratic scheme (about $N$ times faster). In the strong coupling regime, the cubic nonlinear dynamics enables the periodic in time generation of a broad variety of new-type macroscopic superposition states, which allow us to realize near-Heisenberg-limit phase sensitivity. In addition, we also reveal an interesting feature that the amount of entanglement generated by the cubic scheme has a macroscopic sensitivity to the parity of $N$, which has no counterpart in quadratic nonlinear dynamics and can be exploited for sensing the parity of $N$ at the single-spin level. We also propose a new approach for a fast and high-fidelity generation of maximally entangled Greenberger-Horne-Zeilinger (GHZ) states. By using an alternative cubic-quadratic-admixture type of nonlinear interaction, we show that one may accelerate the procedure of GHZ-state generation. The realization of the cubic nonlinear dynamics is also considered, showing that the cubic nonlinear dynamics can be realized by either repeatedly using linear- and quadratic-nonlinear dynamics or utilizing light-mediated interactions in just one step. Finally, by taking realistic imperfections into account, we find that the cubic scheme is sensitivity to the single-spin decay in the strong coupling regime, while is robust against the collective dephasing.
翻訳日:2023-01-12 17:28:50 公開日:2023-01-11
# 時空ハプ:多元数座標系とその自由選択がオブザーバに依存していることを示すための応用

Space-time-hap: a coordinate system for the multiverse and its application to show that free choice is observer-dependent ( http://arxiv.org/abs/2301.04549v1 )

ライセンス: Link先を確認
Ghislain Fourny(参考訳) 本稿では,フラットな4次元ミンコフスキー時空を,空間や時間だけでなく,可能な世界においても事象を識別する,より広い枠組みへ拡張するパラダイムと座標系を提案する。 意味的には、hapはbohmianのような構成空間に基づいており、特定の時点における初期条件が軌道を一意に識別する。 このフレームワークは、(時間を通じて)因果関係、(空間を通じて)統計的依存関係、(hapを通じて)反事実的依存関係を厳密に区別する推論をサポートするために使用できる。 例えば、このフレームワークは、自由選択の仮定が絶対的ではなく、むしろ選択された参照のフレームに依存していることを示している: アリスは、公式にはハップの一方的な単一座標変換である選択を自由に見ることができるが、別の参照フレームに座っているボブは、この同じ選択が自由に行われず、代わりに複数の座標をまたいでハップで同時に翻訳される。 この枠組みは、ボヘミア力学のコミュニティで一般的に受け入れられる軌道の集合に対してのみ一般的な仮定を行うため、どのデ・ブロゴリー・ボーム理論の風味が考慮されるのかを知らない。 また、可能な世界間の分離が参照の枠組みに依存するかもしれない理論の推論をサポートするのに十分である。つまり、2人の観測者が同じ世界で2つの時空事象が起こるかどうかについて意見が一致しないかもしれない。

This note proposes a paradigm and coordinate system that extends flat, four-dimensional Minkowski spacetime to a broader framework that identifies an event not only in space and in time, but also in terms of possible world, with a third category of coordinates called ``hap'' modelling contingency and counterfactuals. Semantically, hap is based on a Bohmian-like configuration space, in which initial conditions at a specific moment in time uniquely identify a trajectory. This framework can be used to support reasonings that rigorously distinguish between causal dependencies (through time), statistical dependencies (through space) and counterfactual dependencies (through hap). As an example, we use this framework to show that the assumption of free choice is not absolute, but rather depends on the chosen frame of reference: while Alice may see a choice made freely, which is formally a unilateral, single-coordinate translation in hap, Bob sitting in another reference frame might see this same choice not made freely and observe instead a translation in hap jointly across multiple coordinates, which indicates a counterfactual dependency. The framework is agnostic regarding which flavour of the De-Broglie-Bohm theory is considered, as it only makes general assumptions on the set of trajectories that are commonly accepted in the Bohmian mechanics community. It is also general enough to support reasoning on theories for which the separation between possible worlds might also depend on the frame of reference, i.e., two observers might disagree on whether two spacetimehap events happen in the same world or not.
翻訳日:2023-01-12 17:28:20 公開日:2023-01-11
# 電極配置の異なる長寿命トランスモン

Long-lived transmons with different electrode layouts ( http://arxiv.org/abs/2301.04555v1 )

ライセンス: Link先を確認
Kungang Li,S. K. Dutta, Zachary Steffen, Dylan Poppert, Shahriar Keshvari, Jeffery Bowser, B. S. Palmer, C. J. Lobb, and F. C. Wellstood(参考訳) 非平衡準粒子の量子緩和への寄与をテストするため、超伝導ギャップが異なる電極を持つAl/AlOx/Alトランスモンの緩和時間T_1を繰り返し測定した。 ある装置では、第1層電極は名目上純Alの熱蒸発により形成され、対電極は酸素ドープAlの堆積により形成され、ギャップ値が大きくなった。 緩和時間は長いが,T_1は20mKで約100~300 {\mu}に変化し,大きな変動を示した。 他のトランスモンでは、酸素ドープAlの堆積により第1層電極を形成し、反電極は名目上純粋なAlの堆積によって形成された。 これらの装置は、200 {\mu} 以上の最大 t_1 値を持つ、大きく変動する t_1 値の類似の範囲を示した。 装置の緩和時間は約150mK以下の温度に強く依存しなかったが、熱的に生成した準粒子により急速に低下した。

To test the contribution of non-equilibrium quasiparticles to qubit relaxation, we have repeatedly measured the relaxation time T_1 in Al/AlOx/Al transmons with electrodes that have different superconducting gaps. In one device, the first layer electrode was formed by thermal evaporation of nominally pure Al, while the counter-electrode was formed by deposition of oxygen-doped Al, which gave a larger gap value. The relaxation time was long, but showed large fluctuations, with T_1 varying between about 100 and 300 {\mu}s at 20 mK. In other transmons, we formed the first layer electrode by deposition of oxygen-doped Al, while the counter-electrode was formed by deposition of nominally pure Al. These devices showed a similar range of large and fluctuating T_1 values, with maximum T_1 values over 200 {\mu}s. The relaxation time of the devices did not depend strongly on temperature below about 150 mK, but dropped rapidly above this due to thermally-generated quasiparticles.
翻訳日:2023-01-12 17:27:47 公開日:2023-01-11
# 予測モデルに対する損失制御校正

Loss-Controlling Calibration for Predictive Models ( http://arxiv.org/abs/2301.04378v1 )

ライセンス: Link先を確認
Di Wang, Junzhi Shi, Pingping Wang, Shuo Zhuang, Hongyue Li(参考訳) 本稿では,交換可能データに対する損失制御予測を行うための予測モデルの校正のための学習フレームワークを提案する。 比較して, 提案する損失制御手法によって構築される予測器は, 設定された予測器に限らず, 損失関数は単調仮定を伴わない任意の可測関数となる。 効率よく損失値を制御するために,テストラベルが得られたときの有限サンプル制御保証を証明するために交換可能性を保存する変換を導入し,予測器構築のための近似手法を開発した。 変換は、パラメータ探索の最適化アルゴリズムを含む、任意の事前定義された関数の上に構築することができる。 このアプローチは共形損失制御予測の自然な拡張であり、集合予測器がネスト特性を持ち、損失関数が単調である場合、後者に還元することができる。 提案手法は, 気象予報の高精度化のために実証実験を行い, 実験結果から偽発見に関連する非単調損失の制御に有効性を示す。

We propose a learning framework for calibrating predictive models to make loss-controlling prediction for exchangeable data, which extends our recently proposed conformal loss-controlling prediction for more general cases. By comparison, the predictors built by the proposed loss-controlling approach are not limited to set predictors, and the loss function can be any measurable function without the monotone assumption. To control the loss values in an efficient way, we introduce transformations preserving exchangeability to prove finite-sample controlling guarantee when the test label is obtained, and then develop an approximation approach to construct predictors. The transformations can be built on any predefined function, which include using optimization algorithms for parameter searching. This approach is a natural extension of conformal loss-controlling prediction, since it can be reduced to the latter when the set predictors have the nesting property and the loss functions are monotone. Our proposed method is tested empirically for high-impact weather forecasting and the experimental results demonstrate its effectiveness for controlling the non-monotone loss related to false discovery.
翻訳日:2023-01-12 17:21:50 公開日:2023-01-11
# 旅行モード選択のモデル化のための機械学習手法の予測と行動解析

A prediction and behavioural analysis of machine learning methods for modelling travel mode choice ( http://arxiv.org/abs/2301.04404v1 )

ライセンス: Link先を確認
Jos\'e \'Angel Mart\'in-Baos, Julio Alberto L\'opez-G\'omez, Luis Rodriguez-Benitez, Tim Hillel and Ricardo Garc\'ia-R\'odenas(参考訳) 旅行モード選択予測のためのさまざまな機械学習(ml)アプローチの出現は、トランスポートモデルラーに興味深い疑問をもたらす。 この質問に対する答えは、単純な予測性能に留まらず、振る舞いの解釈可能性や説明可能性、計算複雑性、データ効率など、多くの要因のバランスを取っている。 異なるML分類器の予測性能を古典的ランダムユーティリティモデルと比較しようとする研究団体が増えている。 しかしながら、既存の研究は通常、モデル選択に影響を与える他の側面を無視して、分散した予測性能のみを分析する。 さらに、不適切な検証スキームの使用、階層データの不正確なサンプリング、外部検証の欠如、離散メトリクスの排他的使用など、多くの研究は技術的な制限の影響を受けている。 モデル選択に影響を及ぼす可能性のある重要な要因(サンプル外の予測性能、予測市場シェアの正確さ、行動指標の抽出、計算効率)の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較することで、これらの制限に対処する。 複数の実世界データセットと合成データセットを結合し,データ生成関数が知られている。 その結果、最も非凝集性の高い予測性能(すなわち極度の勾配上昇とランダムな森林)を持つモデルでは、行動指標や集約モードのシェアが低く、より深いニューラルネットワークやMNL(Multinomial Logit)を含む他のモデルよりも高く見積もられていることが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。

The emergence of a variety of Machine Learning (ML) approaches for travel mode choice prediction poses an interesting question to transport modellers: which models should be used for which applications? The answer to this question goes beyond simple predictive performance, and is instead a balance of many factors, including behavioural interpretability and explainability, computational complexity, and data efficiency. There is a growing body of research which attempts to compare the predictive performance of different ML classifiers with classical random utility models. However, existing studies typically analyse only the disaggregate predictive performance, ignoring other aspects affecting model choice. Furthermore, many studies are affected by technical limitations, such as the use of inappropriate validation schemes, incorrect sampling for hierarchical data, lack of external validation, and the exclusive use of discrete metrics. We address these limitations by conducting a systematic comparison of different modelling approaches, across multiple modelling problems, in terms of the key factors likely to affect model choice (out-of-sample predictive performance, accuracy of predicted market shares, extraction of behavioural indicators, and computational efficiency). We combine several real world datasets with synthetic datasets, where the data generation function is known. The results indicate that the models with the highest disaggregate predictive performance (namely extreme gradient boosting and random forests) provide poorer estimates of behavioural indicators and aggregate mode shares, and are more expensive to estimate, than other models, including deep neural networks and Multinomial Logit (MNL). It is further observed that the MNL model performs robustly in a variety of situations, though ML techniques can improve the estimates of behavioural indices such as Willingness to Pay.
翻訳日:2023-01-12 17:21:32 公開日:2023-01-11
# 自己ラベルと選択的サンプリングを組み合わせる

Combining Self-labeling with Selective Sampling ( http://arxiv.org/abs/2301.04420v1 )

ライセンス: Link先を確認
J\k{e}drzej Kozal, Micha{\l} Wo\'zniak(参考訳) データは機械学習モデルを動かす燃料であり、ラベル付きデータへのアクセスは一般的に高価であるため、半教師付き手法が常に人気である。 専門家のラベルを多すぎる必要なしに、大規模なデータセットの取得を可能にする。 この研究は、選択的サンプリングシナリオにおける自己ラベル技術とアクティブラーニングを組み合わせる。 アンサンブル分類器を構築する新しい手法を提案する。 与えられた観察のために、個々のベース分類器の判断の不一致を評価することにより、新しいラベルをリクエストするか、あるいは自己ラベルを使用するかを判断する。 予備研究では,選択したクラスに偏りを導入することで,自己ラベルの適用が性能を損なうことを示し,その結果,スキュードクラス分布につながることを示した。 したがって,この現象を低減させる機構も提案する。 実験により, 提案手法が現在の選択的サンプリング法に適合するか, 良好な結果を得たことを示す。

Since data is the fuel that drives machine learning models, and access to labeled data is generally expensive, semi-supervised methods are constantly popular. They enable the acquisition of large datasets without the need for too many expert labels. This work combines self-labeling techniques with active learning in a selective sampling scenario. We propose a new method that builds an ensemble classifier. Based on an evaluation of the inconsistency of the decisions of the individual base classifiers for a given observation, a decision is made on whether to request a new label or use the self-labeling. In preliminary studies, we show that naive application of self-labeling can harm performance by introducing bias towards selected classes and consequently lead to skewed class distribution. Hence, we also propose mechanisms to reduce this phenomenon. Experimental evaluation shows that the proposed method matches current selective sampling methods or achieves better results.
翻訳日:2023-01-12 17:21:01 公開日:2023-01-11
# 予測によるヒト軌道インプテーション解のための多値点埋め込み

Multiple-level Point Embedding for Solving Human Trajectory Imputation with Prediction ( http://arxiv.org/abs/2301.04482v1 )

ライセンス: Link先を確認
Kyle K. Qin, Yongli Ren, Wei Shao, Brennan Lake, Filippo Privitera, and Flora D. Salim(参考訳) 空間性は、人間の移動データを含む多くの軌跡データセットで一般的な問題である。 この問題はしばしば、軌道インプテーションや予測のような関連する学習タスクに困難をもたらす。 今日では、人間の軌道の計算と予測を同時に扱う研究はほとんどない。 この研究は、インプテーションと予測の学習プロセスが、よりよい結果を達成するために互いに利益をもたらすかどうかを探求する予定である。 そして、不完全な軌跡において、欠点と観測点の共存パターンを研究することで、この疑問に答える。 より具体的には,本モデルでは,エンコーダ・デコーダ層間の観測点と欠落点間の共存パターンを捕捉する自己保持機構に基づく計算成分を開発する。 一方、再帰ユニットは統合され、新たに挿入されたシーケンスからシーケンシャル埋め込みを抽出し、次の位置を予測する。 さらにインプテーションサイクルと呼ばれる新しい実装を導入し、複数のレベルでの予測拡張を伴う段階的なインプテーションを可能にし、収束速度を加速する。 3つの異なる実世界のモビリティデータセットに対する実験結果から,提案手法は精度と安定性の観点から,計算タスクと予測タスクの競合ベースラインに対して大きな優位性を有することが示された。

Sparsity is a common issue in many trajectory datasets, including human mobility data. This issue frequently brings more difficulty to relevant learning tasks, such as trajectory imputation and prediction. Nowadays, little existing work simultaneously deals with imputation and prediction on human trajectories. This work plans to explore whether the learning process of imputation and prediction could benefit from each other to achieve better outcomes. And the question will be answered by studying the coexistence patterns between missing points and observed ones in incomplete trajectories. More specifically, the proposed model develops an imputation component based on the self-attention mechanism to capture the coexistence patterns between observations and missing points among encoder-decoder layers. Meanwhile, a recurrent unit is integrated to extract the sequential embeddings from newly imputed sequences for predicting the following location. Furthermore, a new implementation called Imputation Cycle is introduced to enable gradual imputation with prediction enhancement at multiple levels, which helps to accelerate the speed of convergence. The experimental results on three different real-world mobility datasets show that the proposed approach has significant advantages over the competitive baselines across both imputation and prediction tasks in terms of accuracy and stability.
翻訳日:2023-01-12 17:20:33 公開日:2023-01-11
# 鳥眼視レイアウトによるストリートビュー画像生成

Street-View Image Generation from a Bird's-Eye View Layout ( http://arxiv.org/abs/2301.04634v1 )

ライセンス: Link先を確認
Alexander Swerdlow, Runsheng Xu, Bolei Zhou(参考訳) Bird's-Eye View (BEV) パーセプションは、ビューを横断する簡潔で統一された空間表現を提供し、様々な下流運転アプリケーションに恩恵を与え、近年注目を集めている。 BEVセグメンテーションのような差別的なタスクに焦点が当てられているが、BEVレイアウトからストリートビュー画像を作成するという2つの生成タスクはめったに検討されていない。 与えられたHDマップとトラフィックレイアウトに整合したリアルなストリートビュー画像を生成する能力は、複雑な交通シナリオを可視化し、自律運転のための堅牢な認識モデルを開発する上で重要である。 本稿では,交通シナリオのBEVレイアウトにマッチする現実的かつ空間的に整合した周辺画像の集合を合成する条件生成モデルであるBEVGenを提案する。 BEVGenは、カメラとマップビューの関係を学習して一貫性を確保する、新しいクロスビュー変換と空間アテンションデザインを取り入れている。 我々のモデルは、道路や車線を正確に描画できるだけでなく、天候や日々の異なる状況下での交通シーンを生成できる。 コードは公開される予定だ。

Bird's-Eye View (BEV) Perception has received increasing attention in recent years as it provides a concise and unified spatial representation across views and benefits a diverse set of downstream driving applications. While the focus has been placed on discriminative tasks such as BEV segmentation, the dual generative task of creating street-view images from a BEV layout has rarely been explored. The ability to generate realistic street-view images that align with a given HD map and traffic layout is critical for visualizing complex traffic scenarios and developing robust perception models for autonomous driving. In this paper, we propose BEVGen, a conditional generative model that synthesizes a set of realistic and spatially consistent surrounding images that match the BEV layout of a traffic scenario. BEVGen incorporates a novel cross-view transformation and spatial attention design which learn the relationship between cameras and map views to ensure their consistency. Our model can accurately render road and lane lines, as well as generate traffic scenes under different weather conditions and times of day. The code will be made publicly available.
翻訳日:2023-01-12 17:13:05 公開日:2023-01-11
# ImageNetの実際のデータセットへの転送の進捗は?

Does progress on ImageNet transfer to real-world datasets? ( http://arxiv.org/abs/2301.04644v1 )

ライセンス: Link先を確認
Alex Fang and Simon Kornblith and Ludwig Schmidt(参考訳) ImageNetの実際のデータセットへの転送の進捗は? 本研究では、6つの実用的な画像分類データセットに対して、画像ネット事前学習モデル(57%~83%)を精度良く評価する。 特に,実世界の課題(カメラトラップや衛星からの画像の分類など)を解決するために収集されたデータセットを,比較モデルのために収集された web 階層ベンチマークとは対照的に検討した。 複数のデータセットにおいて、高いイメージネット精度を持つモデルは、一貫して性能が向上しない。 特定のタスクでは、データ拡張などの介入によって、アーキテクチャがそうでなくてもパフォーマンスが向上する。 将来のベンチマークには、より多様なデータセットが含まれて、学習アルゴリズムを改善するためのより包括的なアプローチが奨励されることを期待しています。

Does progress on ImageNet transfer to real-world datasets? We investigate this question by evaluating ImageNet pre-trained models with varying accuracy (57% - 83%) on six practical image classification datasets. In particular, we study datasets collected with the goal of solving real-world tasks (e.g., classifying images from camera traps or satellites), as opposed to web-scraped benchmarks collected for comparing models. On multiple datasets, models with higher ImageNet accuracy do not consistently yield performance improvements. For certain tasks, interventions such as data augmentation improve performance even when architectures do not. We hope that future benchmarks will include more diverse datasets to encourage a more comprehensive approach to improving learning algorithms.
翻訳日:2023-01-12 17:12:47 公開日:2023-01-11
# リニアトランスを用いたヘッドフリー軽量意味セグメンテーション

Head-Free Lightweight Semantic Segmentation with Linear Transformer ( http://arxiv.org/abs/2301.04648v1 )

ライセンス: Link先を確認
Bo Dong and Pichao Wang and Fan Wang(参考訳) 既存のセマンティックセグメンテーションは、主に効果的なデコーダの設計に重点を置いているが、全体的な構造によって引き起こされる計算負荷は長い間無視され、リソース制約のあるハードウェアへの応用を妨げる。 本稿では,セマンティクスセグメンテーションに特化したヘッドフリー軽量アーキテクチャであるadaptive frequency transformerを提案する。 並列アーキテクチャを採用し、プロトタイプ表現を特定の学習可能なローカル記述として活用し、デコーダを置き換え、高分解能機能でリッチイメージセマンティクスを保存する。 デコーダの除去は計算のほとんどを圧縮するが、並列構造の精度は低い計算資源によって依然として制限されている。 そこで我々は,画素埋め込みとプロトタイプ表現に不均一演算子(CNNとVision Transformer)を用い,計算コストをさらに削減した。 さらに,空間領域の観点から視覚トランスフォーマの複雑さを線形化するのは非常に困難である。 セマンティックセグメンテーションは周波数情報に非常に敏感なため、標準的な自己注意を$O(n^{2})$に置き換えるために、複雑性の適応周波数フィルタを持つ軽量なプロトタイプ学習ブロックを構築した。 広く採用されているデータセットに対する大規模な実験により、我々のモデルは3Mパラメータのみを保持しながら優れた精度を達成できることを示した。 ADE20Kデータセットでは、Segformerよりも4.4mIoU高い41.8mIoUと4.6GFLOPが達成され、GFLOPは45%少ない。 Cityscapesのデータセットでは、GFLOPsは78.7mIoU、GFLOPsは34.4mIoUであり、Segformerより2.5mIoU高く、GFLOPsは72.5%少ない。 コードはhttps://github.com/dongbo811/afformerで入手できる。

Existing semantic segmentation works have been mainly focused on designing effective decoders; however, the computational load introduced by the overall structure has long been ignored, which hinders their applications on resource-constrained hardwares. In this paper, we propose a head-free lightweight architecture specifically for semantic segmentation, named Adaptive Frequency Transformer. It adopts a parallel architecture to leverage prototype representations as specific learnable local descriptions which replaces the decoder and preserves the rich image semantics on high-resolution features. Although removing the decoder compresses most of the computation, the accuracy of the parallel structure is still limited by low computational resources. Therefore, we employ heterogeneous operators (CNN and Vision Transformer) for pixel embedding and prototype representations to further save computational costs. Moreover, it is very difficult to linearize the complexity of the vision Transformer from the perspective of spatial domain. Due to the fact that semantic segmentation is very sensitive to frequency information, we construct a lightweight prototype learning block with adaptive frequency filter of complexity $O(n)$ to replace standard self attention with $O(n^{2})$. Extensive experiments on widely adopted datasets demonstrate that our model achieves superior accuracy while retaining only 3M parameters. On the ADE20K dataset, our model achieves 41.8 mIoU and 4.6 GFLOPs, which is 4.4 mIoU higher than Segformer, with 45% less GFLOPs. On the Cityscapes dataset, our model achieves 78.7 mIoU and 34.4 GFLOPs, which is 2.5 mIoU higher than Segformer with 72.5% less GFLOPs. Code is available at https://github.com/dongbo811/AFFormer.
翻訳日:2023-01-12 17:12:31 公開日:2023-01-11
# 新しいビュー合成のための幾何バイアス変換器

Geometry-biased Transformers for Novel View Synthesis ( http://arxiv.org/abs/2301.04650v1 )

ライセンス: Link先を確認
Naveen Venkat, Mayank Agarwal, Maneesh Singh, Shubham Tulsiani(参考訳) 入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。 我々の研究は、最近の「幾何学自由」なアプローチに触発され、マルチビュー画像は(グローバル)集合遅延表現として符号化され、任意のクエリ線の色を予測するために使用される。 この表現は(明らかに)新しい視点に対応する正確な画像をもたらすが、幾何学的推論の欠如はこれらの出力の品質を制限している。 この制限を克服するために,多視点の幾何学的一貫性を促進するために,集合相対表現に基づく推論に幾何学的帰納的バイアスを組み込んだ「幾何偏差トランスフォーマー」(gbts)を提案する。 また,線間の3次元距離を学習可能なバイアスとして組み込むために,点生成注意機構を補強することにより,幾何学的バイアスを誘導する。 カメラを意識した埋め込みを入力として組み込むことで、モデルがはるかに正確な出力を生成できることが分かりました。 実世界のCO3Dデータセットにアプローチを検証し,10のカテゴリにまたがってシステムをトレーニングし,新規なオブジェクトや未知のカテゴリに対するビュー合成能力を評価する。 我々は,提案する幾何バイアスの利点を実証的に検証し,そのアプローチが先行研究よりも大幅に改善することを示す。

We tackle the task of synthesizing novel views of an object given a few input images and associated camera viewpoints. Our work is inspired by recent 'geometry-free' approaches where multi-view images are encoded as a (global) set-latent representation, which is then used to predict the color for arbitrary query rays. While this representation yields (coarsely) accurate images corresponding to novel viewpoints, the lack of geometric reasoning limits the quality of these outputs. To overcome this limitation, we propose 'Geometry-biased Transformers' (GBTs) that incorporate geometric inductive biases in the set-latent representation-based inference to encourage multi-view geometric consistency. We induce the geometric bias by augmenting the dot-product attention mechanism to also incorporate 3D distances between rays associated with tokens as a learnable bias. We find that this, along with camera-aware embeddings as input, allows our models to generate significantly more accurate outputs. We validate our approach on the real-world CO3D dataset, where we train our system over 10 categories and evaluate its view-synthesis ability for novel objects as well as unseen categories. We empirically validate the benefits of the proposed geometric biases and show that our approach significantly improves over prior works.
翻訳日:2023-01-12 17:11:45 公開日:2023-01-11
# コンテキスト型注意埋め込みの話題

Topics in Contextualised Attention Embeddings ( http://arxiv.org/abs/2301.04339v1 )

ライセンス: Link先を確認
Mozhgan Talebpour, Alba Garcia Seco de Herrera, Shoaib Jameel(参考訳) 事前学習された言語モデルによって得られた文脈化された単語ベクトルは、既にアプリケーションで活用されている様々な知識をエンコードする。 これらの言語モデルの補完は、テキストから主題パターンを学ぶ確率的トピックモデルである。 最近の研究で、言語モデルから単語レベルの文脈表現をクラスタ化することは、潜在ディリクレの単語の潜在トピックから発見される単語クラスタをエミュレートすることを示した。 重要な疑問は、潜在トピックをモデル化するように明示的に設計されていない言語モデルにおいて、このような話題の単語クラスタがクラスタリングを通じて自動的に形成されるかである。 この問題に対処するために、我々は異なるプローブ実験を設計する。 BERT と DistilBERT を用いて,このような話題クラスタをモデル化する上で,アテンション・フレームワークが重要な役割を果たすことがわかった。 我々は,確率論的トピックモデルと事前学習言語モデルとの関係について,さらなる研究の道を開いたと強く信じている。

Contextualised word vectors obtained via pre-trained language models encode a variety of knowledge that has already been exploited in applications. Complementary to these language models are probabilistic topic models that learn thematic patterns from the text. Recent work has demonstrated that conducting clustering on the word-level contextual representations from a language model emulates word clusters that are discovered in latent topics of words from Latent Dirichlet Allocation. The important question is how such topical word clusters are automatically formed, through clustering, in the language model when it has not been explicitly designed to model latent topics. To address this question, we design different probe experiments. Using BERT and DistilBERT, we find that the attention framework plays a key role in modelling such word topic clusters. We strongly believe that our work paves way for further research into the relationships between probabilistic topic models and pre-trained language models.
翻訳日:2023-01-12 17:10:58 公開日:2023-01-11
# 説明(大規模)NLPモデルにおけるインタラクティブ可視化の役割:データから推論まで

The Role of Interactive Visualization in Explaining (Large) NLP Models: from Data to Inference ( http://arxiv.org/abs/2301.04528v1 )

ライセンス: Link先を確認
Richard Brath, Daniel Keim, Johannes Knittel, Shimei Pan, Pia Sommerauer, Hendrik Strobelt(参考訳) 学習パラメータの絶え間ない増加により、現代のニューラルネットワークモデルはますます強力になる。 しかし、これらの複雑なモデルの振る舞いを説明することは広く未解決の問題である。 本稿では,対話型可視化がNLPモデル(XNLP)を説明する上で果たす役割について論じる。 我々は、ターゲットユーザと一般的なNLPパイプラインとの関係における可視化の利用を動機付けている。 また、XNLPの具体例を可視化するいくつかのユースケースも提示する。 最後に,この分野の研究機会の広範なリストを示す。

With a constant increase of learned parameters, modern neural language models become increasingly more powerful. Yet, explaining these complex model's behavior remains a widely unsolved problem. In this paper, we discuss the role interactive visualization can play in explaining NLP models (XNLP). We motivate the use of visualization in relation to target users and common NLP pipelines. We also present several use cases to provide concrete examples on XNLP with visualization. Finally, we point out an extensive list of research opportunities in this field.
翻訳日:2023-01-12 17:10:42 公開日:2023-01-11
# マルチモーダル埋め込みによるクロスターゲットスタンス検出のためのFew-shot Learning

Few-shot Learning for Cross-Target Stance Detection by Aggregating Multimodal Embeddings ( http://arxiv.org/abs/2301.04535v1 )

ライセンス: Link先を確認
Parisa Jamadi Khiabani, Arkaitz Zubiaga(参考訳) スタンス検出タスクの人気が高まっているにもかかわらず、既存のアプローチは、主にソーシャルメディア投稿のテキストコンテンツを使って分類することに限られており、そのタスクの社会的性質を見越している。 姿勢検出タスクは,少数のトレーニング設定であっても,モデルがトレーニング中に少数の関連するサンプルしか見ていない新たなターゲットに対する姿勢を予測する必要がある,クロスターゲット分類シナリオでは特に困難になる。 課題の社会的性質を活用してソーシャルメディアにおける多目的姿勢検出に対処するため,テキストとネットワークの両方の特徴から得られたマルチモーダルな埋め込みを集約する新しいモデルであるCT-TNを導入する。 我々は, 複数ショットのクロスターゲットシナリオにおいて, 6種類のターゲット対の異なる組み合わせについて実験を行う。 ct-tnと最先端のクロスターゲット・スタンス検出モデルを比較し,ベースラインモデルで11%から21%の平均性能改善を達成し,本モデルの有効性を実証する。 異なる数のショットで実験したところ、CT-TNは目的地の300のインスタンスを見た後、他のモデルよりも優れていた。 さらに, アブレーション実験では, CT-TNの各成分が最終性能に対して正の寄与を示す。 さらに,ソーシャルメディアユーザ間のネットワークインタラクションを解析し,ターゲット間のスタンス検出にソーシャル機能を利用する可能性を明らかにする。

Despite the increasing popularity of the stance detection task, existing approaches are predominantly limited to using the textual content of social media posts for the classification, overlooking the social nature of the task. The stance detection task becomes particularly challenging in cross-target classification scenarios, where even in few-shot training settings the model needs to predict the stance towards new targets for which the model has only seen few relevant samples during training. To address the cross-target stance detection in social media by leveraging the social nature of the task, we introduce CT-TN, a novel model that aggregates multimodal embeddings derived from both textual and network features of the data. We conduct experiments in a few-shot cross-target scenario on six different combinations of source-destination target pairs. By comparing CT-TN with state-of-the-art cross-target stance detection models, we demonstrate the effectiveness of our model by achieving average performance improvements ranging from 11% to 21% across different baseline models. Experiments with different numbers of shots show that CT-TN can outperform other models after seeing 300 instances of the destination target. Further, ablation experiments demonstrate the positive contribution of each of the components of CT-TN towards the final performance. We further analyse the network interactions between social media users, which reveal the potential of using social features for cross-target stance detection.
翻訳日:2023-01-12 17:10:35 公開日:2023-01-11
# 回帰ニューラルネットワークにおけるデータフリー知識蒸留のための合成データ生成法

Synthetic data generation method for data-free knowledge distillation in regression neural networks ( http://arxiv.org/abs/2301.04338v1 )

ライセンス: Link先を確認
Tianxun Zhou, Keng-Hwee Chiam(参考訳) 知識蒸留(英: knowledge distillation)は、教師として知られるより大きなニューラルネットワークを、学生と呼ばれるより小さなニューラルネットワークに圧縮する技術である。 既存の知識蒸留の方法は、主に分類作業に当てはまる。 それらの多くは、教師モデルのトレーニングに使用されるデータへのアクセスも必要です。 従来の学習データのない回帰作業における知識蒸留の課題に対処するため, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法を提案した。 これらの合成データとその教師モデルによって予測されるラベルは、学生モデルのトレーニングに使用される。 本研究では,様々な合成データ生成手法の振る舞いを調査し,生徒と教師のモデル間の大きくて限定的な差を直接最適化する新しい合成データ生成戦略を提案する。 ベンチマークおよびケーススタディ実験の結果から,提案手法により,生徒モデルがより良く学び,教師モデルのパフォーマンスをよりよくエミュレートできることが示されている。

Knowledge distillation is the technique of compressing a larger neural network, known as the teacher, into a smaller neural network, known as the student, while still trying to maintain the performance of the larger neural network as much as possible. Existing methods of knowledge distillation are mostly applicable for classification tasks. Many of them also require access to the data used to train the teacher model. To address the problem of knowledge distillation for regression tasks under the absence of original training data, previous work has proposed a data-free knowledge distillation method where synthetic data are generated using a generator model trained adversarially against the student model. These synthetic data and their labels predicted by the teacher model are then used to train the student model. In this study, we investigate the behavior of various synthetic data generation methods and propose a new synthetic data generation strategy that directly optimizes for a large but bounded difference between the student and teacher model. Our results on benchmark and case study experiments demonstrate that the proposed strategy allows the student model to learn better and emulate the performance of the teacher model more closely.
翻訳日:2023-01-12 17:09:58 公開日:2023-01-11
# 赤外線小目標検出用変圧器による動的背景復元

Dynamic Background Reconstruction via Transformer for Infrared Small Target Detection ( http://arxiv.org/abs/2301.04497v1 )

ライセンス: Link先を確認
Jingchao Peng, Haitao Zhao, Zhengwei Hu, Kaijie Zhao, Zhongze Wang(参考訳) 複雑な背景下での赤外線小目標検出(ISTD)は、ターゲットと背景の違いが区別しにくいため、難しい問題である。 背景復元はこの問題に対処する方法の1つである。 本稿では,動的背景再構成(DBR)と呼ばれる背景再構成に基づくISTD手法を提案する。 DBRは動的シフトウィンドウモジュール(DSW)、バックグラウンド再構築モジュール(BR)、検出ヘッド(DH)の3つのモジュールで構成される。 brは欠落したパッチの再構築に視覚トランスフォーマーを利用し、ターゲットなしでクリーンな背景を再構築するために50\%のマスキング率でグリッドマスキング戦略を採用している。 1つのターゲットを2つの隣り合うパッチに分割するのを避けるために、入力埋め込みの前にdswを行う。 DSWはオフセットを計算し、赤外線画像は動的にシフトする。 再建誤差を目標とする偽陽性(FP)のケースを低減するため,DHは密結合トランスフォーマの構造を用いて検出性能をさらに向上する。 実験の結果、dbrはmfirst (64.10\%)とsirst (75.01\%)の2つのistdデータセットで最高のf1-scoreを達成した。

Infrared small target detection (ISTD) under complex backgrounds is a difficult problem, for the differences between targets and backgrounds are not easy to distinguish. Background reconstruction is one of the methods to deal with this problem. This paper proposes an ISTD method based on background reconstruction called Dynamic Background Reconstruction (DBR). DBR consists of three modules: a dynamic shift window module (DSW), a background reconstruction module (BR), and a detection head (DH). BR takes advantage of Vision Transformers in reconstructing missing patches and adopts a grid masking strategy with a masking ratio of 50\% to reconstruct clean backgrounds without targets. To avoid dividing one target into two neighboring patches, resulting in reconstructing failure, DSW is performed before input embedding. DSW calculates offsets, according to which infrared images dynamically shift. To reduce False Positive (FP) cases caused by regarding reconstruction errors as targets, DH utilizes a structure of densely connected Transformer to further improve the detection performance. Experimental results show that DBR achieves the best F1-score on the two ISTD datasets, MFIRST (64.10\%) and SIRST (75.01\%).
翻訳日:2023-01-12 17:04:02 公開日:2023-01-11
# 画像分割アルゴリズムの訓練のためのサンプルのリッチで異種なサブセット作成のための新しいサンプリング手法

A new sampling methodology for creating rich, heterogeneous, subsets of samples for training image segmentation algorithms ( http://arxiv.org/abs/2301.04517v1 )

ライセンス: Link先を確認
Matheus Viana da Silva, Nat\'alia de Carvalho Santos, Baptiste Lacoste, Cesar Henrique Comin(参考訳) 教師付き機械学習アルゴリズムをトレーニングするためのデータセットを作成することは、必要なタスクである。 これは医用画像のセグメンテーションには特に当てはまります。なぜなら、このタスクは通常、画像アノテーションのために1つまたは複数の専門家が必要です。 さらに、注釈付きサンプルは、画像取得過程の変化だけでなく、画像組織に影響を及ぼす可能性のある異なる条件をうまく表していることが最重要である。 これはデータセットに典型的なサンプルだけでなく、非定型的、あるいは異常なサンプルも考慮することでのみ実現できます。 原型と非典型の両方を均等に考慮した,大規模な非注釈データセットから関連画像を選択するための新しいサンプリング手法を提案する。 この手法は、サンプルを表す特徴空間から一様格子を生成することを含み、関連する画像をランダムに描画するために使用される。 選択された画像は、元のデータセットの均一なカバーを提供し、注釈付きで教師付きセグメンテーションアルゴリズムのトレーニングに使用できる異種画像の集合を定義する。 何千もの画像を含むより大きなデータセットから選択した血管顕微鏡画像の代表的なセットを含むデータセットを作成する事例例を提供する。

Creating a dataset for training supervised machine learning algorithms can be a demanding task. This is especially true for medical image segmentation since this task usually requires one or more specialists for image annotation, and creating ground truth labels for just a single image can take up to several hours. In addition, it is paramount that the annotated samples represent well the different conditions that might affect the imaged tissue as well as possible changes in the image acquisition process. This can only be achieved by considering samples that are typical in the dataset as well as atypical, or even outlier, samples. We introduce a new sampling methodology for selecting relevant images from a larger non-annotated dataset in a way that evenly considers both prototypical as well as atypical samples. The methodology involves the generation of a uniform grid from a feature space representing the samples, which is then used for randomly drawing relevant images. The selected images provide a uniform cover of the original dataset, and thus define a heterogeneous set of images that can be annotated and used for training supervised segmentation algorithms. We provide a case example by creating a dataset containing a representative set of blood vessel microscopy images selected from a larger dataset containing thousands of images.
翻訳日:2023-01-12 17:03:40 公開日:2023-01-11
# 単視点リモートセンシング画像からの標高推定駆動型建物3次元再構成

Elevation Estimation-Driven Building 3D Reconstruction from Single-View Remote Sensing Imagery ( http://arxiv.org/abs/2301.04581v1 )

ライセンス: Link先を確認
Yongqiang Mao, Kaiqiang Chen, Liangjin Zhao, Wei Chen, Deke Tang, Wenjie Liu, Zhirui Wang, Wenhui Diao, Xian Sun, Kun Fu(参考訳) リモートセンシング画像からの3d再構成の構築は、スマートシティ、フォトグラメトリー、その他の分野で幅広い応用がある。 自動3次元都市建物モデリングの手法は、通常、点雲と建物の3次元モデルを復元するアルゴリズムへの入力として多視点画像を用いる。 しかし、このようなモデルは、時間を要する建物の多視点画像に大きく依存しており、モデルの適用性と実用性を制限している。 これらの問題を解決するため,我々は,入力された単視点リモートセンシング画像から3次元建物モデルを構築することを目的とした,効率的なdsm推定駆動型再構築フレームワーク(building3d)の設計に注目する。 まず,局所的特徴とグローバルな特徴の登録を実現するために,高度意味フローという概念を用いたセマンティックフロー場誘導DSM推定(SFFDE)ネットワークを提案する。 具体的には,ネットワークセマンティックスをグローバルに認識するために,インスタンスのセマンティックグローバリゼーションを実現するためのElevation Semantic Globalization (ESG)モジュールを提案する。 さらに,グローバルな特徴のセマンティックスパンを緩和するために,高度セマンティックフローに基づく局所-グローバルな上昇セマンティックレジストレーション(L2G-ESR)モジュールを提案する。 我々のビルディング3dは、標高予測のためのsffdeネットワークを基盤とし、ビルディングマスクのビル抽出ネットワークと同期し、ポイントクラウド再構築、表面再構築(citygmlモデル再構成)を順次行う。 このベースで、Building3Dはオプションで建物のCityGMLモデルやサーフェスメッシュモデルを生成することができます。 DSM推定タスクにおけるISPRS Vaihingen と DFC2019 データセットの大規模な実験は、我々の SFFDE が最先端技術において著しく改善されていることを示している。 さらに,ビルディング3Dは3次元点雲と3次元モデル再構成プロセスにおいて印象的な結果が得られる。

Building 3D reconstruction from remote sensing images has a wide range of applications in smart cities, photogrammetry and other fields. Methods for automatic 3D urban building modeling typically employ multi-view images as input to algorithms to recover point clouds and 3D models of buildings. However, such models rely heavily on multi-view images of buildings, which are time-intensive and limit the applicability and practicality of the models. To solve these issues, we focus on designing an efficient DSM estimation-driven reconstruction framework (Building3D), which aims to reconstruct 3D building models from the input single-view remote sensing image. First, we propose a Semantic Flow Field-guided DSM Estimation (SFFDE) network, which utilizes the proposed concept of elevation semantic flow to achieve the registration of local and global features. Specifically, in order to make the network semantics globally aware, we propose an Elevation Semantic Globalization (ESG) module to realize the semantic globalization of instances. Further, in order to alleviate the semantic span of global features and original local features, we propose a Local-to-Global Elevation Semantic Registration (L2G-ESR) module based on elevation semantic flow. Our Building3D is rooted in the SFFDE network for building elevation prediction, synchronized with a building extraction network for building masks, and then sequentially performs point cloud reconstruction, surface reconstruction (or CityGML model reconstruction). On this basis, our Building3D can optionally generate CityGML models or surface mesh models of the buildings. Extensive experiments on ISPRS Vaihingen and DFC2019 datasets on the DSM estimation task show that our SFFDE significantly improves upon state-of-the-arts. Furthermore, our Building3D achieves impressive results in the 3D point cloud and 3D model reconstruction process.
翻訳日:2023-01-12 17:03:21 公開日:2023-01-11
# LinkGAN:制御可能な画像合成のためのGANラテントと画素のリンク

LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis ( http://arxiv.org/abs/2301.04604v1 )

ライセンス: Link先を確認
Jiapeng Zhu, Ceyuan Yang, Yujun Shen, Zifan Shi, Deli Zhao, Qifeng Chen(参考訳) この研究はganトレーニングのための使いやすい正規化子を提供し、合成において潜在空間の一部の軸を画像領域または意味圏(例えば空)に明示的にリンクするのに役立つ。 このような接続を確立することで、GAN生成のより便利なローカル制御が容易になり、潜時符号を部分的に再サンプリングすることで、ユーザーは空間領域内でのみ画像内容を変更することができる。 実験の結果,LinkGANと呼ばれる正則化器の4つの魅力特性が確認された。 1)任意の画像領域は、トレーニング前に事前に選択され、すべてのインスタンスで固定されている場合でも、潜在空間とリンクすることができる。 2) 2領域または複数の領域は異なる潜伏軸と独立にリンクでき、驚くほど合成画像のトークン化制御が可能である。 3) 正規化器は2次元GANモデルと3次元GANモデルの空間制御性を向上し, 合成性能をほとんど損なわない。 (4) 正規化器で訓練されたモデルはganインバージョン技術と互換性があり, 実画像の編集性が維持される。

This work presents an easy-to-use regularizer for GAN training, which helps explicitly link some axes of the latent space to an image region or a semantic category (e.g., sky) in the synthesis. Establishing such a connection facilitates a more convenient local control of GAN generation, where users can alter image content only within a spatial area simply by partially resampling the latent codes. Experimental results confirm four appealing properties of our regularizer, which we call LinkGAN. (1) Any image region can be linked to the latent space, even if the region is pre-selected before training and fixed for all instances. (2) Two or multiple regions can be independently linked to different latent axes, surprisingly allowing tokenized control of synthesized images. (3) Our regularizer can improve the spatial controllability of both 2D and 3D GAN models, barely sacrificing the synthesis performance. (4) The models trained with our regularizer are compatible with GAN inversion techniques and maintain editability on real images
翻訳日:2023-01-12 17:02:48 公開日:2023-01-11
# マルチモーダルユークリッド入力からの3次元形状の自己教師付き潜在表現に対する生成的結合学習

Generative-Contrastive Learning for Self-Supervised Latent Representations of 3D Shapes from Multi-Modal Euclidean Input ( http://arxiv.org/abs/2301.04612v1 )

ライセンス: Link先を確認
Chengzhi Wu, Julius Pfrommer, Mingyuan Zhou and J\"urgen Beyerer(参考訳) 本研究では,3次元容積形状の潜在表現を学習するための生成的・対比的ニューラルネットワークアーキテクチャを提案する。 このアーキテクチャでは、2つのエンコーダブランチを使ってボクセルグリッドと同一形状のマルチビュー画像を生成する。 主な考え方は、結果として生じる潜在表現と追加の再構成損失の対比的な損失を組み合わせることである。 これにより、競合的な損失を最小限に抑えるための簡単なソリューションとして、潜在表現が崩壊するのを避けることができる。 共有デコーダで2つのエンコーダをクロストレーニングするために、新しいスイッチング方式を用いる。 また、スイッチング方式によりランダム分岐の停止勾配操作も可能となる。 さらに分類実験により, 自己教師付き手法で学習した潜在表現は, 付加的な入力データからより有用な情報を暗黙的に統合し, 再構築と分類性能の向上を図っている。

We propose a combined generative and contrastive neural architecture for learning latent representations of 3D volumetric shapes. The architecture uses two encoder branches for voxel grids and multi-view images from the same underlying shape. The main idea is to combine a contrastive loss between the resulting latent representations with an additional reconstruction loss. That helps to avoid collapsing the latent representations as a trivial solution for minimizing the contrastive loss. A novel switching scheme is used to cross-train two encoders with a shared decoder. The switching scheme also enables the stop gradient operation on a random branch. Further classification experiments show that the latent representations learned with our self-supervised method integrate more useful information from the additional input data implicitly, thus leading to better reconstruction and classification performance.
翻訳日:2023-01-12 17:02:30 公開日:2023-01-11
# 局所相関点埋め込みによる3次元点雲中の物体検出

Object Detection in 3D Point Clouds via Local Correlation-Aware Point Embedding ( http://arxiv.org/abs/2301.04613v1 )

ライセンス: Link先を確認
Chengzhi Wu, Julius Pfrommer, J\"urgen Beyerer, Kangning Li and Boris Neubert(参考訳) 本稿では,Frustum PointNet(F-PointNet)に基づく点クラウドデータにおける3次元オブジェクト検出の改良手法を提案する。 提案手法は,従来のF-PointNetと比較し,計算点の特徴のある点近傍について検討する。 新たに導入された局所近傍埋め込み操作は、2次元ニューラルネットワークにおける畳み込み操作を模倣する。 したがって、各点の特徴は自身の特徴や点雲全体の特徴と共に計算されるだけでなく、特にその近傍の特徴に関して計算される。 実験により,提案手法は3次元物体検出タスクにおいてf-pointnetベースラインよりも優れた性能が得られることを示した。

We present an improved approach for 3D object detection in point cloud data based on the Frustum PointNet (F-PointNet). Compared to the original F-PointNet, our newly proposed method considers the point neighborhood when computing point features. The newly introduced local neighborhood embedding operation mimics the convolutional operations in 2D neural networks. Thus features of each point are not only computed with the features of its own or of the whole point cloud but also computed especially with respect to the features of its neighbors. Experiments show that our proposed method achieves better performance than the F-Pointnet baseline on 3D object detection tasks.
翻訳日:2023-01-12 17:02:16 公開日:2023-01-11
# TinyHD:階層型マップ蒸留を用いた不均一デコーダを用いた高能率ビデオサリエンシ予測

TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders using Hierarchical Maps Distillation ( http://arxiv.org/abs/2301.04619v1 )

ライセンス: Link先を確認
Feiyan Hu, Simone Palazzo, Federica Proietto Salanitri, Giovanni Bellitto, Morteza Moradi, Concetto Spampinato, Kevin McGuinness(参考訳) ビデオサリエンシー予測は、いくつかの実用的なアプリケーションにとって上流タスクであるため、近年研究コミュニティの注目を集めている。 しかし、現在のソリューションは特に、時空間の3D畳み込みが広く使われているため、計算的に要求されている。 我々は、異なるモデルアーキテクチャがベンチマークで同様の性能を達成する一方で、予測された精度マップ間の視覚的バリエーションが依然として重要であることを観察した。 この直観に触発されて,複数の単純不均一デコーダを用いた軽量モデルを提案し,階層的マルチマップ知識蒸留,多出力塩分予測,ラベル付き補助データセット,教師助手によるチャネル削減など,計算コストを低く保ちながら精度を向上させるためのいくつかの実践的手法を提案する。 提案手法はDFH1K, UCF-Sports, Hollywood2ベンチマークにおける最先端手法よりも高い精度で精度を向上し, モデルの効率を大幅に向上させる。 コードはhttps://github.com/feiyanhu/tinyHDにある。

Video saliency prediction has recently attracted attention of the research community, as it is an upstream task for several practical applications. However, current solutions are particularly computationally demanding, especially due to the wide usage of spatio-temporal 3D convolutions. We observe that, while different model architectures achieve similar performance on benchmarks, visual variations between predicted saliency maps are still significant. Inspired by this intuition, we propose a lightweight model that employs multiple simple heterogeneous decoders and adopts several practical approaches to improve accuracy while keeping computational costs low, such as hierarchical multi-map knowledge distillation, multi-output saliency prediction, unlabeled auxiliary datasets and channel reduction with teacher assistant supervision. Our approach achieves saliency prediction accuracy on par or better than state-of-the-art methods on DFH1K, UCF-Sports and Hollywood2 benchmarks, while enhancing significantly the efficiency of the model. Code is on https://github.com/feiyanhu/tinyHD
翻訳日:2023-01-12 17:02:09 公開日:2023-01-11
# パラメータ化ハイパーコンプレックス乗算によるresnet画像分類性能の向上

Enhancing ResNet Image Classification Performance by using Parameterized Hypercomplex Multiplication ( http://arxiv.org/abs/2301.04623v1 )

ライセンス: Link先を確認
Nazmul Shahadat, Anthony S. Maida(参考訳) 近年,多くのディープネットワークがアーキテクチャにハイパーコンプレックスや関連計算を導入している。 分類のための畳み込みネットワークでは、これらの拡張がフロントエンドの畳み込み操作に適用され、精度を向上し、精度を維持しながらパラメータ要求を減らした。 これらの拡張は、畳み込みフロントエンドに適用されているが、高複素計算を追加することで、密結合されたバックエンドに適用した場合のパフォーマンスが向上するかどうかは研究されていない。 本稿では,resnetアーキテクチャを研究し,残差,四元数,およびベクトルマップ畳み込みニューラルネットワークのバックエンドにパラメータ化ハイパーコンプレックス乗算(phm)を組み込んでその効果を評価する。 phmは,小型で低解像度のcifar 10/100や大規模高解像度のimagenetやaslなど,複数の画像データセットの分類精度を向上し,ハイパーコンプレックスネットワークにおける最先端の精度を実現する。

Recently, many deep networks have introduced hypercomplex and related calculations into their architectures. In regard to convolutional networks for classification, these enhancements have been applied to the convolution operations in the frontend to enhance accuracy and/or reduce the parameter requirements while maintaining accuracy. Although these enhancements have been applied to the convolutional frontend, it has not been studied whether adding hypercomplex calculations improves performance when applied to the densely connected backend. This paper studies ResNet architectures and incorporates parameterized hypercomplex multiplication (PHM) into the backend of residual, quaternion, and vectormap convolutional neural networks to assess the effect. We show that PHM does improve classification accuracy performance on several image datasets, including small, low-resolution CIFAR 10/100 and large high-resolution ImageNet and ASL, and can achieve state-of-the-art accuracy for hypercomplex networks.
翻訳日:2023-01-12 17:01:45 公開日:2023-01-11
# 深部軸超複雑ネットワーク

Deep Axial Hypercomplex Networks ( http://arxiv.org/abs/2301.04626v1 )

ライセンス: Link先を確認
Nazmul Shahadat, Anthony S. Maida(参考訳) 過去10年にわたり、ディープ・ハイパーコンプレックスに触発されたネットワークは、入力チャネル間の重み共有を可能にして画像分類のための特徴抽出を強化してきた。 近年の研究では,高計算コストを消費する超複雑ネットワークを用いることで,表現能力の向上が図られている。 本稿では、四元数2D畳み込み加群を2つの連続ベクトルマップ1D畳み込み加群に分解することで、このコストを削減する。 また、5次元パラメータ化ハイパーコンプレックス乗算に基づく完全連結層を用いる。 両者を組み込むことで、画像分類のための深部軸超複素ネットワーク(DAN)を構築するために構築できる新しいアーキテクチャである、提案した超複素ネットワークが得られる。 我々は、CIFARベンチマーク、SVHN、Tiny ImageNetデータセットで実験を行い、トレーニング可能なパラメータやFLOPSを少なくして、より良いパフォーマンスを実現する。 提案モデルでは,CIFARデータセットとSVHNデータセットでは約2%,ImageNet-Tinyデータセットでは3%以上,実数値のResNetよりも6倍少ないパラメータが得られた。 また、超複素空間におけるCIFARベンチマークの最先端性能を示す。

Over the past decade, deep hypercomplex-inspired networks have enhanced feature extraction for image classification by enabling weight sharing across input channels. Recent works make it possible to improve representational capabilities by using hypercomplex-inspired networks which consume high computational costs. This paper reduces this cost by factorizing a quaternion 2D convolutional module into two consecutive vectormap 1D convolutional modules. Also, we use 5D parameterized hypercomplex multiplication based fully connected layers. Incorporating both yields our proposed hypercomplex network, a novel architecture that can be assembled to construct deep axial-hypercomplex networks (DANs) for image classifications. We conduct experiments on CIFAR benchmarks, SVHN, and Tiny ImageNet datasets and achieve better performance with fewer trainable parameters and FLOPS. Our proposed model achieves almost 2% higher performance for CIFAR and SVHN datasets, and more than 3% for the ImageNet-Tiny dataset and takes six times fewer parameters than the real-valued ResNets. Also, it shows state-of-the-art performance on CIFAR benchmarks in hypercomplex space.
翻訳日:2023-01-12 17:01:28 公開日:2023-01-11
# 差動ベクトルを用いた顔属性編集

Face Attribute Editing with Disentangled Latent Vectors ( http://arxiv.org/abs/2301.04628v1 )

ライセンス: Link先を確認
Yusuf Dalva, Hamza Pehlivan, Cansu Moran, \"Oyk\"u Irmak Hatipo\u{g}lu, Ay\c{s}eg\"ul D\"undar(参考訳) 本稿では,顔属性編集のための画像から画像への変換フレームワークを提案する。 顔属性編集タスクは、他の属性を編集中に保存するために属性の表現に制御可能な強みと絡み合いを持つ、ターゲット属性編集の課題に直面している。 この目的のために, 固定事前学習されたganの潜在空間分解に触発されて, 潜在空間分解による属性編集をデザインし, それぞれの属性に対して, 他方と直交する線形方向を学習する。 我々はこれらの方向を直交制約と歪曲損失で訓練する。 意味的に整理された潜在空間に画像を投影するために,注意に基づくスキップ接続を備えたエンコーダデコーダアーキテクチャを構築した。 従来の画像翻訳アルゴリズムと比較し,事前学習したGAN作品の編集を行う。 広範な実験により,本手法は最先端の手法よりも大幅に改善することが示された。 プロジェクトページ: https://yusufdalva.github.io/vecgan

We propose an image-to-image translation framework for facial attribute editing with disentangled interpretable latent directions. Facial attribute editing task faces the challenges of targeted attribute editing with controllable strength and disentanglement in the representations of attributes to preserve the other attributes during edits. For this goal, inspired by the latent space factorization works of fixed pretrained GANs, we design the attribute editing by latent space factorization, and for each attribute, we learn a linear direction that is orthogonal to the others. We train these directions with orthogonality constraints and disentanglement losses. To project images to semantically organized latent spaces, we set an encoder-decoder architecture with attention-based skip connections. We extensively compare with previous image translation algorithms and editing with pretrained GAN works. Our extensive experiments show that our method significantly improves over the state-of-the-arts. Project page: https://yusufdalva.github.io/vecgan
翻訳日:2023-01-12 17:01:09 公開日:2023-01-11
# CARD: 効率的なクラス認識正規化デコーダによるセマンティックセグメンテーション

CARD: Semantic Segmentation with Efficient Class-Aware Regularized Decoder ( http://arxiv.org/abs/2301.04258v1 )

ライセンス: Link先を確認
Ye Huang, Di Kang, Liang Chen, Wenjing Jia, Xiangjian He, Lixin Duan, Xuefei Zhe, Linchao Bao(参考訳) セマンティックセグメンテーションは、最近、学習中に「クラスレベルの」文脈情報を活用することで顕著な進歩を遂げた。 しかし,これらの手法は,クラスレベルの情報をピクセル特徴に結合することで,クラス内およびクラス間コンテキスト情報を十分に活用できない画素表現学習を促進する。 さらに,これらの手法は,誤差蓄積の傾向にある粗いマスク予測に基づいてソフトクラスセンターを学習する。 クラスレベルの情報をよりよく活用するために,特徴学習におけるクラス内分散とクラス間距離を最適化する汎用クラス認識規則化(CAR)手法を提案する。 さらに,新しい空間トークンミキサーとアップサンプリングモジュールからなる車専用デコーダの設計を行い,計算コストの面では高い効率を保ちつつ,既存ベースラインの利得を最大化する。 具体的には、CARは3つの新しい損失関数からなる。 第1のロス関数は各クラス内のよりコンパクトなクラス表現を奨励し、第2のロス関数は異なるクラス中心間の距離を直接最大化し、第3のロス関数はクラス中心とピクセル間の距離をさらに推し進める。 さらに,提案手法のクラス中心は,誤差発生による粗い予測ではなく,真理から直接生成される。 車はトレーニング中に既存のほとんどのセグメンテーションモデルに直接適用することができ、追加の推論オーバーヘッドなしに精度を大幅に向上することができる。 複数のベンチマークデータセットで行った大規模な実験とアブレーション研究により、提案されたCARは、より優れた一般化能力を持つ2.23%のmIOUで全てのベースラインモデルの精度を向上できることを示した。 CARDは、高い効率のアーキテクチャを持つ複数のベンチマークにおいて、SOTAアプローチより優れている。

Semantic segmentation has recently achieved notable advances by exploiting "class-level" contextual information during learning. However, these approaches simply concatenate class-level information to pixel features to boost the pixel representation learning, which cannot fully utilize intra-class and inter-class contextual information. Moreover, these approaches learn soft class centers based on coarse mask prediction, which is prone to error accumulation. To better exploit class level information, we propose a universal Class-Aware Regularization (CAR) approach to optimize the intra-class variance and inter-class distance during feature learning, motivated by the fact that humans can recognize an object by itself no matter which other objects it appears with. Moreover, we design a dedicated decoder for CAR (CARD), which consists of a novel spatial token mixer and an upsampling module, to maximize its gain for existing baselines while being highly efficient in terms of computational cost. Specifically, CAR consists of three novel loss functions. The first loss function encourages more compact class representations within each class, the second directly maximizes the distance between different class centers, and the third further pushes the distance between inter-class centers and pixels. Furthermore, the class center in our approach is directly generated from ground truth instead of from the error-prone coarse prediction. CAR can be directly applied to most existing segmentation models during training, and can largely improve their accuracy at no additional inference overhead. Extensive experiments and ablation studies conducted on multiple benchmark datasets demonstrate that the proposed CAR can boost the accuracy of all baseline models by up to 2.23% mIOU with superior generalization ability. CARD outperforms SOTA approaches on multiple benchmarks with a highly efficient architecture.
翻訳日:2023-01-12 16:55:05 公開日:2023-01-11
# lenet:マルチスケール畳み込みを考慮した軽量で効率的なlidarセマンティクスセグメンテーション

LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using Multi-Scale Convolution Attention ( http://arxiv.org/abs/2301.04275v1 )

ライセンス: Link先を確認
Ben Ding(参考訳) lidarセマンティックセグメンテーション(lidar semantic segmentation)は、ロボットや自動運転の知覚システムにとって不可欠なシーンの理解を車両に提供する。 本稿では,エンコーダ・デコーダアーキテクチャを持つ,軽量で効率的な投影型lidarセマンティクスセグメンテーションネットワークであるlenetを提案する。 エンコーダは、マルチスケールの特徴マップをキャプチャするための単純な畳み込みアテンションモジュールであるMSCAモジュールからなる。 このデコーダはIACモジュールで構成されており、双線形補間を用いて多重解像度特徴写像と1つの畳み込み層をアップサンプリングし、以前の次元特徴と現在の次元特徴を統合する。 IACは非常に軽量で、複雑さとストレージコストを劇的に削減します。 さらに,複数の補助セグメンテーションヘッドを導入し,ネットワークの精度をさらに向上させる。 我々は,各コンポーネントが最終性能にどのように貢献するかを示す,詳細な定量的実験を行った。 提案手法をよく知られたベンチマーク(semantickitti)で評価し,提案手法が最先端のセマンティクスセグメンテーション手法よりも軽量かつ効果的であることを実証した。 完全な実装は \url{https://github.com/fengluodb/lenet} で利用可能です。

LiDAR semantic segmentation can provide vehicles with a rich understanding of scene, which is essential to the perception system in robotics and autonomous driving. In this paper, we propose LENet, a lightweight and efficient projection-based LiDAR semantic segmentation network, which has an encoder-decoder architecture. The encoder consists of a set of MSCA module, which is a simple convolutional attention module to capture multi-scale feature maps. The decoder consists of IAC module, which uses bilinear interpolation to upsample the multi-resolution feature maps and a single convolution layer to integrate the previous and current dimensional features. IAC is very lightweight and dramatically reduces the complexity and storage cost. Moreover, we introduce multiple auxiliary segmentation heads to further refine the network accuracy. We have conducted detailed quantitative experiments, which shows how each component contributes to the final performance. We evaluate our approach on well known public benchmarks (SemanticKITTI), which demonstrates our proposed LENet is more lightweight and effective than state-of-the-art semantic segmentation approaches. Our full implementation will be available at \url{https://github.com/fengluodb/LENet}.
翻訳日:2023-01-12 16:54:38 公開日:2023-01-11
# ピラミッド機能付きビデオにおける事象境界検出

Generic Event Boundary Detection in Video with Pyramid Features ( http://arxiv.org/abs/2301.04288v1 )

ライセンス: Link先を確認
Van Thong Huynh, Hyung-Jeong Yang, Guee-Sang Lee, Soo-Hyung Kim(参考訳) ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。 本研究では,映像中のジェネリックイベントをローカライズする枠組みを構築するために,隣接するフレームとピラミッドの特徴マップの空間次元と時間次元の相関を考察する手法を提案する。 事前訓練されたResNet-50の空間次元における特徴は、時間次元の異なる視点で利用し、時間ピラミッド特徴写像を形成する。 それに基づいて、隣接フレーム間の類似度を計算し、時間的ピラミッド類似性特徴ベクトルを構築するように投影する。 1次元畳み込み演算を持つデコーダを使用して、これらの類似性を、後の境界スコア推定のための時間的関係を含む新しい表現にデコードする。 GEBDベンチマークデータセットで行った大規模な実験は、我々のシステムの有効性とそのバリエーションを示し、最先端のアプローチよりも優れていた。 オリンピックのスポーツ行動を含む長編ビデオを含むTAPOSデータセットに関する追加実験は,他と比較して,本研究の有効性を実証した。

Generic event boundary detection (GEBD) aims to split video into chunks at a broad and diverse set of actions as humans naturally perceive event boundaries. In this study, we present an approach that considers the correlation between neighbor frames with pyramid feature maps in both spatial and temporal dimensions to construct a framework for localizing generic events in video. The features at multiple spatial dimensions of a pre-trained ResNet-50 are exploited with different views in the temporal dimension to form a temporal pyramid feature map. Based on that, the similarity between neighbor frames is calculated and projected to build a temporal pyramid similarity feature vector. A decoder with 1D convolution operations is used to decode these similarities to a new representation that incorporates their temporal relationship for later boundary score estimation. Extensive experiments conducted on the GEBD benchmark dataset show the effectiveness of our system and its variations, in which we outperformed the state-of-the-art approaches. Additional experiments on TAPOS dataset, which contains long-form videos with Olympic sport actions, demonstrated the effectiveness of our study compared to others.
翻訳日:2023-01-12 16:54:14 公開日:2023-01-11
# GraVIS:Dermatology分析のための独立したソースからのグループ化ビュー

GraVIS: Grouping Augmented Views from Independent Sources for Dermatology Analysis ( http://arxiv.org/abs/2301.04410v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Chixiang Lu, Liansheng Wang, Yizhou Yu(参考訳) 自己教師付き表現学習は、下流のタスクに伝達可能な表現を提供するために人間のアノテーションを必要としないため、医用画像解析において極めて成功した。 近年の自己教師あり学習法は,1つの均質な画像対と多数の異種画像対を訓練ステップ毎に対比することにより,不変な視覚的表現を学習することを目的として,ノイズコントラスト推定(nce,contrastive estimation)によって支配されている。 それでも、NCEベースのアプローチは、一対の同質なペアである1つの大きな問題に苦しめられ、堅牢で不変な意味情報を抽出するには不十分である。 従来の三重項損失に触発されて,皮膚科画像から自己教師付特徴を学習するために最適化されたgravisを提案する。 さらに、異種同種画像ではなく、類似した外観を持つ同種画像ビューの重要性に対処するために、難易度対応の注意が導入された。 GraVISは、病変の分類と疾患分類のタスクにおいて、トランスファーラーニングと自己教師付き学習を著しく上回り、時には極端に限られた監督の下で5%向上する。 さらに重要なのは、gravisがトレーニング済みの重量を装備すれば、1つのモデルの方が、有名なisic 2017チャレンジのアンサンブル戦略に大きく依存する勝者よりも優れた結果が得られることだ。

Self-supervised representation learning has been extremely successful in medical image analysis, as it requires no human annotations to provide transferable representations for downstream tasks. Recent self-supervised learning methods are dominated by noise-contrastive estimation (NCE, also known as contrastive learning), which aims to learn invariant visual representations by contrasting one homogeneous image pair with a large number of heterogeneous image pairs in each training step. Nonetheless, NCE-based approaches still suffer from one major problem that is one homogeneous pair is not enough to extract robust and invariant semantic information. Inspired by the archetypical triplet loss, we propose GraVIS, which is specifically optimized for learning self-supervised features from dermatology images, to group homogeneous dermatology images while separating heterogeneous ones. In addition, a hardness-aware attention is introduced and incorporated to address the importance of homogeneous image views with similar appearance instead of those dissimilar homogeneous ones. GraVIS significantly outperforms its transfer learning and self-supervised learning counterparts in both lesion segmentation and disease classification tasks, sometimes by 5 percents under extremely limited supervision. More importantly, when equipped with the pre-trained weights provided by GraVIS, a single model could achieve better results than winners that heavily rely on ensemble strategies in the well-known ISIC 2017 challenge.
翻訳日:2023-01-12 16:53:55 公開日:2023-01-11
# 交通環境が自律走行予測にどのように影響するか

How Does Traffic Environment Quantitatively Affect the Autonomous Driving Prediction? ( http://arxiv.org/abs/2301.04414v1 )

ライセンス: Link先を確認
Wenbo Shao, Yanchao Xu, Jun Li, Chen Lv, Weida Wang and Hong Wang(参考訳) 複雑な交通環境での安全で効率的な自動運転には、正確な軌道予測が不可欠である。 近年、人工知能は予測精度を向上する強力な能力を示している。 しかし、その不確実性と不確実性の特徴は、交通環境が予測に与える影響を明示的に決定することは困難であり、安全クリティカルな意思決定に重大な課題をもたらす。 そこで本研究では,予測不可能あるいは未知のシナリオに対して高い不確実性を示す認識的不確実性推定能力を有する軌道予測フレームワークを提案する。 提案手法は,予測アルゴリズムの性能に対する環境影響を解析するために用いられる。 分析では,対象エージェントのキネマティックな特徴,周辺トラヒック参加者の特徴,その他の特徴に特徴を分割して,それぞれシナリオの特徴とシフトの観点からトラヒック環境を考察する。 また,上記の特徴が予測誤差や認識の不確実性に与える影響について,特徴相関と重要度分析を行った。 さらに,複数交差点データセットを用いて,実世界における避けられない分布変化が軌道予測に与える影響を解析するために,クロスデータセットケーススタディを行った。 その結果, 深いアンサンブルに基づく手法は, 予測ロバスト性の向上と認識的不確実性の推定に有効であることがわかった。 対象エージェントの運動学的特徴が予測誤差と認識的不確かさに比較的強い影響を与えるという結論を含む,特徴相関と重要度分析により,一貫した結論を得た。 さらに,分布変化による予測失敗と深層アンサンブル法の可能性について分析した。

An accurate trajectory prediction is crucial for safe and efficient autonomous driving in complex traffic environments. In recent years, artificial intelligence has shown strong capabilities in improving prediction accuracy. However, its characteristics of inexplicability and uncertainty make it challenging to determine the traffic environmental effect on prediction explicitly, posing significant challenges to safety-critical decision-making. To address these challenges, this study proposes a trajectory prediction framework with the epistemic uncertainty estimation ability that outputs high uncertainty when confronting unforeseeable or unknown scenarios. The proposed framework is used to analyze the environmental effect on the prediction algorithm performance. In the analysis, the traffic environment is considered in terms of scenario features and shifts, respectively, where features are divided into kinematic features of a target agent, features of its surrounding traffic participants, and other features. In addition, feature correlation and importance analyses are performed to study the above features' influence on the prediction error and epistemic uncertainty. Further, a cross-dataset case study is conducted using multiple intersection datasets to investigate the impact of unavoidable distributional shifts in the real world on trajectory prediction. The results indicate that the deep ensemble-based method has advantages in improving prediction robustness and estimating epistemic uncertainty. The consistent conclusions are obtained by the feature correlation and importance analyses, including the conclusion that kinematic features of the target agent have relatively strong effects on the prediction error and epistemic uncertainty. Furthermore, the prediction failure caused by distributional shifts and the potential of the deep ensemble-based method are analyzed.
翻訳日:2023-01-12 16:53:27 公開日:2023-01-11
# 半教師付き医用画像セグメンテーションのための高信頼擬似ラベルを用いた共同学習

Co-training with High-Confidence Pseudo Labels for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.04465v1 )

ライセンス: Link先を確認
Zhiqiang Shen, Peng Cao, Hua Yang, Xiaoli Liu, Jinzhu Yang, Osmar R. Zaiane(参考訳) 半教師付きセマンティックセグメンテーションには高品質な擬似ラベルが不可欠である。 一貫性正規化と擬似ラベリングに基づく半教師付き手法は,多視点入力から擬似ラベルを用いて協調学習を行う。 しかし、そのようなコトレーニングモデルは、トレーニング中にコンセンサスに早期に収束する傾向にあり、モデルが自己学習モデルに縮退する。 また、低信頼の擬似ラベルにつながる入力にノイズを必然的に導入する原画像の摂動または拡大により、マルチビュー入力を生成する。 これらの問題に対処するために,高信頼な擬似ラベルを用いた半教師付きセマンティックセマンティックセマンティックセグメンテーションのために, UCMT (textbf{U}ncertainty-guided Collaborative Mean-Teacher) を提案する。 具体的にはUCMTは2つの主要コンポーネントから構成される。 1)モデル不一致を奨励し、サブネットワーク間の協調訓練を行うための協力的平均教師(CMT) 2)CMTの不確実性マップに従って入力画像を操作するための不確実性誘導領域混合(UMIX)により、CMTは高信頼な擬似ラベルを生成する。 UMIXとCMTの強度を組み合わせることで、UCMTはモデル不一致を維持し、コトレーニングセグメンテーションのための擬似ラベルの品質を高めることができる。 2Dおよび3Dモダリティを含む4つの公開医療画像データセットに対する大規模な実験は、UCMTが最先端技術よりも優れていることを示す。 コードは、https://github.com/Senyh/UCMT.comで入手できる。

High-quality pseudo labels are essential for semi-supervised semantic segmentation. Consistency regularization and pseudo labeling-based semi-supervised methods perform co-training using the pseudo labels from multi-view inputs. However, such co-training models tend to converge early to a consensus during training, so that the models degenerate to the self-training ones. Besides, the multi-view inputs are generated by perturbing or augmenting the original images, which inevitably introduces noise into the input leading to low-confidence pseudo labels. To address these issues, we propose an \textbf{U}ncertainty-guided Collaborative Mean-Teacher (UCMT) for semi-supervised semantic segmentation with the high-confidence pseudo labels. Concretely, UCMT consists of two main components: 1) collaborative mean-teacher (CMT) for encouraging model disagreement and performing co-training between the sub-networks, and 2) uncertainty-guided region mix (UMIX) for manipulating the input images according to the uncertainty maps of CMT and facilitating CMT to produce high-confidence pseudo labels. Combining the strengths of UMIX with CMT, UCMT can retain model disagreement and enhance the quality of pseudo labels for the co-training segmentation. Extensive experiments on four public medical image datasets including 2D and 3D modalities demonstrate the superiority of UCMT over the state-of-the-art. Code is available at: https://github.com/Senyh/UCMT.
翻訳日:2023-01-12 16:52:58 公開日:2023-01-11
# 適応グラフ畳み込みネットワークを用いた複数ラベル画像分類:単一領域から複数の領域へ

Multi-label Image Classification using Adaptive Graph Convolutional Networks: from a Single Domain to Multiple Domains ( http://arxiv.org/abs/2301.04494v1 )

ライセンス: Link先を確認
Indel Pal Singh, Enjie Ghorbel, Oyebade Oyedotun, Djamila Aouada(参考訳) 本稿では,マルチラベル画像分類のための適応グラフベースアプローチを提案する。 グラフベースの手法はラベル相関をモデル化する能力から、マルチラベル分類の分野で広く利用されている。 特に、それらの効果は、単一のドメインを考える場合だけでなく、複数のドメインを考慮に入れる場合にも証明されている。 しかし、使用グラフの位相はヒューリスティックに定義されているため最適ではない。 さらに、連続的なグラフ畳み込みネットワーク(GCN)集約は、特徴の類似性を損なう傾向がある。 これらの問題を克服するために、エンドツーエンドでグラフ接続を学ぶためのアーキテクチャを導入する。 これは注意に基づくメカニズムと類似性保存戦略を統合することで実現される。 提案するフレームワークは,複数のドメインに拡張し,対戦型トレーニングスキームを用いて拡張する。 多くの実験が、よく知られた単一ドメインとマルチドメインのベンチマークで報告されている。 その結果,提案手法は平均精度 (mAP) とモデルサイズにおいて最先端の手法よりも優れていた。

This paper proposes an adaptive graph-based approach for multi-label image classification. Graph-based methods have been largely exploited in the field of multi-label classification, given their ability to model label correlations. Specifically, their effectiveness has been proven not only when considering a single domain but also when taking into account multiple domains. However, the topology of the used graph is not optimal as it is pre-defined heuristically. In addition, consecutive Graph Convolutional Network (GCN) aggregations tend to destroy the feature similarity. To overcome these issues, an architecture for learning the graph connectivity in an end-to-end fashion is introduced. This is done by integrating an attention-based mechanism and a similarity-preserving strategy. The proposed framework is then extended to multiple domains using an adversarial training scheme. Numerous experiments are reported on well-known single-domain and multi-domain benchmarks. The results demonstrate that our approach outperforms the state-of-the-art in terms of mean Average Precision (mAP) and model size.
翻訳日:2023-01-12 16:51:42 公開日:2023-01-11
# 統一型言語訓練からの多言語エンティティと関係抽出

Multilingual Entity and Relation Extraction from Unified to Language-specific Training ( http://arxiv.org/abs/2301.04434v1 )

ライセンス: Link先を確認
Zixiang Wang, Jian Yang, Tongliang Li, Jiaheng Liu, Ying Mo, Jiaqi Bai, Longtao He and Zhoujun Li(参考訳) エンティティと関係抽出は情報抽出において重要なタスクであり、出力は下流のNLPタスクに使用できる。 エンティティと関係抽出タスクに対する既存のアプローチは、主に英語コーパスにフォーカスし、他の言語を無視している。 したがって、多言語環境での性能向上が重要である。 一方、多言語訓練は、言語(例えば、ハイリソース)から他の言語(例えば、ローリソース)へ知識を移すことで、言語間パフォーマンスを高めるために使用される。 しかしながら、モデルパラメータがすべての言語で共有されるため、言語干渉は通常、多言語タスクに存在する。 本稿では,言語間の干渉を軽減するための2段階多言語学習手法と,Multilingual Entity and Relation extract framework(mERE)というジョイントモデルを提案する。 具体的には、異なる言語にランダムに結合して、統一された言語表現を得ることで埋め込み表現の距離を狭める言語-ユニバーサルアグリゲータ(la)を訓練する。 次に、言語固有の特徴表現を洗練させるために複数の独立したサブモジュールを含む言語特化スイッチタ(LS)をチューニングすることで、干渉を軽減するためにパラメータを分離する。 その後、関係三重項抽出を強化するために、関係特徴と連結された文表現を用いてエンティティを認識する。 広範な実験結果から,本手法は単言語ベースラインと多言語ベースラインのどちらよりも優れていた。 また,mERE は軽量だが,リレーショナルトリプル抽出に有効であり,mERE{} はマルチフィールドタスクの他のバックボーンモデルへの転送が容易であることを示すための詳細な解析を行い,本手法の有効性を示す。

Entity and relation extraction is a key task in information extraction, where the output can be used for downstream NLP tasks. Existing approaches for entity and relation extraction tasks mainly focus on the English corpora and ignore other languages. Thus, it is critical to improving performance in a multilingual setting. Meanwhile, multilingual training is usually used to boost cross-lingual performance by transferring knowledge from languages (e.g., high-resource) to other (e.g., low-resource) languages. However, language interference usually exists in multilingual tasks as the model parameters are shared among all languages. In this paper, we propose a two-stage multilingual training method and a joint model called Multilingual Entity and Relation Extraction framework (mERE) to mitigate language interference across languages. Specifically, we randomly concatenate sentences in different languages to train a Language-universal Aggregator (LA), which narrows the distance of embedding representations by obtaining the unified language representation. Then, we separate parameters to mitigate interference via tuning a Language-specific Switcher (LS), which includes several independent sub-modules to refine the language-specific feature representation. After that, to enhance the relational triple extraction, the sentence representations concatenated with the relation feature are used to recognize the entities. Extensive experimental results show that our method outperforms both the monolingual and multilingual baseline methods. Besides, we also perform detailed analysis to show that mERE is lightweight but effective on relational triple extraction and mERE{} is easy to transfer to other backbone models of multi-field tasks, which further demonstrates the effectiveness of our method.
翻訳日:2023-01-12 14:42:11 公開日:2023-01-11
# Deteksi Depresi dan Kecemasan Pengguna Twitter Menggunakan Bidirectional LSTM

Deteksi Depresi dan Kecemasan Pengguna Twitter Menggunakan Bidirectional LSTM ( http://arxiv.org/abs/2301.04521v1 )

ライセンス: Link先を確認
Kuncahyo Setyo Nugroho, Ismail Akbar, Affi Nizar Suksmawati, Istiadi(参考訳) 日常生活で経験される最も一般的な精神障害はうつ病と不安である。 社会的スティグマは、うつ病や不安を周囲から無視する。 そのため、twitterのようなソーシャルメディアにサポートを求める。 テキストデータによる抑うつや不安障害の可能性のあるユーザの検出は、彼らの精神状態を明示的に議論しないため、容易ではない。 早期に治療を受けるために、テキストデータに対する抑うつや不安を経験する潜在的なユーザーを特定するモデルを採用している。 テキスト分類技術はこれを実現することができる。 LSTMは、勾配問題に対処するためのRNNアーキテクチャ開発である。 標準LSTMは、ある方向からの文のみを読み取ることができるため、十分な情報を取得できない。 一方、双方向LSTM(Bidirectional LSTM)は、文の文脈や意味を無視しずに情報をキャプチャできる双方向LSTMである。 提案したBiLSTMモデルは、従来の機械学習モデルや標準のLSTMよりも高い。 試験結果から、BiLSTMで得られた最高精度は94.12%に達した。 本研究は,twitter利用者の抑うつや不安の検出モデルの開発に成功している。

The most common mental disorders experienced by a person in daily life are depression and anxiety. Social stigma makes people with depression and anxiety neglected by their surroundings. Therefore, they turn to social media like Twitter for support. Detecting users with potential depression and anxiety disorders through textual data is not easy because they do not explicitly discuss their mental state. It takes a model that can identify potential users who experience depression and anxiety on textual data to get treatment earlier. Text classification techniques can achieve this. One approach that can be used is LSTM as an RNN architecture development in dealing with vanishing gradient problems. Standard LSTM does not capture enough information because it can only read sentences from one direction. Meanwhile, Bidirectional LSTM (BiLSTM) is a two-way LSTM that can capture information without ignoring the context and meaning of a sentence. The proposed BiLSTM model is higher than all traditional machine learning models and standard LSTMs. Based on the test results, the highest accuracy obtained by BiLSTM reached 94.12%. This study has succeeded in developing a model for the detection of depression and anxiety in Twitter users.
翻訳日:2023-01-12 14:41:44 公開日:2023-01-11
# tieval: 時間情報抽出システムのための評価フレームワーク

tieval: An Evaluation Framework for Temporal Information Extraction Systems ( http://arxiv.org/abs/2301.04643v1 )

ライセンス: Link先を確認
Hugo Sousa, Al\'ipio Jorge, Ricardo Campos(参考訳) 時間的情報抽出(tie)は過去20年間で大きな関心を集め、膨大な数のデータセットの開発につながった。 その利点にもかかわらず、大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。 一方、異なるデータセットは異なるアノテーションスキームを持つため、異なるコーパス間の競合の比較が妨げられる。 一方、各コーパスが一般的に異なるフォーマットで散布されているという事実は、研究者や専門家がすべてのパーサーを開発するのにかなりのエンジニアリング努力を必要とする。 この制約により、研究者は限られた量のデータセットを選択してシステムを評価することを余儀なくされ、結果としてシステムの互換性が制限される。 しかし、TIEシステムの互換性を妨げるもう1つの障害は、採用される評価基準である。 多くの研究は、精度、リコール、および$f_1$のような伝統的な指標を採用するが、他のいくつかの研究は、時間的認識(temporal awareness)を好んでいる。 ほとんどのシステムの評価において時間的認識が欠如している理由は明らかではないが、この決定に確実に重きを置く要因の1つは、時間的認識を計算するために時間的閉包アルゴリズムを実装する必要があることである。 全体として、これらの問題はアプローチ間の公正な比較を制限しており、その結果、時間的抽出システムの開発に繋がる。 これらの問題を緩和するために,異なるコーパスをインポートするための簡潔なインターフェースを提供し,システム評価を容易にするpythonライブラリであるtievalを開発した。 本稿では,tievalの最初の公開リリースを行い,その最も関連する機能を強調する。

Temporal information extraction (TIE) has attracted a great deal of interest over the last two decades, leading to the development of a significant number of datasets. Despite its benefits, having access to a large volume of corpora makes it difficult when it comes to benchmark TIE systems. On the one hand, different datasets have different annotation schemes, thus hindering the comparison between competitors across different corpora. On the other hand, the fact that each corpus is commonly disseminated in a different format requires a considerable engineering effort for a researcher/practitioner to develop parsers for all of them. This constraint forces researchers to select a limited amount of datasets to evaluate their systems which consequently limits the comparability of the systems. Yet another obstacle that hinders the comparability of the TIE systems is the evaluation metric employed. While most research works adopt traditional metrics such as precision, recall, and $F_1$, a few others prefer temporal awareness -- a metric tailored to be more comprehensive on the evaluation of temporal systems. Although the reason for the absence of temporal awareness in the evaluation of most systems is not clear, one of the factors that certainly weights this decision is the necessity to implement the temporal closure algorithm in order to compute temporal awareness, which is not straightforward to implement neither is currently easily available. All in all, these problems have limited the fair comparison between approaches and consequently, the development of temporal extraction systems. To mitigate these problems, we have developed tieval, a Python library that provides a concise interface for importing different corpora and facilitates system evaluation. In this paper, we present the first public release of tieval and highlight its most relevant features.
翻訳日:2023-01-12 14:41:29 公開日:2023-01-11
# ネットワーク適応型連合学習:混雑と損失圧縮

Network Adaptive Federated Learning: Congestion and Lossy Compression ( http://arxiv.org/abs/2301.04430v1 )

ライセンス: Link先を確認
Parikshit Hegde, Gustavo de Veciana, Aryan Mokhtari(参考訳) 分散データ間のプライバシと学習の2つの目標を達成するために、フェデレーション学習(fl)システムは、クライアントとサーバのセット間で、頻繁に大きなファイル(モデル更新)を交換する。 このように、flシステムは、ネットワークリソースの幅広いセットにまたがる混雑に晒されるか、あるいはその原因となる。 ロスシー圧縮は、モデル更新にノイズを加えるコストで、交換されたファイルのサイズと関連する遅延を減らすために使用できる。 クライアントの圧縮を様々なネットワーク混雑に適応させることで、FLアプリケーションはウォールクロックのトレーニング時間を短縮することができる。 そこで本研究では,ネットワーク混雑変動に対するクライアントの損失圧縮選択を動的に変化させるネットワーク適応圧縮(NAC-FL)ポリシーを提案する。 適切な仮定の下では,NAC-FLは壁時計のトレーニング時間を直接最小化する点で漸近的に最適であることを示す。 さらにシミュレーションにより,nac-flは時間的遅延に正の相関がある設定において高いゲインで頑健な性能改善を達成できることを示した。

In order to achieve the dual goals of privacy and learning across distributed data, Federated Learning (FL) systems rely on frequent exchanges of large files (model updates) between a set of clients and the server. As such FL systems are exposed to, or indeed the cause of, congestion across a wide set of network resources. Lossy compression can be used to reduce the size of exchanged files and associated delays, at the cost of adding noise to model updates. By judiciously adapting clients' compression to varying network congestion, an FL application can reduce wall clock training time. To that end, we propose a Network Adaptive Compression (NAC-FL) policy, which dynamically varies the client's lossy compression choices to network congestion variations. We prove, under appropriate assumptions, that NAC-FL is asymptotically optimal in terms of directly minimizing the expected wall clock training time. Further, we show via simulation that NAC-FL achieves robust performance improvements with higher gains in settings with positively correlated delays across time.
翻訳日:2023-01-12 14:39:29 公開日:2023-01-11
# 材料システムにおけるミクロ構造変化

Towards Microstructural State Variables in Materials Systems ( http://arxiv.org/abs/2301.04261v1 )

ライセンス: Link先を確認
Veera Sundararaghavan, Megna N. Shah, Jeff P. Simmons(参考訳) 自然界で見られる材料特性の膨大な組み合わせは、材料ミクロ構造の複雑さによって達成される。 高度なキャラクタリゼーションと物理に基づくシミュレーション技術により、非常に大きなミクロ構造データセットが生成される。 最小数の変数を用いて、マイクロ構造に関する情報の最大量をキャプチャすることで、データの複雑さを管理する機械学習技術が必要である。 本稿では,微視的画像データ削減に着目した次元性および状態変数推定手法の定式化を目的とする。 近接近傍に基づく局所次元推定は,すべてのp-ミンコフスキー距離に対する自然画像に対して一貫した次元推定を与える傾向がある。 しかし, 次元推定は低ビット深部構造像に対して系統的誤差を有することがわかった。 この問題を緩和するためのマンハッタン距離の使用が実証された。 また, 積層オートエンコーダは, 高次元構造データの生成空間を再構成し, 材料微細構造の変動性を完全に記述する状態変数のスパースセットを提供できることを示した。

The vast combination of material properties seen in nature are achieved by the complexity of the material microstructure. Advanced characterization and physics based simulation techniques have led to generation of extremely large microstructural datasets. There is a need for machine learning techniques that can manage data complexity by capturing the maximal amount of information about the microstructure using the least number of variables. This paper aims to formulate dimensionality and state variable estimation techniques focused on reducing microstructural image data. It is shown that local dimensionality estimation based on nearest neighbors tend to give consistent dimension estimates for natural images for all p-Minkowski distances. However, it is found that dimensionality estimates have a systematic error for low-bit depth microstructural images. The use of Manhattan distance to alleviate this issue is demonstrated. It is also shown that stacked autoencoders can reconstruct the generator space of high dimensional microstructural data and provide a sparse set of state variables to fully describe the variability in material microstructures.
翻訳日:2023-01-12 14:38:50 公開日:2023-01-11
# データ蒸留:調査

Data Distillation: A Survey ( http://arxiv.org/abs/2301.04272v1 )

ライセンス: Link先を確認
Noveen Sachdeva, Julian McAuley(参考訳) ディープラーニングの人気は、膨大な数の大規模で多目的なデータセットのキュレーションにつながった。 個々のタスクに人間に近いパフォーマンスがあるにもかかわらず、大規模データセット上のパラメータハングリーモデルのトレーニングは、多面的な問題を引き起こす。 (a)高モデル学習時間 (b)研究の遅さ,及び (c)エコサステナビリティの低下。 代替として、データ蒸留アプローチは、モデルのトレーニング、推論、アーキテクチャ検索など、元のデータセットの効果的なドロップイン置換として機能する、精細なデータ要約を合成することを目的としている。 本稿では,既存手法の詳細な分類法を提供するとともに,データ蒸留のための形式的枠組みを提案する。 さらに,画像,グラフ,ユーザ-イテムインタラクション(レコメンダシステム)など,さまざまなデータモダリティに対するデータ蒸留アプローチについても取り上げ,現状の課題と今後の研究方向性を明らかにした。

The popularity of deep learning has led to the curation of a vast number of massive and multifarious datasets. Despite having close-to-human performance on individual tasks, training parameter-hungry models on large datasets poses multi-faceted problems such as (a) high model-training time; (b) slow research iteration; and (c) poor eco-sustainability. As an alternative, data distillation approaches aim to synthesize terse data summaries, which can serve as effective drop-in replacements of the original dataset for scenarios like model training, inference, architecture search, etc. In this survey, we present a formal framework for data distillation, along with providing a detailed taxonomy of existing approaches. Additionally, we cover data distillation approaches for different data modalities, namely images, graphs, and user-item interactions (recommender systems), while also identifying current challenges and future research directions.
翻訳日:2023-01-12 14:38:35 公開日:2023-01-11
# 深層学習型タスク指向コミュニケーションにおける情報の時代

Age of Information in Deep Learning-Driven Task-Oriented Communications ( http://arxiv.org/abs/2301.04298v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Sennur Ulukus, Aylin Yener(参考訳) 本稿では,送信機におけるデータを利用した受信機におけるタスク実行を目的としたタスク指向通信における年齢の概念について検討する。 送信機-受信機操作は、チャネル効果を考慮して共同で訓練されたエンコーダ-デコーダ対のディープニューラルネットワーク(DNN)としてモデル化される。 エンコーダはデータサンプルを小さな次元の特徴ベクトルに変換し、少数のチャネルで送信することで、送信数とレイテンシを削減する。 入力サンプルを再構築する代わりに、デコーダは受信した信号の分類などのタスクを実行する。 MNIST と CIFAR-10 の画像データに異なる DNN を適用すると、より長いサービス時間で使用するチャンネル数で分類器の精度が向上することを示す。 受信信号が正しく分類されない限り、この年齢が大きくなると、タスク情報(PAoTI)のピーク年齢を解析するために導入する。 チャネル効果とトラヒック効果を組み込むことにより、paotiがまずどのように減少するかを特徴付けることにより、タスク指向通信のための設計ガイドラインが得られる。 動的更新機構は、チャネルや交通条件に使用するチャネルの数に適応し、タスク指向通信におけるPAoTIを減らす。

This paper studies the notion of age in task-oriented communications that aims to execute a task at a receiver utilizing the data at its transmitter. The transmitter-receiver operations are modeled as an encoder-decoder pair of deep neural networks (DNNs) that are jointly trained while considering channel effects. The encoder converts data samples into feature vectors of small dimension and transmits them with a small number of channel uses thereby reducing the number of transmissions and latency. Instead of reconstructing input samples, the decoder performs a task, e.g., classification, on the received signals. Applying different DNNs on MNIST and CIFAR-10 image data, the classifier accuracy is shown to increase with the number of channel uses at the expense of longer service time. The peak age of task information (PAoTI) is introduced to analyze this accuracy-latency tradeoff when the age grows unless a received signal is classified correctly. By incorporating channel and traffic effects, design guidelines are obtained for task-oriented communications by characterizing how the PAoTI first decreases and then increases with the number of channels uses. A dynamic update mechanism is presented to adapt the number of channel uses to channel and traffic conditions, and reduce the PAoTI in task-oriented communications.
翻訳日:2023-01-12 14:37:35 公開日:2023-01-11
# マルチモーダル地理事前学習法

A Multi-Modal Geographic Pre-Training Method ( http://arxiv.org/abs/2301.04283v1 )

ライセンス: Link先を確認
Ruixue Ding, Boli Chen, Pengjun Xie, Fei Huang, Xin Li, Qiang Zhang, Yao Xu(参考訳) 位置情報ベースのサービス(LBS)における中核的なタスク(ナビゲーションマップ、クエリと関心点(POI)マッチング)は、ユーザの意図を現実世界の地理情報と結びつける。 近年,多くの自然言語処理(NLP)タスクにおいて,事前学習モデル(PTM)が進歩している。 ジェネリックテキストベースのPTMは、クエリ-POIマッチングに十分な地理的知識を持っていない。 この制限を克服するため、関連文献は、地理関連コーパスに基づいたドメイン適応型事前学習を試みている。 しかし、クエリは一般に、近くの道路や関心のある地域(ROI)など、複数の地理的対象の言及を含んでいる。 地理的文脈(gc)、すなわちこれらの多様な地理的対象とその関係は、最も関連するpoiを取得する上で重要である。 シングルモーダルPTMは重要なGCをほとんど利用できないため、パフォーマンスが制限される。 本研究では,ジオグラフィックエンコーダとマルチモーダルインタラクションモジュールを組み合わせた,新しいクエリ-POIマッチング手法であるMulti-modal Geographic Language Model (MGeo)を提案する。 MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。 さらに、このトピックのベンチマークは公開されていない。 さらなる研究を促進するため,オープンソースの大規模ベンチマークであるGeoTES(GeoTES)を構築した。 POIは、オープンソースの地理情報システム(GIS)に由来する。 クエリは、プライバシの問題を防ぐために、アノテーションによって手動で生成される。 いくつかの強力なベースラインと比較すると,geteの広範な実験結果と詳細なアブレーション解析により,提案手法は,クエリのgcが提供されていなくても,ジェネリックptmsのクエリ-poiマッチング能力を大幅に向上できることを示した。 私たちのコードとデータセットはhttps://github.com/PhantomGrapes/MGeo.comで公開されています。

As a core task in location-based services (LBS) (e.g., navigation maps), query and point of interest (POI) matching connects users' intent with real-world geographic information. Recently, pre-trained models (PTMs) have made advancements in many natural language processing (NLP) tasks. Generic text-based PTMs do not have enough geographic knowledge for query-POI matching. To overcome this limitation, related literature attempts to employ domain-adaptive pre-training based on geo-related corpus. However, a query generally contains mentions of multiple geographic objects, such as nearby roads and regions of interest (ROIs). The geographic context (GC), i.e., these diverse geographic objects and their relationships, is therefore pivotal to retrieving the most relevant POI. Single-modal PTMs can barely make use of the important GC and therefore have limited performance. In this work, we propose a novel query-POI matching method Multi-modal Geographic language model (MGeo), which comprises a geographic encoder and a multi-modal interaction module. MGeo represents GC as a new modality and is able to fully extract multi-modal correlations for accurate query-POI matching. Besides, there is no publicly available benchmark for this topic. In order to facilitate further research, we build a new open-source large-scale benchmark Geographic TExtual Similarity (GeoTES). The POIs come from an open-source geographic information system (GIS). The queries are manually generated by annotators to prevent privacy issues. Compared with several strong baselines, the extensive experiment results and detailed ablation analyses on GeoTES demonstrate that our proposed multi-modal pre-training method can significantly improve the query-POI matching capability of generic PTMs, even when the queries' GC is not provided. Our code and dataset are publicly available at https://github.com/PhantomGrapes/MGeo.
翻訳日:2023-01-12 14:37:14 公開日:2023-01-11
# Word-Graph2vec:ランダムウォークサンプリングを用いた単語共起グラフへの効率的な単語埋め込み手法

Word-Graph2vec: An efficient word embedding approach on word co-occurrence graph using random walk sampling ( http://arxiv.org/abs/2301.04312v1 )

ライセンス: Link先を確認
Wenting Li and Yuanzhe Cai and Zeyu Chen(参考訳) 単語の埋め込みはユビキタスになり、情報検索、意味分析、機械翻訳など、様々なテキストマイニングや自然言語処理(NLP)タスクで広く使われている。 残念ながら、比較的大きなコーパスに埋め込まれた単語を訓練するのは極めて高価である。 そこで本研究では,大小コーパスを単語共起グラフに変換し,ランダムに移動して単語列サンプルを取り,最後にこのサンプリングコーパスに埋め込まれた単語を訓練する,グラフベースの単語埋め込みアルゴリズムであるword-graph2vecを提案する。 英語における安定語彙,相対イディオム,固定表現により,単語共起グラフの大きさと密度は,学習コーパスの増加とともにわずかに変化することが示唆された。 したがって、Word-Graph2vecは大規模データセット上で安定したランタイムを持ち、そのパフォーマンス上の優位性は、トレーニングコーパスの成長とともにますます明確になる。 実世界のデータセットを用いた広範囲な実験により,提案アルゴリズムは従来のスキップグラムを4~5倍効率で上回り,ランダムウォークサンプリングによる誤差は小さいことがわかった。

Word embedding has become ubiquitous and is widely used in various text mining and natural language processing (NLP) tasks, such as information retrieval, semantic analysis, and machine translation, among many others. Unfortunately, it is prohibitively expensive to train the word embedding in a relatively large corpus. We propose a graph-based word embedding algorithm, called Word-Graph2vec, which converts the large corpus into a word co-occurrence graph, then takes the word sequence samples from this graph by randomly traveling and trains the word embedding on this sampling corpus in the end. We posit that because of the stable vocabulary, relative idioms, and fixed expressions in English, the size and density of the word co-occurrence graph change slightly with the increase in the training corpus. So that Word-Graph2vec has stable runtime on the large scale data set, and its performance advantage becomes more and more obvious with the growth of the training corpus. Extensive experiments conducted on real-world datasets show that the proposed algorithm outperforms traditional Skip-Gram by four-five times in terms of efficiency, while the error generated by the random walk sampling is small.
翻訳日:2023-01-12 14:36:44 公開日:2023-01-11
# 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト

Counteracts: Testing Stereotypical Representation in Pre-trained Language Models ( http://arxiv.org/abs/2301.04347v1 )

ライセンス: Link先を確認
Damin Zhang(参考訳) 言語モデルは様々な自然言語理解タスクにおいて強力な性能を示している。 人間と同じように、言語モデルはトレーニングデータから学習される独自のバイアスを持つこともできる。 より下流のタスクがパイプラインの一部として言語モデルを統合するにつれて、内部のステレオタイプ表現と、負の効果を軽減する方法を理解する必要がある。 本稿では,反例を用いた事前学習言語モデルの内部ステレオタイプ表現を簡易に検証する手法を提案する。 主にジェンダーバイアスに焦点をあてたが、この方法は他のタイプのバイアスにも拡張できる。 知識とベースプロンプトからなる9種類のクローゼスタイルプロンプトのモデルを評価した。 以上の結果から,事前学習された言語モデルでは,無関係な知識を用いた場合,一定の頑健さを示し,語の位置や構文構造といった浅い言語手がかりを好み,内的ステレオタイプ表現を変化させることができた。 このような発見は、言語モデルを微調整と評価の両方のための中立的なアプローチで操作する方法に光を当てた。

Language models have demonstrated strong performance on various natural language understanding tasks. Similar to humans, language models could also have their own bias that is learned from the training data. As more and more downstream tasks integrate language models as part of the pipeline, it is necessary to understand the internal stereotypical representation and the methods to mitigate the negative effects. In this paper, we proposed a simple method to test the internal stereotypical representation in pre-trained language models using counterexamples. We mainly focused on gender bias, but the method can be extended to other types of bias. We evaluated models on 9 different cloze-style prompts consisting of knowledge and base prompts. Our results indicate that pre-trained language models show a certain amount of robustness when using unrelated knowledge, and prefer shallow linguistic cues, such as word position and syntactic structure, to alter the internal stereotypical representation. Such findings shed light on how to manipulate language models in a neutral approach for both finetuning and evaluation.
翻訳日:2023-01-12 14:36:21 公開日:2023-01-11
# Hyper Transformer を用いた連続的なFew-Shot学習

Continual Few-Shot Learning Using HyperTransformers ( http://arxiv.org/abs/2301.04584v1 )

ライセンス: Link先を確認
Max Vladymyrov, Andrey Zhmoginov, Mark Sandler(参考訳) 我々は、複数のタスクが順次やってくることを忘れることなく学習する問題に焦点を当て、各タスクは、ノベルまたは既に見られるクラスの数発のエピソードを使って定義される。 我々は最近発表されたHyperTransformer (HT) を用いてこの問題にアプローチする。これはTransformerベースのハイパーネットワークで、サポートセットから直接特定のタスク固有のCNN重みを生成する。 タスクの連続的なシーケンスから学習するために、生成した重みを次のタスクのHTへの入力として再帰的に再利用することを提案する。 このようにして生成されたCNNウェイトは、以前に学習したタスクの表現として機能し、HTは、過去のタスクを忘れずに新しいタスクを学習できるように、これらの重みを更新するように訓練される。 このアプローチは、通常、リプレイバッファの使用、重み付け正規化、タスク依存アーキテクチャの変更に依存するほとんどの連続的な学習アルゴリズムとは異なる。 提案手法は,ミニバッチからの学習,タスクインクリメンタルおよびクラスインクリメンタルな学習シナリオなど,様々なシナリオで過去のタスクに関する知識を学習し保持することができる。

We focus on the problem of learning without forgetting from multiple tasks arriving sequentially, where each task is defined using a few-shot episode of novel or already seen classes. We approach this problem using the recently published HyperTransformer (HT), a Transformer-based hypernetwork that generates a specialized task-specific CNN weights directly from the support set. In order to learn from a continual sequence of task, we propose to recursively re-use the generated weights as input to the HT for the next task. This way, the generated CNN weights themselves act as a representation of previously learned tasks, and the HT is trained to update these weights so that the new task can be learned without forgetting past tasks. This approach is different from most continual learning algorithms that typically rely on using replay buffers, weight regularization or task-dependent architectural changes. We demonstrate that our proposed Continual HyperTransformer method equipped with a prototypical loss is capable of learning and retaining knowledge about past tasks for a variety of scenarios, including learning from mini-batches, and task-incremental and class-incremental learning scenarios.
翻訳日:2023-01-12 14:30:34 公開日:2023-01-11
# パディングモジュール:深層ニューラルネットワークにおけるパディングの学習

Padding Module: Learning the Padding in Deep Neural Networks ( http://arxiv.org/abs/2301.04608v1 )

ライセンス: Link先を確認
Fahad Alrasheedi, Xin Zhong, Pei-Chi Huang(参考訳) 過去数十年間、ネットワークアーキテクチャ、初期化、アクティベーションなど、ニューラルネットワークのパフォーマンス向上に多くの研究が費やされてきた。 しかし、深層学習における学習可能なパディング法の重要性と効果については比較的オープンである。 本稿では,このギャップを緩和するために,ディープラーニングモデルに配置可能な,新しいトレーニング可能なパディングモジュールを提案する。 パディングモジュールは、モデル全体の損失関数を必要とせずに最適化することができる。 自分自身を訓練するために、パディングモジュールは、入力データの基盤構造を利用して、入力から基底真理と予測器を構成する。 その結果、パディングモジュールは、入力画像の境界やフィーチャーマップにピクセルをパディングするために自動的に学習することができる。 パディング内容は入力データに対する現実的な拡張であり、同時にディープラーニングモデルの下流タスクを促進する。 実験により、提案されたパディングモジュールは最先端の競合相手やベースラインメソッドよりも優れていることが示されている。 例えば、パディングモジュールはVGG16とResNet50でテストした場合、ゼロパディングよりも1.23%と0.44%高い分類精度を持つ。

During the last decades, many studies have been dedicated to improving the performance of neural networks, for example, the network architectures, initialization, and activation. However, investigating the importance and effects of learnable padding methods in deep learning remains relatively open. To mitigate the gap, this paper proposes a novel trainable Padding Module that can be placed in a deep learning model. The Padding Module can optimize itself without requiring or influencing the model's entire loss function. To train itself, the Padding Module constructs a ground truth and a predictor from the inputs by leveraging the underlying structure in the input data for supervision. As a result, the Padding Module can learn automatically to pad pixels to the border of its input images or feature maps. The padding contents are realistic extensions to its input data and simultaneously facilitate the deep learning model's downstream task. Experiments have shown that the proposed Padding Module outperforms the state-of-the-art competitors and the baseline methods. For example, the Padding Module has 1.23% and 0.44% more classification accuracy than the zero padding when tested on the VGG16 and ResNet50.
翻訳日:2023-01-12 14:30:14 公開日:2023-01-11
# 知識に基づく視覚質問応答のためのマルチモーダル逆クローズタスク

Multimodal Inverse Cloze Task for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2301.04366v1 )

ライセンス: Link先を確認
Paul Lerner, Olivier Ferret, Camille Guinaudeau(参考訳) 本稿では,知識ベースで名前付きエンティティ(KVQAE)に関する視覚質問応答を行うための,新しい事前学習手法であるMultimodal Inverse Cloze Taskを提案する。 KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。 したがって、モダリティ間の相互作用は情報を取得するのに最重要であり、複雑な融合モデルで捉える必要がある。 これらのモデルは大量のトレーニングデータを必要とするため、テキスト質問回答における既存の作業から事前学習タスクを設計する。 文を擬似検索として、文脈を擬似関連通路として考慮し、マルチモーダル文書のテキスト近傍の画像を考察することによって拡張する。 提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 事前学習ベースライン上での検索および読解において, 9%の相対MRRと15%の相対F1ゲインが得られる。

We present a new pre-training method, Multimodal Inverse Cloze Task, for Knowledge-based Visual Question Answering about named Entities (KVQAE). KVQAE is a recently introduced task that consists in answering questions about named entities grounded in a visual context using a Knowledge Base. Therefore, the interaction between the modalities is paramount to retrieve information and must be captured with complex fusion models. As these models require a lot of training data, we design this pre-training task from existing work in textual Question Answering. It consists in considering a sentence as a pseudo-question and its context as a pseudo-relevant passage and is extended by considering images near texts in multimodal documents. Our method is applicable to different neural network architectures and leads to a 9% relative-MRR and 15% relative-F1 gain for retrieval and reading comprehension, respectively, over a no-pre-training baseline.
翻訳日:2023-01-12 14:29:39 公開日:2023-01-11
# 音声強調のための自己教師型音声表現に基づく損失関数の知覚と予測

Perceive and predict: self-supervised speech representation based loss functions for speech enhancement ( http://arxiv.org/abs/2301.04388v1 )

ライセンス: Link先を確認
George Close, William Ravenscroft, Thomas Hain and Stefan Goetze(参考訳) 音声強調領域における最近の研究は、自己教師付き音声表現を用いて、ニューラル音声強調モデルの訓練を支援している。 しかし、この研究の多くは、以前の特徴符号化よりも、自己教師付き音声表現モデルの最も深い出力や最終的な出力の使用に焦点を当てている。 このような自己監督表現の使用は、しばしば完全に動機づけられていない。 本研究は,クリーン音声とノイズ音声の特徴エンコーディングの距離が,人間の平均オピニオンスコア(MOS)評価とともに,心理音響学的に動機付けられた音声品質と聞きやすさの尺度と強く相関していることを示す。 この距離を損失関数として用いた実験を行い、音声品質知覚評価(pesq)や短時間客観知性(stoi)などの客観的尺度を用いて、音声強調文献から、stftスペクトログラム距離に基づく損失およびその他の共通損失関数を用いた場合の性能向上を実証した。

Recent work in the domain of speech enhancement has explored the use of self-supervised speech representations to aid in the training of neural speech enhancement models. However, much of this work focuses on using the deepest or final outputs of self supervised speech representation models, rather than the earlier feature encodings. The use of self supervised representations in such a way is often not fully motivated. In this work it is shown that the distance between the feature encodings of clean and noisy speech correlate strongly with psychoacoustically motivated measures of speech quality and intelligibility, as well as with human Mean Opinion Score (MOS) ratings. Experiments using this distance as a loss function are performed and improved performance over the use of STFT spectrogram distance based loss as well as other common loss functions from speech enhancement literature is demonstrated using objective measures such as perceptual evaluation of speech quality (PESQ) and short-time objective intelligibility (STOI).
翻訳日:2023-01-12 14:29:23 公開日:2023-01-11
# 連続環境における視覚・言語ナビゲーションのためのグラフベース環境表現

Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2301.04352v1 )

ライセンス: Link先を確認
Ting Wang, Zongkai Wu, Feiyu Yao, Donglin Wang(参考訳) VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。 環境の理解はvln-ceタスクの重要な部分であるが、既存の方法は言語命令と視覚環境の関係を考慮せずに、環境を理解するための比較的単純で直接的な方法である。 そこで我々は,上記の問題を解決するために,新しい環境表現を提案する。 まず,オブジェクト検出による環境表現グラフ(erg)を提案し,環境を意味レベルで表現する。 この操作は言語と環境の関係を高める。 次に、ERGにおけるオブジェクトオブジェクト、オブジェクトエージェントのリレーショナル表現をGCNを通して学習し、ERGに関する連続表現を得る。 次に,ERG表現とオブジェクトラベルの埋め込みを組み合わせ,環境表現を得る。 最後に,環境表現とerg訓練に特化した特殊損失関数を組み込んだ新しいクロスモーダルアテンションナビゲーションフレームワークを提案する。 実験の結果, vln-ceタスクの成功率から, 良好な性能が得られることがわかった。 さらなる分析により,本手法はより優れたクロスモーダルマッチングと強力な一般化能力が得られることが示された。

Vision-and-Language Navigation in Continuous Environments (VLN-CE) is a navigation task that requires an agent to follow a language instruction in a realistic environment. The understanding of environments is a crucial part of the VLN-CE task, but existing methods are relatively simple and direct in understanding the environment, without delving into the relationship between language instructions and visual environments. Therefore, we propose a new environment representation in order to solve the above problems. First, we propose an Environment Representation Graph (ERG) through object detection to express the environment in semantic level. This operation enhances the relationship between language and environment. Then, the relational representations of object-object, object-agent in ERG are learned through GCN, so as to obtain a continuous expression about ERG. Sequentially, we combine the ERG expression with object label embeddings to obtain the environment representation. Finally, a new cross-modal attention navigation framework is proposed, incorporating our environment representation and a special loss function dedicated to training ERG. Experimental result shows that our method achieves satisfactory performance in terms of success rate on VLN-CE tasks. Further analysis explains that our method attains better cross-modal matching and strong generalization ability.
翻訳日:2023-01-12 14:28:31 公開日:2023-01-11
# 映像予測ネットワークを用いた都市交通シーンのアロ中心交通網予測

Allo-centric Occupancy Grid Prediction for Urban Traffic Scene Using Video Prediction Networks ( http://arxiv.org/abs/2301.04454v1 )

ライセンス: Link先を確認
Rabbia Asghar, Lukas Rummelhard, Anne Spalanzani, Christian Laugier(参考訳) 動的環境の予測は、自動運転車の安全なナビゲーションに不可欠である。 都市交通シーンは、車両や脆弱な道路利用者など、様々なダイナミックエージェント間の複雑な相互作用のため、特に予測が難しい。 従来のアプローチでは、動的環境の表現と予測にエゴセントリックな占有グリッドマップを使用していた。 しかし、これらの予測はぼやけ、順番にシーン構造が失われ、より長い予測地平線を越えてエージェントの消失に苦しむ。 本研究では,アロ中心の占有グリッドと呼ばれる固定フレーム内のトラヒックシーンを表現し,長期予測を行うための新しい枠組みを提案する。 これにより、静的なシーンを固定し、他のエージェントのようにグリッド上のエゴ車の動きを表現することができる。 我々は、異なるビデオ予測ネットワークを用いてアロ中心グリッド予測を調査し、実世界のNuscenesデータセットに対するアプローチを検証する。 その結果,allo中心のグリッド表現は,従来のego中心のグリッド手法と比較して,シーン予測を大幅に改善することがわかった。

Prediction of dynamic environment is crucial to safe navigation of an autonomous vehicle. Urban traffic scenes are particularly challenging to forecast due to complex interactions between various dynamic agents, such as vehicles and vulnerable road users. Previous approaches have used egocentric occupancy grid maps to represent and predict dynamic environments. However, these predictions suffer from blurriness, loss of scene structure at turns, and vanishing of agents over longer prediction horizon. In this work, we propose a novel framework to make long-term predictions by representing the traffic scene in a fixed frame, referred as allo-centric occupancy grid. This allows for the static scene to remain fixed and to represent motion of the ego-vehicle on the grid like other agents'. We study the allo-centric grid prediction with different video prediction networks and validate the approach on the real-world Nuscenes dataset. The results demonstrate that the allo-centric grid representation significantly improves scene prediction, in comparison to the conventional ego-centric grid approach.
翻訳日:2023-01-12 14:28:11 公開日:2023-01-11
# SoK:マルチエージェント強化学習における敵対的機械学習攻撃と防御

SoK: Adversarial Machine Learning Attacks and Defences in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2301.04299v1 )

ライセンス: Link先を確認
Maxwell Standen, Junae Kim, Claudia Szabo(参考訳) MARL(Multi-Agent Reinforcement Learning)は、AML(Adversarial Machine Learning)攻撃に対して脆弱であり、現実世界のアプリケーションで使用する前に適切な防御が必要である。 我々は,MARLに対する実行時AML攻撃とそれらの攻撃に対する防御について調査を行った。 深層強化学習(DRL)とマルチエージェント学習(MAL)におけるAMLの適用に関する関連研究を調査し,MARLに対するAMLの分析結果を報告する。 本稿では,攻撃ベクトルの定義により,AML攻撃の実施方法を理解する新しい視点を提案する。 我々は、現在のモデリングフレームワークのギャップに対処する2つの新しいフレームワークを開発し、MARLに対するAML攻撃の手段とテンポに注目し、知識ギャップと今後の研究方法を特定する。

Multi-Agent Reinforcement Learning (MARL) is vulnerable to Adversarial Machine Learning (AML) attacks and needs adequate defences before it can be used in real world applications. We have conducted a survey into the use of execution-time AML attacks against MARL and the defences against those attacks. We surveyed related work in the application of AML in Deep Reinforcement Learning (DRL) and Multi-Agent Learning (MAL) to inform our analysis of AML for MARL. We propose a novel perspective to understand the manner of perpetrating an AML attack, by defining Attack Vectors. We develop two new frameworks to address a gap in current modelling frameworks, focusing on the means and tempo of an AML attack against MARL, and identify knowledge gaps and future avenues of research.
翻訳日:2023-01-12 14:27:55 公開日:2023-01-11
# 不均一かつ関連性のあるクライアントアベイラビリティ下でのフェデレーション学習

Federated Learning under Heterogeneous and Correlated Client Availability ( http://arxiv.org/abs/2301.04632v1 )

ライセンス: Link先を確認
Angelo Rodio, Francescomaria Faticanti, Othmane Marfoq, Giovanni Neglia, Emilio Leonardi(参考訳) モバイルとIoTデバイスが生成する膨大な量のデータは、これらのデバイス(あるいはクライアント)がローカルデータを共有せずに機械学習モデルを協調的にトレーニングできるフレームワークであるフェデレーションドラーニング(FL)の開発を動機付けている。 FLアルゴリズム(FedAvgなど)は、クライアントが自身のデータセットで計算したモデル更新を反復的に集約する。 クライアントは異なるレベルの参加を示し、しばしば時間とともに他のクライアントと関連付けられる。 本稿では,FedAvg-like FLアルゴリズムに対する不均一かつ相関のあるクライアント可用性下での最初の収束解析について述べる。 分析では,相関がアルゴリズムの収束率にどのように悪影響を及ぼすか,凝集戦略が偏りのあるモデルに対する操舵訓練のコストでこの効果を緩和するかを強調した。 理論解析により,収束速度の最大化とモデルバイアスの最小化という相反する目標のバランスをとろうとする新しいflアルゴリズムであるca-fedを提案する。 この目的のために、CA-Fedは各クライアントに与えられる重みを動的に適応させ、可用性が低く大きな相関関係を持つクライアントを無視する。 実験の結果,CA-Fedは,合成データセットと実データセットの両方で,最先端のAdaFedやF3ASTよりも平均時間精度が高く,標準偏差も低いことがわかった。

The enormous amount of data produced by mobile and IoT devices has motivated the development of federated learning (FL), a framework allowing such devices (or clients) to collaboratively train machine learning models without sharing their local data. FL algorithms (like FedAvg) iteratively aggregate model updates computed by clients on their own datasets. Clients may exhibit different levels of participation, often correlated over time and with other clients. This paper presents the first convergence analysis for a FedAvg-like FL algorithm under heterogeneous and correlated client availability. Our analysis highlights how correlation adversely affects the algorithm's convergence rate and how the aggregation strategy can alleviate this effect at the cost of steering training toward a biased model. Guided by the theoretical analysis, we propose CA-Fed, a new FL algorithm that tries to balance the conflicting goals of maximizing convergence speed and minimizing model bias. To this purpose, CA-Fed dynamically adapts the weight given to each client and may ignore clients with low availability and large correlation. Our experimental results show that CA-Fed achieves higher time-average accuracy and a lower standard deviation than state-of-the-art AdaFed and F3AST, both on synthetic and real datasets.
翻訳日:2023-01-12 14:27:40 公開日:2023-01-11
# 半教師付き分類指向グラフ畳み込みネットワークのノード選択

Determinate Node Selection for Semi-supervised Classification Oriented Graph Convolutional Networks ( http://arxiv.org/abs/2301.04381v1 )

ライセンス: Link先を確認
Yao Xiao, Ji Xu, Jing Yang, Shaobo Li(参考訳) グラフ畳み込みネットワーク(gcns)は、グラフデータから構造情報を抽出し、半教師付きノード分類の分野で成功している。 しかし、GCNが使用するラベル付きノードのランダムな選択は、GCNの不安定な一般化性能をもたらす可能性がある。 本稿では,ラベル付きノードを決定論的に選択する効率的な手法として,決定ノード選択(DNS)アルゴリズムを提案する。 DNSアルゴリズムは、典型的なノードと発散ノードの2つのカテゴリを識別する。 これらのラベル付きノードは、グラフの構造を探索し、グラフ内のデータの分布を表すノードの能力を決定することで選択される。 DNSアルゴリズムは、ノード分類タスクのための幅広い半教師付きグラフニューラルネットワークモデルに適用することができる。 実験により, DNSアルゴリズムの導入により, モデルの平均精度が著しく向上し, 標準偏差が大幅に低下することが実証された。

Graph Convolutional Networks (GCNs) have been proved successful in the field of semi-supervised node classification by extracting structural information from graph data. However, the random selection of labeled nodes used by GCNs may lead to unstable generalization performance of GCNs. In this paper, we propose an efficient method for the deterministic selection of labeled nodes: the Determinate Node Selection (DNS) algorithm. The DNS algorithm identifies two categories of representative nodes in the graph: typical nodes and divergent nodes. These labeled nodes are selected by exploring the structure of the graph and determining the ability of the nodes to represent the distribution of data within the graph. The DNS algorithm can be applied quite simply on a wide range of semi-supervised graph neural network models for node classification tasks. Through extensive experimentation, we have demonstrated that the incorporation of the DNS algorithm leads to a remarkable improvement in the average accuracy of the model and a significant decrease in the standard deviation, as compared to the original method.
翻訳日:2023-01-12 14:21:40 公開日:2023-01-11
# 幾何学的分離に基づく不確かさ推定

Uncertainty Estimation based on Geometric Separation ( http://arxiv.org/abs/2301.04452v1 )

ライセンス: Link先を確認
Gabriella Chouraqui and Liron Cohen and Gil Einziger and Liel Leman(参考訳) 機械学習では、特定の入力が正しい確率を正確に予測することがリスク管理に不可欠である。 このプロセスは不確実性(あるいは信頼)推定と呼ばれ、自律運転のようなミッションクリティカルな応用において特に重要である。 本研究では,機械学習モデルにおける不確実性推定を改善するための幾何学的手法を提案する。 提案手法では,既存のトレーニング入力から入力される電流の幾何学的距離を不確実性推定信号として使用し,標準ポストホック法を用いて信号の校正を行う。 提案手法は,様々なデータセットやモデルに対する広範囲な評価を通じて,最近提案された手法よりも精度の高い不確実性推定につながることを示す。 さらに、このアプローチを最適化して、リアルタイムに近いアプリケーションで大規模なデータセットに実装できるようにし、時間に敏感なシナリオに適したものにしています。

In machine learning, accurately predicting the probability that a specific input is correct is crucial for risk management. This process, known as uncertainty (or confidence) estimation, is particularly important in mission-critical applications such as autonomous driving. In this work, we put forward a novel geometric-based approach for improving uncertainty estimations in machine learning models. Our approach involves using the geometric distance of the current input from existing training inputs as a signal for estimating uncertainty, and then calibrating this signal using standard post-hoc techniques. We demonstrate that our method leads to more accurate uncertainty estimations than recently proposed approaches through extensive evaluation on a variety of datasets and models. Additionally, we optimize our approach so that it can be implemented on large datasets in near real-time applications, making it suitable for time-sensitive scenarios.
翻訳日:2023-01-12 14:21:13 公開日:2023-01-11
# ロバストベイズ目標値最適化

Robust Bayesian Target Value Optimization ( http://arxiv.org/abs/2301.04344v1 )

ライセンス: Link先を確認
Johannes G. Hoffer and Sascha Ranftl and Bernhard C. Geiger(参考訳) 確率的ブラックボックス関数への入力をブラックボックス関数のスカラー出力が期待される2乗誤差の意味で可能な限りターゲット値に近づくような問題を考える。 確率的ブラックボックスの最適化は(ロバストな)ベイズ最適化において古典的であるが、ガウス過程に基づく現在のアプローチはどちらも主に焦点を当てている。 一 目標値の最適化よりも最大化及び最小化 二 制御不能な環境変数の確率性による出力変動を無視して、出力のばらつきを期待するが、変動しないさま。 本研究では,このギャップを埋め,期待値の改善,改善確率,信頼度率の低さといった共通基準に対する獲得関数を導出し,アレエータ効果が既知のばらつきを持つガウス型であると仮定する。 実験により、この設定はガウス過程のある種の拡張と互換性があることを示し、従って導出した取得関数は、後者の仮定に違反しても古典的ベイズ最適化よりも優れていることを示した。 ビレット鍛造の産業用ユースケースが提示される。

We consider the problem of finding an input to a stochastic black box function such that the scalar output of the black box function is as close as possible to a target value in the sense of the expected squared error. While the optimization of stochastic black boxes is classic in (robust) Bayesian optimization, the current approaches based on Gaussian processes predominantly focus either on i) maximization/minimization rather than target value optimization or ii) on the expectation, but not the variance of the output, ignoring output variations due to stochasticity in uncontrollable environmental variables. In this work, we fill this gap and derive acquisition functions for common criteria such as the expected improvement, the probability of improvement, and the lower confidence bound, assuming that aleatoric effects are Gaussian with known variance. Our experiments illustrate that this setting is compatible with certain extensions of Gaussian processes, and show that the thus derived acquisition functions can outperform classical Bayesian optimization even if the latter assumptions are violated. An industrial use case in billet forging is presented.
翻訳日:2023-01-12 14:20:51 公開日:2023-01-11
# 量子時間差学習の解析

An Analysis of Quantile Temporal-Difference Learning ( http://arxiv.org/abs/2301.04462v1 )

ライセンス: Link先を確認
Mark Rowland, R\'emi Munos, Mohammad Gheshlaghi Azar, Yunhao Tang, Georg Ostrovski, Anna Harutyunyan, Karl Tuyls, Marc G. Bellemare, Will Dabney(参考訳) 大規模強化学習の大規模応用において重要な要素であることが証明された分散強化学習アルゴリズムである量子時間差分学習(QTD)を解析する。 これらの経験的な成功にもかかわらず、QTDに関する理論的理解はこれまでにも発覚している。 標準的な確率近似ツールで解析できる古典的TD学習とは異なり、QTD更新は縮約写像を近似せず、非常に非線形であり、複数の固定点を持つ。 本論文の中核的な結果は、確率 1 で関連する動的プログラミング手順のファミリーの固定点への収束の証明であり、QTD をしっかりとした理論的な足場に配置する。 この証明は確率近似理論と非滑らか解析を通じてQTDと非線形微分包含物の間の関係を確立する。

We analyse quantile temporal-difference learning (QTD), a distributional reinforcement learning algorithm that has proven to be a key component in several successful large-scale applications of reinforcement learning. Despite these empirical successes, a theoretical understanding of QTD has proven elusive until now. Unlike classical TD learning, which can be analysed with standard stochastic approximation tools, QTD updates do not approximate contraction mappings, are highly non-linear, and may have multiple fixed points. The core result of this paper is a proof of convergence to the fixed points of a related family of dynamic programming procedures with probability 1, putting QTD on firm theoretical footing. The proof establishes connections between QTD and non-linear differential inclusions through stochastic approximation theory and non-smooth analysis.
翻訳日:2023-01-12 14:20:34 公開日:2023-01-11
# vs-net: 軽量ビデオサルエント文書検出のためのマルチスケール時空間機能

VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient Document Detection ( http://arxiv.org/abs/2301.04447v1 )

ライセンス: Link先を確認
Hemraj Singh, Mridula Verma, Ramalingaswamy Cheruku(参考訳) ビデオ・サリエント文書検出(VSDD)は,映像フレーム内の視覚的サリエント文書領域の強調を目的とした,実用的なコンピュータビジョンの必須課題である。 従来のVSDDのテクニックは、外観や動作手段間の協調を考慮せずに学習機能に重点を置いており、現実的なシナリオでは実行できない。 さらに,従来の手法では高い計算資源が要求されるため,そのようなシステムの利用が制限される。 これらの問題に対処するために,拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時空間情報をキャプチャするVS-Netを提案する。 vs-netは、各フレームから各部分空間にまたがる重要な機能をローカルに抽出し、隣接ノードと並列ノードの間で機能を転送し、モデルパフォーマンスをグローバルに向上させる。 我々のモデルでは,背景と前景の両方を同時に考慮し,サルジェンシーマップを生成する。 MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。

Video Salient Document Detection (VSDD) is an essential task of practical computer vision, which aims to highlight visually salient document regions in video frames. Previous techniques for VSDD focus on learning features without considering the cooperation among and across the appearance and motion cues and thus fail to perform in practical scenarios. Moreover, most of the previous techniques demand high computational resources, which limits the usage of such systems in resource-constrained settings. To handle these issues, we propose VS-Net, which captures multi-scale spatiotemporal information with the help of dilated depth-wise separable convolution and Approximation Rank Pooling. VS-Net extracts the key features locally from each frame across embedding sub-spaces and forwards the features between adjacent and parallel nodes, enhancing model performance globally. Our model generates saliency maps considering both the background and foreground simultaneously, making it perform better in challenging scenarios. The immense experiments regulated on the benchmark MIDV-500 dataset show that the VS-Net model outperforms state-of-the-art approaches in both time and robustness measures.
翻訳日:2023-01-12 14:19:48 公開日:2023-01-11
# 異種トリストリームクラスタリングネットワーク

Heterogeneous Tri-stream Clustering Network ( http://arxiv.org/abs/2301.04451v1 )

ライセンス: Link先を確認
Xiaozhi Deng, Dong Huang, Chang-Dong Wang(参考訳) 対照的なディープクラスタリングは、ディープニューラルネットワークによるコントラスト学習とクラスタリング機能によって、最近大きな注目を集めている。 急速な進歩にもかかわらず、従来の研究は比較的大きなバッチサイズに依存する対照的なクラスタリングのために、正と負の両方のサンプルペアを必要としていた。 さらに、一般的に2つの拡張ビューを持つ2ストリームアーキテクチャを採用しており、これはマルチストリームアーキテクチャ(特に異種ネットワークやハイブリッドネットワーク)の可能性と潜在的な利点を見落としている。 そこで本研究では,Herogeneous Tri-stream Clustering Network (HTCN) と呼ばれる新しいエンドツーエンドのディープクラスタリング手法を提案する。 HTCNのトリストリームアーキテクチャは、2つの重み付けオンラインネットワークとターゲットネットワークを含む3つの主要コンポーネントで構成されており、ターゲットネットワークのパラメータはオンラインネットワークの指数的な移動平均である。 特筆すべきは 2つのオンラインネットワークは同時に (i)対象ネットワークのインスタンス表現の予測と (2)ターゲットネットワークのクラスタ表現と2つのオンラインネットワークのクラスタ表現との整合性を確保する。 4つの挑戦的な画像データセットの実験結果は、最先端のディープクラスタリングアプローチよりもHTCNの方が優れていることを示している。 コードはhttps://github.com/dengxiaozhi/htcnで入手できる。

Contrastive deep clustering has recently gained significant attention with its ability of joint contrastive learning and clustering via deep neural networks. Despite the rapid progress, previous works mostly require both positive and negative sample pairs for contrastive clustering, which rely on a relative large batch-size. Moreover, they typically adopt a two-stream architecture with two augmented views, which overlook the possibility and potential benefits of multi-stream architectures (especially with heterogeneous or hybrid networks). In light of this, this paper presents a new end-to-end deep clustering approach termed Heterogeneous Tri-stream Clustering Network (HTCN). The tri-stream architecture in HTCN consists of three main components, including two weight-sharing online networks and a target network, where the parameters of the target network are the exponential moving average of that of the online networks. Notably, the two online networks are trained by simultaneously (i) predicting the instance representations of the target network and (ii) enforcing the consistency between the cluster representations of the target network and that of the two online networks. Experimental results on four challenging image datasets demonstrate the superiority of HTCN over the state-of-the-art deep clustering approaches. The code is available at https://github.com/dengxiaozhi/HTCN.
翻訳日:2023-01-12 14:19:28 公開日:2023-01-11
# 効率的な推論のためのpruning compact convnet

Pruning Compact ConvNets for Efficient Inference ( http://arxiv.org/abs/2301.04502v1 )

ライセンス: Link先を確認
Sayan Ghosh, Karthik Prasad, Xiaoliang Dai, Peizhao Zhang, Bichen Wu, Graham Cormode, Peter Vajda(参考訳) ニューラルネットワークのプルーニングは、オーバーパラメータネットワークを大量に圧縮するために頻繁に使用され、一般化性能に限界的な低下しか発生しない。 しかし、効率的な推論のために高度に最適化されたネットワークに対するプルーニングの影響は、それほど注目されていない。 本稿では,コンピュータビジョンにおけるプルーニングの効果を分析し,fbnetv3ファミリーなどの最先端のコンブネットについて検討する。 nas(neural architecture search)によってトレーニングされたネットワークをさらに最適化するために,モデルプルーニングアプローチが利用できることを示す。 その結果,既存のFBNetV3モデルよりも高い性能が得られるようになり,画像Netベンチマークで計算複雑性と一般化性能のトレードオフを行う場合の最先端結果が得られる。 一般化性能の向上に加えて、限られた計算資源が利用できる場合、FBNetV3モデルはフルスケールNASの実行に関わるGPU時間のごく一部しか発生しないことを示した。

Neural network pruning is frequently used to compress over-parameterized networks by large amounts, while incurring only marginal drops in generalization performance. However, the impact of pruning on networks that have been highly optimized for efficient inference has not received the same level of attention. In this paper, we analyze the effect of pruning for computer vision, and study state-of-the-art ConvNets, such as the FBNetV3 family of models. We show that model pruning approaches can be used to further optimize networks trained through NAS (Neural Architecture Search). The resulting family of pruned models can consistently obtain better performance than existing FBNetV3 models at the same level of computation, and thus provide state-of-the-art results when trading off between computational complexity and generalization performance on the ImageNet benchmark. In addition to better generalization performance, we also demonstrate that when limited computation resources are available, pruning FBNetV3 models incur only a fraction of GPU-hours involved in running a full-scale NAS.
翻訳日:2023-01-12 14:19:09 公開日:2023-01-11
# 環境からの教師なし参照モデルは連続学習に役立つ

A Distinct Unsupervised Reference Model From The Environment Helps Continual Learning ( http://arxiv.org/abs/2301.04506v1 )

ライセンス: Link先を確認
Seyyed AmirHossein Ameli Kalkhoran, Mohammadamin Banayeeanzade, Mahdi Samiei, Mahdieh Soleymani Baghshah(参考訳) 既存の連続学習法は、主に完全に教師ありのシナリオに焦点を当てており、まだ環境に利用可能なラベルなしのデータを活用できない。 最近の研究は、ラベル付きデータが利用可能である半教師付き連続学習(SSCL)の設定を調査しようとしたが、ラベル付きデータと同じ分布である。 この仮定はいまだに現実世界のアプリケーションには不十分であり、教師なしデータの利用を制限する。 本研究は,OoD (out-of-distribution) の非ラベルサンプルを非配布サンプルと共存させる,より現実的な半教師付き連続学習環境であるOSSCLを紹介する。 この構成では、2つの異なる部分を持つモデルを示す。 i) 参照ネットワークは、未ラベルサンプルの幅広いスペクトルを用いて、環境における汎用的およびタスク非依存的な知識をキャプチャする。 (ii)学習者ネットワークは教師付きサンプルを利用してタスク固有の表現を学習するように設計されている。 参照モデルはどちらもピボット表現空間を提供し、ラベルのないデータを分離してより効率的に活用する。 多様な実験を行うことで,他の競合モデルと比較して,モデルの性能が優れており,提案モデルの各コンポーネントの有効性が証明されている。

The existing continual learning methods are mainly focused on fully-supervised scenarios and are still not able to take advantage of unlabeled data available in the environment. Some recent works tried to investigate semi-supervised continual learning (SSCL) settings in which the unlabeled data are available, but it is only from the same distribution as the labeled data. This assumption is still not general enough for real-world applications and restricts the utilization of unsupervised data. In this work, we introduce Open-Set Semi-Supervised Continual Learning (OSSCL), a more realistic semi-supervised continual learning setting in which out-of-distribution (OoD) unlabeled samples in the environment are assumed to coexist with the in-distribution ones. Under this configuration, we present a model with two distinct parts: (i) the reference network captures general-purpose and task-agnostic knowledge in the environment by using a broad spectrum of unlabeled samples, (ii) the learner network is designed to learn task-specific representations by exploiting supervised samples. The reference model both provides a pivotal representation space and also segregates unlabeled data to exploit them more efficiently. By performing a diverse range of experiments, we show the superior performance of our model compared with other competitors and prove the effectiveness of each component of the proposed model.
翻訳日:2023-01-12 14:18:52 公開日:2023-01-11
# 音源自由物体検出のための逆アライメント

Adversarial Alignment for Source Free Object Detection ( http://arxiv.org/abs/2301.04265v1 )

ライセンス: Link先を確認
Qiaosong Chu, Shuyan Li, Guangyi Chen, Kai Li, Xiu Li(参考訳) Source-free Object Detection (SFOD) は、ラベル豊富なソースドメインで事前訓練された検出器を、ソースデータを見ることなくラベルのないターゲットドメインに転送することを目的としている。 既存のSFOD手法の多くは、トレーニングを誘導するためにソース事前学習モデルを介して擬似ラベルを生成するが、これらの擬似ラベルは通常、重いドメインの不一致のために高いノイズを含む。 より優れた擬似的な監視を得るために、ターゲットドメインをソース類似部とソース異部に分割し、敵対学習により特徴空間に整列させる。 具体的には、対象領域を分割する検出分散に基づく基準を設計する。 この基準は、より大きな検出ばらつきがより高いリコールを示し、ソースドメインとの類似性を示すことによる。 次に,2つのサブセットの特徴空間を区別不能にするために,対向モジュールを平均的な教師フレームワークに組み込む。 複数のクロスドメインオブジェクト検出データセットに対する大規模な実験により,提案手法が比較したSFOD法より一貫して優れていることが示された。

Source-free object detection (SFOD) aims to transfer a detector pre-trained on a label-rich source domain to an unlabeled target domain without seeing source data. While most existing SFOD methods generate pseudo labels via a source-pretrained model to guide training, these pseudo labels usually contain high noises due to heavy domain discrepancy. In order to obtain better pseudo supervisions, we divide the target domain into source-similar and source-dissimilar parts and align them in the feature space by adversarial learning. Specifically, we design a detection variance-based criterion to divide the target domain. This criterion is motivated by a finding that larger detection variances denote higher recall and larger similarity to the source domain. Then we incorporate an adversarial module into a mean teacher framework to drive the feature spaces of these two subsets indistinguishable. Extensive experiments on multiple cross-domain object detection datasets demonstrate that our proposed method consistently outperforms the compared SFOD methods.
翻訳日:2023-01-12 14:12:54 公開日:2023-01-11
# adapointr:adaptive geometry-aware transformersによる多様なポイントクラウド補完

AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware Transformers ( http://arxiv.org/abs/2301.04545v1 )

ライセンス: Link先を確認
Xumin Yu, Yongming Rao, Ziyi Wang, Jiwen Lu, Jie Zhou(参考訳) 本稿では,ポイントクラウド完全化をセット・ツー・セットの翻訳問題として再構成し,ポイントクラウド完全化のためにトランスフォーマエンコーダ・デコーダアーキテクチャを採用する,pointrと呼ばれる新しいモデルを設計する新しい手法を提案する。 点雲を位置埋め込みを持つ点群の一組として表現することにより、入力データを点プロキシの列に変換し、変換器を用いて生成する。 点雲の3次元幾何学構造に関する帰納バイアスをよりよく活用するために,局所幾何学的関係を明示的にモデル化する幾何学的ブロックを考案する。 トランスフォーマーの移行によって、モデルが構造知識をよりよく学習し、ポイントクラウド完成のための詳細な情報を保存することができます。 さらに,より複雑で多様な状況に向けて,適応型問合せ生成機構を開発し,ポイントクラウドの完了時に新たな問合せタスクを設計することで adapointr を提案する。 これら2つのテクニックを結合することで、トレーニング時間(15倍以上)を短縮し、完了性能(20%以上)を向上させることができる。 また,新しい幾何学的意味的シーン補完フレームワークを設計すれば,シーンレベルのポイントクラウド補完シナリオに拡張できることを示す。 本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,KITTIで0.392 MMDを達成し,他の研究をはるかに上回り,様々なベンチマークで新たな最先端技術を確立した。 最も注目すべきは、adapointrは、以前の最良の方法よりも高いスループットと少ないフロップで、このような有望なパフォーマンスを達成できることです。 コードとデータセットはhttps://github.com/yuxumin/pointrで入手できる。

In this paper, we present a new method that reformulates point cloud completion as a set-to-set translation problem and design a new model, called PoinTr, which adopts a Transformer encoder-decoder architecture for point cloud completion. By representing the point cloud as a set of unordered groups of points with position embeddings, we convert the input data to a sequence of point proxies and employ the Transformers for generation. To facilitate Transformers to better leverage the inductive bias about 3D geometric structures of point clouds, we further devise a geometry-aware block that models the local geometric relationships explicitly. The migration of Transformers enables our model to better learn structural knowledge and preserve detailed information for point cloud completion. Taking a step towards more complicated and diverse situations, we further propose AdaPoinTr by developing an adaptive query generation mechanism and designing a novel denoising task during completing a point cloud. Coupling these two techniques enables us to train the model efficiently and effectively: we reduce training time (by 15x or more) and improve completion performance (over 20%). We also show our method can be extended to the scene-level point cloud completion scenario by designing a new geometry-enhanced semantic scene completion framework. Extensive experiments on the existing and newly-proposed datasets demonstrate the effectiveness of our method, which attains 6.53 CD on PCN, 0.81 CD on ShapeNet-55 and 0.392 MMD on real-world KITTI, surpassing other work by a large margin and establishing new state-of-the-arts on various benchmarks. Most notably, AdaPoinTr can achieve such promising performance with higher throughputs and fewer FLOPs compared with the previous best methods in practice. The code and datasets are available at https://github.com/yuxumin/PoinTr
翻訳日:2023-01-12 14:12:39 公開日:2023-01-11
# 密度クラスタリングとセントロイド解析によるバックドア攻撃の普遍的検出

Universal Detection of Backdoor Attacks via Density-based Clustering and Centroids Analysis ( http://arxiv.org/abs/2301.04554v1 )

ライセンス: Link先を確認
Wei Guo, Benedetta Tondi, Mauro Barni(参考訳) 本稿では,クラスタリングとCentroids Analysis(CCA-UD)に基づくバックドア攻撃に対するユニバーサルディフェンスを提案する。 提案する防御の目的は、深層ニューラルネットワークモデルが、トレーニングデータセットを検査することによってバックドア攻撃を受けるかどうかを明らかにすることである。 CCA-UDはまず、密度ベースのクラスタリングによってトレーニングセットのサンプルをクラスタ化する。 そして、有毒なクラスターの存在を検出するための新しい戦略を適用する。 提案手法は,分析クラスタの代表的な例の特徴を良質なサンプルに加えた場合に得られる一般的な誤分類行動に基づく。 誤分類エラーを誘発する能力は、有毒サンプルの一般的な特徴であるため、提案された防御は攻撃に依存しない。 このマスクは、例えば、攻撃者が汚染されたサンプルのラベルを破損させた場合や、攻撃者が採用した中毒率や攻撃者が使用するトリガーパターンの条件が満たされた場合にのみ有効であるような、いくつかの種類のバックドアアタックに対して防御することができる。 様々な種類のバックドア攻撃を考慮し,局所的および大域的トリガを含むトリガーパターンを検討した結果,提案手法は,すべてのケースにおいてバックドア攻撃に対する防御に非常に有効であり,常に美術技術の状態を上回っていることが明らかとなった。

In this paper, we propose a Universal Defence based on Clustering and Centroids Analysis (CCA-UD) against backdoor attacks. The goal of the proposed defence is to reveal whether a Deep Neural Network model is subject to a backdoor attack by inspecting the training dataset. CCA-UD first clusters the samples of the training set by means of density-based clustering. Then, it applies a novel strategy to detect the presence of poisoned clusters. The proposed strategy is based on a general misclassification behaviour obtained when the features of a representative example of the analysed cluster are added to benign samples. The capability of inducing a misclassification error is a general characteristic of poisoned samples, hence the proposed defence is attack-agnostic. This mask a significant difference with respect to existing defences, that, either can defend against only some types of backdoor attacks, e.g., when the attacker corrupts the label of the poisoned samples, or are effective only when some conditions on the poisoning ratios adopted by the attacker or the kind of triggering pattern used by the attacker are satisfied. Experiments carried out on several classification tasks, considering different types of backdoor attacks and triggering patterns, including both local and global triggers, reveal that the proposed method is very effective to defend against backdoor attacks in all the cases, always outperforming the state of the art techniques.
翻訳日:2023-01-12 14:12:07 公開日:2023-01-11
# 知識労働者としてのGPT:(AI)CPA能力のゼロショット評価

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities ( http://arxiv.org/abs/2301.04408v1 )

ライセンス: Link先を確認
Jillian Bommarito, Michael Bommarito, Daniel Martin Katz, Jessica Katz(参考訳) 世界経済は、公的および民間機関のニーズを満たすために知識労働者に依存している。 知識労働の単一の定義はないが、組織や業界グループは、それに従事する個人の能力を測定しようとしている。 専門知識労働者の能力準備性に関する最も包括的な評価は、AICPA(American Institute of Certified Public Accountants)によって開発された統一CPA試験である。 本稿では,OpenAIの「text-davinci-003」と,サンプルレギュレーション(REG)試験と,AICPA Blueprintsに基づく法的,財務的,会計的,技術的,倫理的タスクを対象とした200以上の複数選択質問の評価において,GPTの先行バージョンを実験的に評価する。 まず, 「text-davinci-003`」 がサンプルreg試験部で14.4%の正解率を達成し, ゼロショットプロンプトにおける量的推論の人間的能力が著しく低下することがわかった。 第2に,‘text-davinci-003`は,試験欠席計算における記憶・理解・応用スキルレベルにおいて,人間レベルのパフォーマンスに近づいているように見える。 最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。 最後に,近年のGPT-3では,「text-davinci-001」の30%から「text-davinci-003」の57%に上昇した。 これらの知見は、大きな言語モデルが将来の知識作業の品質と効率を変革する可能性を強く示唆している。

The global economy is increasingly dependent on knowledge workers to meet the needs of public and private organizations. While there is no single definition of knowledge work, organizations and industry groups still attempt to measure individuals' capability to engage in it. The most comprehensive assessment of capability readiness for professional knowledge workers is the Uniform CPA Examination developed by the American Institute of Certified Public Accountants (AICPA). In this paper, we experimentally evaluate OpenAI's `text-davinci-003` and prior versions of GPT on both a sample Regulation (REG) exam and an assessment of over 200 multiple-choice questions based on the AICPA Blueprints for legal, financial, accounting, technology, and ethical tasks. First, we find that `text-davinci-003` achieves a correct rate of 14.4% on a sample REG exam section, significantly underperforming human capabilities on quantitative reasoning in zero-shot prompts. Second, `text-davinci-003` appears to be approaching human-level performance on the Remembering & Understanding and Application skill levels in the Exam absent calculation. For best prompt and parameters, the model answers 57.6% of questions correctly, significantly better than the 25% guessing rate, and its top two answers are correct 82.1% of the time, indicating strong non-entailment. Finally, we find that recent generations of GPT-3 demonstrate material improvements on this assessment, rising from 30% for `text-davinci-001` to 57% for `text-davinci-003`. These findings strongly suggest that large language models have the potential to transform the quality and efficiency of future knowledge work.
翻訳日:2023-01-12 14:11:45 公開日:2023-01-11
# asrのためのニューラル話者埋め込みの改善と解析

Improving And Analyzing Neural Speaker Embeddings for ASR ( http://arxiv.org/abs/2301.04571v1 )

ライセンス: Link先を確認
Christoph L\"uscher, Jingjing Xu, Mohammad Zeineldeen, Ralf Schl\"uter, Hermann Ney(参考訳) ニューラルスピーカ埋め込みは、DNNモデルを介して話者の音声特性を符号化し、話者検証タスクに有効である。 しかし、ASRシステムにおけるニューラルスピーカー埋め込みの使用について研究する研究はほとんどない。 本研究では,コンバータをベースとしたハイブリッドHMM ASRシステムにニューラルスピーカーの埋め込みを組み込むための取り組みについて述べる。 ASRの場合、改良された埋め込み抽出パイプラインと重み付きSimple-Add積分法を組み合わせると、xベクトルとcベクトルがiベクトルと同等の性能に達する。 さらに、異なる話者埋め込みを比較し分析する。 ニューボブの学習速度スケジュールから1サイクルの学習スケジュールに切り替えることで,Switchboard上でのWERの相対的な減少と,トレーニング時間全体の17%の短縮を実現した音響モデルの改善について述べる。 さらにニューラルスピーカーの埋め込みを追加することで、Hub5'00で約3%の相対的なWER改善が得られます。 話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。

Neural speaker embeddings encode the speaker's speech characteristics through a DNN model and are prevalent for speaker verification tasks. However, few studies have investigated the usage of neural speaker embeddings for an ASR system. In this work, we present our efforts w.r.t integrating neural speaker embeddings into a conformer based hybrid HMM ASR system. For ASR, our improved embedding extraction pipeline in combination with the Weighted-Simple-Add integration method results in x-vector and c-vector reaching on par performance with i-vectors. We further compare and analyze different speaker embeddings. We present our acoustic model improvements obtained by switching from newbob learning rate schedule to one cycle learning schedule resulting in a ~3% relative WER reduction on Switchboard, additionally reducing the overall training time by 17%. By further adding neural speaker embeddings, we gain additional ~3% relative WER improvement on Hub5'00. Our best Conformer-based hybrid ASR system with speaker embeddings achieves 9.0% WER on Hub5'00 and Hub5'01 with training on SWB 300h.
翻訳日:2023-01-12 14:11:12 公開日:2023-01-11
# beyond graph convolutional network: 解釈可能な正規化中心最適化フレームワーク

Beyond Graph Convolutional Network: An Interpretable Regularizer-centered Optimization Framework ( http://arxiv.org/abs/2301.04318v1 )

ライセンス: Link先を確認
Shiping Wang, Zhihao Wu, Yuhong Chen, Yong Chen(参考訳) グラフ畳み込みネットワーク(GCN)は、性能向上と強力な一般化により、広く注目を集めている。 しかし、様々なGCNを解釈し、GCNの設計を導くための一般的な見解を提供する研究はほとんどない。 本稿では、元のGCNを再検討することにより、適切な正規化器を構築することにより、APPNP、JKNet、DAGNN、GNN-LF/HFなどのほとんどのGCNを解釈できる、解釈可能な正規化器中心最適化フレームワークを誘導する。 さらに,提案フレームワークでは,グラフデータからトポロジとセマンティック構造を捉えるために,二重正規化グラフ畳み込みネットワーク(dubed tsGCN)を考案した。 tsGCNの学習規則は大きな行列の逆数を含み、時間を要するので、Woodbury行列のアイデンティティと低ランク近似のトリックを利用して、無限次グラフ畳み込み計算の計算複雑性を小さくする。 8つの公開データセットに対する大規模な実験は、tsGCNが最先端の競合であるw.r.t.分類タスクに対して優れたパフォーマンスを達成していることを示している。

Graph convolutional networks (GCNs) have been attracting widespread attentions due to their encouraging performance and powerful generalizations. However, few work provide a general view to interpret various GCNs and guide GCNs' designs. In this paper, by revisiting the original GCN, we induce an interpretable regularizer-centerd optimization framework, in which by building appropriate regularizers we can interpret most GCNs, such as APPNP, JKNet, DAGNN, and GNN-LF/HF. Further, under the proposed framework, we devise a dual-regularizer graph convolutional network (dubbed tsGCN) to capture topological and semantic structures from graph data. Since the derived learning rule for tsGCN contains an inverse of a large matrix and thus is time-consuming, we leverage the Woodbury matrix identity and low-rank approximation tricks to successfully decrease the high computational complexity of computing infinite-order graph convolutions. Extensive experiments on eight public datasets demonstrate that tsGCN achieves superior performance against quite a few state-of-the-art competitors w.r.t. classification tasks.
翻訳日:2023-01-12 14:10:13 公開日:2023-01-11
# 神経制御微分方程式における学習可能な経路

Learnable Path in Neural Controlled Differential Equations ( http://arxiv.org/abs/2301.04333v1 )

ライセンス: Link先を確認
Sheo Yon Jhin, Minju Jo, Seungji Kook, Noseong Park, Sungpil Woo, Sunhwan Lim(参考訳) 神経制御微分方程式(neural controlled differential equation, ncdes)は、リカレントニューラルネットワーク(recurrent neural networks, rnns)の連続的な類似である。 類似したモデル、例えば神経常微分方程式(ノード)と比較すると、ncdesの重要な特徴は 一 各離散時系列サンプルから補間アルゴリズムにより作成された連続経路の採用と適用 二 リーマン-スティルチェス積分の採用 NCDE を連続 RNN に類似させる連続経路である。 しかし、ncdesは経路を生成するのに既存の補間アルゴリズムを使っているため、最適経路を作成できるかどうかは不明である。 そこで本研究では,適切な補間法を学習するのと同一の(既存の補間アルゴリズムに依存するのではなく)別の潜在経路を生成する手法を提案する。 我々はNCDEとNODEをベースとしたエンコーダデコーダモジュールを設計し,その特別な訓練方法を提案する。 本手法は時系列分類と予測の両方において最高の性能を示す。

Neural controlled differential equations (NCDEs), which are continuous analogues to recurrent neural networks (RNNs), are a specialized model in (irregular) time-series processing. In comparison with similar models, e.g., neural ordinary differential equations (NODEs), the key distinctive characteristics of NCDEs are i) the adoption of the continuous path created by an interpolation algorithm from each raw discrete time-series sample and ii) the adoption of the Riemann--Stieltjes integral. It is the continuous path which makes NCDEs be analogues to continuous RNNs. However, NCDEs use existing interpolation algorithms to create the path, which is unclear whether they can create an optimal path. To this end, we present a method to generate another latent path (rather than relying on existing interpolation algorithms), which is identical to learning an appropriate interpolation method. We design an encoder-decoder module based on NCDEs and NODEs, and a special training method for it. Our method shows the best performance in both time-series classification and forecasting.
翻訳日:2023-01-12 14:09:52 公開日:2023-01-11
# ClimaBench:英語による気候変動テキスト理解のためのベンチマークデータセット

ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English ( http://arxiv.org/abs/2301.04253v1 )

ライセンス: Link先を確認
Tanmay Laud, Daniel Spokoyny, Tom Corringham, Taylor Berg-Kirkpatrick(参考訳) 気候変動(CC)の話題は、現実の緊急性にもかかわらず、NLPにおいて限定的に注目されている。 アクティビストや政策立案者は、CCで生成する膨大な、急速に成長するテキストデータを効果的に処理するために、NLPツールが必要である。 しかし、それらの実用性は、主に現在の最先端モデルがCCドメイン内の様々なタスクにまたがって一般化できるかどうかに依存する。 このギャップに対処するために、CC NLUタスクのさまざまなセットにわたるモデルパフォーマンスを評価するために、既存の異なるデータセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介します。 さらに,公開環境情報から得られた大規模ラベル付きテキスト分類と質問応答データセットを2つリリースすることで,ベンチマークを強化する。 最後に、ドメインテキストの微調整がこれらのタスク全体に改善をもたらすかどうかを答える、いくつかのジェネリックおよびcc指向モデルの分析を提供する。 本研究は,CCテキストデータ研究のための標準評価ツールとして期待されている。

The topic of Climate Change (CC) has received limited attention in NLP despite its real world urgency. Activists and policy-makers need NLP tools in order to effectively process the vast and rapidly growing textual data produced on CC. Their utility, however, primarily depends on whether the current state-of-the-art models can generalize across various tasks in the CC domain. In order to address this gap, we introduce Climate Change Benchmark (ClimaBench), a benchmark collection of existing disparate datasets for evaluating model performance across a diverse set of CC NLU tasks systematically. Further, we enhance the benchmark by releasing two large-scale labelled text classification and question-answering datasets curated from publicly available environmental disclosures. Lastly, we provide an analysis of several generic and CC-oriented models answering whether fine-tuning on domain text offers any improvements across these tasks. We hope this work provides a standard assessment tool for research on CC text data.
翻訳日:2023-01-12 14:03:27 公開日:2023-01-11
# ODIM : 深部生成モデルにおける不整合記憶効果による外乱の効率的な検出法

ODIM: an efficient method to detect outliers via inlier-memorization effect of deep generative models ( http://arxiv.org/abs/2301.04257v1 )

ライセンス: Link先を確認
Dongha Kim, Jaesung Hwang, Jongjin Lee, Kunwoong Kim, Yongdai Kim(参考訳) サンプルが外れ値であるかどうかを特定することは、さまざまな現実世界のドメインにおいて重要な問題である。 本研究の目的は、トレーニングデータに異常値が含まれているという教師なしの異常値検出の問題を解決することである。 本稿では,深層ニューラルネットワークを用いたトレーニングデータセットにおける外れ値の同定のための,強力で効率的な学習フレームワークを提案する。 Inlier-memorization (IM) 効果と呼ばれる新しい観測結果から始める。 データが外れ値で汚染された深層生成モデルを訓練すると、そのモデルはまず外れ値の前に不規則値を記憶する。 本研究は, IM効果(ODIM)を用いた外乱検出法を新たに開発した。 ODIMはいくつかの更新しか必要としないため、計算的に効率的であり、他のディープラーニングベースのアルゴリズムの何倍も高速である。 また、ODIMは、表、画像、シーケンシャルといったデータの種類にかかわらず、アウトリーをうまくフィルタする。 20個のデータセットを解析することにより,ODIMの優位性と効率性を実証的に実証した。

Identifying whether a given sample is an outlier or not is an important issue in various real-world domains. This study aims to solve the unsupervised outlier detection problem where training data contain outliers, but any label information about inliers and outliers is not given. We propose a powerful and efficient learning framework to identify outliers in a training data set using deep neural networks. We start with a new observation called the inlier-memorization (IM) effect. When we train a deep generative model with data contaminated with outliers, the model first memorizes inliers before outliers. Exploiting this finding, we develop a new method called the outlier detection via the IM effect (ODIM). The ODIM only requires a few updates; thus, it is computationally efficient, tens of times faster than other deep-learning-based algorithms. Also, the ODIM filters out outliers successfully, regardless of the types of data, such as tabular, image, and sequential. We empirically demonstrate the superiority and efficiency of the ODIM by analyzing 20 data sets.
翻訳日:2023-01-12 14:03:12 公開日:2023-01-11
# オンラインマルチタスク強化学習

Adversarial Online Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2301.04268v1 )

ライセンス: Link先を確認
Quan Nguyen and Nishant A. Mehta(参考訳) 敵対的なオンラインマルチタスク強化学習の設定を考えると、k$のエピソードのそれぞれに、学習者は未知のタスクを与えられ、m$未知の有限ホライゾンmdpモデルから取得される。 学習者の目的は,各課題に対する最適方針に対する後悔を最小限に抑えることである。 我々は、$\mathcal{M}$ の MDP は $\lambda$-分離性の概念の下で十分に分離されていると仮定し、この概念が以前の研究から多くのタスク分離性の概念を一般化していることを示す。 我々は、任意の学習アルゴリズムの後悔に対して$\Omega(K\sqrt{DSAH})$のミニマックス下限と$\Omega(\frac{K}{\lambda^2})$のインスタンス固有の下限を、一様良質なクラスタ列学習アルゴリズムのクラスに対するサンプル複雑性で証明する。 2-JAO MDPと呼ばれる新しい構成を用いて、インスタンス固有の下界を証明する。 下限は、クラスタリングフェーズに対する$\tilde{o}(\frac{k}{\lambda^2})$のサンプル複雑性保証と、学習フェーズに対する$\tilde{o}(\sqrt{mk})$の保証を得る多項式時間アルゴリズムで補完され、$k$と$\frac{1}{\lambda^2}$への依存性がタイトであることを示している。

We consider the adversarial online multi-task reinforcement learning setting, where in each of $K$ episodes the learner is given an unknown task taken from a finite set of $M$ unknown finite-horizon MDP models. The learner's objective is to minimize its regret with respect to the optimal policy for each task. We assume the MDPs in $\mathcal{M}$ are well-separated under a notion of $\lambda$-separability, and show that this notion generalizes many task-separability notions from previous works. We prove a minimax lower bound of $\Omega(K\sqrt{DSAH})$ on the regret of any learning algorithm and an instance-specific lower bound of $\Omega(\frac{K}{\lambda^2})$ in sample complexity for a class of uniformly-good cluster-then-learn algorithms. We use a novel construction called 2-JAO MDP for proving the instance-specific lower bound. The lower bounds are complemented with a polynomial time algorithm that obtains $\tilde{O}(\frac{K}{\lambda^2})$ sample complexity guarantee for the clustering phase and $\tilde{O}(\sqrt{MK})$ regret guarantee for the learning phase, indicating that the dependency on $K$ and $\frac{1}{\lambda^2}$ is tight.
翻訳日:2023-01-12 14:02:54 公開日:2023-01-11
# 大語彙オンデバイスASRのためのデュアル学習

Dual Learning for Large Vocabulary On-Device ASR ( http://arxiv.org/abs/2301.04327v1 )

ライセンス: Link先を確認
Cal Peyser, Ronny Huang, Tara Sainath, Rohit Prabhavalkar, Michael Picheny, Kyunghyun Cho(参考訳) デュアル・ラーニング(英: Dual learning)は、教師なしデータを活用するための半教師なし機械学習のパラダイムである。 このスキームでは、各モデルは、他のモデルを訓練するために使用されるラベルなし例の擬似ラベルを生成するために使用される。 デュアルラーニングは、asrとttsをデュアルタスクとして組み合わせることによって、音声処理で使われる。 しかし、これらの結果は多くの場合、非常に小さな教師付きデータセットを補うためにペアなしの例を使用する場合にのみ対処する。 教師なしのデータを使用して、既に教師なしのコーパスでトレーニングされている現実的なオンデバイスストリーミングモデルを改善するのに、デュアルラーニングはまだ有効ではない。 この欠片は,librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンフォーメータの解析により,lmを使わずに10.7%/5.2%,lmを11.7%/16.4%改善した。

Dual learning is a paradigm for semi-supervised machine learning that seeks to leverage unsupervised data by solving two opposite tasks at once. In this scheme, each model is used to generate pseudo-labels for unlabeled examples that are used to train the other model. Dual learning has seen some use in speech processing by pairing ASR and TTS as dual tasks. However, these results mostly address only the case of using unpaired examples to compensate for very small supervised datasets, and mostly on large, non-streaming models. Dual learning has not yet been proven effective for using unsupervised data to improve realistic on-device streaming models that are already trained on large supervised corpora. We provide this missing piece though an analysis of an on-device-sized streaming conformer trained on the entirety of Librispeech, showing relative WER improvements of 10.7%/5.2% without an LM and 11.7%/16.4% with an LM.
翻訳日:2023-01-12 14:02:25 公開日:2023-01-11
# 対話システムにおけるFact Hallucinationモードの深層化

Diving Deep into Modes of Fact Hallucinations in Dialogue Systems ( http://arxiv.org/abs/2301.04449v1 )

ライセンス: Link先を確認
Souvik Das, Sougata Saha and Rohini K. Srihari(参考訳) 知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、事実幻覚に悩まされる。 知識ソースや会話履歴に参照のないエンティティが頻繁にレスポンスに導入されるため、会話の流れが妨げられる -- 既存の作業では、トレーニング手順の調整やマルチステップの精錬手法を使用することで、この問題を克服しようと試みている。 しかし、最小限の努力が実体レベルの幻覚検出システムの構築に費やされ、応答を生成しながら誤った内容を制御する微粒な信号が提供される。 この問題に対処する第一歩として,人間のフィードバック分析を通じて,KGを基盤としたチャットボットにおける幻覚のさまざまなモードを特定する。 次に,FADE(FActual Dialogue Hallucination Detection Dataset)と呼ばれる合成データセットを作成するための摂動戦略を提案する。 最後に、総合的なデータ分析を行い、幻覚検出のための複数のベースラインモデルを作成し、人間の検証したデータと既に確立されたベンチマークと比較する。

Knowledge Graph(KG) grounded conversations often use large pre-trained models and usually suffer from fact hallucination. Frequently entities with no references in knowledge sources and conversation history are introduced into responses, thus hindering the flow of the conversation -- existing work attempt to overcome this issue by tweaking the training procedure or using a multi-step refining method. However, minimal effort is put into constructing an entity-level hallucination detection system, which would provide fine-grained signals that control fallacious content while generating responses. As a first step to address this issue, we dive deep to identify various modes of hallucination in KG-grounded chatbots through human feedback analysis. Secondly, we propose a series of perturbation strategies to create a synthetic dataset named FADE (FActual Dialogue Hallucination DEtection Dataset). Finally, we conduct comprehensive data analyses and create multiple baseline models for hallucination detection to compare against human-verified data and already established benchmarks.
翻訳日:2023-01-12 14:02:07 公開日:2023-01-11
# スムース関数のための乗法ニューラルネットワークの近似能力の探索

Exploring the Approximation Capabilities of Multiplicative Neural Networks for Smooth Functions ( http://arxiv.org/abs/2301.04605v1 )

ライセンス: Link先を確認
Ido Ben-Shaul, Tomer Galanti and Shai Dekel(参考訳) 乗算層は、セルフアテンションやハイパーネットワーク層など、さまざまな影響力のあるニューラルネットワークモジュールの重要なコンポーネントである。 本稿では,中間ニューロンを単純な乗算演算で接続したディープニューラルネットワークの近似能力について検討する。 対象関数のクラスは、有限帯域を持つ実世界の信号のモデル化によく使用される一般化帯域制限関数と、ソボレフ空間$\mathcal{W}^{r,2}$に埋め込まれるソボレフ型球である。 この結果から, 入力次元と近似誤差の両面において, 標準的なReLUニューラルネットワークに比べて, 層やニューロンが著しく少ないことで, 乗算ニューラルネットワークがこれらの関数を近似できることを示した。 これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。

Multiplication layers are a key component in various influential neural network modules, including self-attention and hypernetwork layers. In this paper, we investigate the approximation capabilities of deep neural networks with intermediate neurons connected by simple multiplication operations. We consider two classes of target functions: generalized bandlimited functions, which are frequently used to model real-world signals with finite bandwidth, and Sobolev-Type balls, which are embedded in the Sobolev Space $\mathcal{W}^{r,2}$. Our results demonstrate that multiplicative neural networks can approximate these functions with significantly fewer layers and neurons compared to standard ReLU neural networks, with respect to both input dimension and approximation error. These findings suggest that multiplicative gates can outperform standard feed-forward layers and have potential for improving neural network design.
翻訳日:2023-01-12 14:01:19 公開日:2023-01-11
# バイオメディカルビジョンランゲージ処理のための時間構造抽出学習

Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing ( http://arxiv.org/abs/2301.04558v1 )

ライセンス: Link先を確認
Shruthi Bannur, Stephanie Hyland, Qianchu Liu, Fernando Perez-Garcia, Maximilian Ilse, Daniel C. Castro, Benedikt Boecking, Harshita Sharma, Kenza Bouzid, Anja Thieme, Anton Schwaighofer, Maria Wetscherek, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay(参考訳) 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。 バイオメディカルvlpの先行研究は主に単一の画像とレポートペアのアライメントに依存しているが、臨床記録は一般的に先行画像を参照している。 これは、モダリティ間の不一致をもたらすだけでなく、データ内の既存の時間的コンテンツを通してリッチな自己スーパービジョンを利用する機会を逃す。 本研究では,トレーニングと微調整の両方において,事前のイメージとレポートを明示的に説明する。 我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。 ポーズのバリエーションや入力画像の欠如といった課題に対して、多用途に設計されている。 結果として得られたモデルは、シングルイメージとマルチイメージの両方で下流タスクに優れ、(I)進行分類、(II)フレーズグラウンド、(III)レポート生成における最先端のパフォーマンスを達成するとともに、疾患分類と文相似タスクを一貫して改善する。 我々は,視覚言語表現の質を時間意味論的に定量化するために,新しいマルチモーダル時相ベンチマークデータセットms-cxr-tをリリースする。 実験結果から,先行画像とレポートを組み込むことによるデータ利用の利点が示された。

Self-supervised learning in vision-language processing exploits semantic alignment between imaging and text modalities. Prior work in biomedical VLP has mostly relied on the alignment of single image and report pairs even though clinical notes commonly refer to prior images. This does not only introduce poor alignment between the modalities but also a missed opportunity to exploit rich self-supervision through existing temporal content in the data. In this work, we explicitly account for prior images and reports when available during both training and fine-tuning. Our approach, named BioViL-T, uses a CNN-Transformer hybrid multi-image encoder trained jointly with a text model. It is designed to be versatile to arising challenges such as pose variations and missing input images across time. The resulting model excels on downstream tasks both in single- and multi-image setups, achieving state-of-the-art performance on (I) progression classification, (II) phrase grounding, and (III) report generation, whilst offering consistent improvements on disease classification and sentence-similarity tasks. We release a novel multi-modal temporal benchmark dataset, MS-CXR-T, to quantify the quality of vision-language representations in terms of temporal semantics. Our experimental results show the advantages of incorporating prior images and reports to make most use of the data.
翻訳日:2023-01-12 14:01:02 公開日:2023-01-11
# EXIF as Language: 画像とカメラメタデータの相互関連を学習する

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata ( http://arxiv.org/abs/2301.04647v1 )

ライセンス: Link先を確認
Chenhao Zheng, Ayush Shrivastava, Andrew Owens(参考訳) 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学ぶ。 そこで我々は,画像パッチとEXIFメタデータのマルチモーダル埋め込みを訓練し,カメラが自動的に画像ファイルに挿入する。 私たちのモデルは、単にテキストに変換し、変換器で処理することで、このメタデータを表現します。 私たちが学んだ機能は、下流の画像検査や校正作業において、他の自己監督機能や監督機能よりも大幅に優れています。 特に,画像内のすべてのパッチに対して視覚的な埋め込みをクラスタリングすることにより,スプライシングされた画像領域を"ゼロショット"にローカライズすることに成功した。

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions "zero shot" by clustering the visual embeddings for all of the patches within an image.
翻訳日:2023-01-12 14:00:41 公開日:2023-01-11
# 変圧器を用いたマルチスケールマルチモーダルマイクロ圧縮認識アルゴリズム

Multi-scale multi-modal micro-expression recognition algorithm based on transformer ( http://arxiv.org/abs/2301.02969v2 )

ライセンス: Link先を確認
Fengping Wang, Jie Li, Chun Qi, Lin Wang, Pan Wang(参考訳) マイクロ表現は、人々が隠そうとする真の感情を明らかにする、自発的な無意識の顔面筋肉運動である。 手動の手法は進歩し、深層学習が普及している。 顔領域で表現される様々なスケールのマイクロ圧縮が短いため、既存のアルゴリズムでは、背景となる特徴を学習するために文脈情報を考慮してマルチモーダルな顔領域の特徴を抽出することはできない。 そこで, この問題を解決するために, トランスフォーマーネットワークに基づくマルチモーダルマルチスケールアルゴリズムを提案し, マイクロ表現の局所的マルチグルーフ特徴を2つのモーダル特徴(動き特徴とテクスチャ特徴)を通して完全に学習することを目的とした。 異なるスケールで顔の局所的な特徴を得るために,両モードの異なるスケールでパッチの特徴を学習し,その特徴を重み付けして多層多層注意重み付けを行い,モデル最適化のためのクロスモーダルコントラスト学習を組み合わせた。 我々は3つの自発的データセットに関する総合的な実験を行い、その結果、単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%、組合せデータベースのCASMEII上のF1値は最大0.9071であることを示した。

A micro-expression is a spontaneous unconscious facial muscle movement that can reveal the true emotions people attempt to hide. Although manual methods have made good progress and deep learning is gaining prominence. Due to the short duration of micro-expression and different scales of expressed in facial regions, existing algorithms cannot extract multi-modal multi-scale facial region features while taking into account contextual information to learn underlying features. Therefore, in order to solve the above problems, a multi-modal multi-scale algorithm based on transformer network is proposed in this paper, aiming to fully learn local multi-grained features of micro-expressions through two modal features of micro-expressions - motion features and texture features. To obtain local area features of the face at different scales, we learned patch features at different scales for both modalities, and then fused multi-layer multi-headed attention weights to obtain effective features by weighting the patch features, and combined cross-modal contrastive learning for model optimization. We conducted comprehensive experiments on three spontaneous datasets, and the results show the accuracy of the proposed algorithm in single measurement SMIC database is up to 78.73% and the F1 value on CASMEII of the combined database is up to 0.9071, which is at the leading level.
翻訳日:2023-01-12 11:52:50 公開日:2023-01-11
# マルチターン対話理解のためのチャネル対応デカップリングネットワーク

Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension ( http://arxiv.org/abs/2301.03953v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao, Longxiang Liu(参考訳) 自然言語を理解し、人間と対話するための訓練機械は、人工知能の主要な目標の1つである。 近年では、マッチングネットワークから事前訓練言語モデル(PrLM)への進化が見られる。 prlmの焦点としてのプレーンテキストモデリングとは対照的に、対話テキストは複数の話者を巻き込み、トピック遷移や遠隔発話間の構造依存性といった特別な特徴を反映している。 しかし,関連するprlmモデルでは,対話履歴全体を処理して対話を逐次表現することが一般的である。 したがって、これらの表現に結合された発話相互関係または話者役割の階層的な情報にはよく対応できない。 本研究では,対話履歴に係わる発話認識および話者認識表現を捉えるために,PrLMからの逐次的文脈化を超えた発話間の包括的相互作用のための合成学習を提案する。 本研究では,Transformer ベースの PrLM のマスキング機構により,各単語が現在発話中の単語,他の発話,および2つの話者役割(受信者の発話,受信者の発話)にのみ焦点をあてることにより,文脈化された単語表現を分離する。 さらに、モデルの対話領域への適応を支援するために、ドメイン適応型トレーニング戦略を採用する。 実験の結果,4つのベンチマークデータセットにおけるprlmのベースラインが大幅に向上し,従来の手法よりも新たな性能が得られた。

Training machines to understand natural language and interact with humans is one of the major goals of artificial intelligence. Recent years have witnessed an evolution from matching networks to pre-trained language models (PrLMs). In contrast to the plain-text modeling as the focus of the PrLMs, dialogue texts involve multiple speakers and reflect special characteristics such as topic transitions and structure dependencies between distant utterances. However, the related PrLM models commonly represent dialogues sequentially by processing the pairwise dialogue history as a whole. Thus the hierarchical information on either utterance interrelation or speaker roles coupled in such representations is not well addressed. In this work, we propose compositional learning for holistic interaction across the utterances beyond the sequential contextualization from PrLMs, in order to capture the utterance-aware and speaker-aware representations entailed in a dialogue history. We decouple the contextualized word representations by masking mechanisms in Transformer-based PrLM, making each word only focus on the words in current utterance, other utterances, and two speaker roles (i.e., utterances of sender and utterances of the receiver), respectively. In addition, we employ domain-adaptive training strategies to help the model adapt to the dialogue domains. Experimental results show that our method substantially boosts the strong PrLM baselines in four public benchmark datasets, achieving new state-of-the-art performance over previous methods.
翻訳日:2023-01-12 11:52:13 公開日:2023-01-11
# 室内軌道データからの行動認識のための半教師付きアプローチ

A Semi-supervised Approach for Activity Recognition from Indoor Trajectory Data ( http://arxiv.org/abs/2301.03134v2 )

ライセンス: Link先を確認
Mashud Rana, Ashfaqur Rahman, and Daniel Smith(参考訳) 位置認識センサーがますます広く使われるようになり、様々な応用領域で大量の軌道データを収集できるようになった。 機械学習は、そのような軌道データと豊富な時空間情報を用いて、移動物体(例えば、人間、車両、ロボット)の行動や行動を研究することで、インフォームド戦略や運用上の意思決定を容易にする。 本研究では, 協調生産環境において, 騒音の多い室内軌道データから移動物体の動作を分類する作業を検討する。 活動認識は、製造業者が適切な経営方針を策定し、安全、生産性、効率を最適化するのに役立つ。 まず,物体が各セグメント内で均質な振る舞いを示すようなセグメントに長い軌道を分割するために,情報理論的基準を適用した半教師付き機械学習手法を提案する。 セグメントは制約付き階層クラスタリング法に基づいて自動的にラベル付けされる。 最後に、畳み込みニューラルネットワークに基づくディープラーニング分類モデルを、軌道セグメントと生成された擬似ラベルに基づいて訓練する。 提案手法は,三輪組立ワークショップから収集した複数の作業員の屋内軌跡を含むデータセットを用いて評価された。 提案手法は,少数のラベル付き軌道セグメントのみを用いて,高い分類精度(Fスコアは異なる軌道に対して0.81から0.95まで異なる)を実現する。

The increasingly wide usage of location aware sensors has made it possible to collect large volume of trajectory data in diverse application domains. Machine learning allows to study the activities or behaviours of moving objects (e.g., people, vehicles, robot) using such trajectory data with rich spatiotemporal information to facilitate informed strategic and operational decision making. In this study, we consider the task of classifying the activities of moving objects from their noisy indoor trajectory data in a collaborative manufacturing environment. Activity recognition can help manufacturing companies to develop appropriate management policies, and optimise safety, productivity, and efficiency. We present a semi-supervised machine learning approach that first applies an information theoretic criterion to partition a long trajectory into a set of segments such that the object exhibits homogeneous behaviour within each segment. The segments are then labelled automatically based on a constrained hierarchical clustering method. Finally, a deep learning classification model based on convolutional neural networks is trained on trajectory segments and the generated pseudo labels. The proposed approach has been evaluated on a dataset containing indoor trajectories of multiple workers collected from a tricycle assembly workshop. The proposed approach is shown to achieve high classification accuracy (F-score varies between 0.81 to 0.95 for different trajectories) using only a small proportion of labelled trajectory segments.
翻訳日:2023-01-12 11:51:51 公開日:2023-01-11
# 直列配列におけるジョセフソン接合の同期

Synchronization of Josephson junction in series array ( http://arxiv.org/abs/2301.03787v2 )

ライセンス: Link先を確認
Abhijit Bhattacharyya(参考訳) ネットワークに結合したマルチキュービット量子プロセッサは、最先端の量子コンピューティングプラットフォームを提供する。 しかし、各量子ビットは同じプロセスで作られるにもかかわらず、固有固有周波数を持つ。 誤りの検出と訂正に加えて量子ゲート操作を継続するには、同じ周波数で量子ビットを同期する必要がある。 本研究では,統計平均場法と非線形力学のリンクである倉本モデルを用いて,システム内の小ノイズを同期する。 このノイズは、外部に応用されたノイズ関数や、キュービットの周波数差のノイズである。 倉本モデルは、結合振動子を調整し、不整合状態から同期状態へ発展させる振動子間の結合強度を調整する。

Multi-qubit quantum processors coupled to networking provides the state-of-the-art quantum computing platform. However, each qubit has unique eigenfrequency even though fabricated in the same process. To continue quantum gate operations besides the detection and correction of errors it is required that the qubits must be synchronized in the same frequency. This study uses Kuramoto model which is a link between statistical mean-field technique and non-linear dynamics to synchronize the qubits applying small noise in the system. This noise could be any externally applied noise function or just noise from the difference of frequencies of qubits. The Kuramoto model tunes the coupled oscillators adjusting the coupling strength between the oscillators to evolve from the state of incoherence to the synchronized state.
翻訳日:2023-01-12 11:51:29 公開日:2023-01-11
# 3次元脳MRI合成のためのマルチスケールメタモルフィックVAE

Multiscale Metamorphic VAE for 3D Brain MRI Synthesis ( http://arxiv.org/abs/2301.03588v2 )

ライセンス: Link先を確認
Jaivardhan Kapoor, Jakob H. Macke, Christian F. Baumgartner(参考訳) 3次元脳MRIの生成的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成するのに困難を示す。 本稿では,可変オートエンコーダ(vae)フレームワークにおいて,構成可能で多スケールな形態素変換によってこの問題に対処することを提案する。 これらの変換は、選択された参照脳画像に適用され、MRIボリュームを生成し、強力な解剖学的誘導バイアスを持つモデルに適合する。 VAE潜在空間をモデルが十分にデータ分布をカバーするように構成する。 VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。

Generative modeling of 3D brain MRIs presents difficulties in achieving high visual fidelity while ensuring sufficient coverage of the data distribution. In this work, we propose to address this challenge with composable, multiscale morphological transformations in a variational autoencoder (VAE) framework. These transformations are applied to a chosen reference brain image to generate MRI volumes, equipping the model with strong anatomical inductive biases. We structure the VAE latent space in a way such that the model covers the data distribution sufficiently well. We show substantial performance improvements in FID while retaining comparable, or superior, reconstruction quality compared to prior work based on VAEs and generative adversarial networks (GANs).
翻訳日:2023-01-12 11:51:19 公開日:2023-01-11
# 材料特性モデリングのための機械駆動力場の伝達性評価

Evaluating the Transferability of Machine-Learned Force Fields for Material Property Modeling ( http://arxiv.org/abs/2301.03729v2 )

ライセンス: Link先を確認
Shaswat Mohanty, Sanghyuk Yoo, Keonwook Kang, Wei Cai(参考訳) 近年、機械学習力場は分子動力学(MD)シミュレーションのツールとして大きな関心を集めており、従来の原子間ポテンシャルを置き換える正確で効率的なモデルの開発を目指している。 しかし、これらのモデルを材料シミュレーションに確実に適用する前には、徹底的に検証し、検証する必要がある。 放射分布関数と平均2乗変位に関する既存の試験は,これらのモデルの伝達性を評価するには不十分である。 ここでは、機械学習力場の伝達性を評価するためのより包括的なベンチマークテストについて述べる。 我々は、OpenMMパッケージと結合したグラフニューラルネットワーク(GNN)ベースの力場を用いて、ArgonのMDシミュレーションをテストケースとして実施する。 実験では, 液体相における様々な長さスケールでの密度変動を捉えるX線光子相関分光法 (XPCS) と, 固体相におけるフォノン密度と液-固体相転移挙動について検討した。 実験結果から, モデルが固体相の挙動を正確に把握できるのは, 固体相からの構成がトレーニングデータセットに含まれる場合のみであることがわかった。 これは、機械主導の力場を開発する際にトレーニングデータセットを適切に選択することの重要性を強調する。 本研究で示された試験は、材料シミュレーションのための機械学習力場の開発と応用に必要な基礎を提供する。

Machine-learned force fields have generated significant interest in recent years as a tool for molecular dynamics (MD) simulations, with the aim of developing accurate and efficient models that can replace classical interatomic potentials. However, before these models can be confidently applied to materials simulations, they must be thoroughly tested and validated. The existing tests on the radial distribution function and mean-squared displacements are insufficient in assessing the transferability of these models. Here we present a more comprehensive set of benchmarking tests for evaluating the transferability of machine-learned force fields. We use a graph neural network (GNN)-based force field coupled with the OpenMM package to carry out MD simulations for Argon as a test case. Our tests include computational X-ray photon correlation spectroscopy (XPCS) signals, which capture the density fluctuation at various length scales in the liquid phase, as well as phonon density-of-state in the solid phase and the liquid-solid phase transition behavior. Our results show that the model can accurately capture the behavior of the solid phase only when the configurations from the solid phase are included in the training dataset. This underscores the importance of appropriately selecting the training data set when developing machine-learned force fields. The tests presented in this work provide a necessary foundation for the development and application of machine-learned force fields for materials simulations.
翻訳日:2023-01-12 11:51:07 公開日:2023-01-11
# 量子ハードウェア上での量子エネルギーテレポーテーションの最初の実現

First Realization of Quantum Energy Teleportation on Quantum Hardware ( http://arxiv.org/abs/2301.02666v2 )

ライセンス: Link先を確認
Kazuki Ikeda(参考訳) 物理量を遠隔地へテレポートすることは、量子情報科学と技術にとって依然として重要な課題である。 量子テレポーテーションは量子情報の転送を可能にしたが、量子物理量のテレポーテーションはまだ実現されていない。 本稿では,実量子ハードウェア上での量子エネルギーテレポーテーションを初めて実現・観測する。 我々は、IBMの超伝導量子コンピュータを用いてこれを実現する。 結果は理論の厳密な解と一致し、測定誤差の軽減によって改善される。 量子エネルギーテレポーテーションは局所的な操作と古典的な通信のみを必要とする。 したがって、現在の量子コンピューティングと通信技術で完全に実現可能な現実的なベンチマークを提供する。

Teleporting physical quantities to remote locations is a remaining key challenge for quantum information science and technology. Quantum teleportation has enabled the transfer of quantum information, but teleportation of quantum physical quantities has not yet been realized. Here we report the first realization and observation of quantum energy teleportation on real quantum hardware. We achieve this by using several IBM's superconducting quantum computers. The results are consistent with the exact solution of the theory and are improved by the mitigation of measurement error. Quantum energy teleportation requires only local operations and classical communication. Therefore our results provide a realistic benchmark that is fully achievable with current quantum computing and communication technologies.
翻訳日:2023-01-12 11:50:44 公開日:2023-01-11