このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230112となっている論文です。

PDF登録状況(公開日: 20230112)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子カピツァ振子の振動状態

Oscillatory states of quantum Kapitza pendulum ( http://arxiv.org/abs/2208.02488v3 )

ライセンス: Link先を確認
Wei He, Chang-Yong Liu(参考訳) kapitza pendulum ポテンシャルを持つ schr\"{o}dinger 方程式によって記述される量子力学問題(円上の非対称二重ウェルポテンシャル)を研究する。 ポテンシャルの2つの安定な鞍位置の周りの振動状態が空間的に局在する場合には、摂動固有値と対応する区分的な波動関数を得る。 角座標を複素平面に拡張してスペクトルを計算し、虚数方向に延びる経路に沿った輪郭積分として量子化条件を定式化する。 井戸間の量子トンネルが計算される。

We study quantum mechanics problem described by the Schr\"{o}dinger equation with Kapitza pendulum potential, that is the asymmetric double-well potential on the circle. For the oscillatory states spatially localize around the two stable saddle positions of the potential, we obtain the perturbative eigenvalues and corresponding piecewise wavefunctions. The spectrum is computed by extending the angle coordinate to the complex plane so that the quantization condition is formulated as contour integral along a path extending in the imaginary direction. Quantum tunneling between the wells is computed.
翻訳日:2023-02-02 07:31:21 公開日:2023-01-12
# 生物におけるラジカル対機構の潜在的経路としての低磁場効果

Hypomagnetic field effects as a potential avenue for testing the radical pair mechanism in biology ( http://arxiv.org/abs/2208.10465v2 )

ライセンス: Link先を確認
Hadi Zadeh-Haghighi, Rishabh Rishabh, and Christoph Simon(参考訳) 低磁場と呼ばれるゼロに近い磁場は、発生過程、概日系、ニューロンおよび脳活動、dnaメチル化、細胞のカルシウムバランスなど、生物学的現象に影響を与えることが知られている。 しかし、対応するエネルギーは熱エネルギーよりもはるかに小さいため、そのような効果の根底にある正確なメカニズムはまだ解明されていない。 ラジカル対を含む化学反応は、地磁気と同等かそれ以下の非常に低い強度で磁場に依存することが知られている。 本稿では, ラジカル対機構の観点からは, 強磁場効果を詳細に検討し, 一定の条件下では, 磁場を増加させる効果に匹敵するか, さらに強いかを示す。 低磁場効果は生物学におけるラジカル対機構をテストする上で興味深い方法であることが示唆された。

Near-zero magnetic fields, called hypomagnetic fields, are known to impact biological phenomena, including developmental processes, the circadian system, neuronal and brain activities, DNA methylation, calcium balance in cells, and many more. However, the exact mechanism underlying such effects is still elusive, as the corresponding energies are far smaller than thermal energies. It is known that chemical reactions involving radical pairs can be magnetic field dependent at very low intensities comparable to or less than the geomagnetic field. Here, we review in detail hypomagnetic field effects from the perspective of the radical pair mechanism, pointing out that under certain conditions, they can be comparable or even stronger than the effects of increasing the magnetic field. We suggest that hypomagnetic field effects are an interesting avenue for testing the radical pair mechanism in biology.
翻訳日:2023-01-30 04:51:07 公開日:2023-01-12
# セマンティック・トレラント・コントラスト・ロスによる自己監督型イメージ・ツー・ポイント蒸留

Self-Supervised Image-to-Point Distillation via Semantically Tolerant Contrastive Loss ( http://arxiv.org/abs/2301.05709v1 )

ライセンス: Link先を確認
Anas Mahmoud, Jordan S. K. Hu, Tianshu Kuai, Ali Harakeh, Liam Paull, and Steven L. Waslander(参考訳) 知覚タスクの3D表現を学習するための効果的なフレームワークは、コントラスト学習を通じて、リッチな自己教師付き画像特徴を抽出することである。 しかし、自律運転データセットのイメージ・ツー・ポイント表現学習は2つの大きな課題に直面している。 1) 自己相似性の豊富さは、意味的に類似した点や画像領域を押し出し、学習した表現の局所的な意味構造を乱す、対照的な損失をもたらす。 2)プリトレーニングとしての厳しいクラス不均衡は,過度に表現されたクラスに支配される。 本稿では,画像領域と画像領域の対比を最小化するために,正と負の領域間の意味距離を考慮した,新しい意味論的に寛容な画像対点コントラスト損失法を提案する。 さらに,クラス不均衡度を,集合的なサンプルとサンプル間のセマンティック類似度によって近似するクラス非均衡損失を設計することで,クラス不均衡に対処する。 クラスバランスによるセマンティック・トレラントなコントラスト損失は,3次元セマンティックセグメンテーションのすべての評価設定において,最先端の2D-to-3D表現学習を改善することを示す。 提案手法は,最先端の2D-to-3D表現学習フレームワークを多種多様な自己教師付き事前学習モデルで一貫した性能を発揮する。

An effective framework for learning 3D representations for perception tasks is distilling rich self-supervised image features via contrastive learning. However, image-to point representation learning for autonomous driving datasets faces two main challenges: 1) the abundance of self-similarity, which results in the contrastive losses pushing away semantically similar point and image regions and thus disturbing the local semantic structure of the learned representations, and 2) severe class imbalance as pretraining gets dominated by over-represented classes. We propose to alleviate the self-similarity problem through a novel semantically tolerant image-to-point contrastive loss that takes into consideration the semantic distance between positive and negative image regions to minimize contrasting semantically similar point and image regions. Additionally, we address class imbalance by designing a class-agnostic balanced loss that approximates the degree of class imbalance through an aggregate sample-to-samples semantic similarity measure. We demonstrate that our semantically-tolerant contrastive loss with class balancing improves state-of-the art 2D-to-3D representation learning in all evaluation settings on 3D semantic segmentation. Our method consistently outperforms state-of-the-art 2D-to-3D representation learning frameworks across a wide range of 2D self-supervised pretrained models.
翻訳日:2023-01-29 14:16:42 公開日:2023-01-12
# データからの保存則のモデルフリー機械学習

Model-free machine learning of conservation laws from data ( http://arxiv.org/abs/2301.07503v1 )

ライセンス: Link先を確認
Shivam Arora, Alex Bihlo, R\"udiger Brecht, Pavel Holba(参考訳) 本稿では,通常の微分方程式系の最初の積分を与えられた軌跡データから学習する機械学習手法を提案する。 この方法は、トラジェクトリを生成する微分方程式の基底系の明示的な知識を必要としないという点で、モデルフリーである。 副生成物として、最初の積分が学習されると、微分方程式の系も知られる。 古典的問題を数理科学から考慮し,本手法を説明する。

We present a machine learning based method for learning first integrals of systems of ordinary differential equations from given trajectory data. The method is model-free in that it does not require explicit knowledge of the underlying system of differential equations that generated the trajectories. As a by-product, once the first integrals have been learned, also the system of differential equations will be known. We illustrate our method by considering several classical problems from the mathematical sciences.
翻訳日:2023-01-29 14:08:34 公開日:2023-01-12
# ニューラルランゲージモデルのための凝集蒸留アーキテクチャ

A Cohesive Distillation Architecture for Neural Language Models ( http://arxiv.org/abs/2301.08130v1 )

ライセンス: Link先を確認
Jan Philip Wahle(参考訳) 自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に大きくなることである。 本研究では,大規模モデルの効率的な代替手段として知識蒸留法(KD)を提案する。 この文脈では、KDはニューラルネットワークと語彙知識データベースに符号化された言語に関する情報を抽出することを意味する。 我々は、効率的なアーキテクチャがLMから知識を得て、語彙情報源から貴重な情報を抽出できるという仮説をテストする2つの方法を開発した。 まず,複数の教師ネットワークの重み付け予測によるマスキング言語モデルにおける自信確率分布の学習手法を提案する。 第二に,多くの LM に適応するのに十分な単語センスの曖昧さ (WSD) と語彙KD の手法を提案する。 以上の結果から,複数の教師のKDが学習の収束を向上させることが示唆された。 語彙事前学習法を使用すると、lm特性は失われず、パラメータを付加することなく、最先端の自然言語理解(nlu)タスクのパフォーマンスが向上する。 さらに, モデルの意味理解が向上し, 実問題シナリオ (plagiarism detection) において, wsd と nlu を超えてタスク性能が向上した。 本研究は,高度なトレーニング手法とネットワークアーキテクチャが,トレーニング可能なパラメータのスケーリングよりも優れていることを示唆する。 そこで本研究では,タスク性能に対して,LMサイズが等しく大きくなることによる効率的なモデルの開発と利用を促すことを提案する。

A recent trend in Natural Language Processing is the exponential growth in Language Model (LM) size, which prevents research groups without a necessary hardware infrastructure from participating in the development process. This study investigates methods for Knowledge Distillation (KD) to provide efficient alternatives to large-scale models. In this context, KD means extracting information about language encoded in a Neural Network and Lexical Knowledge Databases. We developed two methods to test our hypothesis that efficient architectures can gain knowledge from LMs and extract valuable information from lexical sources. First, we present a technique to learn confident probability distribution for Masked Language Modeling by prediction weighting of multiple teacher networks. Second, we propose a method for Word Sense Disambiguation (WSD) and lexical KD that is general enough to be adapted to many LMs. Our results show that KD with multiple teachers leads to improved training convergence. When using our lexical pre-training method, LM characteristics are not lost, leading to increased performance in Natural Language Understanding (NLU) tasks over the state-of-the-art while adding no parameters. Moreover, the improved semantic understanding of our model increased the task performance beyond WSD and NLU in a real-problem scenario (Plagiarism Detection). This study suggests that sophisticated training methods and network architectures can be superior over scaling trainable parameters. On this basis, we suggest the research area should encourage the development and use of efficient models and rate impacts resulting from growing LM size equally against task performance.
翻訳日:2023-01-29 13:57:58 公開日:2023-01-12
# 制約付きk-wayグラフ分割によるフェアおよびスキル多様性学生グループ形成

Fair and skill-diverse student group formation via constrained k-way graph partitioning ( http://arxiv.org/abs/2301.09984v1 )

ライセンス: Link先を確認
Alexander Jenkins, Imad Jaimoukha, Ljubisa Stankovic, Danilo Mandic(参考訳) グループ内の学生の適切な組み合わせを形成することは、学習とコラボレーションのための強力で効果的な環境を実現することを約束する。 しかし、学生のグループを定義することは複雑なタスクであり、複数の制約を満たす必要がある。 本研究は、公正かつ多様な学生グループ形成のための教師なしアルゴリズムを導入する。 これは、学生のコースマークと教育機関が提供する微妙な属性を考慮に入れることで達成される。 学生のスキルセットは、ラプラシアン固有写像を介してコースマークデータの教師なし次元化によって決定される。 この問題は制約付きグラフ分割問題として定式化され、各グループのスキルセットの多様性を最大化し、利用可能なリソースに応じてグループサイズを上下境界とし、センシティブ属性の「バランス」を低くし、グループ形成において公平性を実現する。 この最適化問題は整数プログラミングを用いて解き、インペリアル・カレッジ・ロンドンの学生コース・マークのデータセット上でその効果を示す。

Forming the right combination of students in a group promises to enable a powerful and effective environment for learning and collaboration. However, defining a group of students is a complex task which has to satisfy multiple constraints. This work introduces an unsupervised algorithm for fair and skill-diverse student group formation. This is achieved by taking account of student course marks and sensitive attributes provided by the education office. The skill sets of students are determined using unsupervised dimensionality reduction of course mark data via the Laplacian eigenmap. The problem is formulated as a constrained graph partitioning problem, whereby the diversity of skill sets in each group are maximised, group sizes are upper and lower bounded according to available resources, and `balance' of a sensitive attribute is lower bounded to enforce fairness in group formation. This optimisation problem is solved using integer programming and its effectiveness is demonstrated on a dataset of student course marks from Imperial College London.
翻訳日:2023-01-29 13:39:02 公開日:2023-01-12
# CovidRhythm: ウェアラブル生理データから得られたバイオビヘイビアリズムを用いた新型コロナウイルスの受動的予測のためのディープラーニングモデル

CovidRhythm: A Deep Learning Model for Passive Prediction of Covid-19 using Biobehavioral Rhythms Derived from Wearable Physiological Data ( http://arxiv.org/abs/2301.10168v1 )

ライセンス: Link先を確認
Atifa Sarwar, Emmanuel O. Agu(参考訳) 深層学習モデルが、SARS−CoV-2ウイルスによる身体の生理的(心拍数)および安静時リズム(リズム不規則)の破壊からCovid-19を検出できるかどうかを検討する。 コビッドリズム(CovidRhythm)は,MHSA(Multi-Head Self-Attention)を用いたGRU(Gated Recurrent Unit)ネットワークで,心拍数と活動(ステップ)データから抽出したリズミカル特徴を,コンシューマグレードのスマートウェアラブルを用いて受動的に収集し,Covid-19を予測する。 ウェアラブルセンサデータから39種類の特徴(標準偏差,平均,min/max/avg長,sedentaryおよびactive bouts)を抽出した。 生体行動リズムは,9つのパラメータ(メータ,振幅,アクロフェーズ,日内変動)を用いてモデル化した。 これらの特徴は、インキュベーションフェーズ(生物学的症状が現れる1日前)でCovid-19を予測するためにCovidRhythmに入力された。 センサとバイオビヘイビアリズムの組み合わせによるAUC-ROCの最高値は0.79(感度 = 0.69, 特異性=0.89, F$_{0.1}$ = 0.76]であり, 歴史的ウェアラブル生理学の24時間を用いた健康管理からコビッド陽性患者を識別するための先行的アプローチよりも優れていた。 リズムの特徴は、単独またはセンサーの特徴と組み合わせて使用する場合、Covid-19感染の最も予測的であった。 センサーは健康な被験者を最もよく予測する。 24時間の活動と睡眠情報を組み合わせた概日リズムが最も混乱した。 CovidRhythmは、コンシューマグレードのウェアラブルデータに由来する生体行動リズムが、Covid-19のタイムリーな検出を促進することを実証している。 我々の知る限りでは、私たちの研究は、消費者グレードのウェアラブルデータから得られたディープラーニングと生物行動リズム機能を使って、初めてCovid-19を検出する。

To investigate whether a deep learning model can detect Covid-19 from disruptions in the human body's physiological (heart rate) and rest-activity rhythms (rhythmic dysregulation) caused by the SARS-CoV-2 virus. We propose CovidRhythm, a novel Gated Recurrent Unit (GRU) Network with Multi-Head Self-Attention (MHSA) that combines sensor and rhythmic features extracted from heart rate and activity (steps) data gathered passively using consumer-grade smart wearable to predict Covid-19. A total of 39 features were extracted (standard deviation, mean, min/max/avg length of sedentary and active bouts) from wearable sensor data. Biobehavioral rhythms were modeled using nine parameters (mesor, amplitude, acrophase, and intra-daily variability). These features were then input to CovidRhythm for predicting Covid-19 in the incubation phase (one day before biological symptoms manifest). A combination of sensor and biobehavioral rhythm features achieved the highest AUC-ROC of 0.79 [Sensitivity = 0.69, Specificity=0.89, F$_{0.1}$ = 0.76], outperforming prior approaches in discriminating Covid-positive patients from healthy controls using 24 hours of historical wearable physiological. Rhythmic features were the most predictive of Covid-19 infection when utilized either alone or in conjunction with sensor features. Sensor features predicted healthy subjects best. Circadian rest-activity rhythms that combine 24h activity and sleep information were the most disrupted. CovidRhythm demonstrates that biobehavioral rhythms derived from consumer-grade wearable data can facilitate timely Covid-19 detection. To the best of our knowledge, our work is the first to detect Covid-19 using deep learning and biobehavioral rhythms features derived from consumer-grade wearable data.
翻訳日:2023-01-29 13:31:57 公開日:2023-01-12
# 高次位相信号のdirac信号処理

Dirac signal processing of higher-order topological signals ( http://arxiv.org/abs/2301.10137v1 )

ライセンス: Link先を確認
Lucille Calmon, Michael T. Schaub, Ginestra Bianconi(参考訳) 我々は,高次ネットワークと単純複合ネットワークのノード,リンク,三角形をサポートする変数に対応する位相信号を考える。 これまでのところ、これらの信号は互いに独立して処理され、異なるレベルにまたがる位相的信号の一貫した処理を強制できるアルゴリズムはほとんど不足している。 本稿では,ノード,リンク,および(満ちた)合成錯体の三角形を一貫した方法で結合フィルタリングする適応的教師なし信号処理アルゴリズムであるDirac信号処理を提案する。 提案したディラック信号処理アルゴリズムは代数トポロジーに根づき、離散ディラック作用素の言葉で定式化され、ノード、リンク、および単体錯体の三角形に作用する高階(ホッジ)ラプラシア行列の ``square root' と解釈できる。 我々は,海中のドリフトのノイズ合成データとノイズデータを用いてアルゴリズムをテストした結果,ホッジラプラシアンのみに基づいて,真の信号性能よりも優れたアルゴリズムを効率的に再現できることを確認した。

We consider topological signals corresponding to variables supported on nodes, links and triangles of higher-order networks and simplicial complexes. So far such signals are typically processed independently of each other, and algorithms that can enforce a consistent processing of topological signals across different levels are largely lacking. Here we propose Dirac signal processing, an adaptive, unsupervised signal processing algorithm that learns to jointly filter topological signals supported on nodes, links and (filled) triangles of simplicial complexes in a consistent way. The proposed Dirac signal processing algorithm is rooted in algebraic topology and formulated in terms of the discrete Dirac operator which can be interpreted as ``square root" of a higher-order (Hodge) Laplacian matrix acting on nodes, links and triangles of simplicial complexes. We test our algorithms on noisy synthetic data and noisy data of drifters in the ocean and find that the algorithm can learn to efficiently reconstruct the true signals outperforming algorithms based exclusively on the Hodge Laplacian.
翻訳日:2023-01-29 13:30:01 公開日:2023-01-12
# 量子デバイスの盲点校正によるプロトコルプライバシの強化

Enhancing Protocol Privacy with Blind Calibration of Quantum Devices ( http://arxiv.org/abs/2209.05634v2 )

ライセンス: Link先を確認
Ankit Khandelwal, Stephen DiAdamo(参考訳) 量子チャネルのノイズを軽減するため、キャリブレーションはデバイスのエラーを最小限にするために使用される。 一般的に、プリアグリオンキャリブレーション状態を送信し、エラーコストを判定することにより、両者がデバイスを調整できるようにする。 キャリブレーション状態は所望のプロトコルで使用するものと同じであり、信頼できない当事者はキャリブレーション状態とコスト関数の知識を収集することで、どのプロトコルが実行されているかを知ることができる。 ここでは、プロトコルのプライバシが目標であり、したがって受信者はプロトコルの状態を決定することができないと仮定する。 そこで本研究では,受信機に提示される情報を制限するとともに,受信機からキャリブレーション状態とコスト関数を隠蔽するが,キャリブレーションを効率的に行うことができ,プロトコルのプライバシを増大させる簡単なプロトコルを提案する。 様々なチャネルノイズパラメータと通信シナリオ下でのプロトコルの能力を示す様々な数値結果を示す。

To mitigate the noise in quantum channels, calibration is used to tune the devices to minimize error. Generally, calibration is performed by transmitting pre-agreed-upon calibration states and determining an error cost so the two parties can tune their devices accordingly. The calibration states can be the same ones used for the desired protocol, and so an untrusted party could potentially learn which protocol is being performed by gathering knowledge of the calibration states and cost function. Here, we assume privacy of the protocol is the goal and therefore the receiver should not be allowed to determine the protocol states. We limit the information that is revealed to the receiver, and in this regard, we propose a simple protocol that hides the calibration states and cost function from the receiver, but still allows for calibration to be performed efficiently, thereby increasing the privacy of the protocol. We show various numerical results demonstrating the ability of the protocol under various channel noise parameters and communication scenarios.
翻訳日:2023-01-26 21:53:13 公開日:2023-01-12
# バックグラウンド自由は、ローカルビーブルと確率を持つ多世界につながる

Background freedom leads to many-worlds with local beables and probabilities ( http://arxiv.org/abs/2209.08623v5 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 量子重力における背景自由は、量子状態が古典的な空間を持つ状態に解離することにつながると私は論じる。 つまり、干渉は、たとえその線形結合が同じであっても、異なる空間幾何学を持つ状態に対して完全には定義されていない。 異なる空間幾何学を持つ状態の干渉は依然として小さなスケールでは許されるが、マクロスケールでは無視される。 測定装置を含むマクロ状態は古典的である。 空間ジオメトリの分布は自動的にボルン則を与える。 解離はある種の絶対デコヒーレンスを伴い、アドホック波動関数は不必要に崩壊する。 これは当然、多世界解釈の新しいバージョンにつながります。 1)古典的空間状態は絶対的に好ましい基底を形成する。 2) いずれにせよ、結果のマイクロブランチは古典的な世界と似ており、宇宙空間に物体がある。 3)マクロブランチは、マイクロブランチが(必要に応じて)干渉しても干渉を停止する。 4) 空間幾何学はビッグバンに収束し、将来へのマクロ分岐を好む。 5) 大域U(1)ゲージの位相を吸収することで波動関数が実数となる。 6) 存在論的には、波動関数は多くのゲージされた空間状態から成り、それぞれが局所的可算(空間幾何学と古典的場)を持つことで世界として数えられる。 7) 古典的空間状態の密度はボルン則に自動的に従う。

I argue that background freedom in quantum gravity automatically leads to a dissociation of the quantum state into states having a classical space. That is, interference is not completely well-defined for states with different space geometries, even if their linear combination is. Interference of states with different space geometry is still allowed at small scales, but precluded at macro-scales. Macrostates, including measuring devices, appear classical. The distribution of space geometries automatically gives the Born rule. The dissociation entails a kind of absolute decoherence, making the ad-hoc wavefunction collapse unnecessary. This naturally leads to a new version of the many-worlds interpretation, in which: 1) the classical space-states form an absolute preferred basis, 2) at any time, the resulting micro-branches are like classical worlds, with objects in space, 3) macro-branches stop interfering, even though micro-branches can interfere (as they should), 4) the space geometries converge at the Big-Bang, favoring macro-branching towards the future, 5) the wavefunctional becomes real by absorbing the phases in the global U(1) gauge, 6) ontologically, the wavefunctional consists of many gauged space-states, each of them counting as a world by having local beables (the space geometry and the classical fields), 7) the density of the classical space-states automatically obeys the Born rule.
翻訳日:2023-01-26 04:41:52 公開日:2023-01-12
# born rule: 古典的確率としての量子確率

Born rule: quantum probability as classical probability ( http://arxiv.org/abs/2209.08621v5 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 私は、ボルン規則の単純な導出を古典的な確率、すなわち、システムの好ましい状態の測度と、その総可能な状態の測度との比を与えるものとして提供します。 古典的なシステムでは、その確率はマイクロステートとして異なる方法で同じマクロステートを実現できるという事実による。 量子系と古典系の間に急激な違いがあるにもかかわらず、量子系にも同じように適用できることを示し、その結果はボルン則である。 これは基底が連続である場合にのみ機能するが、物理的に現実的な測定には連続的な基底が伴う。 連続基底は一意ではなく、サブシステムにとって可観測性に依存する。 しかし、宇宙全体には、全ての測定値が巨視的ポインタ状態と巨視的観測の区別に還元されるため、すべての測定値にボルン則を与える連続的な基底が存在する。 これにより、宇宙全体のオンティック基底が可能である。 波動汎関数の定式化では、基底は古典場構成から選択でき、係数 $\psi[\phi]$ はそれらを大域 u(1) ゲージに吸収することで実数にすることができる。 多世界解釈では、この結果は微小分岐計数から生まれた規則を与える。

I provide a simple derivation of the Born rule as giving a classical probability, that is, the ratio of the measure of favorable states of the system to the measure of its total possible states. In classical systems, the probability is due to the fact that the same macrostate can be realized in different ways as a microstate. Despite the radical differences between quantum and classical systems, I show that the same can be applied to quantum systems, and the result is the Born rule. This works only if the basis is continuous, but all known physically realistic measurements involve a continuous basis, because they are based eventually on distinguishing positions. The continuous basis is not unique, and for subsystems it depends on the observable. But for the entire universe, there are continuous bases that give the Born rule for all measurements, because all measurements reduce to distinguishing macroscopic pointer states, and macroscopic observations commute. This allows for the possibility of an ontic basis for the entire universe. In the wavefunctional formulation, the basis can be chosen to consist of classical field configurations, and the coefficients $\Psi[\phi]$ can be made real by absorbing them into a global U(1) gauge. For the many-worlds interpretation, this result gives the Born rule from micro-branch counting.
翻訳日:2023-01-26 04:41:35 公開日:2023-01-12
# 臨界前駆体を持つ有限量子系における最適駆動の探索

Search for optimal driving in finite quantum systems with precursors of criticality ( http://arxiv.org/abs/2210.07027v2 )

ライセンス: Link先を確認
Felipe Matus, Jan St\v{r}ele\v{c}ek, Pavel Str\'ansk\'y, Pavel Cejnar(参考訳) 駆動力学の断熱摂動理論 (Phys. Rev. A 78, 052508 (2008)) を用いて、非常に長い運転時間で忠実度を体系的に増大させる量子状態準備プロトコルの階層を設計する。 我々は、パラメータ空間の幾何学的解析に基づくこれらのプロトコルを、単一量子ビット系と、その無限大のいくつかの量子相転移を示す完全に連結されたマルチ量子ビット系でテストする。 新しいプロトコルは、(システムのサイズで)運転経路に沿って最小限のエネルギーギャップを減らして増加するランダウ・ツェナー政権からの交叉時間よりも、漸近的な運転体制で優れている。 中規模ドメインでは、すべてのテスト済みプロトコルのパフォーマンスは決定的ではない。

Using the adiabatic perturbation theory of driven dynamics [Phys. Rev. A 78, 052508 (2008)] we design a hierarchy of quantum state preparation protocols that systematically increase the fidelity at very long driving times. We test these and other protocols, including those based on the geometric analysis of the parameter space, in a single-qubit system and in a fully connected multi-qubit system showing in its infinite-size limit several quantum phase transitions. The new protocols excel in the asymptotic driving regime, above a crossover time from the Landau-Zener regime which increases with a decreasing minimal energy gap along the driving path (with the size of the system). In the medium-time domain, the performance of all tested protocols is indecisive.
翻訳日:2023-01-22 16:54:23 公開日:2023-01-12
# 生成化学における量子生成反転ネットワークの利点を探る

Exploring the Advantages of Quantum Generative Adversarial Networks in Generative Chemistry ( http://arxiv.org/abs/2210.16823v2 )

ライセンス: Link先を確認
Po-Yu Kao, Ya-Chu Yang, Wei-Yin Chiang, Jen-Yueh Hsiao, Min-Hsiu Hsieh, and Yen-Chu Lin(参考訳) 薬物開発プロセスは時間と資源を消費するだけでなく、成功の可能性が低い。 機械学習とディープラーニング技術の最近の進歩は、コストを削減し、医薬品の研究と開発を改善している。 望まれる生物活性を持つデノボの薬物設計は、患者に対する新しい治療薬の開発に不可欠である。 また、薬物発見パイプラインを前進させるための重要なステップでもある。 人工知能は従来の薬物設計アプローチの限界を押し上げ、量子コンピューティングはルーティング問題の解決や株価予測など、様々なアプリケーションでその利点を実証してきた。 小分子発見のためのハイブリッド量子古典生成逆数ネットワーク(GAN)を提案した。 GANの各素子を可変量子回路(VQC)で置換し,小型薬物発見における量子的優位性を実証した。 GANのノイズ発生器にVQCを応用して小さな分子を生成することで、ゴール指向ベンチマークの物理化学的特性と性能が従来のものよりも向上する。 さらに、GANの生成元に数個の学習可能なパラメータしか持たないVQCが、他の量子コンピューティングアプリケーションよりも複雑な問題である小さな分子を生成する可能性を実証する。 最後に、GANの判別器におけるVQCの量子的優位性を示す。 このハイブリッドモデルでは、学習可能なパラメータの数は古典的パラメータよりも著しく少なく、有効な分子を生成することができる。 量子判別器のトレーニングパラメータが10個しかないハイブリッドモデルは、生成分子特性とkl-divergenceの観点からmlpベースのモデルよりも優れている。

The drug development process is not only time and resource-consuming but also has a low probability of success. Recent advances in machine learning and deep learning technology have reduced costs and improved pharmaceutical research and development. De novo drug design with desired biological activities is crucial for developing novel therapeutics for patients. It is also an important step to keep the drug discovery pipeline moving forward. Artificial intelligence has pushed the limit of conventional drug design approaches, and quantum computing has demonstrated its advantages in different applications, e.g., solving routing problems and stock price forecasting. We proposed a hybrid quantum-classical generative adversarial network (GAN) for small molecule discovery. We substituted each element of GAN with a variational quantum circuit (VQC) and demonstrated the quantum advantages in the small drug discovery. Utilizing a VQC in the noise generator of GAN to generate small molecules achieves better physicochemical properties and performance in the goal-directed benchmark than the classical counterpart. Moreover, we demonstrate the potential of a VQC with only tens of learnable parameters in the generator of GAN to generate small molecules, which is a more complex problem than other quantum computing applications. In the end, we also demonstrate the quantum advantage of a VQC in the discriminator of GAN. In this hybrid model, the number of learnable parameters is significantly less than the classical ones, and it can still generate valid molecules. The hybrid model with only tens of training parameters in the quantum discriminator outperforms the MLP-based one in terms of generated molecule properties and KL-divergence.
翻訳日:2023-01-21 00:40:41 公開日:2023-01-12
# 非分極維持型高非線形ファイバのスクイーズ光発生への応用

Characterizing non-polarization-maintaining highly nonlinear fiber toward squeezed-light generation ( http://arxiv.org/abs/2211.01433v2 )

ライセンス: Link先を確認
Joseph C. Chapman and Nicholas A. Peters(参考訳) 損失によって容易に劣化するスクイーズド光は、光ファイバーの直接発生の恩恵を受けることができる。 さらに、高非線形ファイバは、通常のシングルモードファイバよりも、ポンプパワーが低く、ファイバ長が短い、効率の良い世代を提供できる。 ゼロ分散波長(ZDW)のばらつきや偏光雑音を含む余剰ノイズの発生源を特徴付けることにより、圧縮光発生のための非偏光保持高非線形ファイバ(HNLF)について検討する。 その結果,ZDW変動と過剰偏極雑音が認められた。 偏波ノイズは非線形偏波モード分散によるものである。 我々はこの偏光雑音をモデル化し、Kerr squeezingを分解する可能性が高いが、4波混合でスキューズしないことを示す。

Squeezed light, which is easily degraded by loss, could benefit from generation directly in optical fiber. Furthermore, highly nonlinear fiber could offer more efficient generation with lower pump power and shorter fiber lengths than standard single-mode fiber. We investigate non-polarization-maintaining highly nonlinear fiber (HNLF) for squeezed-light generation by characterizing possible sources of excess noise, including its zero-dispersion wavelength (ZDW) variation and polarization noise. We find significant ZDW variation and excess polarization noise. We believe the polarization noise is from non-linear polarization-mode dispersion. We model this polarization noise and find that it is likely to degrade Kerr squeezing but not squeezing from four-wave mixing.
翻訳日:2023-01-20 16:28:05 公開日:2023-01-12
# 密度行列のuulmann忠実度を効率的に計算する

Efficiently computing the Uhlmann fidelity for density matrices ( http://arxiv.org/abs/2211.02623v3 )

ライセンス: Link先を確認
Andrew J. Baldwin and Jonathan A. Jones(参考訳) 明示的な密度行列記述が利用可能である場合には、uhlmann fidelityを効率的に計算する問題を考える。 数値評価が容易な代替公式を導出し,大行列に対して10倍の時間を節約する。

We consider the problem of efficiently computing the Uhlmann fidelity in the case when explicit density matrix descriptions are available. We derive an alternative formula which is simpler to evaluate numerically, saving a factor of 10 in time for large matrices.
翻訳日:2023-01-20 08:47:26 公開日:2023-01-12
# 雑音極大絡み状態を持つ完全量子非局所ゲームの決定可能性

Decidability of fully quantum nonlocal games with noisy maximally entangled states ( http://arxiv.org/abs/2211.10613v3 )

ライセンス: Link先を確認
Minglong Qin, Penghui Yao(参考訳) 本稿では、雑音の多い最大絡み合った状態を持つ完全量子非局所ゲームの決定可能性について考察する。 完全量子非ローカルゲームは非ローカルゲームの一般化であり、質問と回答の両方が量子的であり、審判はプレイヤーから量子的回答を受けた後にゲームに勝つかどうかを決定するためにバイナリ povm 測定を行う。 完全量子非局所ゲームの量子値 (quantum value) は、プレイヤーがゲームに勝つ確率の上限であり、プレイヤー間で共有される全ての可能な絡み合った状態と、プレイヤーが行うすべての有効な量子演算を超越する。 セミナーワーク $\mathrm{MIP}^*=\mathrm{RE}$ は、完全非局所ゲームの量子値を近似することは決定不可能であることを意味する。 これは、プレイヤーが最大に絡み合った状態を共有することしか許されていない場合でも継続される。 本稿では,共有最大絡み合った状態がノイズである場合について検討する。 我々は、プレイヤーが量子値に任意に近い確率で完全量子非局所ゲームに勝つために、ノイズの多い最大絡み合い状態のコピーに計算可能な上限が存在することを証明する。 これは、これらのゲームの量子値の近似が決定可能であることを意味する。 したがって、完全量子非局所ゲームにおける量子値の近似の難しさは共有状態のノイズに対して強固ではない。 本稿では,協調分布の非対話的シミュレーションを決定可能とする枠組みを構築し,非局所ゲームに対する類似結果を一般化する。 フーリエ解析の理論を超作用素の空間に拡張し、不変原理や超作用素の次元還元を含むいくつかの重要な結果を証明する。 これらの結果は、それ自体が興味深いものであり、さらなる応用があると考えられている。

This paper considers the decidability of fully quantum nonlocal games with noisy maximally entangled states. Fully quantum nonlocal games are a generalization of nonlocal games, where both questions and answers are quantum and the referee performs a binary POVM measurement to decide whether they win the game after receiving the quantum answers from the players. The quantum value of a fully quantum nonlocal game is the supremum of the probability that they win the game, where the supremum is taken over all the possible entangled states shared between the players and all the valid quantum operations performed by the players. The seminal work $\mathrm{MIP}^*=\mathrm{RE}$ implies that it is undecidable to approximate the quantum value of a fully nonlocal game. This still holds even if the players are only allowed to share (arbitrarily many copies of) maximally entangled states. This paper investigates the case that the shared maximally entangled states are noisy. We prove that there is a computable upper bound on the copies of noisy maximally entangled states for the players to win a fully quantum nonlocal game with a probability arbitrarily close to the quantum value. This implies that it is decidable to approximate the quantum values of these games. Hence, the hardness of approximating the quantum value of a fully quantum nonlocal game is not robust against the noise in the shared states. This paper is built on the framework for the decidability of non-interactive simulations of joint distributions and generalizes the analogous result for nonlocal games. We extend the theory of Fourier analysis to the space of super-operators and prove several key results including an invariance principle and a dimension reduction for super-operators. These results are interesting in their own right and are believed to have further applications.
翻訳日:2023-01-18 01:59:02 公開日:2023-01-12
# 非最大量子カオスに対する有効場の理論

An effective field theory for non-maximal quantum chaos ( http://arxiv.org/abs/2301.05256v1 )

ライセンス: Link先を確認
Ping Gao and Hong Liu(参考訳) 非最大量子カオス系では、時間外順序付き相関器(OTOC)の指数的挙動は、高次の「スピン」作用素の無限塔の交換に関する和から生じる。 実効場理論(EFT)を構築し、これらの交換を$(0+1)$次元で捉える。 eftは最大カオスシステムのためのものを一般化し、最大カオスの限界でそれへ還元する。 この理論は、1/n$拡大(自由度数)の先頭の順序と、1/n$補正の無限個の高次数の両方においてotocsの一般構造を予測する。 これらの一般的な結果は、特定のモデルで明示的に得られた結果と一致する。 また、EFTの一般的な構造は、大きな$q$SYKモデルから抽出できることを示す。

In non-maximally quantum chaotic systems, the exponential behavior of out-of-time-ordered correlators (OTOCs) results from summing over exchanges of an infinite tower of higher "spin" operators. We construct an effective field theory (EFT) to capture these exchanges in $(0+1)$ dimensions. The EFT generalizes the one for maximally chaotic systems, and reduces to it in the limit of maximal chaos. The theory predicts the general structure of OTOCs both at leading order in the $1/N$ expansion ($N$ is the number of degrees of freedom), and after resuming over an infinite number of higher order $1/N$ corrections. These general results agree with those previously explicitly obtained in specific models. We also show that the general structure of the EFT can be extracted from the large $q$ SYK model.
翻訳日:2023-01-16 15:37:26 公開日:2023-01-12
# 数保存型散逸量子状態生成の反応拡散ダイナミクス

Reaction-diffusive dynamics of number-conserving dissipative quantum state preparation ( http://arxiv.org/abs/2301.05258v1 )

ライセンス: Link先を確認
P. A. Nosov, D. S. Shapiro, M. Goldstein, I. S. Burmistrov(参考訳) 非自明な量子多体相関状態の制御生成のための散逸の使用は、非常に基本的かつ実用的な関心事である。 閉じた系では、拡散する拡散を引き起こすような数保存の結果はどうなるのか? 本研究では,一方のバンドを空にし,他方のバンドを配置し,他方が位相状態の散逸安定化のために導入された2バンドシステムのパラダイムモデルについて検討する。 散逸動力学の平均場処理を超越して, 粒子とホール密度モードを中間長さと時間スケールで拡散的に配置し, 外部磁場に対する非線形応答でのみ励起できることを実証した。 また,このモードの拡散挙動を最長及び時間スケールで制限するプロセスも同定する。 驚くべきことに、これらの過程はフィッシャー-コルモゴロフ-ペトロフスキー-ピスクノフ方程式によって制御される反応拡散ダイナミクスをもたらし、設計された暗黒状態が有限粒子とホール密度を持つ状態に向かって不安定になることがわかった。

The use of dissipation for the controlled creation of nontrivial quantum many-body correlated states is of much fundamental and practical interest. What is the result of imposing number conservation, which, in closed system, gives rise to diffusive spreading? We investigate this question for a paradigmatic model of a two-band system, with dissipative dynamics aiming to empty one band and to populate the other, which had been introduced before for the dissipative stabilization of topological states. Going beyond the mean-field treatment of the dissipative dynamics, we demonstrate the emergence of a diffusive regime for the particle and hole density modes at intermediate length- and time-scales, which, interestingly, can only be excited in nonlinear response to external fields. We also identify processes that limit the diffusive behavior of this mode at the longest length- and time-scales. Strikingly, we find that these processes lead to a reaction-diffusion dynamics governed by the Fisher-Kolmogorov-Petrovsky-Piskunov equation, making the designed dark state unstable towards a state with a finite particle and hole density.
翻訳日:2023-01-16 15:37:10 公開日:2023-01-12
# 複雑な交差点におけるロボットによるハイブリッド交通の制御と調整の学習

Learning to Control and Coordinate Hybrid Traffic Through Robot Vehicles at Complex and Unsignalized Intersections ( http://arxiv.org/abs/2301.05294v1 )

ライセンス: Link先を確認
Dawei Wang, Weizi Li, Lei Zhu, Jia Pan(参考訳) 交差点は現代の都市圏における交通の必要不可欠な道路インフラであるが、交通事故や信号機などの交通調整機構の欠如による交通の流れのボトルネックでもある。 そこで,交差交通の効率化を図るため,従来の制御手法を超える様々な制御・調整機構が提案されている。 これらの手法の中で,人間駆動車(HV)とロボット車(RV)からなる予測可能なハイブリッド交通の制御が最近出現している。 本稿では,実世界の複雑な交差点におけるハイブリッド交通の制御と協調のための分散強化学習手法を提案する。 本手法の有効性を示す総合的な実験を行った。 特に,5%のrvを用いることで,実車700台という実際の交通需要の下,交差点内における渋滞の発生を防止できることを示す。 対照的に、RVがなければ、交通需要が1時間に200台の車両に達すると渋滞が始まります。 rv浸透率の増加に伴い、さらなる性能向上(交差点での車両の待ち時間を短縮)を得る。 交通量に50%以上のRVが存在する場合,交差点における全車両の平均待ち時間において,我々の手法は交通信号よりも優れる。 また,この手法は,停電イベントや突然のRVパーセンテージの低下に対して堅牢であり,両交差点での展開に成功していることを示す。

Intersections are essential road infrastructures for traffic in modern metropolises; however, they can also be the bottleneck of traffic flows due to traffic incidents or the absence of traffic coordination mechanisms such as traffic lights. Thus, various control and coordination mechanisms that are beyond traditional control methods have been proposed to improve the efficiency of intersection traffic. Amongst these methods, the control of foreseeable hybrid traffic that consists of human-driven vehicles (HVs) and robot vehicles (RVs) has recently emerged. We propose a decentralized reinforcement learning approach for the control and coordination of hybrid traffic at real-world, complex intersections--a topic that has not been previously explored. Comprehensive experiments are conducted to show the effectiveness of our approach. In particular, we show that using 5% RVs, we can prevent congestion formation inside the intersection under the actual traffic demand of 700 vehicles per hour. In contrast, without RVs, congestion starts to develop when the traffic demand reaches as low as 200 vehicles per hour. Further performance gains (reduced waiting time of vehicles at the intersection) are obtained as the RV penetration rate increases. When there exist more than 50% RVs in traffic, our method starts to outperform traffic signals on the average waiting time of all vehicles at the intersection. Our method is also robust against both blackout events and sudden RV percentage drops, and enjoys excellent generalizablility, which is illustrated by its successful deployment in two unseen intersections.
翻訳日:2023-01-16 15:27:44 公開日:2023-01-12
# OpenTwins: 効果的な3D-IoT-AI駆動デジタルツインの設計、開発、統合のためのオープンソースフレームワーク

OpenTwins: An open-source framework for the design, development and integration of effective 3D-IoT-AI-powered digital twins ( http://arxiv.org/abs/2301.05560v1 )

ライセンス: Link先を確認
Julia Robles, Cristian Mart\'in, Manuel D\'iaz(参考訳) デジタル双生児は信頼性の高い資産表現の代替として最近登場したが、デジタル双生児の開発に利用可能なソリューションやツールの多くは、特定の環境に合わせて作られている。 さらに、信頼できるデジタル双子を達成するには、機械学習、モノのインターネット、そしてほとんどシームレスに整列しない3d視覚化のような技術やパラダイムのオーケストレーションが必要となる。 本稿では,上記の領域を組み合わせる効果的なデジタル双生児の開発のための汎用的枠組みを提案する。 このオープンなフレームワークでは、デジタルツインを簡単に開発して3D接続された可視化、IoTデータストリーム、リアルタイム機械学習予測で編成することができる。 この枠組みの実現可能性を示すために,石油化学工業における利用事例4.0が開発されている。

Although digital twins have recently emerged as a clear alternative for reliable asset representations, most of the solutions and tools available for the development of digital twins are tailored to specific environments. Furthermore, achieving reliable digital twins often requires the orchestration of technologies and paradigms such as machine learning, the Internet of Things, and 3D visualization, which are rarely seamlessly aligned. In this paper, we present a generic framework for the development of effective digital twins combining some of the aforementioned areas. In this open framework, digital twins can be easily developed and orchestrated with 3D connected visualizations, IoT data streams, and real-time machine-learning predictions. To demonstrate the feasibility of the framework, a use case in the Petrochemical Industry 4.0 has been developed.
翻訳日:2023-01-16 15:20:40 公開日:2023-01-12
# confidence-planner: 使いやすい予測信頼度推定とサンプルサイズ計画

confidence-planner: Easy-to-Use Prediction Confidence Estimation and Sample Size Planning ( http://arxiv.org/abs/2301.05702v1 )

ライセンス: Link先を確認
Antoni Klorek, Karol Roszak, Izabela Szczech, Dariusz Brzezinski(参考訳) 機械学習の応用、特に me\-di\-cine と social sciences の分野は、徐々に精査されるようになっている。 臨床および社会研究で実施されるサンプルサイズ計画と同様に、議員や資金提供機関は、社会に影響を及ぼす機械学習アプリケーションにおいて統計的不確実性の推定を期待することができる。 本稿では,予測信頼区間を推定するための簡易なpythonパッケージとWebアプリケーションを提案する。 このパッケージは、 holdout、bootstrap、cross-validation、progressive validation実験からの予測のサンプルサイズと信頼性を判断および正当化するための8つの異なる手順を提供する。 パッケージは確立したデータ分析ライブラリを直接構築するため、前処理や探索的なデータ分析ステップにシームレスに統合される。 この論文に関連するコードは、https://github.com/dabrze/confidence-planner.com/で入手できる。

Machine learning applications, especially in the fields of me\-di\-cine and social sciences, are slowly being subjected to increasing scrutiny. Similarly to sample size planning performed in clinical and social studies, lawmakers and funding agencies may expect statistical uncertainty estimations in machine learning applications that impact society. In this paper, we present an easy-to-use python package and web application for estimating prediction confidence intervals. The package offers eight different procedures to determine and justify the sample size and confidence of predictions from holdout, bootstrap, cross-validation, and progressive validation experiments. Since the package builds directly on established data analysis libraries, it seamlessly integrates into preprocessing and exploratory data analysis steps. Code related to this paper is available at: https://github.com/dabrze/confidence-planner.
翻訳日:2023-01-16 15:19:47 公開日:2023-01-12
# デコヒーレンスまたは弱い測定下での量子臨界

Quantum criticality under decoherence or weak measurement ( http://arxiv.org/abs/2301.05238v1 )

ライセンス: Link先を確認
Jong Yeon Lee, Chao-Ming Jian, and Cenke Xu(参考訳) デコヒーレンスは必然的に量子状態が環境に曝されると起こり、非自明な方法で量子臨界点(qcp)に影響を与える可能性がある。 1+1)d$共形場理論(CFT)に関する最近の文献で指摘されているように、弱い測定の効果は境界CFTの問題に数学的にマッピングできる。 本研究では,近年,境界効果と欠陥効果が理論的,数値的興味を惹きつけている(2+1)d$QCPに着目した。 測定結果の選択後における弱測定による非一貫性に着目した。 その結果,(1)o(n)wilson-fisher qcpでは,一般によく知られたwilson-fisherの不動点と全く異なる挙動を持つ2つの異なる境界/欠陥臨界点が観察され,特に最近提案されたエキゾチックな"extraordinary-log"相関を観察することができる。 2) 余剰量子相転移は、renyiエントロピーのような非結合密度行列と非線形な量を考えると、デコヒーレンスによって駆動することができる。 この遷移と toric コードモデルにおけるエラーによって駆動される情報理論的な遷移との関係を実証する。 (3) 選択後がない場合, 局所作用素間の相関関数は非復号状態のままであるにもかかわらず, 非局所作用素は「退次作用素」のような定性的に異なる挙動を持つ。

Decoherence inevitably happens when a quantum state is exposed to its environment, which can affect quantum critical points (QCP) in a nontrivial way. As was pointed out in recent literature on $(1+1)d$ conformal field theory (CFT), the effect of weak measurement can be mathematically mapped to the problem of boundary CFT. In this work, we focus on the $(2+1)d$ QCPs, whose boundary and defect effects have attracted enormous theoretical and numerical interests very recently. We focus on decoherence caused by weak measurements with and without post-selecting the measurement outcomes. Our main results are: (1) for an O(N) Wilson-Fisher QCP under weak measurement with post-selection, an observer would in general observe two different types of boundary/defect criticality with very different behaviors from the well-known Wilson-Fisher fixed points; in particular, it is possible to observe the recently proposed exotic "extraordinary-log" correlation. (2) An extra quantum phase transition can be driven by decoherence, if we consider quantities nonlinear with the decohered density matrix, such as the Renyi entropy. We demonstrate the connection between this transition to the information-theoretic transition driven by an error in the toric code model. (3) When there is no post-selection, though correlation functions between local operators remain the same as the undecohered pure state, nonlocal operators such as the "disorder operator" would have qualitatively distinct behaviors; and we also show that the decoherence can lead to confinement.
翻訳日:2023-01-16 15:19:32 公開日:2023-01-12
# 位置依存型光デシェルビングによる高速イオン輸送特性

Characterization of Fast Ion Transport via Position-Dependent Optical Deshelving ( http://arxiv.org/abs/2301.05279v1 )

ライセンス: Link先を確認
Craig R. Clark, Creston D. Herold, James T. Merrill, Holly N. Tinkey, Wade Rellergert, Robert Clark, Roger Brown, Wesley D. Robertson, Curtis Volin, Kara Maller, Chris Shappert, Brian J. McMahon, Brian C. Sawyer, Kenton R. Brown(参考訳) イオン輸送は量子情報処理のいくつかのモデルにおいて必須の操作であり、効率的な高忠実性量子論理には最小運動励起による高速イオンシャットリングが必要である。 高速かつ低温のイオンシャットリングが実証されているが、ダイアバティック輸送中のイオンの動態と特定の軌道は詳細には研究されていない。 本稿では,その軌道を通してイオンの位置をサンプリングするのに有用な位置依存型光分解技術について述べるとともに,表面電極型イオントラップにおける$^{40}\text{ca}^+$イオンの高速線形輸送技術を示す。 高速では、トラップの電極フィルタは輸送電位波形を強く歪ませる。 平均速度は83(2)m/s、ピーク速度は251(6)m/s、距離は120$\mu$mである。

Ion transport is an essential operation in some models of quantum information processing, where fast ion shuttling with minimal motional excitation is necessary for efficient, high-fidelity quantum logic. While fast and cold ion shuttling has been demonstrated, the dynamics and specific trajectory of an ion during diabatic transport have not been studied in detail. Here we describe a position-dependent optical deshelving technique useful for sampling an ion's position throughout its trajectory, and we demonstrate the technique on fast linear transport of a $^{40}\text{Ca}^+$ ion in a surface-electrode ion trap. At high speed, the trap's electrode filters strongly distort the transport potential waveform. With this technique, we observe deviations from the intended constant-velocity (100 m/s) transport: we measure an average speed of 83(2) m/s and a peak speed of 251(6) m/s over a distance of 120 $\mu$m
翻訳日:2023-01-16 15:19:02 公開日:2023-01-12
# 一般マルチホップ無線ネットワークにおける分散フェデレーション学習におけるジャミング攻撃

Jamming Attacks on Decentralized Federated Learning in General Multi-Hop Wireless Networks ( http://arxiv.org/abs/2301.05250v1 )

ライセンス: Link先を確認
Yi Shi, Yalin E. Sagduyu, Tugba Erpek(参考訳) 分散統合学習(DFL)は、マルチホップネットワーク上の複数のノードで、すべてのノードに直接接続するサーバーを必要としないディープラーニングモデルをトレーニングするための効果的なアプローチである。 一般に、ノードが複数のホップを介して接続できる限り、dflプロセスは最終的に、各ノードが直接接続またはマルチホップパスを介して他のすべてのノードからモデルの影響を経験できるようになり、したがって各ノードで高忠実度モデルをトレーニングすることができる。 我々は、ジャマーを用いてノード間のモデル交換を防止する効果的な攻撃を考える。 攻撃シナリオは2つある。 まず、敵は特定の予算の下であらゆるリンクを攻撃できる。 一度攻撃されると、リンクの2つの終端ノードはモデルを交換できない。 第2に、ジャミング範囲が制限されたジャマーをネットワークに配置し、ジャマーはジャミング範囲内のノードのみをジャミングすることができる。 指向性リンクが攻撃されると、受信ノードは送信ノードからモデルを受け取ることができない。 両方のシナリオで攻撃されるリンクを選択するアルゴリズムを設計する。 第2のシナリオでは、重要なノードを攻撃し、dflプロセスに最も大きな影響を与えるように、ジャマーを最適な場所に配置するアルゴリズムも設計します。 大規模ネットワーク領域における無線信号の分類をユースケースとして評価し,これらの攻撃機構が学習,接続性,知覚の様々な側面をどのように活用するかを明らかにする。 また,dflを無線ネットワーク上に安全に配置する前に,攻撃面を脆弱性研究として特徴付けることで,dflの性能を著しく低下させることができることを示した。

Decentralized federated learning (DFL) is an effective approach to train a deep learning model at multiple nodes over a multi-hop network, without the need of a server having direct connections to all nodes. In general, as long as nodes are connected potentially via multiple hops, the DFL process will eventually allow each node to experience the effects of models from all other nodes via either direct connections or multi-hop paths, and thus is able to train a high-fidelity model at each node. We consider an effective attack that uses jammers to prevent the model exchanges between nodes. There are two attack scenarios. First, the adversary can attack any link under a certain budget. Once attacked, two end nodes of a link cannot exchange their models. Secondly, some jammers with limited jamming ranges are deployed in the network and a jammer can only jam nodes within its jamming range. Once a directional link is attacked, the receiver node cannot receive the model from the transmitter node. We design algorithms to select links to be attacked for both scenarios. For the second scenario, we also design algorithms to deploy jammers at optimal locations so that they can attack critical nodes and achieve the highest impact on the DFL process. We evaluate these algorithms by using wireless signal classification over a large network area as the use case and identify how these attack mechanisms exploits various learning, connectivity, and sensing aspects. We show that the DFL performance can be significantly reduced by jamming attacks launched in a wireless network and characterize the attack surface as a vulnerability study before the safe deployment of DFL over wireless networks.
翻訳日:2023-01-16 15:13:17 公開日:2023-01-12
# ベイズ深層学習成分に基づく信頼可能な自律システムに向けて

Towards Dependable Autonomous Systems Based on Bayesian Deep Learning Components ( http://arxiv.org/abs/2301.05297v1 )

ライセンス: Link先を確認
Fabio Arnez, Huascar Espinoza, Ansgar Radermacher, Fran\c{c}ois Terrier(参考訳) 自律システムは、ナビゲーションパイプライン機能を実装するためにディープニューラルネットワーク(DNN)にますます依存しているため、DNN予測の信頼性を推定するための不確実性推定手法が最重要になっている。 Bayesian Deep Learning (BDL)は、DNNにおける不確実性をモデル化するための原則的なアプローチを提供する。 しかし、DNNベースのシステムでは、全てのコンポーネントが不確実性推定法を使用しており、通常はそれらの間の不確実性伝播を無視しているわけではない。 本稿では,BDLコンポーネント間の不確実性と相互作用を考慮し,システム全体の不確実性を捉える手法を提案する。 自律航法のためのBDLシステムにおける不確実性伝播の効果について検討する。 実験により,本手法は最終課題におけるシステム性能をわずかに改善しつつ,有用な不確実性推定を捉えることができることが示された。 さらに、依存可能な自律システムを構築するためにbdlを採用することのメリット、課題、および影響について論じる。

As autonomous systems increasingly rely on Deep Neural Networks (DNN) to implement the navigation pipeline functions, uncertainty estimation methods have become paramount for estimating confidence in DNN predictions. Bayesian Deep Learning (BDL) offers a principled approach to model uncertainties in DNNs. However, in DNN-based systems, not all the components use uncertainty estimation methods and typically ignore the uncertainty propagation between them. This paper provides a method that considers the uncertainty and the interaction between BDL components to capture the overall system uncertainty. We study the effect of uncertainty propagation in a BDL-based system for autonomous aerial navigation. Experiments show that our approach allows us to capture useful uncertainty estimates while slightly improving the system's performance in its final task. In addition, we discuss the benefits, challenges, and implications of adopting BDL to build dependable autonomous systems.
翻訳日:2023-01-16 15:12:49 公開日:2023-01-12
# セキュリティアウェア近似スパイクニューラルネットワーク

Security-Aware Approximate Spiking Neural Networks ( http://arxiv.org/abs/2301.05264v1 )

ライセンス: Link先を確認
Syed Tihaam Ahmad, Ayesha Siddique, Khaza Anuarul Hoque(参考訳) Deep Neural Networks (DNN) と Spiking Neural Networks (SNN) はどちらも、敵対的攻撃に対する感受性で知られている。 そのため、近年の研究者は、敵の攻撃下でのDNNとSNNの堅牢性と防御を幅広く研究してきた。 正確なSNN(AccSNN)と比較して、近似SNN(AxSNN)は超低消費電力アプリケーションでは最大4倍エネルギー効率が高いことが知られている。 残念ながら、敵の攻撃によるAxSNNの堅牢性はまだ解明されていない。 本稿では,2つの勾配と2つのニューロモルフィック攻撃によるAxSNNの構造的パラメータと近似レベルの違いによるロバスト性の解析を行った。 そこで我々は,AxSNNの安全性を確保するために,精度スケーリングと近似量子化対応フィルタリング(AQF)という2つの新しい防御手法を提案する。 この2つの防御法の有効性を静的および神経形態学的データセットを用いて評価した。 以上の結果から,AxSNNはAccSNNよりも敵攻撃を受けやすいが,精度スケーリングとAQFはAxSNNの堅牢性を大幅に向上することが示された。 例えば、AxSNNに対するPGD攻撃は攻撃を受けないAccSNNと比較して72%の精度の損失をもたらすが、AxSNNに対する攻撃は静的MNISTデータセットにおいて17倍の精度の損失しか生じない(ロバスト性の改善)。 同様に、AxSNNに対するスパース攻撃は攻撃のないAccSNNと比較して77%の精度の損失をもたらすが、AQFによるAxSNNに対する攻撃は、ニューロモルフィックDVS128ジェスチャデータセット(38倍堅牢性の改善)においてわずか2倍の精度の損失をもたらす。

Deep Neural Networks (DNNs) and Spiking Neural Networks (SNNs) are both known for their susceptibility to adversarial attacks. Therefore, researchers in the recent past have extensively studied the robustness and defense of DNNs and SNNs under adversarial attacks. Compared to accurate SNNs (AccSNN), approximate SNNs (AxSNNs) are known to be up to 4X more energy-efficient for ultra-low power applications. Unfortunately, the robustness of AxSNNs under adversarial attacks is yet unexplored. In this paper, we first extensively analyze the robustness of AxSNNs with different structural parameters and approximation levels under two gradient-based and two neuromorphic attacks. Then, we propose two novel defense methods, i.e., precision scaling and approximate quantization-aware filtering (AQF), for securing AxSNNs. We evaluated the effectiveness of these two defense methods using both static and neuromorphic datasets. Our results demonstrate that AxSNNs are more prone to adversarial attacks than AccSNNs, but precision scaling and AQF significantly improve the robustness of AxSNNs. For instance, a PGD attack on AxSNN results in a 72\% accuracy loss compared to AccSNN without any attack, whereas the same attack on the precision-scaled AxSNN leads to only a 17\% accuracy loss in the static MNIST dataset (4X robustness improvement). Similarly, a Sparse Attack on AxSNN leads to a 77\% accuracy loss when compared to AccSNN without any attack, whereas the same attack on an AxSNN with AQF leads to only a 2\% accuracy loss in the neuromorphic DVS128 Gesture dataset (38X robustness improvement).
翻訳日:2023-01-16 15:10:49 公開日:2023-01-12
# HTTE:スパースデータ環境における旅行時間推定のためのハイブリッド手法

HTTE: A Hybrid Technique For Travel Time Estimation In Sparse Data Environments ( http://arxiv.org/abs/2301.05293v1 )

ライセンス: Link先を確認
Nikolaos Zygouras, Nikolaos Panagiotou, Yang Li, Dimitrios Gunopulos and Leonidas Guibas(参考訳) 旅行時間の推定は重要なタスクであり、個々の市民と利害関係者レベルで多くの都市アプリケーションに役立つ。 本稿では,過去およびスパースな実時間軌跡データを活用した旅行時間推定のための新しいハイブリッドアルゴリズムを提案する。 経路と出発時刻を考慮し,歴史情報,実時間軌道データ,道路区間間の相関を考慮した走行時間の推定を行う。 過去の軌跡から類似した道路区間を検出し,類似性をモデル化するために潜在表現を用いる。 提案手法の有効性を実験的に評価した。

Travel time estimation is a critical task, useful to many urban applications at the individual citizen and the stakeholder level. This paper presents a novel hybrid algorithm for travel time estimation that leverages historical and sparse real-time trajectory data. Given a path and a departure time we estimate the travel time taking into account the historical information, the real-time trajectory data and the correlations among different road segments. We detect similar road segments using historical trajectories, and use a latent representation to model the similarities. Our experimental evaluation demonstrates the effectiveness of our approach.
翻訳日:2023-01-16 15:02:40 公開日:2023-01-12
# 量子誤差補正のための変分量子アルゴリズムの高速化

Improving the speed of variational quantum algorithms for quantum error correction ( http://arxiv.org/abs/2301.05273v1 )

ライセンス: Link先を確認
Fabio Zoratti, Giacomo De Palma, Vittorio Giovannetti(参考訳) 本稿では、量子回路に作用する汎用量子ノイズに対して、適切な量子誤り訂正手順を考案する問題を考察する。 一般に、符号化と補正のユニタリゲートを得るための解析的な普遍的な手続きは存在せず、ノイズが不明で再構成が必要ならば問題はさらに困難である。 既存の手法は変分量子アルゴリズムに依存しており、コスト関数の勾配の大きさが量子ビット数で指数関数的に減少するため、訓練は非常に困難である。 次数1の量子ワッサーシュタイン距離に基づくコスト関数を用いてこの問題に対処する。 以上の結果から, このコスト関数は, 訓練の成功確率と回収状態の忠実度の両方を著しく向上させることがわかった。

We consider the problem of devising a suitable quantum error correction procedure for a generic quantum noise acting on a quantum circuit. In general, there is no analytic universal procedure to obtain the encoding and correction unitary gates, and the problem is even harder if the noise is unknown and has to be reconstructed. The existing procedures rely on variational quantum algorithms and are very difficult to train since the size of the gradient of the cost function decays exponentially with the number of qubits. We address this problem using a cost function based on the quantum Wasserstein distance of order 1. Our results show that such cost function significantly increases both the probability of a successful training and the fidelity of the recovered state.
翻訳日:2023-01-16 15:01:41 公開日:2023-01-12
# 交通予報におけるスパースデータ処理のための新しいフレームワーク

A Novel Framework for Handling Sparse Data in Traffic Forecast ( http://arxiv.org/abs/2301.05292v1 )

ライセンス: Link先を確認
Nikolaos Zygouras and Dimitrios Gunopulos(参考訳) gps搭載車両の増大は、移動中の車両が横断する道路の交通情報をリアルタイムで提供する。 このようにして、道路毎にスパースと時間発展のトラフィックレポートが生成される。 これらの時系列は将来の交通状況を予測する上で貴重な資産である。 本稿では,近年の少ない交通情報をエンコードし,将来的な交通状況を予測するディープラーニングフレームワークを提案する。 私たちのフレームワークは、リカレント部分とデコーダで構成されています。 リカレント部分は、特定のタイムウィンドウで利用可能なトラフィックレポートをエンコードするアテンション機構を採用している。 デコーダは将来の交通状況を予測する責任がある。

The ever increasing amount of GPS-equipped vehicles provides in real-time valuable traffic information for the roads traversed by the moving vehicles. In this way, a set of sparse and time evolving traffic reports is generated for each road. These time series are a valuable asset in order to forecast the future traffic condition. In this paper we present a deep learning framework that encodes the sparse recent traffic information and forecasts the future traffic condition. Our framework consists of a recurrent part and a decoder. The recurrent part employs an attention mechanism that encodes the traffic reports that are available at a particular time window. The decoder is responsible to forecast the future traffic condition.
翻訳日:2023-01-16 14:51:34 公開日:2023-01-12
# リアルタイム食品分類のためのオンラインクラスインクリメンタルラーニング

Online Class-Incremental Learning For Real-World Food Classification ( http://arxiv.org/abs/2301.05246v1 )

ライセンス: Link先を確認
Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu(参考訳) Online Class-Incremental Learning (OCIL)は、単一パスデータストリームから新しい情報を継続的に学習し、モデルを更新し、破滅的な忘れを軽減することを目的としている。 しかし、既存のOCILメソッドの多くは、位相をまたいだ非オーバーラップクラスや、各学習フェーズにおける同数のクラスなど、いくつかの仮定をしている。 これは典型的な現実世界のシナリオを非常に単純化したビューです。 本稿では,これらの仮定を除去し,既存のOCIL法の性能を大幅に向上させることにより,実世界の食品画像分類タスクにOCILを拡張した。 まず,新しいベンチマーク実験プロトコルとして,厳格,中等度,オープンダイエットなど,さまざまなシナリオにおける現実的な食品データシーケンスをシミュレートする新しい確率的枠組みを導入する。 次に,モデル更新のトレーニング中に関連する画像を動的に選択し,学習と学習性能を向上させるための新しいプラグイン・アンド・プレイモジュールを提案する。 提案するモジュールは既存のexperience replay(er)メソッドに組み込むことができ、各クラスから代表サンプルをエピソディックメモリバッファに格納して知識リハーサルを行うことができる。 本研究では,本手法の評価を行い,現状のocil法よりも大幅に改善し,実世界の食品画像分類の生涯学習の可能性を示す。

Online Class-Incremental Learning (OCIL) aims to continuously learn new information from single-pass data streams to update the model and mitigate catastrophic forgetting. However, most existing OCIL methods make several assumptions, including non-overlapped classes across phases and an equal number of classes in each learning phase. This is a highly simplified view of typical real-world scenarios. In this paper, we extend OCIL to the real-world food image classification task by removing these assumptions and significantly improving the performance of existing OCIL methods. We first introduce a novel probabilistic framework to simulate realistic food data sequences in different scenarios, including strict, moderate, and open diets, as a new benchmark experiment protocol. Next, we propose a novel plug-and-play module to dynamically select relevant images during training for the model update to improve learning and forgetting performance. Our proposed module can be incorporated into existing Experience Replay (ER) methods, which store representative samples from each class into an episodic memory buffer for knowledge rehearsal. We evaluate our method on the challenging Food-101 dataset and show substantial improvements over the current OCIL methods, demonstrating great potential for lifelong learning of real-world food image classification.
翻訳日:2023-01-16 14:46:04 公開日:2023-01-12
# GH-Feat: GANからVersatile Generative Hierarchical Featuresを学ぶ

GH-Feat: Learning Versatile Generative Hierarchical Features from GANs ( http://arxiv.org/abs/2301.05315v1 )

ライセンス: Link先を確認
Yinghao Xu, Yujun Shen, Jiapeng Zhu, Ceyuan Yang, and Bolei Zhou(参考訳) 近年では、画像合成におけるgans(generative adversarial networks)が大きな成功を収めている。 GANジェネレータは、リアルな画像を作成し、実際のデータ分布を再現することを学ぶ。 これにより、多レベルセマンティクスを持つ階層的な視覚的特徴が自然に現れる。 本研究では,画像合成から得られた生成的特徴が,生成的課題とより重要な識別的課題の両方を含む,幅広いコンピュータビジョン課題を解決する上で大きな可能性を秘めていることを示す。 まず,事前学習したStyleGANジェネレータを学習損失関数として考慮し,エンコーダを訓練する。 GH-Feat(Generative Hierarchical Features)と呼ばれるエンコーダが生成する視覚的特徴は,階層的GAN表現と高度に整合し,再構成の観点から入力画像を適切に記述する。 大規模な実験は、画像編集、画像処理、画像調和化、顔認証、ランドマーク検出、レイアウト予測、画像検索など、さまざまなアプリケーションにわたるGH-Featの多目的転送性をサポートする。 さらに, 適切な空間展開により, 開発したgh-featは, わずか数個のアノテーションを用いて, 細粒度のセマンティクスセグメンテーションも容易に行えることを示した。 定性的および定量的な結果はGH-Featの魅力を示す。

Recent years witness the tremendous success of generative adversarial networks (GANs) in synthesizing photo-realistic images. GAN generator learns to compose realistic images and reproduce the real data distribution. Through that, a hierarchical visual feature with multi-level semantics spontaneously emerges. In this work we investigate that such a generative feature learned from image synthesis exhibits great potentials in solving a wide range of computer vision tasks, including both generative ones and more importantly discriminative ones. We first train an encoder by considering the pretrained StyleGAN generator as a learned loss function. The visual features produced by our encoder, termed as Generative Hierarchical Features (GH-Feat), highly align with the layer-wise GAN representations, and hence describe the input image adequately from the reconstruction perspective. Extensive experiments support the versatile transferability of GH-Feat across a range of applications, such as image editing, image processing, image harmonization, face verification, landmark detection, layout prediction, image retrieval, etc. We further show that, through a proper spatial expansion, our developed GH-Feat can also facilitate fine-grained semantic segmentation using only a few annotations. Both qualitative and quantitative results demonstrate the appealing performance of GH-Feat.
翻訳日:2023-01-16 14:45:42 公開日:2023-01-12
# 視覚障害者が撮影する画像の高次物体検出

Salient Object Detection for Images Taken by People With Vision Impairments ( http://arxiv.org/abs/2301.05323v1 )

ライセンス: Link先を確認
Jarek Reynolds, Chandra Kanth Nagesh, Danna Gurari(参考訳) 正当性オブジェクト検出は、前景オブジェクトと背景オブジェクトとに属するピクセルを解読する画像のためのバイナリマスクを生成するタスクである。 視覚障害者が周囲をよりよく理解しようとした場合,視覚障害者が撮影した画像を用いて,新たな有能な物体検出データセットを提案する。 既存の7つのデータセットと比較すると、VizWiz-SalientObjectは最大(つまり32,000の人間による注釈付き画像)であり、サリアンオブジェクト(68 %のイメージ)におけるテキストの頻度が高く、画像の比率が大きいサリアンオブジェクト(平均で$\sim$50 %のカバレッジ)を含むユニークな特徴を持っている。 われわれのデータセット上で7つの現代的な正当性オブジェクト検出手法をベンチマークした結果、大きめの正当性オブジェクトが特徴的で、境界が複雑で、テキストの欠如や画質の低い画像に最も苦労していることが判明した。 データセットをhttps://vizwiz.org/tasks-and-datasets/salient-object.orgで公開することで、新たなデータセット課題に取り組むために、幅広いコミュニティを招待します。

Salient object detection is the task of producing a binary mask for an image that deciphers which pixels belong to the foreground object versus background. We introduce a new salient object detection dataset using images taken by people who are visually impaired who were seeking to better understand their surroundings, which we call VizWiz-SalientObject. Compared to seven existing datasets, VizWiz-SalientObject is the largest (i.e., 32,000 human-annotated images) and contains unique characteristics including a higher prevalence of text in the salient objects (i.e., in 68\% of images) and salient objects that occupy a larger ratio of the images (i.e., on average, $\sim$50\% coverage). We benchmarked seven modern salient object detection methods on our dataset and found they struggle most with images featuring salient objects that are large, have less complex boundaries, and lack text as well as for lower quality images. We invite the broader community to work on our new dataset challenge by publicly sharing the dataset at https://vizwiz.org/tasks-and-datasets/salient-object .
翻訳日:2023-01-16 14:45:21 公開日:2023-01-12
# 障害対応しきい値電圧最適化によるスパイクニューラルネットワークの信頼性向上

Improving Reliability of Spiking Neural Networks through Fault Aware Threshold Voltage Optimization ( http://arxiv.org/abs/2301.05266v1 )

ライセンス: Link先を確認
Ayesha Siddique, Khaza Anuarul Hoque(参考訳) スパイクニューラルネットワークは、ニューロモルフィックなハードウェアに自らを貸すことによって、コンピュータビジョンを突破した。 しかし、ニューロモルフィックハードウェアは並列性に欠けており、エッジデバイス上でのSNNのスループットとハードウェアアクセラレーションを制限している。 この問題に対処するために、最近多くのシストリクスアレイSNNアクセラレーター(シストリクスSNN)が提案されているが、その信頼性は依然として大きな懸念点である。 本稿では,本研究で初めて,永久断層がsystolicsnnに与える影響を詳細に解析した。 次に,新しい障害緩和法,すなわち再訓練時の障害対応しきい値電圧最適化(falvolt)を提案する。 FalVoltは、リトレーニング中の各レイヤのしきい値電圧を最適化し、障害発生時のベースラインに近い分類精度を達成する。 提案手法の有効性を実証するため,静的(MNIST)とニューロモルフィックデータセット(N-MNISTとDVS Gesture)を256x256 systolicSNNで分類した。 実験の結果,systolicsnnの分類精度は,極端に低い故障率(0.012\%)でも有意に低下することがわかった。 提案手法は,最大60\%の故障率で動作可能とし,分類精度の低下(0.1\%以下)を回避し,systolicsnnの性能を向上させる。 以上の結果から,FalVoltは,しきい値電圧の最適化を伴わないプルーニングや再トレーニングなど,ニューラルネットワーク(ANN)で一般的な技術に比べて2倍高速であることがわかった。

Spiking neural networks have made breakthroughs in computer vision by lending themselves to neuromorphic hardware. However, the neuromorphic hardware lacks parallelism and hence, limits the throughput and hardware acceleration of SNNs on edge devices. To address this problem, many systolic-array SNN accelerators (systolicSNNs) have been proposed recently, but their reliability is still a major concern. In this paper, we first extensively analyze the impact of permanent faults on the SystolicSNNs. Then, we present a novel fault mitigation method, i.e., fault-aware threshold voltage optimization in retraining (FalVolt). FalVolt optimizes the threshold voltage for each layer in retraining to achieve the classification accuracy close to the baseline in the presence of faults. To demonstrate the effectiveness of our proposed mitigation, we classify both static (i.e., MNIST) and neuromorphic datasets (i.e., N-MNIST and DVS Gesture) on a 256x256 systolicSNN with stuck-at faults. We empirically show that the classification accuracy of a systolicSNN drops significantly even at extremely low fault rates (as low as 0.012\%). Our proposed FalVolt mitigation method improves the performance of systolicSNNs by enabling them to operate at fault rates of up to 60\%, with a negligible drop in classification accuracy (as low as 0.1\%). Our results show that FalVolt is 2x faster compared to other state-of-the-art techniques common in artificial neural networks (ANNs), such as fault-aware pruning and retraining without threshold voltage optimization.
翻訳日:2023-01-16 14:35:45 公開日:2023-01-12
# スパイク行列モデルにおける検出問題

Detection problems in the spiked matrix models ( http://arxiv.org/abs/2301.05331v1 )

ライセンス: Link先を確認
Ji Hyung Jung, Hye Won Chung and Ji Oon Lee(参考訳) スパイク乱数行列モデルとして知られる様々な信号プラスノイズ型データ行列から低ランク信号を検出する統計的決定過程について検討した。 まず, 雑音がガウス的でない場合, 主成分分析を入力方向の事前変換によって改善できることを示し, ランク1信号のスパイクランダム行列モデルに対して既知の結果を一般化する。 中間段階として、スパイクランダム行列の極端固有値に対する鋭い位相遷移しきい値を見いだし、これはbaik-ben arous-p\'{e}ch\'{e} (bbp)遷移を一般化する。 また、スパイクされたランダム行列に対する線形スペクトル統計量の中央極限定理を証明し、信号の分布や雑音に依存しないそれに基づく仮説テストを提案する。 ノイズがガウス雑音でない場合、加算雑音を伴うデータ行列への入出力変換によりテストを改善することができる。 また,優先度が分かっていない場合の信号のランクを推定するアルゴリズムも導入する。

We study the statistical decision process of detecting the low-rank signal from various signal-plus-noise type data matrices, known as the spiked random matrix models. We first show that the principal component analysis can be improved by entrywise pre-transforming the data matrix if the noise is non-Gaussian, generalizing the known results for the spiked random matrix models with rank-1 signals. As an intermediate step, we find out sharp phase transition thresholds for the extreme eigenvalues of spiked random matrices, which generalize the Baik-Ben Arous-P\'{e}ch\'{e} (BBP) transition. We also prove the central limit theorem for the linear spectral statistics for the spiked random matrices and propose a hypothesis test based on it, which does not depend on the distribution of the signal or the noise. When the noise is non-Gaussian noise, the test can be improved with an entrywise transformation to the data matrix with additive noise. We also introduce an algorithm that estimates the rank of the signal when it is not known a priori.
翻訳日:2023-01-16 14:24:31 公開日:2023-01-12
# ブラインド判決:GPTとエージェントベースの最高裁モデリング

Blind Judgement: Agent-Based Supreme Court Modelling With GPT ( http://arxiv.org/abs/2301.05327v1 )

ライセンス: Link先を確認
Sil Hamilton(参考訳) 2010-2016年アメリカ合衆国最高裁判所の判決をシミュレートするためのトランスフォーマーベースのマルチエージェントシステムを提案する。 我々は、各最高裁判所活動員のそれぞれの権限のある意見で、9つの異なるモデルを訓練する。 2015年、96件の現実世界のケースでシステムをテスト。 我々のシステムは、現実の最高裁判所の決定を、よりランダムな精度で予測する。 さらに,個々の正義に対するモデルの正確さと,法的保守主義と自由主義の連携との関係を見出した。 提案手法は,複数のエージェント間の政治的に帯電した会話をシミュレートするために言語モデルを利用する研究者にとって重要である。

We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.
翻訳日:2023-01-16 14:24:12 公開日:2023-01-12
# 変分量子回路に基づく量子ニューラルネットワークの説明可能性について

On the explainability of quantum neural networks based on variational quantum circuits ( http://arxiv.org/abs/2301.05549v1 )

ライセンス: Link先を確認
Ammar Daskin(参考訳) リッジ関数は、活性化関数の線形結合として記述できるニューラルネットワークによって行われる近似の下位境界を記述するために用いられる。 活性化関数もリッジ関数である場合、これらのネットワークは説明可能なニューラルネットワークと呼ばれる。 本稿では,変分量子回路をベースとした量子ニューラルネットワークを,リッジ関数の線形結合として記述できることを示す。 その結果、このような量子ニューラルネットワークの解釈可能性と説明可能性を直接考慮し、リッジ関数の線形結合との近似として研究できることを示した。

Ridge functions are used to describe and study the lower bound of the approximation done by the neural networks which can be written as a linear combination of activation functions. If the activation functions are also ridge functions, these networks are called explainable neural networks. In this paper, we first show that quantum neural networks which are based on variational quantum circuits can be written as a linear combination of ridge functions. Consequently, we show that the interpretability and explainability of such quantum neural networks can be directly considered and studied as an approximation with the linear combination of ridge functions.
翻訳日:2023-01-16 14:16:19 公開日:2023-01-12
# 非自由群作用の同変表現

Equivariant Representations for Non-Free Group Actions ( http://arxiv.org/abs/2301.05231v1 )

ライセンス: Link先を確認
Luis Armando P\'erez Rey, Giovanni Luca Marchetti, Danica Kragic, Dmitri Jarnikov, Mike Holenderski(参考訳) 本稿では,データに対する一般集団行動に関して同値な表現を学習する手法を提案する。 既存の同変表現学習者とは異なり、本手法は自由でない行動、すなわち非自明な対称性によるデータの安定化に適している。 本手法は、理想学習者が同型表現を推測することを保証する群論からの軌道安定定理を基礎としている。 最後に,回転対称性を持つ画像データセットについて経験的研究を行い,安定化器を考慮に入れれば表現の質が向上することを示す。

We introduce a method for learning representations that are equivariant with respect to general group actions over data. Differently from existing equivariant representation learners, our method is suitable for actions that are not free i.e., that stabilize data via nontrivial symmetries. Our method is grounded in the orbit-stabilizer theorem from group theory, which guarantees that an ideal learner infers an isomorphic representation. Finally, we provide an empirical investigation on image datasets with rotational symmetries and show that taking stabilizers into account improves the quality of the representations.
翻訳日:2023-01-16 14:16:12 公開日:2023-01-12
# 家庭内活動のための言語情報伝達学習

Language-Informed Transfer Learning for Embodied Household Activities ( http://arxiv.org/abs/2301.05318v1 )

ライセンス: Link先を確認
Yuqian Jiang, Qiaozi Gao, Govind Thattai, Gaurav Sukhatme(参考訳) サービスロボットが日常の家庭環境において汎用化するためには、プリミティブなスキルの大きなライブラリだけでなく、ユーザが指定した新しいタスクを素早く学習する能力も必要である。 様々な下流タスクの微調整ニューラルネットワークは多くのビジョンや言語領域で成功したが、多種多様な長距離タスク間の伝達学習についての研究は依然として限られている。 家庭内ロボットは, ゼロから新しい家庭活動の強化学習に比べて, 同様の作業で訓練された価値と政策ネットワークの伝達の恩恵を受けることができる。 このアイデアを行動シミュレーションベンチマーク(behavior simulation benchmark)で評価し、多数の家庭活動と一連のアクションプリミティブを含む。 異なるタスクの状態空間を簡単にマッピングするために、テキストベースの表現を提供し、言語モデルを利用して共通の埋め込み空間を作ります。 その結果,目標タスクと状態および目標記述の意味的類似性によって,類似したソースアクティビティの選択を知らせることができた。 さらに,結果を分析し,破滅的な忘れを克服する方法について議論する。

For service robots to become general-purpose in everyday household environments, they need not only a large library of primitive skills, but also the ability to quickly learn novel tasks specified by users. Fine-tuning neural networks on a variety of downstream tasks has been successful in many vision and language domains, but research is still limited on transfer learning between diverse long-horizon tasks. We propose that, compared to reinforcement learning for a new household activity from scratch, home robots can benefit from transferring the value and policy networks trained for similar tasks. We evaluate this idea in the BEHAVIOR simulation benchmark which includes a large number of household activities and a set of action primitives. For easy mapping between state spaces of different tasks, we provide a text-based representation and leverage language models to produce a common embedding space. The results show that the selection of similar source activities can be informed by the semantic similarity of state and goal descriptions with the target task. We further analyze the results and discuss ways to overcome the problem of catastrophic forgetting.
翻訳日:2023-01-16 14:16:01 公開日:2023-01-12
# アクセシブルニューラルネットワークモデルは言語的ナチビズムを再活性化させる

Inaccessible Neural Language Models Could Reinvigorate Linguistic Nativism ( http://arxiv.org/abs/2301.05272v1 )

ライセンス: Link先を確認
Patrick Perrine(参考訳) 大規模言語モデル(LLM)は、ここ数年、機械学習コミュニティで大きな波を起こしています。 深層学習の出現によるllmの印象的な拡張性は、経験主義的な言語学的手法の継続と見なすことができ、ナティビズム的な観点から基礎を置く規則に基づく言語的手法とは対照的である。 現在のLLMは、クローズドソースコードを含む様々な要因のため、リソース制約のある研究者には一般にアクセスできない。 この研究は、このアクセシビリティの欠如は、新しい研究者が新しい研究を創造するために、規則に基づいたナティビストのアプローチしか持たない可能性があるため、計算言語学に詳しい研究者にナティビストのバイアスを植え付ける可能性があると主張している。 また,LLMと関連する手法がすぐに関連性を失う可能性があると主張する深層学習に対する批判が多数存在することから,そのような出来事が言語処理コミュニティにおける新たなナチビズムの波を引き起こす可能性があると推測する。 このような劇的な変化を防止し、規則とディープラーニングのハイブリッドな方法に有利な姿勢をとるため、我々は研究者に、実験者およびハイブリッドなアプローチの両方が引き続きアクセス可能であるように、LLMコードをオープンソースにするよう呼びかけた。

Large Language Models (LLMs) have been making big waves in the machine learning community within the past few years. The impressive scalability of LLMs due to the advent of deep learning can be seen as a continuation of empiricist lingusitic methods, as opposed to rule-based linguistic methods that are grounded in a nativist perspective. Current LLMs are generally inaccessible to resource-constrained researchers, due to a variety of factors including closed source code. This work argues that this lack of accessibility could instill a nativist bias in researchers new to computational linguistics, given that new researchers may only have rule-based, nativist approaches to study to produce new work. Also, given that there are numerous critics of deep learning claiming that LLMs and related methods may soon lose their relevancy, we speculate that such an event could trigger a new wave of nativism in the language processing community. To prevent such a dramatic shift and placing favor in hybrid methods of rules and deep learning, we call upon researchers to open source their LLM code wherever possible to allow both empircist and hybrid approaches to remain accessible.
翻訳日:2023-01-16 14:08:29 公開日:2023-01-12
# ドメイン制約による弱改善学習のためのスケーラブルな手法

A Scalable Technique for Weak-Supervised Learning with Domain Constraints ( http://arxiv.org/abs/2301.05253v1 )

ライセンス: Link先を確認
Sudhir Agarwal, Anu Sreepathy, Lalla Mouatadid(参考訳) 本稿では,ニューラルネットワークを学習するための制約として,記号的ドメイン知識を用いたスケーラブルなエンドツーエンドパイプラインを提案する。 このアプローチは,クラスタリングにやさしい表現学習に適した異なるグループ(クラス)で構成されたデータ構成に特に適しており,複数のトレーニング例を同時に考慮して効率的な数学的最適化手法を用いて,ドメイン制約を再構成することができる。 本手法は,画像列と数列で表される数の総和からなる学習例を用いて,mnist画像分類問題の変種に対するアプローチを評価し,各訓練例の組合せを満たした全ての制約を計算することに依存する従来のアプローチよりも大幅にスケールすることを示す。

We propose a novel scalable end-to-end pipeline that uses symbolic domain knowledge as constraints for learning a neural network for classifying unlabeled data in a weak-supervised manner. Our approach is particularly well-suited for settings where the data consists of distinct groups (classes) that lends itself to clustering-friendly representation learning and the domain constraints can be reformulated for use of efficient mathematical optimization techniques by considering multiple training examples at once. We evaluate our approach on a variant of the MNIST image classification problem where a training example consists of image sequences and the sum of the numbers represented by the sequences, and show that our approach scales significantly better than previous approaches that rely on computing all constraint satisfying combinations for each training example.
翻訳日:2023-01-16 14:06:15 公開日:2023-01-12
# Hyper Transformer を用いた連続的なFew-Shot学習

Continual Few-Shot Learning Using HyperTransformers ( http://arxiv.org/abs/2301.04584v2 )

ライセンス: Link先を確認
Max Vladymyrov, Andrey Zhmoginov, Mark Sandler(参考訳) 我々は、複数のタスクが順次やってくることを忘れることなく学習する問題に焦点を当て、各タスクは、ノベルまたは既に見られるクラスの数発のエピソードを使って定義される。 最近発表されたhypertransformer(ht)は、サポートセットから直接タスク固有のcnn重みを生成するトランスフォーマティブベースのハイパーネットワークである。 連続的なタスク列から学習するために,生成した重みを次のタスクのHTへの入力として再帰的に再利用することを提案する。 このようにして生成されたCNNウェイトは、以前に学習したタスクの表現として機能し、HTは、過去のタスクを忘れずに新しいタスクを学習できるように、これらの重みを更新するように訓練される。 このアプローチは、通常、リプレイバッファの使用、重み付け正規化、タスク依存アーキテクチャの変更に依存するほとんどの連続的な学習アルゴリズムとは異なる。 提案手法は,ミニバッチからの学習,タスクインクリメンタルおよびクラスインクリメンタルな学習シナリオなど,様々なシナリオで過去のタスクに関する知識を学習し保持することができる。

We focus on the problem of learning without forgetting from multiple tasks arriving sequentially, where each task is defined using a few-shot episode of novel or already seen classes. We approach this problem using the recently published HyperTransformer (HT), a Transformer-based hypernetwork that generates specialized task-specific CNN weights directly from the support set. In order to learn from a continual sequence of tasks, we propose to recursively re-use the generated weights as input to the HT for the next task. This way, the generated CNN weights themselves act as a representation of previously learned tasks, and the HT is trained to update these weights so that the new task can be learned without forgetting past tasks. This approach is different from most continual learning algorithms that typically rely on using replay buffers, weight regularization or task-dependent architectural changes. We demonstrate that our proposed Continual HyperTransformer method equipped with a prototypical loss is capable of learning and retaining knowledge about past tasks for a variety of scenarios, including learning from mini-batches, and task-incremental and class-incremental learning scenarios.
翻訳日:2023-01-16 11:57:18 公開日:2023-01-12
# 量子ランダムアクセスメモリにおける最小値探索のための量子アルゴリズム

Quantum algorithm for finding minimum values in a Quantum Random Access Memory ( http://arxiv.org/abs/2301.05122v1 )

ライセンス: Link先を確認
Anton S. Albino, Lucas Q. Galv\~ao, Ethan Hansen, Mauro Q. Nooblath Neto, Clebson Cruz(参考訳) 非順序データベースの最小値を見つけることは、コンピュータサイエンスにおいて一般的で基本的なタスクである。 しかし、最適古典的決定論的アルゴリズムは、データベース内の要素数と線形に増加する時間複雑性で最小値を見つけることができる。 本稿では,データベースの最小値を求めるための量子アルゴリズムを提案する。 データベースから値を保存する量子ランダムアクセスメモリ(qram)を仮定し、最も重要な量子ビットの状態を制御することによって探索された値を制限する役割を持つオラクルに基づいて反復探索を行う。 この量子アルゴリズムの利点を古典的手法より証明するために,複雑性解析を行った。 さらに,提案アルゴリズムはK-meansアルゴリズムの量子バージョンを用いて教師なし機械学習タスクでどのように使用されるかを示す。

Finding the minimum value in an unordered database is a common and fundamental task in computer science. However, the optimal classical deterministic algorithm can find the minimum value with a time complexity that grows linearly with the number of elements in the database. In this paper, we present the proposal of a quantum algorithm for finding the minimum value of a database, which is quadratically faster than its best classical analogs. We assume a Quantum Random Access Memory (QRAM) that stores values from a database and perform an iterative search based on an oracle whose role is to limit the searched values by controlling the states of the most significant qubits. A complexity analysis was performed in order to demonstrate the advantage of this quantum algorithm over its classical counterparts. Furthermore, we demonstrate how the proposed algorithm would be used in an unsupervised machine learning task through a quantum version of the K-means algorithm.
翻訳日:2023-01-13 15:47:57 公開日:2023-01-12
# 直接的および相補的チャネル容量の同時超結合性

Simultaneous superadditivity of the direct and complementary channel capacities ( http://arxiv.org/abs/2301.05142v1 )

ライセンス: Link先を確認
Satvik Singh and Sergii Strelchuk(参考訳) 量子通信チャネルは、その容量が超添加可能であるため、古典的な通信チャネルとは異なる。 絡み合いの一夫一婦制の原則は、チャネルの送信能力の過度な改善は、環境への情報損失を減らすことを示唆している。 この直観に挑戦し、チャネルのコヒーレントかつプライベートな情報とその補完が、任意に多数のチャネルを使用する場合に同時に重ね合わせ可能であることを示す。 この効果の限界を定量化するために、チャネルのmax(resp. total)プライベート情報の概念を考察し、チャネル自体のプライベート情報とその補完の最大(resp. sum)を表現し、その個々の直接および補完的チャネルのコヒーレント情報との関係を考察する。 異なる数のチャネルを使用する場合、これらの量は異なる不等式のインターリーブシーケンスに従うことができることを示す。

Quantum communication channels differ from their classical counterparts because their capacities can be superadditive. The principle of monogamy of entanglement suggests that superadditive improvements in the transmission capacity of a channel should reduce the amount of information loss to the environment. We challenge this intuition by demonstrating that the coherent and private information of a channel and its complement can be simultaneously superadditive for arbitrarily many channel uses. To quantify the limits of this effect, we consider the notion of max (resp. total) private information of a channel, which represents the maximum (resp. sum) of the private information of the channel itself and its complement, and study its relationship with the coherent information of the individual direct and complementary channels. For a varying number of channel uses, we show that these quantities can obey different interleaving sequences of inequalities.
翻訳日:2023-01-13 15:47:44 公開日:2023-01-12
# Sachdev-Ye-Kitaevモデルにおける測定誘起相転移の数値的研究

A numerical study of measurement-induced phase transitions in the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2301.05195v1 )

ライセンス: Link先を確認
Stav Haldar, Anthony J. Brady(参考訳) 閉じた量子系の連続的なモニタリングは、多体量子状態の絡み合いや純度が急激な変化を特徴とする測定誘起相転移(MIPT)を引き起こすことが判明した。 エンタングルメントmiptでは、エンタングルリングダイナミクスは測定ダイナミクスと競合し、広範なエンタングルメントを持つフェーズまたは低レベルのエンタングルメントを持つフェーズにシステムを押し込む。 MIPTを精製するために、射影測定はシステムを効果的に冷却し、局所化し、混合状態から非相関な純粋な状態へ遷移させる。 本研究は,有限 N に対する全 Sachdev-Ye-Kitaev (SYK) モデルにおける監視力学を数値シミュレーションする。 絡み合いと浄化MIPTの間には等価性があると言われることが多いが、逆の数値的な証拠として、絡み合いと浄化MIPTが実際には2つの異なる現象であることを示す。 このような区別の理由は、非常に単純である: 絡み合いは、完全に射影的な測定後に復活することができる -- もし測定があまり頻繁に起こらなかったら -- しかし不純物はあり得ない。

Continuous monitoring of an otherwise closed quantum system has been found to lead to a measurement-induced phase transition (MIPT) characterized by abrupt changes in the entanglement or purity of the many-body quantum state. For an entanglement MIPT, entangling dynamics compete with measurement dynamics, pushing the system either to a phase with extensive entanglement or to a phase with low-level entanglement. For purification MIPTs, projective measurements effectively cool and localize the system, inducing a transition from a mixed state to an uncorrelated pure state. In this work, we numerically simulate monitored dynamics in the all-to-all Sachdev-Ye-Kitaev (SYK) model for finite N. We witness both entanglement and purification MIPTs in the steady-state. It is often said that there is an equivalence between entanglement and purification MIPTs, however we provide numerical evidence to the contrary, implying that entanglement and purification MIPTs are indeed two distinct phenomena. The reason for such a distinction is quite simple: entanglement can revive after a completely projective measurement -- if measurements do not occur too often in time -- but impurity cannot.
翻訳日:2023-01-13 15:47:28 公開日:2023-01-12
# NOMA mMTCシステムにおけるランダムアクセスのためのマルチパワーレベル$Q$学習アルゴリズム

Multi-Power Level $Q$-Learning Algorithm for Random Access in NOMA mMTC Systems ( http://arxiv.org/abs/2301.05196v1 )

ライセンス: Link先を確認
Giovanni Maciel Ferreira Silva, Taufik Abr\~ao(参考訳) 巨大マシン型通信(mmtc)サービスは、第5世代の無線通信(b5g)を統合する予定の新サービスの一部である。 mMTCでは、数千のデバイスがネットワーク上の利用可能なリソースブロックに散発的にアクセスする。 このシナリオでは、2つ以上のデバイスが同じリソースブロックを選択するときに衝突すると、巨大なランダムアクセス(RA)問題が発生する。 この問題に対処するテクニックはいくつかある。 そのうちの1つは$Q$-learning (QL)をデプロイし、デバイスは、実行された送信の質を示す中央ノードから送信される報酬を$Q$-tableに格納する。 デバイスは衝突を避けるために最適なリソースブロックを学習し、送信する。 我々は、非直交多重アクセス(NOMA)伝送方式を用いて送信電力の多様性を発生させ、信号対干渉+雑音比(SINR)がしきい値を超える限り、複数のデバイスを同時に許容するマルチパワーレベルQL(MPL-QL)アルゴリズムを提案する。 数値的な結果から、最高の性能・複雑さのトレードオフは {higher {number of} power levels, typically 8 levels} を用いて得られることが明らかとなった。 提案されているMPL-QL {can deliver} のスループットとレイテンシの低下は、文献で見られる他のQLベースのアルゴリズムと比較できる。

The massive machine-type communications (mMTC) service will be part of new services planned to integrate the fifth generation of wireless communication (B5G). In mMTC, thousands of devices sporadically access available resource blocks on the network. In this scenario, the massive random access (RA) problem arises when two or more devices collide when selecting the same resource block. There are several techniques to deal with this problem. One of them deploys $Q$-learning (QL), in which devices store in their $Q$-table the rewards sent by the central node that indicate the quality of the transmission performed. The device learns the best resource blocks to select and transmit to avoid collisions. We propose a multi-power level QL (MPL-QL) algorithm that uses non-orthogonal multiple access (NOMA) transmit scheme to generate transmission power diversity and allow {accommodate} more than one device in the same time-slot as long as the signal-to-interference-plus-noise ratio (SINR) exceeds a threshold value. The numerical results reveal that the best performance-complexity trade-off is obtained by using a {higher {number of} power levels, typically eight levels}. The proposed MPL-QL {can deliver} better throughput and lower latency compared to other recent QL-based algorithms found in the literature
翻訳日:2023-01-13 15:47:10 公開日:2023-01-12
# NV中心磁力計は、周囲圧力で130GPaに達する

NV center magnetometry up to 130 GPa as if at ambient pressure ( http://arxiv.org/abs/2301.05094v1 )

ライセンス: Link先を確認
Antoine Hilberer, Lo\"ic Toraille, Cassandra Dailledouze, Marie-Pierre Adam, Liam Hanlon, Gunnar Weck, Martin Schmidt, Paul Loubeyre, Jean-Fran\c{c}ois Roch(参考訳) ダイヤモンドアンビルの先端に位置する窒素空孔層(NV)は、高圧測定のための多目的量子センサーアレイを作成し、特に材料の磁気特性と超伝導特性を探索する。 100GPa以上のコンセプトを拡大することは、大きな課題である。 我々は,nv中心の光検出磁気共鳴(odmr)に基づく実用的磁気測定のために,アンビル先端のデディエータ応力が40~50gpaの限界となることを観察した。 この限界は, アンビル先端にマイクロピラーを加工して, NV中心の準静水ストレス環境を構築することにより, 最大130GPaまで回避できることを示す。 これは、ダイヤモンドラマンシフトの圧力依存性、印加磁場へのNV ODMR依存性、およびNV光発光スペクトルシフトを用いて定量される。 これにより、超水和物など100 GPa以上の超伝導体におけるマイスナー効果の直接的かつ信頼性の高い検出方法が舗装される。

Engineering a layer of nitrogen-vacancy (NV) centers on the tip of a diamond anvil creates a multipurpose quantum sensors array for high pressure measurements, especially for probing magnetic and superconducting properties of materials. Expanding this concept above 100 GPa appears to be a substantial challenge. We observe that deviatoric stress on the anvil tip sets a limit at 40-50 GPa for practical magnetic measurements based on optically detected magnetic resonance (ODMR) of NV centers under pressure. We show that this limit can be circumvented up to at least 130 GPa by machining a micropillar on the anvil tip to create a quasi-hydrostatic stress environment for the NV centers. This is quantified using the pressure dependence of the diamond Raman shift, the NV ODMR dependence on applied magnetic field, and NV photoluminescence spectral shift. This paves the way for direct and reliable detection of the Meissner effect in superconductors above 100 GPa, such as super-hydrides.
翻訳日:2023-01-13 15:40:51 公開日:2023-01-12
# 量子音響デバイスのための統一シミュレーション手法

Unified simulation methods for quantum acoustic devices ( http://arxiv.org/abs/2301.05172v1 )

ライセンス: Link先を確認
Hugo Banderier, Maxwell Drimmer, Yiwen Chu(参考訳) 回路量子音響力学(cqad)では、超伝導回路は音響共振器と結合され、機械的運動の非古典的状態を生成し制御する。 これらのシステムのシミュレーションは、マイクロ波と機械的波長のスケールが極端に異なるため、難しい。 既存の技術はすべて電磁と機械のサブシステムを個別にシミュレートする。 しかし、このアプローチはすべてのcQADデバイスに適していないかもしれない。 本稿では, 音響・マイクロ波共振器に結合した超電導量子ビットの単一シミュレーションを行い, このシミュレーションを用いて, ハイブリッド系の電気機械モードの周波数, 結合速度, エネルギー参加比を予測する2つの手法を提案する。 また、これらの手法を用いて、重要な散逸チャネルを調査し、モードハイブリダイゼーションの非自明な効果を定量化する方法についても論じる。 我々の手法は柔軟で、他の音響共振器や量子自由度にまで拡張することができ、ハイブリッド量子システムを設計するための貴重な新しいツールを提供する。

In circuit quantum acoustodynamics (cQAD), superconducting circuits are combined with acoustic resonators to create and control non-classical states of mechanical motion. Simulating these systems is challenging due to the extreme difference in scale between the microwave and mechanical wavelengths. All existing techniques simulate the electromagnetic and mechanical subsystems separately. However, this approach may not be adequate for all cQAD devices. Here, we demonstrate a single simulation of a superconducting qubit coupled to an acoustic and a microwave resonator and introduce two methods for using this simulation to predict the frequencies, coupling rates, and energy-participation ratios of the electromechanical modes of the hybrid system. We also discuss how these methods can be used to investigate important dissipation channels and quantify the nontrivial effects of mode hybridization in our device. Our methodology is flexible and can be extended to other acoustic resonators and quantum degrees of freedom, providing a valuable new tool for designing hybrid quantum systems.
翻訳日:2023-01-13 15:40:37 公開日:2023-01-12
# 一般ソボレフ空間のスペクトル近似による部分微分方程式の学習

Learning Partial Differential Equations by Spectral Approximates of General Sobolev Spaces ( http://arxiv.org/abs/2301.04887v1 )

ライセンス: Link先を確認
Juan-Esteban Suarez Cardona, Phil-Alexander Hofmann and Michael Hecht(参考訳) 一般ソボレフ空間の新しいスペクトル有限次元近似をチェビシェフ多項式を用いて導入する。 この多項式代理モデル(PSM)に基づき、線形および非線形偏微分方程式(PDE)の広大なクラスを解く変分定式化を実現する。 PSMは物理インフォームドニューラルネットワーク(PINN)と同じくらい柔軟であり、PDEパラメータ推論のような逆PDE問題に対処する代替手段を提供する。 PINN とは対照的に、PSM は、すべての線形を含む広い種類の PDE に対して凸最適化問題をもたらし、その場合、PSM-近似は、下層の変動勾配勾配の指数収束率によって効率的に計算可能である。 その結果、PDEの問題はローカルマシン上の高性能コンピューティング(HPC)を持たないPSMによって解決された。 この効率の向上は近似能力の向上によって補われ、精度と実行時間の両方でPINN代替よりも優れています。 ここでの実証的な証拠の他に、ソボレフ空間の近似による古典的な PDE 理論の翻訳は、PSM がよく考えられた正則前方および逆 PDE 問題に普遍的に適用可能であることを示唆している。

We introduce a novel spectral, finite-dimensional approximation of general Sobolev spaces in terms of Chebyshev polynomials. Based on this polynomial surrogate model (PSM), we realise a variational formulation, solving a vast class of linear and non-linear partial differential equations (PDEs). The PSMs are as flexible as the physics-informed neural nets (PINNs) and provide an alternative for addressing inverse PDE problems, such as PDE-parameter inference. In contrast to PINNs, the PSMs result in a convex optimisation problem for a vast class of PDEs, including all linear ones, in which case the PSM-approximate is efficiently computable due to the exponential convergence rate of the underlying variational gradient descent. As a practical consequence prominent PDE problems were resolved by the PSMs without High Performance Computing (HPC) on a local machine. This gain in efficiency is complemented by an increase of approximation power, outperforming PINN alternatives in both accuracy and runtime. Beyond the empirical evidence we give here, the translation of classic PDE theory in terms of the Sobolev space approximates suggests the PSMs to be universally applicable to well-posed, regular forward and inverse PDE problems.
翻訳日:2023-01-13 15:40:09 公開日:2023-01-12
# hd 142666に埋め込まれた原始惑星の運動学的証拠 : 機械学習による同定

Kinematic Evidence of an Embedded Protoplanet in HD 142666 Identified by Machine Learning ( http://arxiv.org/abs/2301.05075v1 )

ライセンス: Link先を確認
J. P. Terry and C. Hall and S. Abreau and S. Gleyzer(参考訳) 原始惑星系円盤の観測により、外惑星の形成は円盤のガスや塵に特徴的なインプリントを残すことが示されている。 ガス中では、これらの形成系外惑星はケプラー運動から逸脱し、分子線観測によって検出される。 これまでの研究では、このディスクに惑星が存在するかどうかを機械学習が正確に判断できることが示されています。 当社の機械学習モデルを用いて,ディスクhd 142666内の強い局所的非ケプラー運動を同定した。 その後の流体力学シミュレーションでは、5つの木星質量の惑星が75 auで運動構造を再現する。 現在この分野で確立されている標準により、HD 142666は惑星をホストしていると結論付けている。 この研究は、前見落とされた原始惑星系円盤の非ケプラー的特徴を特定するために機械学習を使用するための第一歩である。

Observations of protoplanetary discs have shown that forming exoplanets leave characteristic imprints on the gas and dust of the disc. In the gas, these forming exoplanets cause deviations from Keplerian motion, which can be detected through molecular line observations. Our previous work has shown that machine learning can correctly determine if a planet is present in these discs. Using our machine learning models, we identify strong, localized non-Keplerian motion within the disc HD 142666. Subsequent hydrodynamics simulations of a system with a 5 Jupiter-mass planet at 75 au recreates the kinematic structure. By currently established standards in the field, we conclude that HD 142666 hosts a planet. This work represents a first step towards using machine learning to identify previously overlooked non-Keplerian features in protoplanetary discs.
翻訳日:2023-01-13 15:39:47 公開日:2023-01-12
# 量子プロセッサ上での可逆ワームホールダイナミクス」へのコメント

A Comment on "Traversable wormhole dynamics on a quantum processor" ( http://arxiv.org/abs/2301.03522v2 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) 最新のNatureの論文 "Traversable wormhole dynamics on a quantum processor" には、多くの噂が流れている。 Nature論文では、GoogleのSycamore量子プロセッサを使ってSYKモデルのスペーサー化バージョンをシミュレートする実験について論じている。 単純化されたモデルでは, 元のSYKモデルの重要な重力特性を保ち, 移動可能なワームホール挙動を生成するのに十分であることが示されている。 実験は実際のワームホールを作らない。 むしろ研究チームは、重力画像と量子情報画像の等価性を示している。 本報告では, 理論的および実験的研究から生じる哲学的問題について考察する。

There has been a lot of buzz surrounding the latest Nature paper, "Traversable wormhole dynamics on a quantum processor". The Nature paper discusses an experiment in which Google's Sycamore quantum processor is used to simulate a sparsified version of an SYK model. It is shown that the simplified model preserves the key gravitational characteristics of the original SYK model and that it is sufficient to produce a traversable wormhole behavior. The experiment does not create an actual wormhole. Rather, the team of researchers shows an equivalence between a gravity picture and a quantum information picture. This paper gives an account of the experiment and addresses philosophical questions arising from the theoretical and experimental work.
翻訳日:2023-01-13 15:39:32 公開日:2023-01-12
# 車両CANデータに基づく教師なし運転イベント発見

Unsupervised Driving Event Discovery Based on Vehicle CAN-data ( http://arxiv.org/abs/2301.04988v1 )

ライセンス: Link先を確認
Thomas Kreutz, Ousama Esbel, Max M\"uhlh\"auser, Alejandro Sanchez Guinea(参考訳) 車両の制御エリアネットワーク(CAN)から収集されたデータは、車両の群れを考慮すると、人間の分析やアノテーションの能力を素早く上回り、教師なしの機械学習手法の重要性を強調している。 本研究は,共通運転イベントを教師なし方式で識別する車両用can-dataのクラスタリングとセグメント化の同時アプローチを提案する。 このアプローチは、学習潜在空間における異なる駆動イベントを区別するために、多変量時系列のための自己教師付き学習(SSL)の上に構築される。 我々は、実際のTesla Model 3車載CANデータと、異なる運転イベントをアノテートした2時間の運転セッションのデータセットを用いて、アプローチを評価した。 本研究では,最近の時系列関連コントラストおよび生成型ssl手法の適用性を評価し,ドライブイベントを区別する表現を学習する。 イベント発見を駆動するSOTA(State-of-the-art)生成SSL法と比較すると,対照的な学習手法が同様の性能に達することがわかった。

The data collected from a vehicle's Controller Area Network (CAN) can quickly exceed human analysis or annotation capabilities when considering fleets of vehicles, which stresses the importance of unsupervised machine learning methods. This work presents a simultaneous clustering and segmentation approach for vehicle CAN-data that identifies common driving events in an unsupervised manner. The approach builds on self-supervised learning (SSL) for multivariate time series to distinguish different driving events in the learned latent space. We evaluate our approach with a dataset of real Tesla Model 3 vehicle CAN-data and a two-hour driving session that we annotated with different driving events. With our approach, we evaluate the applicability of recent time series-related contrastive and generative SSL techniques to learn representations that distinguish driving events. Compared to state-of-the-art (SOTA) generative SSL methods for driving event discovery, we find that contrastive learning approaches reach similar performance.
翻訳日:2023-01-13 15:33:44 公開日:2023-01-12
# 反応性多孔質媒体のブレークスルー曲線予測のための機械学習手法

Machine learning methods for prediction of breakthrough curves in reactive porous media ( http://arxiv.org/abs/2301.04998v1 )

ライセンス: Link先を確認
Daria Fokina, Pavel Toktaliev, Oleg Iliev and Ivan Oseledets(参考訳) 多孔質媒体の反応性の流れは、我々の生活において重要な役割を担い、多くの産業、環境、バイオメディカルな応用に不可欠である。 入江における種の濃度がよく知られており、出口で測定されるいわゆるブレークスルー曲線は、数値的に測定または計算できる量である。 計測とシミュレーションは時間と費用がかかり、機械学習とビッグデータのアプローチは、低コストでブレークスルー曲線を予測するのに役立つ。 ガウス過程や完全連結ニューラルネットワークのような機械学習(ML)法や、クロス近似であるテンソル法は、ブレークスルー曲線を予測するのに適している。 本稿では,触媒フィルタにおける気孔スケールの反応性流動において,その性能を示す。

Reactive flows in porous media play an important role in our life and are crucial for many industrial, environmental and biomedical applications. Very often the concentration of the species at the inlet is known, and the so-called breakthrough curves, measured at the outlet, are the quantities which could be measured or computed numerically. The measurements and the simulations could be time-consuming and expensive, and machine learning and Big Data approaches can help to predict breakthrough curves at lower costs. Machine learning (ML) methods, such as Gaussian processes and fully-connected neural networks, and a tensor method, cross approximation, are well suited for predicting breakthrough curves. In this paper, we demonstrate their performance in the case of pore scale reactive flow in catalytic filters.
翻訳日:2023-01-13 15:33:27 公開日:2023-01-12
# Open SESAME:ドメイン生成アルゴリズムのシード再構成でボットネットと戦う

Open SESAME: Fighting Botnets with Seed Reconstructions of Domain Generation Algorithms ( http://arxiv.org/abs/2301.05048v1 )

ライセンス: Link先を確認
Nils Weissgerber, Thorsten Jenke, Elmar Padilla, Lilli Bruckschen(参考訳) 多くのボットネットの重要な特徴は、ドメイン生成アルゴリズム(dgas)を使用して擬似乱数ドメイン名を生成する能力である。 サイバー犯罪者はそのようなドメインを登録して、ボットとのランデブーポイントを定期的に変更することができる。 DGAは種を使ってドメインの集合を生成する。 種は、同じアルゴリズムを使いながら、全く新しいドメインのグループを生成するために簡単に変更できる。 これは敵対者にとって手作業がほとんど必要ないが、セキュリティの専門家は種子を再構築するために新しいマルウェア株を手動でリバースエンジニアリングする必要がある。 種とdgaが知られているときのみ、過去と将来のドメインを効率的に生成し、引き起こし、ブロックし、穴をあける、あるいは取り下げに使用することができる。 文献における一般的なカウンタは、データベースまたは機械学習(ML)ベースの検出器で、既知のDGAの過去と将来のドメインを追跡し、それぞれDGA生成ドメイン名を識別する。 しかし、データベースベースのアプローチでは新しいdgasによって生成されたドメインを検出できず、mlアプローチは将来のドメイン名を生成することができない。 本稿では,上記の2つのアプローチを組み合わせたシステムであるsesameについて紹介する。 ドメイン名を自動分類し、その新規性を評価し、基礎となるDGAの種を決定するために使用される。 SESAMEは複数のDGA固有のシードリコンストラクタから構成されており、ネットワークトラフィックの監視が容易であるため、ドメイン名に基づいて純粋に動作するように設計されている。 20.8ギガバイトのDNSルックアップに対して,我々のアプローチを評価した。 そこで我々は17のDGAを同定し、そのうち4つは私たちにとって全く新しいものだった。

An important aspect of many botnets is their capability to generate pseudorandom domain names using Domain Generation Algorithms (DGAs). A cyber criminal can register such domains to establish periodically changing rendezvous points with the bots. DGAs make use of seeds to generate sets of domains. Seeds can easily be changed in order to generate entirely new groups of domains while using the same underlying algorithm. While this requires very little manual effort for an adversary, security specialists typically have to manually reverse engineer new malware strains to reconstruct the seeds. Only when the seed and DGA are known, past and future domains can be generated, efficiently attributed, blocked, sinkholed or used for a take-down. Common counters in the literature consist of databases or Machine Learning (ML) based detectors to keep track of past and future domains of known DGAs and to identify DGA-generated domain names, respectively. However, database based approaches can not detect domains generated by new DGAs, and ML approaches can not generate future domain names. In this paper, we introduce SESAME, a system that combines the two above-mentioned approaches and contains a module for automatic Seed Reconstruction, which is, to our knowledge, the first of its kind. It is used to automatically classify domain names, rate their novelty, and determine the seeds of the underlying DGAs. SESAME consists of multiple DGA-specific Seed Reconstructors and is designed to work purely based on domain names, as they are easily obtainable from observing the network traffic. We evaluated our approach on 20.8 gigabytes of DNS-lookups. Thereby, we identified 17 DGAs, of which 4 were entirely new to us.
翻訳日:2023-01-13 15:32:30 公開日:2023-01-12
# 幾何学的にフラストレーションしたスピン-1ハイゼンベルクダイヤモンドクラスターの熱的絡み合い

Thermal entanglement of a geometrically frustrated spin-1 Heisenberg diamond cluster ( http://arxiv.org/abs/2301.03868v2 )

ライセンス: Link先を確認
Azadeh Ghannadan, Katarina Karlova and Jozef Strecka(参考訳) 幾何学的にフラストレーションされたスピン-1ハイゼンベルクダイヤモンドクラスターの熱エンタングルメントを, エンタングルメント負性度を計算し, 正確な対角化法の枠組みの中で検討した。 その結果, 四核ニッケル錯体[Ni4(CO3)2(aetpy)8](ClO4)4(aetpy = 2-aminoethyl-pyridine)の高温および磁場に対する二部構造熱絡の堅牢性の理論的予測が得られた。

Thermal entanglement of a geometrically frustrated spin-1 Heisenberg diamond cluster is examined within the framework of the exact diagonalization method by computing the measure of entanglement negativity. The calculated exact analytical results are applied in order to obtain theoretical prediction of the robustness of bipartite thermal entanglement of the tetranuclear nickel complex [Ni4(CO3)2(aetpy)8](ClO4)4 (aetpy = 2-aminoethyl-pyridine) against rising temperature and magnetic field.
翻訳日:2023-01-13 15:32:03 公開日:2023-01-12
# 振動強い結合下での絡み合った分子集合におけるキャビティ触媒水素移動ダイナミクス

Cavity-Catalyzed Hydrogen Transfer Dynamics in an Entangled Molecular Ensemble under Vibrational Strong Coupling ( http://arxiv.org/abs/2301.04074v2 )

ライセンス: Link先を確認
Eric W. Fischer, Peter Saalfrank(参考訳) マイクロキャビティは分子振動と量子化されたキャビティモードとの強い結合によって分子アンサンブルの反応性に影響を与えることが示されている。 このようなシナリオの量子力学的処理では、単一の分子とスケール化された、効果的な分子-キャビティ相互作用や、単純化されたモデルハミルトニアンによるオルタナブルモデルが頻繁に用いられる。 本研究では,振動強結合(vsc)条件下で水素移動を行うチオアセチルアセトン(taa)分子のアンサンブルにおける空洞誘起量子力学を研究するため,ビブロ・ポーラニオン化学にポーリ・フィエルツ・ハミルトニアンのアンサンブル変種を適用し,基礎となる時間依存シュル・オディンガー方程式を数値的に解いた。 単一分子を単一キャビティモードに結合させることから、キャビティはエノールからエンチオールへの水素移動を実際に強制し、光-物質相互作用の強さによって移動速度が著しく増加することを示した。 この空洞の反応速度に対する正の効果は、これまでのいくつかのシステムと異なり、空洞の反応速度に対する再ターディング効果が発見された。 空洞の「触媒」は仮想光子の分子への移動による反応であると考えられている。 同じ概念は、1つのキャビティモードに最大$n=20$のtaa分子を結合したアンサンブルにも適用される。 後者は、フォン・ノイマン-エントロピーによって定量化されるアンサンブルの複雑な絡み合いダイナミクスに遡る。 アンサンブルサイズに対する力学の非自明な依存は、明らかにスケールした単一分子モデルを超えており、N$が増加するにつれて、マルチモード Rabi からシステムバス型状態への遷移として解釈される。

Microcavities have been shown to influence the reactivity of molecular ensembles by strong coupling of molecular vibrations to quantized cavity modes. In quantum mechanical treatments of such scenarios, frequently idealized models with single molecules and scaled, effective molecule-cavity interactions or alternatively ensemble models with simplified model Hamiltonians are used. In this work, we go beyond these models by applying an ensemble variant of the Pauli-Fierz Hamiltonian for vibro-polaritonic chemistry and numerically solve the underlying time-dependent Schr\"odinger equation to study the cavity-induced quantum dynamics in an ensemble of thioacetylacetone (TAA) molecules undergoing hydrogen transfer under vibrational strong coupling (VSC) conditions. Beginning with a single molecule coupled to a single cavity mode, we show that the cavity indeed enforces hydrogen transfer from an enol to an enethiol configuration with transfer rates significantly increasing with light-matter interaction strength. This positive effect of the cavity on reaction rates is different from several other systems studied so far, where a retarding effect of the cavity on rates was found. It is argued that the cavity ``catalyzes'' the reaction by transfer of virtual photons to the molecule. The same concept applies to ensembles with up to $N=20$ TAA molecules coupled to a single cavity mode, where an additional, significant, ensemble-induced collective isomerization rate enhancement is found. The latter is traced back to complex entanglement dynamics of the ensemble, which we quantify by means of von Neumann-entropies. A non-trivial dependence of the dynamics on ensemble size is found, clearly beyond scaled single-molecule models, which we interpret as transition from a multi-mode Rabi to a system-bath-type regime as $N$ increases.
翻訳日:2023-01-13 15:31:54 公開日:2023-01-12
# 光格子内における極低温ボソニックガスのスピンテンソルマイスナー電流

Spin-tensor Meissner currents of ultracold bosonic gas in an optical lattice ( http://arxiv.org/abs/2301.05054v1 )

ライセンス: Link先を確認
Xiaofan Zhou, Xi-Wang Luo, and Suotang Jia(参考訳) 1次元光学格子中のスピン-テンソル-モーメント結合スピン-1原子により実現される3脚リボン形状において、スタッガー付き人工ゲージ場を受ける相互作用ボソンのマイスナー電流を調べる。 By calculating the current distributions using the state-of-art density-matrix renormalization-group method, we find a rich phase diagram containing interesting Meissner and vortex phases, where the currents are mirror symmetric with respect to the mid leg (i.e., they flow in the same direction on the two boundary legs opposite to that on the mid leg), leading to the spin-tensor type Meissner currents, which is very different from previously observed chiral edge currents under uniform gauge field. 電流はマイスナー相の各脚に沿って一様であり、渦相で渦-反渦対を形成する。 さらに、このシステムは鏡対称性を自発的に破る偏極相をサポートし、基底状態は均一または渦対を形成する電流で縮退する。 また、これらの位相を探索するための実験的スキームについても論じる。 本研究は, 合成フラックスリボンの実験的研究に有用なガイダンスを提供するとともに, 新たな多体現象を探索する方法を舗装する。

We investigate the Meissner currents of interacting bosons subjected to a staggered artificial gauge field in a three-leg ribbon geometry, realized by spin-tensor--momentum coupled spin-1 atoms in an 1D optical lattice. By calculating the current distributions using the state-of-art density-matrix renormalization-group method, we find a rich phase diagram containing interesting Meissner and vortex phases, where the currents are mirror symmetric with respect to the mid leg (i.e., they flow in the same direction on the two boundary legs opposite to that on the mid leg), leading to the spin-tensor type Meissner currents, which is very different from previously observed chiral edge currents under uniform gauge field. The currents are uniform along each leg in the Meissner phase and form vortex-antivortex pairs in the vortex phase. Besides, the system also support a polarized phase that spontaneously breaks the mirror symmetry, whose ground states are degenerate with currents either uniform or forming vortex-antivortex pairs. We also discuss the experimental schemes for probing these phases. Our work provides useful guidance to ongoing experimental research on synthetic flux ribbons and paves the way for exploring novel many-body phenomena therein.
翻訳日:2023-01-13 15:29:57 公開日:2023-01-12
# 窒素空洞中心における発光強度とスピンコントラストの温度依存性

Temperature dependence of photoluminescence intensity and spin contrast in nitrogen-vacancy centers ( http://arxiv.org/abs/2301.05091v1 )

ライセンス: Link先を確認
Stefan Ernst, Patrick J. Scheidegger, Simon Diesch, Luca Lorenzelli, Christian L. Degen(参考訳) 4~300Kの温度におけるダイヤモンド中の単一窒素空孔(NV)中心の光ルミネッセンス(PL)特性の測定について報告する。 10-100K以上まで回復した。 さらに,磁気バイアス場と結晶ひずみに大きく依存することがわかった。 我々は、電子励起状態におけるスピン混合と軌道ホッピングに基づく包括的モデルを開発し、観測を定量的に説明する。 励起状態のダイナミクスのより完全な理解に加えて、我々の研究は電子-フォノン相互作用を探索するための新しいアプローチと、量子応用の実験条件を最適化するための予測ツールを提供する。

We report on measurements of the photoluminescence (PL) properties of single nitrogen-vacancy (NV) centers in diamond at temperatures between 4-300 K. We observe a strong reduction of the PL intensity and spin contrast between ca. 10-100 K that recovers to high levels below and above. Further, we find a rich dependence on magnetic bias field and crystal strain. We develop a comprehensive model based on spin mixing and orbital hopping in the electronic excited state that quantitatively explains the observations. Beyond a more complete understanding of the excited-state dynamics, our work provides a novel approach for probing electron-phonon interactions and a predictive tool for optimizing experimental conditions for quantum applications.
翻訳日:2023-01-13 15:29:39 公開日:2023-01-12
# 偶然の光プローブ

Accidental Light Probes ( http://arxiv.org/abs/2301.05211v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Samir Agarwala, Charles Herrmann, Richard Szeliski, Noah Snavely, Jiajun Wu, Deqing Sun(参考訳) 単一の画像からシーン内の照明を復元することは、コンピュータビジョンの根本的な問題である。 ミラーボール光プローブは全方位光を捉えることができるが、光プローブは日常の画像では一般的に利用できない。 本研究は、毎日の場面にしばしば現れるコカイン缶のような、一般的な光沢のある物体である偶発的な光プローブ(alps)からの照明の復元について研究する。 そこで本研究では,ALPを物理的にモデル化する手法を提案する。 主な考え方は、フォトグラム的原理によるシェーディングによるALPの出現をモデル化し、この過程を微分レンダリングによって逆転させ、偶発的な照明を回復させることである。 我々は,高忠実度照明推定を可能にするために,alpをシーンに配置できることを実証する。 我々のモデルは、ALPを含む既存の画像の照明を復元することもできる。

Recovering lighting in a scene from a single image is a fundamental problem in computer vision. While a mirror ball light probe can capture omnidirectional lighting, light probes are generally unavailable in everyday images. In this work, we study recovering lighting from accidental light probes (ALPs) -- common, shiny objects like Coke cans, which often accidentally appear in daily scenes. We propose a physically-based approach to model ALPs and estimate lighting from their appearances in single images. The main idea is to model the appearance of ALPs by photogrammetrically principled shading and to invert this process via differentiable rendering to recover incidental illumination. We demonstrate that we can put an ALP into a scene to allow high-fidelity lighting estimation. Our model can also recover lighting for existing images that happen to contain an ALP.
翻訳日:2023-01-13 15:23:44 公開日:2023-01-12
# 不確かさシステムにおける最悪ケース制御と学習のための近似情報状態

Approximate Information States for Worst-Case Control and Learning in Uncertain Systems ( http://arxiv.org/abs/2301.05089v1 )

ライセンス: Link先を確認
Aditya Dave, Nishanth Venkatesh, Andreas A. Malikopoulos(参考訳) 本稿では,部分的観測状態を有する不確定システムにおける離散時間意思決定問題について検討する。 システムに作用する制御不能な外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。 本稿では,情報状態と近似情報状態の概念を開発することにより,そのような問題における意思決定のための一般的な枠組みを提案する。 情報状態の定義では、最適な戦略を計算する動的プログラム(DP)を構築するのに十分な不確実な変数を特定する条件を導入する。 我々は、最悪の場合の制御行動に関する文献からの多くの情報状態、例えば条件範囲は、我々のより一般的な定義の例であることを示す。 次に、これらの条件を緩和して、システムダイナミクスを知らずに出力データから学習できる出力変数のみを用いて、近似情報状態を定義する。 我々は、この概念を用いて、有界な性能損失を持つ戦略をもたらす近似DPを定式化する。 最後に, 数値例を用いて, 制御および強化学習における結果の適用について述べる。

In this paper, we investigate discrete-time decision-making problems in uncertain systems with partially observed states. We consider a non-stochastic model, where uncontrolled disturbances acting on the system take values in bounded sets with unknown distributions. We present a general framework for decision-making in such problems by developing the notions of information states and approximate information states. In our definition of an information state, we introduce conditions to identify for an uncertain variable sufficient to construct a dynamic program (DP) that computes an optimal strategy. We show that many information states from the literature on worst-case control actions, e.g., the conditional range, are examples of our more general definition. Next, we relax these conditions to define approximate information states using only output variables, which can be learned from output data without knowledge of system dynamics. We use this notion to formulate an approximate DP that yields a strategy with a bounded performance loss. Finally, we illustrate the application of our results in control and reinforcement learning using numerical examples.
翻訳日:2023-01-13 15:23:30 公開日:2023-01-12
# aiアートは、新たな産業革命をもたらすか?

Is AI Art Another Industrial Revolution in the Making? ( http://arxiv.org/abs/2301.05133v1 )

ライセンス: Link先を確認
Alexis Newton and Kaustubh Dhole(参考訳) 熟練労働者から非熟練労働者への大きな変化は、機械への転換が職人の社会的・経済的地位の低下に寄与した産業革命による多くの変化の1つであった。 我々は、AIが生成するアートソフトウェアの導入という、類似したコンピューティング技術について検討している。 Dall-EやMidjourneyのようなAIアートジェネレータは、ボタンをクリックするだけで、ユーザのプロンプトのみに基づいて完全にレンダリングされたイメージを作成することができる。 一部のアーティストは、aiが生成する画像による安価でコンベヤベルトのスピードが現在のシステムの改善と見なされるなら、社会が芸術や芸術家を尊重/視聴する方法を永久に変えるだろうと恐れている。 本稿では,AIアート生成が産業革命後の歴史的レンズを通じて導入する意味について考察する。 次に、aiアート革命の結果として生じる類似の問題を考察し、得られた問題は工業化の課題を反映し、今後何が起きているのかを垣間見ることができると結論づける。

A major shift from skilled to unskilled workers was one of the many changes caused by the Industrial Revolution, when the switch to machines contributed to decline in the social and economic status of artisans, whose skills were dismembered into discrete actions by factory-line workers. We consider what may be an analogous computing technology: the recent introduction of AI-generated art software. AI art generators such as Dall-E and Midjourney can create fully rendered images based solely on a user's prompt, just at the click of a button. Some artists fear if the cheaper price and conveyor-belt speed that comes with AI-produced images is seen as an improvement to the current system, it may permanently change the way society values/views art and artists. In this article, we consider the implications that AI art generation introduces through a post-industrial revolution historical lens. We then reflect on the analogous issues that appear to arise as a result of the AI art revolution, and we conclude that the problems raised mirror those of industrialization, giving a vital glimpse into what may lie ahead.
翻訳日:2023-01-13 15:23:13 公開日:2023-01-12
# BQ-NCO: 一般化可能なニューラルコンビネーション最適化のためのビシミュレータ

BQ-NCO: Bisimulation Quotienting for Generalizable Neural Combinatorial Optimization ( http://arxiv.org/abs/2301.03313v2 )

ライセンス: Link先を確認
Darko Drakulic, Sofia Michel, Florian Mai, Arnaud Sors and Jean-Marc Andreoli(参考訳) エンドツーエンドのヒューリスティック学習のためのNeural Combinatorial Optimization手法の成功にもかかわらず、アウト・オブ・ディストリビューションの一般化は依然として課題である。 本稿では, 分散ロバスト性を改善するために, co問題の対称性を効果的に活用するマルコフ決定過程 (mdps) として, 組合せ最適化 (co) 問題の新たな定式化を提案する。 構成的ヒューリスティックの標準 MDP の定式化から始めて,MDP におけるバイシミュレート商化 (BQ) に基づく汎用変換を導入する。 この変換により、CO問題の固有の対称性を考慮し、状態空間を小さくすることができ、MDP解決を容易にする。 我々は,移動セールスマン,キャパシタブル・ルーティング,ナップサック問題に対する我々のアプローチを説明する。 本稿では,これらの問題のBQ再構成を行い,単一分布から小さなインスタンスに対して(ほぼ)最適解を模倣して訓練する,シンプルな注意に基づくポリシーネットワークを提案する。 我々は,最大1000ノードのインスタンスに対して,サイズとノード分布の両方が異なる合成および現実的なベンチマークから,新たな最先端の一般化結果を得る。

Despite the success of Neural Combinatorial Optimization methods for end-to-end heuristic learning, out-of-distribution generalization remains a challenge. In this paper, we present a novel formulation of combinatorial optimization (CO) problems as Markov Decision Processes (MDPs) that effectively leverages symmetries of the CO problems to improve out-of-distribution robustness. Starting from the standard MDP formulation of constructive heuristics, we introduce a generic transformation based on bisimulation quotienting (BQ) in MDPs. This transformation allows to reduce the state space by accounting for the intrinsic symmetries of the CO problem and facilitates the MDP solving. We illustrate our approach on the Traveling Salesman, Capacitated Vehicle Routing and Knapsack Problems. We present a BQ reformulation of these problems and introduce a simple attention-based policy network that we train by imitation of (near) optimal solutions for small instances from a single distribution. We obtain new state-of-the-art generalization results for instances with up to 1000 nodes from synthetic and realistic benchmarks that vary both in size and node distributions.
翻訳日:2023-01-13 15:22:54 公開日:2023-01-12
# alphafoldのロバスト性について:新型コロナのケーススタディ

On the Robustness of AlphaFold: A COVID-19 Case Study ( http://arxiv.org/abs/2301.04093v2 )

ライセンス: Link先を確認
Ismail Alkhouri, Sumit Jha, Andre Beckus, George Atia, Alvaro Velasquez, Rickard Ewetz, Arvind Ramanathan, Susmit Jha(参考訳) alphafoldのようなタンパク質折り畳みニューラルネットワーク(pfnn)は、他のアプローチと比較して驚くほど正確なタンパク質の構造を予測する。 しかし,このようなネットワークの頑健性は検討されていない。 これは、このような技術の幅広い社会的意味と、生物学的にタンパク質配列の摂動が一般的にタンパク質構造に劇的な変化をもたらすわけではないという事実を考えると、特に関係がある。 本稿では,アルファフォールドの精度は高いが,そのような頑健性は示さないことを示す。 これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。 予測した構造物のロバスト性を測定するために (i)根平均二乗偏差(RMSD)と (II)GDT(Global Distance Test)類似度尺度は、元のシーケンスの予測構造と、その逆摂動バージョンの構造との間のものである。 タンパク質配列を最小に摂動することで、タンパク質折り畳みニューラルネットワークがNP完全であることを証明した。 確立されたblosum62配列配列アライメントスコアリングマトリクスに基づいて、逆タンパク質配列を生成し、予測されたタンパク質構造と元の配列の構造との間のrmsdが非常に大きいことを示す。 (i)BLOSUM62距離の20ユニット、及び (ii)与えられたタンパク質配列中の5つの残基(数百から数千の残基のうち) 本実験では,欧州バイオインフォマティクス研究所,スイスバイオインフォマティクス研究所,米国タンパク質情報資源が管理するタンパク質データの中心的資源であるUniProt(UniProt)の111個のCOVID-19タンパク質について検討した。 これらの結果、gdtの類似度テストスコアは平均で約34%となり、アルファフォールドの性能が大幅に低下した。

Protein folding neural networks (PFNNs) such as AlphaFold predict remarkably accurate structures of proteins compared to other approaches. However, the robustness of such networks has heretofore not been explored. This is particularly relevant given the broad social implications of such technologies and the fact that biologically small perturbations in the protein sequence do not generally lead to drastic changes in the protein structure. In this paper, we demonstrate that AlphaFold does not exhibit such robustness despite its high accuracy. This raises the challenge of detecting and quantifying the extent to which these predicted protein structures can be trusted. To measure the robustness of the predicted structures, we utilize (i) the root-mean-square deviation (RMSD) and (ii) the Global Distance Test (GDT) similarity measure between the predicted structure of the original sequence and the structure of its adversarially perturbed version. We prove that the problem of minimally perturbing protein sequences to fool protein folding neural networks is NP-complete. Based on the well-established BLOSUM62 sequence alignment scoring matrix, we generate adversarial protein sequences and show that the RMSD between the predicted protein structure and the structure of the original sequence are very large when the adversarial changes are bounded by (i) 20 units in the BLOSUM62 distance, and (ii) five residues (out of hundreds or thousands of residues) in the given protein sequence. In our experimental evaluation, we consider 111 COVID-19 proteins in the Universal Protein resource (UniProt), a central resource for protein data managed by the European Bioinformatics Institute, Swiss Institute of Bioinformatics, and the US Protein Information Resource. These result in an overall GDT similarity test score average of around 34%, demonstrating a substantial drop in the performance of AlphaFold.
翻訳日:2023-01-13 15:22:33 公開日:2023-01-12
# グラフ畳み込みネットワークのネットワーク科学的展望:調査

A Network Science perspective of Graph Convolutional Networks: A survey ( http://arxiv.org/abs/2301.04824v1 )

ライセンス: Link先を確認
Mingshan Jia, Bogdan Gabrys and Katarzyna Musial(参考訳) グラフ構造情報のマイニングと活用は、複雑なネットワークの研究の焦点となっている。 ネットワーク科学における伝統的な構造測度は、中央性測度、クラスタリング係数、モチーフやグラフレットといったネットワーク構造の観点から、複雑なネットワークの分析とモデリングに重点を置いており、それらはグラフの研究と理解の基本的なツールとなっている。 グラフニューラルネットワーク、特にグラフ畳み込みネットワーク(GCN)は、近隣の集約やメッセージパッシングを通じてグラフ構造にノード特徴を統合するのに特に有効であり、様々な学習タスクのパフォーマンスを著しく改善することが示されている。 しかし、これらの2つのメソッドのクラスは、通常、互いに限られた参照で別々に扱われる。 本稿では,それらの関係を確立することを目的として,GCNのネットワーク科学的な視点を提供する。 我々の新しい分類法は、GCNを3つの構造情報アングル、すなわち、レイヤワイドメッセージアグリゲーションスコープ、メッセージ内容、および全体的な学習範囲から分類する。 さらに,ネットワーク科学の観点からGCNをレビューするための前提条件として,従来の構造指標を要約し,新しい分類法を提案する。 最後に、我々は従来の構造的アプローチとグラフ畳み込みネットワークの接続を描き、今後の研究の方向性について議論する。

The mining and exploitation of graph structural information have been the focal points in the study of complex networks. Traditional structural measures in Network Science focus on the analysis and modelling of complex networks from the perspective of network structure, such as the centrality measures, the clustering coefficient, and motifs and graphlets, and they have become basic tools for studying and understanding graphs. In comparison, graph neural networks, especially graph convolutional networks (GCNs), are particularly effective at integrating node features into graph structures via neighbourhood aggregation and message passing, and have been shown to significantly improve the performances in a variety of learning tasks. These two classes of methods are, however, typically treated separately with limited references to each other. In this work, aiming to establish relationships between them, we provide a network science perspective of GCNs. Our novel taxonomy classifies GCNs from three structural information angles, i.e., the layer-wise message aggregation scope, the message content, and the overall learning scope. Moreover, as a prerequisite for reviewing GCNs via a network science perspective, we also summarise traditional structural measures and propose a new taxonomy for them. Finally and most importantly, we draw connections between traditional structural approaches and graph convolutional networks, and discuss potential directions for future research.
翻訳日:2023-01-13 15:21:20 公開日:2023-01-12
# ドライバモニタリングアプリケーションのためのフェデレーション転送順序付き個人学習

Federated Transfer-Ordered-Personalized Learning for Driver Monitoring Application ( http://arxiv.org/abs/2301.04829v1 )

ライセンス: Link先を確認
Liangqi Yuan, Lu Su, Ziran Wang(参考訳) フェデレートラーニング(FL)は、IoT(Internet of Things)において、コラボレーティブラーニングを実現し、ローカルデータでトレーニングされたクライアントモデルパラメータを共有することで学習効率を向上させる能力によって、輝く。 flは、internet of vehicles(iov)のドライバ監視アプリケーション(dma)など、さまざまなドメインでうまく適用されているが、データやシステムの不均一性、大規模並列通信リソース、悪意のある攻撃、データ中毒など、まだいくつかのオープンな問題に直面している。 本稿では,上記の問題に対処するためのフェデレーション・トランスファー・オーダード・パーソナライズド・ラーニング(fedtop)フレームワークを提案する。 3つの拡張、転送、順序、パーソナライズのパフォーマンスはアブレーション調査により比較され、2つのデータセットのテストクライアントでそれぞれ92.32%と95.96%の精度を達成した。 ベースラインと比較すると、精度は462%向上し、通信リソース消費量は37.46%減少している。 その結果,提案されたfeedtopは,高度に精度が高く,合理化され,プライバシを保護し,サイバーセキュリティ指向で,dma用のパーソナライズされたフレームワークとして使用することができる。

Federated learning (FL) shines through in the internet of things (IoT) with its ability to realize collaborative learning and improve learning efficiency by sharing client model parameters trained on local data. Although FL has been successfully applied to various domains, including driver monitoring application (DMA) on the internet of vehicles (IoV), its usages still face some open issues, such as data and system heterogeneity, large-scale parallelism communication resources, malicious attacks, and data poisoning. This paper proposes a federated transfer-ordered-personalized learning (FedTOP) framework to address the above problems and test on two real-world datasets with and without system heterogeneity. The performance of the three extensions, transfer, ordered, and personalized, is compared by an ablation study and achieves 92.32% and 95.96% accuracy on the test clients of two datasets, respectively. Compared to the baseline, there is a 462% improvement in accuracy and a 37.46% reduction in communication resource consumption. The results demonstrate that the proposed FedTOP can be used as a highly accurate, streamlined, privacy-preserving, cybersecurity-oriented, personalized framework for DMA.
翻訳日:2023-01-13 15:20:59 公開日:2023-01-12
# マシンラーニングによるEthereum上のPonziスキーム検出の高速化

Sharpening Ponzi Schemes Detection on Ethereum with Machine Learning ( http://arxiv.org/abs/2301.04872v1 )

ライセンス: Link先を確認
Letterio Galletta and Fabio Pinelli(参考訳) ブロックチェーン技術は、新しい経済アプリケーションをデプロイするためにうまく活用されている。 しかし、正直なユーザーを騙し経済的優位性を得るために詐欺を犯す悪意のあるユーザーの関心を喚起し始めた。 様々な詐欺のうち、ポンジスキームは最も一般的なものの一つである。 本稿では,Ethereum上でのスマートPonziコントラクトの自動検出手法を提案する。 4422のユニークな現実世界のスマートコントラクトを備えた再利用可能なデータセットをリリースします。 次に,分類を改善するための新機能セットを提案する。 最後に、優れた分類品質を保証する、小さく効果的な機能のセットを特定します。

Blockchain technology has been successfully exploited for deploying new economic applications. However, it has started arousing the interest of malicious users who deliver scams to deceive honest users and to gain economic advantages. Among the various scams, Ponzi schemes are one of the most common. Here, we present an automatic technique for detecting smart Ponzi contracts on Ethereum. We release a reusable data set with 4422 unique real-world smart contracts. Then, we introduce a new set of features that allow us to improve the classification. Finally, we identify a small and effective set of features that ensures a good classification quality.
翻訳日:2023-01-13 15:20:34 公開日:2023-01-12
# Github Copilot Toolを用いたソフトウェア開発プロセスにおけるソフトウェア開発者の体験に関する研究

Study of software developers' experience using the Github Copilot Tool in the software development process ( http://arxiv.org/abs/2301.04991v1 )

ライセンス: Link先を確認
Mateusz Jaworski and Dariusz Piotrkowski(参考訳) ソフトウェア開発では、品質を損なうことなく、コードをより速く、より速く作成するというプレッシャーが常にあります。 この要求に応えて、開発者をサポートする新しいツールが作成される。 現在、人工知能駆動ツールという新しい世代のソリューションがローンチされる予定である。 2021年6月29日、Github Copilotが発表された。 トレーニングされたモデルを使用して、人間の理解可能な言語に基づいたコードを生成する。 この研究の目的は、ソフトウェア開発者のこのツールに対するアプローチを調査することである。 この目的のために18の質問を含む調査が準備され、プログラマと共有された。 合計42人の回答が集まった。 研究結果は開発者の意見が分かれていることを示している。 彼らのほとんどは、調査に参加する前にgithub copilotに出会った。 ツールに対する態度は概ね肯定的だったが,その使用を希望する参加者はほとんどいなかった。 Github Copilotの使用に伴うセキュリティ上の問題による懸念がある。

In software development there is a constant pressure to produce code faster and faster without compromising on quality. New tools supporting developers are created in response to this demand. Currently a new generation of such solutions is about to be launched - Artificial Intelligence driven tools. On 29 June 2021 Github Copilot was announced. It uses trained model to generate code based on human understandable language. The focus of this research was to investigate software developers' approach to this tool. For this purpose a survey containing 18 questions was prepared and shared with programmers. A total of 42 answers were gathered. The results of the research indicate that developers' opinions are divided. Most of them met Github Copilot before attending the survey. The attitude to the tool was mostly positive but not many participants were willing to use it. Concerns are caused by security issues associated with using of Github Copilot.
翻訳日:2023-01-13 15:14:57 公開日:2023-01-12
# 非造影頭部CTにおける3D異方性頭蓋内出血の現況 : INSTANCEの課題

The state-of-the-art 3D anisotropic intracranial hemorrhage segmentation on non-contrast head CT: The INSTANCE challenge ( http://arxiv.org/abs/2301.03281v2 )

ライセンス: Link先を確認
Xiangyu Li, Gongning Luo, Kuanquan Wang, Hongyu Wang, Jun Liu, Xinjie Liang, Jie Jiang, Zhenghao Song, Chunyue Zheng, Haokai Chi, Mingwang Xu, Yingte He, Xinghua Ma, Jingwen Guo, Yifan Liu, Chuanpu Li, Zeli Chen, Md Mahfuzur Rahman Siddiquee, Andriy Myronenko, Antoine P. Sanner, Anirban Mukhopadhyay, Ahmed E. Othman, Xingyu Zhao, Weiping Liu, Jinhuang Zhang, Xiangyuan Ma, Qinghui Liu, Bradley J. MacIntosh, Wei Liang, Moona Mazher, Abdul Qayyum, Valeriia Abramova, Xavier Llad\'o, Shuo Li(参考訳) 3D Non-Contrast Head CT (NCCT) における頭蓋内出血分画は臨床的に重要である。 既存の出血セグメンテーション法は通常、ncctの異方性を無視し、異なるメトリクスを持つ異なる社内データセットで評価されるため、セグメンテーション性能の改善と異なる方法間の客観的比較が極めて困難である。 INSTANCE 2022は、2022年の医用画像コンピューティングおよびコンピュータ支援介入に関する国際会議(MICCAI)と共同で開催された大きな課題である。 以上の課題を解決し,脳内出血セグメンテーションと異方性データ処理の開発を促進することを目的としている。 実験では、被験者が利用可能な100のケースと30のケースからなる検証セットをトレーニングセットとしてリリースした。 最終評価とランキングには70事例からなるホールドアウトテストセットが使用される。 Dice similarity Coefficient (DSC), Hausdorff Distance (HD), Relative Volume difference (RVD), Normalized Surface Dice (NSD) の4つの指標に基づいて,参加者の手法をランク付けする。 合計13チームが、いくつかのベースラインモデル、前処理戦略、異方性データ処理技術を将来の研究者に提供し、課題を解決するために、それぞれ異なるソリューションを提出した。 勝者法は平均DSC0.6925を達成し,提案法よりも有意な成長を示した。 我々の知る限り、INSTANCEは最初の頭蓋内出血セグメンテーションのベンチマークを公表し、3D画像セグメンテーションにおける異方性問題の解決を目的とした最初の挑戦であり、これらの研究分野において新たな代替手段を提供する。

Automatic intracranial hemorrhage segmentation in 3D non-contrast head CT (NCCT) scans is significant in clinical practice. Existing hemorrhage segmentation methods usually ignores the anisotropic nature of the NCCT, and are evaluated on different in-house datasets with distinct metrics, making it highly challenging to improve segmentation performance and perform objective comparisons among different methods. The INSTANCE 2022 was a grand challenge held in conjunction with the 2022 International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI). It is intended to resolve the above-mentioned problems and promote the development of both intracranial hemorrhage segmentation and anisotropic data processing. The INSTANCE released a training set of 100 cases with ground-truth and a validation set with 30 cases without ground-truth labels that were available to the participants. A held-out testing set with 70 cases is utilized for the final evaluation and ranking. The methods from different participants are ranked based on four metrics, including Dice Similarity Coefficient (DSC), Hausdorff Distance (HD), Relative Volume Difference (RVD) and Normalized Surface Dice (NSD). A total of 13 teams submitted distinct solutions to resolve the challenges, making several baseline models, pre-processing strategies and anisotropic data processing techniques available to future researchers. The winner method achieved an average DSC of 0.6925, demonstrating a significant growth over our proposed baseline method. To the best of our knowledge, the proposed INSTANCE challenge releases the first intracranial hemorrhage segmentation benchmark, and is also the first challenge that intended to resolve the anisotropic problem in 3D medical image segmentation, which provides new alternatives in these research fields.
翻訳日:2023-01-13 15:14:46 公開日:2023-01-12
# 実世界部分観測による予測世界モデル

Predictive World Models from Real-World Partial Observations ( http://arxiv.org/abs/2301.04783v1 )

ライセンス: Link先を確認
Robin Karlsson, Alexander Carballo, Keisuke Fujii, Kento Ohtani, Kazuya Takeda(参考訳) 認知科学者は、人間のような適応可能な知的エージェントは、エージェントや環境の学習因果的メンタルシミュレーションを通じて推論を行うと信じている。 このようなシミュレーションを学習する問題は予測世界モデリングと呼ばれる。 近年,世界モデルを活用した強化学習(RL)エージェントがゲーム環境におけるSOTAの性能向上を実現している。 しかし,移動ロボットに関連する複雑な実世界の環境に世界モデリングアプローチを適用する方法を理解することは,未解決の問題である。 本稿では,現実の道路環境に対する確率的予測世界モデル学習のための枠組みを提案する。 本研究では,センサの蓄積観測から多種多様な観測可能な世界を予測可能な階層型vae (hvae) を用いてモデルを実装した。 従来のHVAE法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。 96.21iouを達成する決定論的領域の正確な空間構造予測を実験的に実証し、最良の予測を用いて確率的領域のギャップを62%満たす。 完全基底的真理状態が存在しない場合にhvaを拡張することにより、現実世界の移動ロボットアプリケーションのための説明可能で包括的な予測的世界モデルを実現するためのステップとして、空間予測の継続的な学習を促進する。

Cognitive scientists believe adaptable intelligent agents like humans perform reasoning through learned causal mental simulations of agents and environments. The problem of learning such simulations is called predictive world modeling. Recently, reinforcement learning (RL) agents leveraging world models have achieved SOTA performance in game environments. However, understanding how to apply the world modeling approach in complex real-world environments relevant to mobile robots remains an open question. In this paper, we present a framework for learning a probabilistic predictive world model for real-world road environments. We implement the model using a hierarchical VAE (HVAE) capable of predicting a diverse set of fully observed plausible worlds from accumulated sensor observations. While prior HVAE methods require complete states as ground truth for learning, we present a novel sequential training method to allow HVAEs to learn to predict complete states from partially observed states only. We experimentally demonstrate accurate spatial structure prediction of deterministic regions achieving 96.21 IoU, and close the gap to perfect prediction by 62 % for stochastic regions using the best prediction. By extending HVAEs to cases where complete ground truth states do not exist, we facilitate continual learning of spatial prediction as a step towards realizing explainable and comprehensive predictive world models for real-world mobile robotics applications.
翻訳日:2023-01-13 15:14:14 公開日:2023-01-12
# 地上レーザー走査による土壌混合保持壁の変形測定

Deformation measurement of a soil mixing retaining wall using terrestrial laser scanning ( http://arxiv.org/abs/2301.04811v1 )

ライセンス: Link先を確認
Yang Zhao, Lei Fan, Hyungjoon Seo(参考訳) 壁の保持は、発掘現場を囲む地面の過度な横動きを防ぐためにしばしば造られる。 発掘中、壁の維持が失敗すると破滅的な事故が発生し、横方向の変形が定期的に監視される。 レーザ走査は比較的大きな領域の空間データを微細な空間分解能で迅速に取得することができ、壁の変形を監視するのに最適である。 本稿では, 連続掘削現場における土壌混合保持壁の側方変形測定にレーザ走査を適用した。 また, レーザー走査による測定のために, 総局および傾斜計による基準測定を行った。 レーザ走査データから得られた変形は, 保持壁の上部(すなわち, 主に壁のリングビーム)の基準値と一致した。 また, マルチスケールモデル・ツー・モデル法は, 研究データ上で最も正確な変形推定法であった。

Retaining walls are often built to prevent excessive lateral movements of the ground surrounding an excavation site. During an excavation, failure of retaining walls could cause catastrophic accidents and hence their lateral deformations are monitored regularly. Laser scanning can rapidly acquire the spatial data of a relatively large area at fine spatial resolutions, which is ideal for monitoring retaining walls' deformations. This paper attempts to apply laser scanning to measurements of the lateral deformations of a soil mixing retaining wall at an ongoing excavation site. Reference measurements by total station and inclinometer were also conducted to verify those from the laser scanning. The deformations derived using laser scanning data were consistent with the reference measurements at the top part of the retaining wall (i.e., mainly the ring beam of the wall). This research also shows that the multi-scale-model-to-model method was the most accurate deformation estimation method on the research data.
翻訳日:2023-01-13 15:13:53 公開日:2023-01-12
# 4k/uhdビデオストリームのためのセミグローバルマッチングステレオビジョンアルゴリズムのリアルタイムfpga実装

Real-time FPGA implementation of the Semi-Global Matching stereo vision algorithm for a 4K/UHD video stream ( http://arxiv.org/abs/2301.04847v1 )

ライセンス: Link先を確認
Mariusz Grabowski and Tomasz Kryjak(参考訳) 本稿では,セミグローバルマッチング(sgm)ステレオビジョンアルゴリズムのリアルタイムfpga実装を提案する。 このモジュールは4k/ultra hd (3840 x 2160 pixels @ 30 frames per second)ビデオストリームを4ピクセル毎クロック(ppc)フォーマットと64ピクセルの差範囲でサポートする。 ベースラインSGM実装は4ppcフォーマットでピクセルを処理し、タイミング制約を満たすように修正されなければならなかったが、我々のバージョンはオリジナルの設計に匹敵する結果を提供する。 このソリューションは、Virtex-7 FPGAデバイスを搭載したXilinx VC707開発ボード上で肯定的に評価されている。

In this paper, we propose a real-time FPGA implementation of the Semi-Global Matching (SGM) stereo vision algorithm. The designed module supports a 4K/Ultra HD (3840 x 2160 pixels @ 30 frames per second) video stream in a 4 pixel per clock (ppc) format and a 64-pixel disparity range. The baseline SGM implementation had to be modified to process pixels in the 4ppc format and meet the timing constrains, however, our version provides results comparable to the original design. The solution has been positively evaluated on the Xilinx VC707 development board with a Virtex-7 FPGA device.
翻訳日:2023-01-13 15:13:40 公開日:2023-01-12
# エッジによる点雲の暗黙的表面表現

Edge Preserving Implicit Surface Representation of Point Clouds ( http://arxiv.org/abs/2301.04860v1 )

ライセンス: Link先を確認
Xiaogang Wang, Yuhang Cheng, Liang Wang, Jiangbo Lu, Kai Xu, Guoqiang Xiao(参考訳) 近年,生データから直接暗黙的な表面を学習することが,その優れた性能から3次元再構成タスクの非常に魅力的な表現方法となっている。 しかし、生のデータ品質が劣化するにつれて、暗黙の機能はしばしば不満足な再建結果をもたらす。 そこで本研究では,ラプリカン正規化器と動的エッジサンプリング戦略を主成分とする,新しいエッジ保存型暗黙表面再構成法を提案する。 このうち, 差分ラプリカン正則化器は, 点雲の品質低下による暗黙的表面不振を効果的に軽減できる一方で, 暗黙的スフェイスのエッジ領域における過大な平滑化を低減すべく, 点雲の鋭いエッジ付近でサンプリングする動的エッジ抽出戦略を提案し, ラプラシアン正則化器がすべての領域の平滑化を効果的に回避できることを示した。 最後に,頑健な暗黙的表面再構成のための単純な正規化項と組み合わせた。 現状の手法と比較すると,本手法は3次元再構成結果の品質を著しく向上させる。 さらに,本手法がポイントクラウドエッジ特徴抽出,正規推定,etcなど,いくつかのポイントクラウド解析タスクに便利かつ効果的に適用可能であることを示す実験を行った。

Learning implicit surface directly from raw data recently has become a very attractive representation method for 3D reconstruction tasks due to its excellent performance. However, as the raw data quality deteriorates, the implicit functions often lead to unsatisfactory reconstruction results. To this end, we propose a novel edge-preserving implicit surface reconstruction method, which mainly consists of a differentiable Laplican regularizer and a dynamic edge sampling strategy. Among them, the differential Laplican regularizer can effectively alleviate the implicit surface unsmoothness caused by the point cloud quality deteriorates; Meanwhile, in order to reduce the excessive smoothing at the edge regions of implicit suface, we proposed a dynamic edge extract strategy for sampling near the sharp edge of point cloud, which can effectively avoid the Laplacian regularizer from smoothing all regions. Finally, we combine them with a simple regularization term for robust implicit surface reconstruction. Compared with the state-of-the-art methods, experimental results show that our method significantly improves the quality of 3D reconstruction results. Moreover, we demonstrate through several experiments that our method can be conveniently and effectively applied to some point cloud analysis tasks, including point cloud edge feature extraction, normal estimation,etc.
翻訳日:2023-01-13 15:13:27 公開日:2023-01-12
# Color-NeuraCrypt:拡張ランダムニューラルネットワークを用いたプライバシー保護カラー画像分類

Color-NeuraCrypt: Privacy-Preserving Color-Image Classification Using Extended Random Neural Networks ( http://arxiv.org/abs/2301.04875v1 )

ライセンス: Link先を確認
Zheng Qi, AprilPyone MaungMaung, Hitoshi Kiya(参考訳) 近年,クラウドコンピューティングプラットフォームの発展に伴い,ディープラーニングのためのプライバシ保護手法が緊急問題となっている。 NeuraCryptはプライバシ保護のためのプライベートなランダムニューラルネットワークで、データアップロード前にデータ所有者が医療データを暗号化し、データ所有者は、暗号化されたデータを直接クラウドサーバでトレーニングし、テストすることができる。 しかし,カラー画像を用いた場合,NeuraCryptの性能は著しく劣化している。 本稿では,この問題を解決するためのカラーニューラクリプトを提案する。 実験結果から,提案したColor-NeuraCryptは,従来のものと他のプライバシ保護手法よりも優れた分類精度が得られることがわかった。

In recent years, with the development of cloud computing platforms, privacy-preserving methods for deep learning have become an urgent problem. NeuraCrypt is a private random neural network for privacy-preserving that allows data owners to encrypt the medical data before the data uploading, and data owners can train and then test their models in a cloud server with the encrypted data directly. However, we point out that the performance of NeuraCrypt is heavily degraded when using color images. In this paper, we propose a Color-NeuraCrypt to solve this problem. Experiment results show that our proposed Color-NeuraCrypt can achieve a better classification accuracy than the original one and other privacy-preserving methods.
翻訳日:2023-01-13 15:13:02 公開日:2023-01-12
# ポリープセグメンテーションのための病巣認識動的カーネル

Lesion-aware Dynamic Kernel for Polyp Segmentation ( http://arxiv.org/abs/2301.04904v1 )

ライセンス: Link先を確認
Ruifei Zhang, Peiwen Lai, Xiang Wan, De-Jun Fan, Feng Gao, Xiao-Jian Wu and Guanbin Li(参考訳) 早期大腸癌の診断には, 自動的かつ正確なポリープセグメンテーションが不可欠である。 しかし、それは常に困難な課題であった。 1)ポリプの形状,大きさ,明るさ,その他の外観特性 2) 隠されたポリープとその周辺地域の小さなコントラスト。 これらの問題に対処するために,動的カーネル生成と更新方式を組み込んだ従来のu字エンコーダデコーダ構造であるポリプセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。 具体的には、設計したセグメンテーションヘッドは、入力画像のグローバルコンテキスト特徴に基づいて条件付けされ、ポリープセグメンテーション予測に従って抽出された病変特徴により反復的に更新される。 この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。 また, 抽出した病変表現を用いて, ポリープと背景領域間の特徴コントラストをlcaにより向上させ, 長距離文脈関係を捉えるための効率的なセルフアテンションモジュール(esa)を設計し, セグメンテーション精度をさらに向上させる。 4つのパブリックポリープベンチマークと収集した大規模ポリープデータセットに関する広範な実験は、他の最先端手法と比較して優れた性能を示している。 ソースコードはhttps://github.com/reafly/ldnet。

Automatic and accurate polyp segmentation plays an essential role in early colorectal cancer diagnosis. However, it has always been a challenging task due to 1) the diverse shape, size, brightness and other appearance characteristics of polyps, 2) the tiny contrast between concealed polyps and their surrounding regions. To address these problems, we propose a lesion-aware dynamic network (LDNet) for polyp segmentation, which is a traditional u-shape encoder-decoder structure incorporated with a dynamic kernel generation and updating scheme. Specifically, the designed segmentation head is conditioned on the global context features of the input image and iteratively updated by the extracted lesion features according to polyp segmentation predictions. This simple but effective scheme endows our model with powerful segmentation performance and generalization capability. Besides, we utilize the extracted lesion representation to enhance the feature contrast between the polyp and background regions by a tailored lesion-aware cross-attention module (LCA), and design an efficient self-attention module (ESA) to capture long-range context relations, further improving the segmentation accuracy. Extensive experiments on four public polyp benchmarks and our collected large-scale polyp dataset demonstrate the superior performance of our method compared with other state-of-the-art approaches. The source code is available at https://github.com/ReaFly/LDNet.
翻訳日:2023-01-13 15:12:47 公開日:2023-01-12
# immesh:lidarの即時ローカライズとメッシュ化フレームワーク

ImMesh: An Immediate LiDAR Localization and Meshing Framework ( http://arxiv.org/abs/2301.05206v1 )

ライセンス: Link先を確認
Jiarong Lin, Chongjiang Yuan, Yixi Cai, Haotian Li, Yuying Zou, Xiaoping Hong and Fu Zhang(参考訳) 本稿では,リアルタイムの同時局所化とメッシュ化を実現するために,新しいLiDAR(-inertial odometry and mapping framework)を提案する。 このフレームワークはImMeshと呼ばれ、レシーバ、ローカライゼーション、メッシュ、ブロードキャストの4つの密結合モジュールで構成されている。 ローカライゼーションモジュールは、受信機から推定されるセンサデータを利用し、LiDARスキャンを地図に登録してオンラインのポーズを推定し、地図を動的に成長させる。 そして、私たちのメッシュモジュールは登録済みのLiDARスキャンを使って、オンザフライでトライアングルメッシュを漸進的に再構築します。 最後に、リアルタイムのオドメトリ、マップ、メッシュをブロードキャストで公開します。 この研究の主な貢献は、効率的な階層的なボクセル構造によってシーンを表現するメッシュモジュールであり、新しいスキャンで観察されたボクセルの高速発見を実行し、各ボクセルの三角形のファセットを漸進的に再構築する。 このボクセルワイドメッシュ操作は、効率性のために微妙に設計され、まず、ボクセルに含まれる2次元局所平面に3Dポイントを投影し、次に、三角形の面を漸進的に再構成するためのプル、コミット、プッシュステップでメッシュ操作を実行する。 私たちの知る限りでは、gpuアクセラレーションなしで標準的なcpuに頼るだけで、大規模なシーンのトライアングルメッシュをオンラインで再構築できる文学作品はこれが初めてです。 私たちの発見を共有し、コミュニティへのコントリビューションをするために、私たちのコードをGitHubで公開しています。

In this paper, we propose a novel LiDAR(-inertial) odometry and mapping framework to achieve the goal of simultaneous localization and meshing in real-time. This proposed framework termed ImMesh comprises four tightly-coupled modules: receiver, localization, meshing, and broadcaster. The localization module utilizes the prepossessed sensor data from the receiver, estimates the sensor pose online by registering LiDAR scans to maps, and dynamically grows the map. Then, our meshing module takes the registered LiDAR scan for incrementally reconstructing the triangle mesh on the fly. Finally, the real-time odometry, map, and mesh are published via our broadcaster. The key contribution of this work is the meshing module, which represents a scene by an efficient hierarchical voxels structure, performs fast finding of voxels observed by new scans, and reconstructs triangle facets in each voxel in an incremental manner. This voxel-wise meshing operation is delicately designed for the purpose of efficiency; it first performs a dimension reduction by projecting 3D points to a 2D local plane contained in the voxel, and then executes the meshing operation with pull, commit and push steps for incremental reconstruction of triangle facets. To the best of our knowledge, this is the first work in literature that can reconstruct online the triangle mesh of large-scale scenes, just relying on a standard CPU without GPU acceleration. To share our findings and make contributions to the community, we make our code publicly available on our GitHub: https://github.com/hku-mars/ImMesh.
翻訳日:2023-01-13 15:12:01 公開日:2023-01-12
# qudit dicke状態準備

Qudit Dicke state preparation ( http://arxiv.org/abs/2301.04989v1 )

ライセンス: Link先を確認
Rafael I. Nepomechie(参考訳) qudit dicke状態は(量子ビット)dicke状態として知られる非常に絡み合った量子状態の重要なクラスの高次元アナログである。 任意のクディートディッケ状態を作成する回路を決定論的に定式化する。 クォートリットの場合、基本ゲートの観点から回路を明示的に分解する。

Qudit Dicke states are higher-dimensional analogues of an important class of highly-entangled quantum states known as (qubit) Dicke states. A circuit for preparing arbitrary qudit Dicke states deterministically is formulated. For the case of qutrits, an explicit decomposition of the circuit in terms of elementary gates is presented.
翻訳日:2023-01-13 15:04:44 公開日:2023-01-12
# 量子近似最適化のための誤差緩和

Error Mitigation for Quantum Approximate Optimization ( http://arxiv.org/abs/2301.05042v1 )

ライセンス: Link先を確認
Anita Weidinger, Glen Bigan Mbeng, Wolfgang Lechner(参考訳) 短期量子デバイスにおける最適化問題の解決には、ハードウェアのデコヒーレンスとデフォーカス処理に対処するエラー軽減技術を開発する必要がある。 LHZアーキテクチャに基づく緩和手法を提案する。 このアーキテクチャは、完全にプログラム可能な平面量子チップの最適化問題を解決するために、論理変数を冗長に符号化する。 量子最適化アルゴリズムにおける誤差を軽減するために,この冗長性をいかに活用できるかを論じる。 量子近似最適化アルゴリズム(QAOA)の特定の文脈において、目的のコスト関数を適切に修正することで誤差を著しく軽減できることを示す。

Solving optimization problems on near term quantum devices requires developing error mitigation techniques to cope with hardware decoherence and dephasing processes. We propose a mitigation technique based on the LHZ architecture. This architecture uses a redundant encoding of logical variables to solve optimization problems on fully programmable planar quantum chips. We discuss how this redundancy can be exploited to mitigate errors in quantum optimization algorithms. In the specific context of the quantum approximate optimization algorithm (QAOA), we show that errors can be significantly mitigated by appropriately modifying the objective cost function.
翻訳日:2023-01-13 15:04:39 公開日:2023-01-12
# 量子力学の正準記述

Canonical description of quantum dynamics ( http://arxiv.org/abs/2301.05138v1 )

ライセンス: Link先を確認
Martin Bojowald(参考訳) 量子力学の重要な非古典的側面のいくつかは、古典位相空間の拡張に基づいて幾何学的図形に再構成された場合、より直観的な用語で記述することができる。 この貢献は、量子状態とそのダイナミクスを記述するモーメントの様々な位相空間特性を示す。 非古典的量子効果の幾何学的再構成の例は、不確実性関係によって課される条件と遠心障壁の等価性によって与えられる。

Some of the important non-classical aspects of quantum mechanics can be described in more intuitive terms if they are reformulated in a geometrical picture based on an extension of the classical phase space. This contribution presents various phase-space properties of moments describing a quantum state and its dynamics. An example of a geometrical reformulation of a non-classical quantum effect is given by an equivalence between conditions imposed by uncertainty relations and centrifugal barriers, respectively.
翻訳日:2023-01-13 15:04:29 公開日:2023-01-12
# タイムキーピングデバイスの基本精度と精度のトレードオフ

Fundamental accuracy-resolution trade-off for timekeeping devices ( http://arxiv.org/abs/2301.05173v1 )

ライセンス: Link先を確認
Florian Meier, Emanuel Schwarzhans, Paul Erker, Marcus Huber(参考訳) 熱力学の観点からは、全ての時計は不可逆過程によって駆動される。 さらに、振動系を用いて熱力学的フラックスを平衡に時間的に変調することができる。 最も基本的な熱化現象に着目して、この変調はこれらの事象の時間的確率集中と見なすことができる。 時計の性能を制限する2つの基本的な要因がある: 1つのレベルでは、振動系の避けられないドリフトは、現在の時計の驚くべき精度につながる安定した原子または核遷移を見つけることによって対処される。 他方のレベルでは、クロックの動作がベースとなる不可逆事象の本質的な確率的性質が存在する。 これは、時計の解像度を高い精度で最大化しようとするときに重要となるが、これは最終的に基準時間単位あたりの確率的事象の数によって制限される。 我々は、このクロック精度と分解能の基本的なトレードオフに対処し、基本的な熱化イベントがメモリレスである全てのクロックの普遍的な境界を証明した。

From a thermodynamic point of view, all clocks are driven by irreversible processes. Additionally, one can use oscillatory systems to temporally modulate the thermodynamic flux towards equilibrium. Focusing on the most elementary thermalization events, this modulation can be thought of as a temporal probability concentration for these events. There are two fundamental factors limiting the performance of clocks: On the one level, the inevitable drifts of the oscillatory system, which are addressed by finding stable atomic or nuclear transitions that lead to astounding precision of today's clocks. On the other level, there is the intrinsically stochastic nature of the irreversible events upon which the clock's operation is based. This becomes relevant when seeking to maximize a clock's resolution at high accuracy, which is ultimately limited by the number of such stochastic events per reference time unit. We address this essential trade-off between clock accuracy and resolution, proving a universal bound for all clocks whose elementary thermalization events are memoryless.
翻訳日:2023-01-13 15:04:23 公開日:2023-01-12
# ニューラルネットワークを用いた拘束多様体の高速動力学的計画

Fast Kinodynamic Planning on the Constraint Manifold with Deep Neural Networks ( http://arxiv.org/abs/2301.04330v2 )

ライセンス: Link先を確認
Piotr Kicki, Puze Liu, Davide Tateo, Haitham Bou-Ammar, Krzysztof Walas, Piotr Skrzypczy\'nski, Jan Peters(参考訳) 運動計画はロボット工学における成熟した研究分野であり、運動計画の解法に適した状態空間の最適化やサンプリングに基づく多くの確立された方法がある。 しかし、制約の下での動的動きが必要で計算時間が限られているとき、制約多様体の高速キノダイナミックプランニングは不可欠である。 近年、学習ベースのソリューションは古典的なアプローチに代わるものとなっているが、ロボットの力学を考慮しつつタスク空間の低次元多様体を計画するといった複雑な制約の包括的処理はいまだに欠けている。 本稿では,力学やニューラルプランニングなどを含む制約多様体の概念を活用する新しい学習・計画フレームワークを提案する。 我々の手法は任意の制約を満たす計画を生成し、ニューラルネットワークの推論時間という短い一定時間でそれらを計算する。 これによりロボットは、動的環境に適したアプローチを、反応的に計画し、再設計することができる。 我々は,2つのシミュレートされたタスクと,ロボットのエアホッケーにおける打撃動作を実行するために,クカLBRアイワ14ロボットアームを用いた実世界のシナリオに対して,我々のアプローチを検証する。

Motion planning is a mature area of research in robotics with many well-established methods based on optimization or sampling the state space, suitable for solving kinematic motion planning. However, when dynamic motions under constraints are needed and computation time is limited, fast kinodynamic planning on the constraint manifold is indispensable. In recent years, learning-based solutions have become alternatives to classical approaches, but they still lack comprehensive handling of complex constraints, such as planning on a lower-dimensional manifold of the task space while considering the robot's dynamics. This paper introduces a novel learning-to-plan framework that exploits the concept of constraint manifold, including dynamics, and neural planning methods. Our approach generates plans satisfying an arbitrary set of constraints and computes them in a short constant time, namely the inference time of a neural network. This allows the robot to plan and replan reactively, making our approach suitable for dynamic environments. We validate our approach on two simulated tasks and in a demanding real-world scenario, where we use a Kuka LBR Iiwa 14 robotic arm to perform the hitting movement in robotic Air Hockey.
翻訳日:2023-01-13 15:04:07 公開日:2023-01-12
# 量子確率モデルのためのニューラルスプライン探索

Neural Spline Search for Quantile Probabilistic Modeling ( http://arxiv.org/abs/2301.04857v1 )

ライセンス: Link先を確認
Ruoxi Sun, Chun-Liang Li, Sercan O. Arik, Michael W. Dusenberry, Chen-Yu Lee, Tomas Pfister(参考訳) 可能性範囲をモデル化することが望まれる多くのユースケースにおいて、出力量子化の正確な推定は不可欠である。 任意の質的レベルと任意の入力属性レベルでのターゲット分布のモデリングは、データの総合的な図示を提供するために重要であり、質的関数を十分に表現する必要がある。 量子化レベルを用いた対象分布を記述する量子化関数は、量子化回帰にとって重要である。 分布に対する様々なパラメトリック形式(量子関数が指定する)が採用できるが、永続的な問題はデータ分布を適切に近似できる最も適切なものを選択することである。 本稿では,非パラメトリックでデータ駆動の手法であるneural spline search(nss)を提案する。 nssは、シンボリック演算子によって導かれる一連の単調なスプライン回帰によって入力を変換することで、データ分布のモデリングに柔軟で表現力がある。 NSSは,合成,実世界の回帰,時系列予測タスクにおいて,従来の手法よりも優れていることを示す。

Accurate estimation of output quantiles is crucial in many use cases, where it is desired to model the range of possibility. Modeling target distribution at arbitrary quantile levels and at arbitrary input attribute levels are important to offer a comprehensive picture of the data, and requires the quantile function to be expressive enough. The quantile function describing the target distribution using quantile levels is critical for quantile regression. Although various parametric forms for the distributions (that the quantile function specifies) can be adopted, an everlasting problem is selecting the most appropriate one that can properly approximate the data distributions. In this paper, we propose a non-parametric and data-driven approach, Neural Spline Search (NSS), to represent the observed data distribution without parametric assumptions. NSS is flexible and expressive for modeling data distributions by transforming the inputs with a series of monotonic spline regressions guided by symbolic operators. We demonstrate that NSS outperforms previous methods on synthetic, real-world regression and time-series forecasting tasks.
翻訳日:2023-01-13 15:02:46 公開日:2023-01-12
# mephisto: 可搬性,再現性,反復的なクラウドソーシングのためのフレームワーク

Mephisto: A Framework for Portable, Reproducible, and Iterative Crowdsourcing ( http://arxiv.org/abs/2301.05154v1 )

ライセンス: Link先を確認
Jack Urbanek and Pratik Ringshia(参考訳) 私たちは、研究のためのクラウドソーシングをより再現可能で透明で協力的なフレームワークであるMephistoを紹介します。 Mephistoは幅広いタスク設計とデータ収集ワークフローをカバーする抽象化を提供し、ベストプラクティスを簡単にデフォルトにするためのシンプルなユーザエクスペリエンスを提供する。 本稿では、ML研究におけるデータ収集とアノテーションの現状について論じ、研究者が出版物の一部としてオープンソースデータ収集とアノテーションツールを作成・作成するための共有フレームワークを構築する動機を確立し、これらの目標を促進するためのシステムに提案された一連の要件を概説する。 次に、私たちはmephistoの解決に踏み切り、使用する抽象化、ユーザエクスペリエンスに関する設計判断を説明し、実装の詳細とそれらが元の動機とどのように一致しているかを共有します。 フレームワークの初期目標達成に向けた今後の取り組みと同様に、現在の制限についても議論する。 Mephistoはオープンソースプロジェクトとして利用可能であり、ドキュメントはwww.mephisto.aiにある。

We introduce Mephisto, a framework to make crowdsourcing for research more reproducible, transparent, and collaborative. Mephisto provides abstractions that cover a broad set of task designs and data collection workflows, and provides a simple user experience to make best-practices easy defaults. In this whitepaper we discuss the current state of data collection and annotation in ML research, establish the motivation for building a shared framework to enable researchers to create and open-source data collection and annotation tools as part of their publication, and outline a set of suggested requirements for a system to facilitate these goals. We then step through our resolution in Mephisto, explaining the abstractions we use, our design decisions around the user experience, and share implementation details and where they align with the original motivations. We also discuss current limitations, as well as future work towards continuing to deliver on the framework's initial goals. Mephisto is available as an open source project, and its documentation can be found at www.mephisto.ai.
翻訳日:2023-01-13 15:02:29 公開日:2023-01-12
# 局所駆動型2スピン系におけるサーマルマン相

Thermal Uhlmann phase in a locally driven two-spin system ( http://arxiv.org/abs/2301.04766v1 )

ライセンス: Link先を確認
J. Villavicencio, E. Cota, F. Rojas, J. A. Maytorena, D. Morachis Galindo and F. Nieto-Guadarrama(参考訳) 一方のスピンに印加された磁場によって駆動される2つの結合スピン=$1$2$粒子系において、有限温度における混合状態の幾何学的ウルマン位相を研究する。 温度とカップリングのパラメータ空間において、磁場が赤道付近で進化するとき、2つの位相的ウールマン相遷移が出現することを示す。 小さいカップリングの場合、非自明な位相の温度ギャップの幅は、2バンドハミルトニアンを持つ1次元フェルミオン系の臨界温度$T_c$である。 低温状態における第1相転移とカップリングの小さな値は、基底状態と第一励起状態を含む固体物理学における2段階系の典型的な熱容量の \textit{schottky anomaly} のピークに対応する。 第2相転移は、多層系に関連する熱容量の第2の最大値に非常に近い温度で起こる。 また,両方のサブシステムに対する熱uulmann相の解析式を導出し,相転移を示す。 駆動サブシステムでは、最小$g$の場合、位相位相遷移相が再び$T_c$となる。 しかし、より大きな値が$g$の場合、遷移は低温の値で起こり、結合が臨界値 $g_c$ に達すると消滅する。 後者は非駆動サブシステムの場合ではなく、低温では1つの相転移が$g_c$で起こる。 それにもかかわらず、温度が上昇するにつれて、相が非自明で温度が臨界値に達すると消滅するカップリングギャップを定義する2つの相転移の出現を示す。

We study the geometric Uhlmann phase of mixed states at finite temperature in a system of two coupled spin-$\frac 1 2$ particles driven by a magnetic field applied to one of the spins. In the parameter space of temperature and coupling, we show the emergence of two topological Uhlmann phase transitions when the magnetic field evolves around the equator, where a winding number can characterize each temperature range. For small couplings, the width of the temperature gap of the non-trivial phase is roughly the critical temperature $T_c$ of one-dimensional fermion systems with two-band Hamiltonians. The first phase transition in the low-temperature regime and small values of the coupling corresponds to the peak of the \textit{Schottky anomaly} of the heat capacity, typical of a two-level system in solid-state physics involving the ground and first excited states. The second phase transition occurs at temperatures very close to the second maximum of the heat capacity associated with a multilevel system. We also derive analytical expressions for the thermal Uhlmann phase for both subsystems, showing that they exhibit phase transitions. In the driven subsystem, for minimal $g$, a topological phase transition phase appears at $T_c$ again. However, for larger values of $g$, the transitions occur at lower temperature values, and they disappear when the coupling reaches a critical value $g_c$. The latter is not the case for the undriven subsystem, where at low temperatures, a single phase transition occurs at $g_c$. Nevertheless, as the temperature rises, we demonstrate the emergence of two phase transitions defining a coupling gap, where the phase is non-trivial and vanishes as the temperature reaches a critical value.
翻訳日:2023-01-13 14:55:03 公開日:2023-01-12
# imaginarityのリソース理論:新しい分散シナリオ

Resource Theory of Imaginarity: New Distributed Scenarios ( http://arxiv.org/abs/2301.04782v1 )

ライセンス: Link先を確認
Kang-Da Wu, Tulja Varun Kondra, Carlo Maria Scandolo, Swapan Rana, Guo-Yong Xiang, Chuan-Feng Li, Guang-Can Guo, Alexander Streltsov(参考訳) 想像力の資源理論は、量子状態、演算、測定における想像的な部分の操作価値を研究する。 本稿では,分散シナリオにおける想像の蒸留と変換について述べる。 これは2部構成のシステムで自然に発生し、両者が協力して、サブシステムの1つで可能な最大想像力を生成する。 一般キュービット状態と任意の次元の純粋状態に対するこの問題に対する厳密な解を与える。 本稿では,仮想システムの助けなしに量子チャネルの識別を行うという,想像力の運用上の利点を示すシナリオを提案する。 次に、このシナリオを両党国家のLOCC差別にリンクする。 関連した蒸留プロトコルを実験的に実証し,上記2つの課題における想像力の有用性を示した。

The resource theory of imaginarity studies the operational value of imaginary parts in quantum states, operations, and measurements. Here we introduce and study the distillation and conversion of imaginarity in distributed scenario. This arises naturally in bipartite systems where both parties work together to generate the maximum possible imaginarity on one of the subsystems. We give exact solutions to this problem for general qubit states and pure states of arbitrary dimension. We present a scenario that demonstrates the operational advantage of imaginarity: the discrimination of quantum channels without the aid of an ancillary system. We then link this scenario to LOCC discrimination of bipartite states. We experimentally demonstrate the relevant assisted distillation protocol, and show the usefulness of imaginarity in the aforementioned two tasks.
翻訳日:2023-01-13 14:54:37 公開日:2023-01-12
# 多レベル非エルミート系における一般化ランドウ・ツェナー遷移の解析的近似

Analytical Approximations for Generalized Landau-Zener Transitions in Multi-level Non-Hermitian Systems ( http://arxiv.org/abs/2301.04816v1 )

ライセンス: Link先を確認
Chon-Fai Kam, Yang Chen(参考訳) ダイアバティックエネルギーの分離が時間の二次関数である非エルミート多層放物論モデルにおける非断熱遷移のダイナミクスについて検討する。 ハミルトニアン模型は、2組の連結キャビティの非エルミート力学を記述するために用いられる。 2対のキャビティのカップリングが存在しない場合、各サブシステム内の波振幅は三相ハーン関数によって記述される。 キャビティ間のすべてのカップリングが存在するとき、力学を2つの結合した三重畳み込みフン方程式の集合に還元し、そこから異なる物理的極限における波動振幅の解析的近似を導出する。

We study the dynamics of non-adiabatic transitions in non-Hermitian multi-level parabolic models where the separations of the diabatic energies are quadratic function of time. The model Hamiltonian has been used to describe the non-Hermitian dynamics of two pairs of coupled cavities. In the absence of the coupling between any two pairs of cavities, the wave amplitudes within each subsystem are described by the tri-confluent Heun functions. When all the couplings between the cavities are present, we reduce the dynamics into a set of two coupled tri-confluent Heun equations, from which we derive analytical approximations for the wave amplitudes at different physical limits.
翻訳日:2023-01-13 14:54:27 公開日:2023-01-12
# 相互作用するボース-ボース混合系の量子カオス

Quantum chaos in interacting Bose-Bose mixtures ( http://arxiv.org/abs/2301.04818v1 )

ライセンス: Link先を確認
Tran Duong Anh-Tai and Mathias Mikkelsen and Thomas Busch and Thom\'as Fogarty(参考訳) カオス量子力学の出現は系の対称性に大きく依存し、低温原子系ではこれらの多くを実験的に制御することができる。 本研究では,粒子-粒子相互作用を調整し,一次元の調和に閉じ込められたボース-ボース混合体を記述する最小系の量子カオスの出現を系統的に研究する。 高精度な対角化手法を用いて、成分間相互作用が弱から強に変化するとき、積分性からカオスへの遷移を検討する。 本研究は, 固有状態熱化仮説とそれらのダイナミクスの観点から, 観測可能物質の濃度間隔分布と行列要素の分布の解析に基づく。 我々は,成分間相互作用強度を高め,成分間相互作用の対称性を破ることで,カオスの強いシグネチャを得ることができることを示す。

The appearance of chaotic quantum dynamics significantly depends on the symmetry properties of the system, and in cold atomic systems many of these can be experimentally controlled. In this work, we systematically study the emergence of quantum chaos in a minimal system describing one-dimensional harmonically trapped Bose-Bose mixtures by tuning the particle-particle interactions. Using an advanced exact diagonalization scheme, we examine the transition from integrability to chaos when the inter-component interaction changes from weak to strong. Our study is based on the analysis of the level spacing distribution and the distribution of the matrix elements of observables in terms of the eigenstate thermalization hypothesis and their dynamics. We show that one can obtain strong signatures of chaos by increasing the inter-component interaction strength and breaking the symmetry of intra-component interactions.
翻訳日:2023-01-13 14:54:13 公開日:2023-01-12
# 化学関連シナリオに対するウィグナー方程式の解法:2次元のダイナミクス

Solving the Wigner Equation for Chemically Relevant Scenarios: Dynamics in 2D ( http://arxiv.org/abs/2301.04820v1 )

ライセンス: Link先を確認
Yu Wang and Lena Simine(参考訳) 符号付き粒子モンテカルロ(spmc)アプローチは、低次元半導体中の電子に対するウィグナー準分配の定常および過渡ダイナミクスをモデル化するために過去に用いられてきた。 ここでは,2次元のspmcの安定性とメモリ要求を改善することにより,化学関連シナリオにおける高次元量子位相空間シミュレーションへの一歩を踏み出す。 本研究では,SPMC用非バイアスプロパゲータを用いて軌道安定性を向上させるとともに,Wigner電位の記憶と操作に対するメモリ要求を低減するために機械学習を適用する。 プロトン移動の2次元ダブルウェルトイモデルを用いて計算実験を行い,小さな計算労力しか必要としない安定なピコ秒長軌道を示す。

Signed Particle Monte Carlo (SPMC) approach has been used in the past to model steady-state and transient dynamics of the Wigner quasi-distribution for electrons in low dimensional semiconductors. Here we make a step towards high-dimensional quantum phase-space simulation in chemically relevant scenarios by improving the stability and memory demands of SPMC in 2D. We do so by using an unbiased propagator for SPMC to improve trajectory stability and by applying machine learning to reduce memory demands for storage and manipulation of the Wigner potential. We perform computational experiments on a 2D double-well toymodel of proton transfer and demonstrate stable pico-second-long trajectories that require only a modest computational effort.
翻訳日:2023-01-13 14:53:59 公開日:2023-01-12
# 熱セシウム蒸気中の多重ランダムアクセス光メモリ

Multiplexed random-access optical memory in warm cesium vapor ( http://arxiv.org/abs/2301.04885v1 )

ライセンス: Link先を確認
Leon Me{\ss}ner, Elizabeth Robertson, Luisa Esguerra, Kathy L\"udge and Janik Wolters(参考訳) 大量のフォトニック量子状態を保存する能力は、将来の光量子計算と通信技術にとって重要なものと考えられている。 しかし、多重化量子記憶の研究は、記憶媒体の精巧な準備後にのみ良好な性能を示すシステムに焦点を当てている。 これにより、実験室の外での応用がより困難になる。 本研究では,熱セシウム蒸気中の電磁誘導透過性を用いて,最大4個の光パルスを記憶するマルチプレックスランダムアクセスメモリを実証する。 cs d1 線の超微細構造遷移に関する {\lambda}-システムを用いて,平均内部貯蔵効率36%,1/e寿命3.2 {\mu} を達成する。 今後の改良と合わせて、将来の量子通信と計算インフラにおける多重メモリの実装が促進される。

The ability to store large amounts of photonic quantum states is regarded as substantial for future optical quantum computation and communication technologies. However, research for multiplexed quantum memories has been focused on systems that show good performance only after an elaborate preparation of the storage media. This makes it generally more difficult to apply outside a laboratory environment. In this work, we demonstrate a multiplexed random-access memory to store up to four optical pulses using electromagnetically induced transparency in warm cesium vapor. Using a {\Lambda}-System on the hyperfine transitions of the Cs D1 line, we achieve a mean internal storage efficiency of 36% and a 1/e lifetime of 3.2 {\mu}s. In combination with future improvements, this work facilitates the implementation of multiplexed memories in future quantum communication and computation infrastructures.
翻訳日:2023-01-13 14:53:46 公開日:2023-01-12
# 未知の量子計測の識別と認証

Discrimination and certification of unknown quantum measurements ( http://arxiv.org/abs/2301.04948v1 )

ライセンス: Link先を確認
Aleksandra Krawiec, {\L}ukasz Pawela, Zbigniew Pucha{\l}a(参考訳) 基準測定と他の測定を与えられた場合のシナリオにおけるフォン・ノイマン測定の識別について検討する。 判別の目的は、他の測定値が最初の測定値と同じかどうかを決定することである。 基準測定が古典的な記述を伴わない場合と古典的な記述が知られている場合を考察する。 どちらのケースも対称と非対称の識別設定で研究されている。 さらに、既知の量子測定を未知のものに対して証明できる最適な認証スキームを提供する。

We study the discrimination of von Neumann measurement in the scenario when we are given a reference measurement and some other measurement. The aim of the discrimination is to determine whether the other measurement is the same as the first one. We consider the cases when the reference measurement is given without the classical description and when its classical description is known. Both cases are studied in the symmetric and asymmetric discrimination setups. Moreover, we provide optimal certification schemes enabling us to certify a known quantum measurement against the unknown one.
翻訳日:2023-01-13 14:53:34 公開日:2023-01-12
# クリップの対比による映像の要約学習

Learning to Summarize Videos by Contrasting Clips ( http://arxiv.org/abs/2301.05213v1 )

ライセンス: Link先を確認
Ivan Sosnovik, Artem Moskalev, Cees Kaandorp, Arnold Smeulders(参考訳) ビデオ要約は、ストーリーをできるだけ元のストーリーに近づけるビデオの一部を選ぶことを目的としている。 既存のビデオ要約アプローチのほとんどは手作りのラベルに焦点を当てている。 動画の数が指数関数的に増加するにつれ、ラベル付きアノテーションなしで意味のある要約を学習できるメソッドの必要性が高まる。 本稿では,教師なし動画の要約を最大限活用しつつ,いくつかの個人化されたラベルをアドオンとして集中させることを目的としている。 そこで我々は,映像要約の鍵となる要件を定式化する。 そこで,両質問に対する回答として,コントラスト学習を提案する。 コントラストビデオ要約(csum)をさらに強化するため,既存の手法で採用されている平均ビデオ機能ではなく,トップk機能をコントラストする手法を提案する。 いくつかのベンチマーク実験により,ラベル付きデータが提供されない場合,本手法が有意義かつ多様な要約を可能にすることが示された。

Video summarization aims at choosing parts of a video that narrate a story as close as possible to the original one. Most of the existing video summarization approaches focus on hand-crafted labels. se As the number of videos grows exponentially, there emerges an increasing need for methods that can learn meaningful summarizations without labeled annotations. In this paper, we aim to maximally exploit unsupervised video summarization while concentrating the supervision to a few, personalized labels as an add-on. To do so, we formulate the key requirements for the informative video summarization. Then, we propose contrastive learning as the answer to both questions. To further boost Contrastive video Summarization (CSUM), we propose to contrast top-k features instead of a mean video feature as employed by the existing method, which we implement with a differentiable top-k feature selector. Our experiments on several benchmarks demonstrate, that our approach allows for meaningful and diverse summaries when no labeled data is provided.
翻訳日:2023-01-13 14:47:09 公開日:2023-01-12
# グラウンドドジェネレーションに向けたテキスト・画像拡散モデルの誘導

Guiding Text-to-Image Diffusion Model Towards Grounded Generation ( http://arxiv.org/abs/2301.05221v1 )

ライセンス: Link先を確認
Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本論文の目的は,テキストプロンプトに記述された対応する視覚的実体に対する画像とセグメンテーションマスクを同時に生成するオープン語彙オブジェクトグラウンドリング機能を備えた,事前訓練されたテキスト・ツー・イメージ拡散モデルを強化することである。 私たちは次のような貢献をします (i)既存の拡散モデルに接地モジュールを挿入し、少量のオブジェクトカテゴリだけで拡散モデルの視覚的およびテキスト的埋め込み空間を整列するように訓練することができる。 i) 提案した接地モジュールをトレーニングするために,画像,セグメンテーションマスク,テキストプロンプトからなるデータセットを構築するための自動パイプラインを提案する。 3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。 (4) 合成セマンティックセマンティックセグメンテーションデータセットを構築するために誘導拡散モデルを採用し, それらのデータセット上で標準セグメンテーションモデルをトレーニングすると, ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能が示され, 識別タスクに強力な拡散モデルを採用する新たな機会が開けることを示した。

The goal of this paper is to augment a pre-trained text-to-image diffusion model with the ability of open-vocabulary objects grounding, i.e., simultaneously generating images and segmentation masks for the corresponding visual entities described in the text prompt. We make the following contributions: (i) we insert a grounding module into the existing diffusion model, that can be trained to align the visual and textual embedding space of the diffusion model with only a small number of object categories; (ii) we propose an automatic pipeline for constructing a dataset, that consists of {image, segmentation mask, text prompt} triplets, to train the proposed grounding module; (iii) we evaluate the performance of open-vocabulary grounding on images generated from the text-to-image diffusion model and show that the module can well segment the objects of categories beyond seen ones at training time; (iv) we adopt the guided diffusion model to build a synthetic semantic segmentation dataset, and show that training a standard segmentation model on such dataset demonstrates competitive performance on zero-shot segmentation(ZS3) benchmark, which opens up new opportunities for adopting the powerful diffusion model for discriminative tasks.
翻訳日:2023-01-13 14:46:55 公開日:2023-01-12
# Think Twice:感情応答生成のための人間のような2段階会話エージェント

Think Twice: A Human-like Two-stage Conversational Agent for Emotional Response Generation ( http://arxiv.org/abs/2301.04907v1 )

ライセンス: Link先を確認
Yushan Qian, Bo Wang, Shangzhao Ma, Wu Bin, Shuo Zhang, Dongming Zhao, Kun Huang and Yuexian Hou(参考訳) ヒューマンライクな対話システムに向けて、現在の感情対話アプローチは、統合ニューラルネットワークを用いて感情と意味を協調的にモデル化する。 この戦略は感情と意味論の相互制約によって安全な応答を生じさせ、稀な感情に注釈付き大規模対話コーパスを必要とする。 人間の対話における「二度」行動に着想を得て,感情対話生成のための二段階対話エージェントを提案する。 第1に、感情注釈付き対話コーパスなしで訓練された対話モデルは、文脈意味に適合するプロトタイプ応答を生成する。 第二に、第一段階のプロトタイプは共感仮説で制御可能な感情精錬器によって修正される。 DailyDialog と EmpatheticDialogues データセットによる実験結果から,提案した会話は感情生成における比較モデルより優れ,自動的および人的評価における意味的性能が維持されることが示された。

Towards human-like dialogue systems, current emotional dialogue approaches jointly model emotion and semantics with a unified neural network. This strategy tends to generate safe responses due to the mutual restriction between emotion and semantics, and requires rare emotion-annotated large-scale dialogue corpus. Inspired by the "think twice" behavior in human dialogue, we propose a two-stage conversational agent for the generation of emotional dialogue. Firstly, a dialogue model trained without the emotion-annotated dialogue corpus generates a prototype response that meets the contextual semantics. Secondly, the first-stage prototype is modified by a controllable emotion refiner with the empathy hypothesis. Experimental results on the DailyDialog and EmpatheticDialogues datasets demonstrate that the proposed conversational outperforms the comparison models in emotion generation and maintains the semantic performance in automatic and human evaluations.
翻訳日:2023-01-13 14:46:31 公開日:2023-01-12
# 予測によるヒト軌道インプテーション解のための多値点埋め込み

Multiple-level Point Embedding for Solving Human Trajectory Imputation with Prediction ( http://arxiv.org/abs/2301.04482v2 )

ライセンス: Link先を確認
Kyle K. Qin, Yongli Ren, Wei Shao, Brennan Lake, Filippo Privitera, and Flora D. Salim(参考訳) 空間性は、人間の移動データを含む多くの軌跡データセットで一般的な問題である。 この問題はしばしば、軌道インプテーションや予測のような関連する学習タスクに困難をもたらす。 今日では、人間の軌道の計算と予測を同時に扱う研究はほとんどない。 この研究は、インプテーションと予測の学習プロセスが、よりよい結果を達成するために互いに利益をもたらすかどうかを探求する予定である。 そして、不完全な軌跡において、欠点と観測点の共存パターンを研究することで、この疑問に答える。 より具体的には,本モデルでは,エンコーダ・デコーダ層間の観測点と欠落点間の共存パターンを捕捉する自己保持機構に基づく計算成分を開発する。 一方、再帰ユニットは統合され、新たに挿入されたシーケンスからシーケンシャル埋め込みを抽出し、次の位置を予測する。 さらにインプテーションサイクルと呼ばれる新しい実装を導入し、複数のレベルでの予測拡張を伴う段階的なインプテーションを可能にし、収束速度を加速する。 3つの異なる実世界のモビリティデータセットに対する実験結果から,提案手法は精度と安定性の観点から,計算タスクと予測タスクの競合ベースラインに対して大きな優位性を有することが示された。

Sparsity is a common issue in many trajectory datasets, including human mobility data. This issue frequently brings more difficulty to relevant learning tasks, such as trajectory imputation and prediction. Nowadays, little existing work simultaneously deals with imputation and prediction on human trajectories. This work plans to explore whether the learning process of imputation and prediction could benefit from each other to achieve better outcomes. And the question will be answered by studying the coexistence patterns between missing points and observed ones in incomplete trajectories. More specifically, the proposed model develops an imputation component based on the self-attention mechanism to capture the coexistence patterns between observations and missing points among encoder-decoder layers. Meanwhile, a recurrent unit is integrated to extract the sequential embeddings from newly imputed sequences for predicting the following location. Furthermore, a new implementation called Imputation Cycle is introduced to enable gradual imputation with prediction enhancement at multiple levels, which helps to accelerate the speed of convergence. The experimental results on three different real-world mobility datasets show that the proposed approach has significant advantages over the competitive baselines across both imputation and prediction tasks in terms of accuracy and stability.
翻訳日:2023-01-13 14:46:16 公開日:2023-01-12
# リカレントニューラルネットワークの重み共有に基づくLiteLSTMアーキテクチャ

LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural Networks ( http://arxiv.org/abs/2301.04794v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Anthony S. Maida(参考訳) 長い短期記憶(LSTM)は、シーケンシャルデータを学習するための堅牢なリカレントニューラルネットワークアーキテクチャの1つである。 しかし、ソフトウェアとハードウェアの両方の側面を学び実装するには、かなりの計算能力が必要です。 本稿では,LiteLSTMアーキテクチャを提案する。LiteLSTMアーキテクチャは,アーキテクチャ全体の計算コストを削減し,アーキテクチャ性能を維持するために,重み共有の概念を用いてLSTM計算コンポーネントを削減する。 提案されたLiteLSTMは、IoTデバイスのセキュリティや医療データ処理といったハードウェアリソースが制限されている間に、時間を要する大規模なデータを処理する上で重要である。 提案モデルは,コンピュータビジョン,サイバーセキュリティ,音声感情認識ドメインの3つの異なるデータセットを用いて評価および実験を行った。 提案したLiteLSTMは、計算予算を小さくしながら、他の最先端のリカレントアーキテクチャに匹敵する精度を持つ。

Long short-term memory (LSTM) is one of the robust recurrent neural network architectures for learning sequential data. However, it requires considerable computational power to learn and implement both software and hardware aspects. This paper proposed a novel LiteLSTM architecture based on reducing the LSTM computation components via the weights sharing concept to reduce the overall architecture computation cost and maintain the architecture performance. The proposed LiteLSTM can be significant for processing large data where time-consuming is crucial while hardware resources are limited, such as the security of IoT devices and medical data processing. The proposed model was evaluated and tested empirically on three different datasets from the computer vision, cybersecurity, speech emotion recognition domains. The proposed LiteLSTM has comparable accuracy to the other state-of-the-art recurrent architecture while using a smaller computation budget.
翻訳日:2023-01-13 14:45:16 公開日:2023-01-12
# SACDNet:電子カルテの不確実性を考慮した早期2型糖尿病予測に向けて

SACDNet: Towards Early Type 2 Diabetes Prediction with Uncertainty for Electronic Health Records ( http://arxiv.org/abs/2301.04844v1 )

ライセンス: Link先を確認
Tayyab Nasir and Muhammad Kamran Malik(参考訳) 2型糖尿病(T2DM)は最も一般的な疾患の一つであり、死因である。 T2DMの早期診断は困難であり,重篤な合併症の予防に必要である。 本研究では,多頭部自己注意層と高密度層を用いた早期T2DM予測のためのニューラルネットワークアーキテクチャを提案する。 提案手法はscdnet(self-attention for comorbid disease net)と呼ばれ,精度89.3%,f1-score89.1%,精度1.6%,f1-scoreが1.3%向上した。 Monte Carlo (MC) Dropoutは、ベイズ近似を得るためにSACEDNetに適用される。 MC Dropout SACDNetに基づくT2DM予測フレームワークを提案する。 T2DM予測データセットは、アメリカ各地の295の異なるEHRシステムから収集された4,124個の糖尿病および181,767個の非糖尿病例からなる実世界の電子健康記録(EHR)データに基づく。 このデータセットは、さらに7つの異なる機械学習と3つのディープラーニングベースのモデルを評価するために使用される。 最後に, 異なる患者集団に対する各手法の公平性に関する詳細な分析を行い, 技法の偏りのない一般化とデータの多様性を検証する。

Type 2 diabetes mellitus (T2DM) is one of the most common diseases and a leading cause of death. The problem of early diagnosis of T2DM is challenging and necessary to prevent serious complications. This study proposes a novel neural network architecture for early T2DM prediction using multi-headed self-attention and dense layers to extract features from historic diagnoses, patient vitals, and demographics. The proposed technique is called the Self-Attention for Comorbid Disease Net (SACDNet), achieving an accuracy of 89.3% and an F1-Score of 89.1%, having a 1.6% increased accuracy and 1.3% increased f1-score compared to the baseline techniques. Monte Carlo (MC) Dropout is applied to the SACEDNet to get a bayesian approximation. A T2DM prediction framework based on the MC Dropout SACDNet is proposed to quantize the uncertainty associated with the predictions. A T2DM prediction dataset is also built as part of this study which is based on real-world routine Electronic Health Record (EHR) data comprising 4,124 diabetic and 181,767 non-diabetic examples, collected from 295 different EHR systems running in different parts of the United States of America. This dataset is further used to evaluate 7 different machine learning and 3 deep learning-based models. Finally, a detailed analysis of the fairness of every technique against different patient demographic groups is performed to validate the unbiased generalization of the techniques and the diversity of the data.
翻訳日:2023-01-13 14:45:01 公開日:2023-01-12
# 実践的クロスバリデーションに基づくハイパーパラメータ選択における2つの共通質問に対する理論的ガイダンスに向けて

Toward Theoretical Guidance for Two Common Questions in Practical Cross-Validation based Hyperparameter Selection ( http://arxiv.org/abs/2301.05131v1 )

ライセンス: Link先を確認
Parikshit Ram and Alexander G. Gray and Horst C. Samulowitz and Gregory Bramble(参考訳) We show, to our knowledge, the first theoretical treatments of two common questions in cross-validation based hyperparameter selection: (1) After selecting the best hyperparameter using a held-out set, we train the final model using {\em all} of the training data -- since this may or may not improve future generalization error, should one do this? (2) During optimization such as via SGD (stochastic gradient descent), we must set the optimization tolerance $\rho$ -- since it trades off predictive accuracy with computation cost, how should one set it? これらの問題に対して,データ集合のインスタンスに直面する場合に使用可能なヒューリスティックスを提案する理論的な視点において,"em hold-in risk} (トレーニングデータ全体を使用しないことによるエラー)と"em model class mis-specification risk" (間違ったモデルクラスを選んだことによるエラー)を導入する。 理論量の制御が可能な合成データにおける概念実証研究において, それらのヒューリスティックは, 1) 予測性能を損なわずに, (2) 性能を改善したり, 計算オーバーヘッドを2/times$に減らしたり, 常に再訓練や再訓練を行なえることを示す。

We show, to our knowledge, the first theoretical treatments of two common questions in cross-validation based hyperparameter selection: (1) After selecting the best hyperparameter using a held-out set, we train the final model using {\em all} of the training data -- since this may or may not improve future generalization error, should one do this? (2) During optimization such as via SGD (stochastic gradient descent), we must set the optimization tolerance $\rho$ -- since it trades off predictive accuracy with computation cost, how should one set it? Toward these problems, we introduce the {\em hold-in risk} (the error due to not using the whole training data), and the {\em model class mis-specification risk} (the error due to having chosen the wrong model class) in a theoretical view which is simple, general, and suggests heuristics that can be used when faced with a dataset instance. In proof-of-concept studies in synthetic data where theoretical quantities can be controlled, we show that these heuristics can, respectively, (1) always perform at least as well as always performing retraining or never performing retraining, (2) either improve performance or reduce computational overhead by $2\times$ with no loss in predictive performance.
翻訳日:2023-01-13 14:44:29 公開日:2023-01-12
# 画素間類似度計算による意味セグメンテーション

Semantic Segmentation via Pixel-to-Center Similarity Calculation ( http://arxiv.org/abs/2301.04870v1 )

ライセンス: Link先を確認
Dongyue Wu, Zilin Guo, Aoyan Li, Changqian Yu, Changxin Gao, Nong Sang(参考訳) 完全畳み込みネットワークはセマンティックセグメンテーションにおいて大きな成功を収めたため、識別的画素特徴表現の抽出に焦点を当てた多くの研究が提案されている。 しかし,既存の手法は依然として2つの典型的な課題に悩まされている。 (i)異なる場面における大きなクラス内特徴変動 (ii)同一場面における小級間特徴の区別 本稿では,まず,画素とクラス中心の類似性の観点から意味セグメンテーションを再考する。 セグメンテーションヘッドの各重みベクトルは、データセット全体の対応するセマンティッククラスを表しており、クラスセンターの埋め込みと見なすことができる。 したがって、画素単位の分類は、画素とクラス中心の間の最終特徴空間における類似性を計算することに相当する。 そこで本研究では,異なるシーンに条件付き適応型クラスセンターを生成し,クラスセンター間の類似性を監視することによって,上記の課題に対処するクラスセンター類似層(CCS層)を提案する。 適応型クラスセンタモジュール(accm)を使用して、各シーンで条件付けられたクラスセンタを生成し、異なるシーン間で大きなクラス内変動を適応させる。 予測された中心間距離と画素間類似度に基づいてクラス間距離とクラス内距離の両方を制御するために特別に設計された損失関数を導入する。 最後に、CCS層は、セグメンテーション予測と処理された画素間類似性を出力する。 大規模な実験により、我々のモデルは最先端のCNNベースの手法に対して好適に機能することを示した。

Since the fully convolutional network has achieved great success in semantic segmentation, lots of works have been proposed focusing on extracting discriminative pixel feature representations. However, we observe that existing methods still suffer from two typical challenges, i.e. (i) large intra-class feature variation in different scenes, (ii) small inter-class feature distinction in the same scene. In this paper, we first rethink semantic segmentation from a perspective of similarity between pixels and class centers. Each weight vector of the segmentation head represents its corresponding semantic class in the whole dataset, which can be regarded as the embedding of the class center. Thus, the pixel-wise classification amounts to computing similarity in the final feature space between pixels and the class centers. Under this novel view, we propose a Class Center Similarity layer (CCS layer) to address the above-mentioned challenges by generating adaptive class centers conditioned on different scenes and supervising the similarities between class centers. It utilizes a Adaptive Class Center Module (ACCM) to generate class centers conditioned on each scene, which adapt the large intra-class variation between different scenes. Specially designed loss functions are introduced to control both inter-class and intra-class distances based on predicted center-to-center and pixel-to-center similarity, respectively. Finally, the CCS layer outputs the processed pixel-to-center similarity as the segmentation prediction. Extensive experiments demonstrate that our model performs favourably against the state-of-the-art CNN-based methods.
翻訳日:2023-01-13 14:39:11 公開日:2023-01-12
# ZScribbleSeg:Zen and the Art of Scribble Supervised Medical Image Segmentation

ZScribbleSeg: Zen and the Art of Scribble Supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.04882v1 )

ライセンス: Link先を確認
Ke Zhang, Xiahai Zhuang(参考訳) 大規模な完全アノテートデータセットの計算は、特に医療画像の場合、労働集約的かつ専門的要求の両方に当てはまる。 この問題を軽減するために,弱い教師付きセグメンテーションにのみスクリブルアノテーションを活用することを提案する。 既存のソリューションは主に注釈付き領域のみに計算された選択的損失を活用し、ラベルを隣接領域に伝播することで擬似金標準セグメンテーションを生成する。 しかし、これらの手法は、監督の不十分と不完全な形状特徴のため、不正確で時には非現実的な疑似セグメンテーションに苦しむ可能性がある。 先行研究と異なり,まず「良質なスクリブルアノテーション」の原理を考察し,監督の最大化とランダム性シミュレーションによる効率的なスクリブル形式を導出する。 さらに,空間的関係と形状を事前にエンコードする正規化項を導入し,ラベルの混合比を推定する新しい定式化法を開発した。 これらの比率は、各クラスのラベル付けされていないピクセルを識別し、誤った予測を補正するのに重要であるため、正確な推定は、空間的事前の取り込みの基礎となる。 最後に、ZScribbleSegと呼ばれる統合フレームワークに事前の効率的なスクリブル監視を統合し、その手法を複数のシナリオに適用する。 ZScribbleSegは、スクリブルアノテーションのみを活用することで、ACDC、MSCMRseg、MyoPS、PPSSデータセットを使用して、4つのセグメンテーションタスクに新たな最先端技術を設定する。

Curating a large scale fully-annotated dataset can be both labour-intensive and expertise-demanding, especially for medical images. To alleviate this problem, we propose to utilize solely scribble annotations for weakly supervised segmentation. Existing solutions mainly leverage selective losses computed solely on annotated areas and generate pseudo gold standard segmentation by propagating labels to adjacent areas. However, these methods could suffer from the inaccurate and sometimes unrealistic pseudo segmentation due to the insufficient supervision and incomplete shape features. Different from previous efforts, we first investigate the principle of ''good scribble annotations'', which leads to efficient scribble forms via supervision maximization and randomness simulation. Furthermore, we introduce regularization terms to encode the spatial relationship and shape prior, where a new formulation is developed to estimate the mixture ratios of label classes. These ratios are critical in identifying the unlabeled pixels for each class and correcting erroneous predictions, thus the accurate estimation lays the foundation for the incorporation of spatial prior. Finally, we integrate the efficient scribble supervision with the prior into a unified framework, denoted as ZScribbleSeg, and apply the method to multiple scenarios. Leveraging only scribble annotations, ZScribbleSeg set new state-of-the-arts on four segmentation tasks using ACDC, MSCMRseg, MyoPS and PPSS datasets.
翻訳日:2023-01-13 14:38:50 公開日:2023-01-12
# CLIP2Scene: CLIPによるラベル効率のよい3Dシーン理解を目指して

CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP ( http://arxiv.org/abs/2301.04926v1 )

ライセンス: Link先を確認
Runnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao, Wenping Wang(参考訳) 対照的な言語画像事前学習(CLIP)は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。 2Dタスクの素晴らしいパフォーマンスにもかかわらず、3Dシーン理解の学習を支援するCLIPの適用はまだ検討されていない。 本稿では,CLIPの知識が3Dシーンの理解にどう役立つのかを初めて検討する。 この目的のために、CLIPの知識を2D画像テキスト事前学習モデルから3Dポイントクラウドネットワークに転送する、シンプルで効果的なフレームワークであるCLIP2Sceneを提案する。 また,事前学習した3dネットワークは,意味セグメンテーションのためのラベル付きデータとのアノテーションフリーおよび微調整など,下流タスクに印象的なパフォーマンスをもたらすことを示す。 具体的には,CLIPをベースとしたセマンティック型クロスモーダルコントラスト学習フレームワークを設計し,意味的・空間的整合性正規化を通じて3次元ネットワークを事前学習する。 意味的一貫性の正規化のために、まずクリップのテキスト意味論を利用して正の点と負の点のサンプルを選択し、3dネットワークのトレーニングにコントラスト損失を利用する。 空間的・時間的一貫性の整合性については,時間的コヒーレントな点雲特徴と対応する画像特徴との整合性を強制する。 我々はnuScenesとSemanticKITTIデータセットの実験を行った。 事前学習されたネットワークは20.8\% mIoUでアノテーションのない3Dセマンティックセマンティックセグメンテーションを初めて達成した。 1\%または100\%のラベル付きデータで微調整すると、各8\%と1\%のmiouが改善され、他の自己教師付き方法を大幅に上回る。 さらに,クロスドメインデータセットを扱うための一般化機能を示す。

Contrastive language-image pre-training (CLIP) achieves promising results in 2D zero-shot and few-shot learning. Despite the impressive performance in 2D tasks, applying CLIP to help the learning in 3D scene understanding has yet to be explored. In this paper, we make the first attempt to investigate how CLIP knowledge benefits 3D scene understanding. To this end, we propose CLIP2Scene, a simple yet effective framework that transfers CLIP knowledge from 2D image-text pre-trained models to a 3D point cloud network. We show that the pre-trained 3D network yields impressive performance on various downstream tasks, i.e., annotation-free and fine-tuning with labelled data for semantic segmentation. Specifically, built upon CLIP, we design a Semantic-driven Cross-modal Contrastive Learning framework that pre-trains a 3D network via semantic and spatial-temporal consistency regularization. For semantic consistency regularization, we first leverage CLIP's text semantics to select the positive and negative point samples and then employ the contrastive loss to train the 3D network. In terms of spatial-temporal consistency regularization, we force the consistency between the temporally coherent point cloud features and their corresponding image features. We conduct experiments on the nuScenes and SemanticKITTI datasets. For the first time, our pre-trained network achieves annotation-free 3D semantic segmentation with 20.8\% mIoU. When fine-tuned with 1\% or 100\% labelled data, our method significantly outperforms other self-supervised methods, with improvements of 8\% and 1\% mIoU, respectively. Furthermore, we demonstrate its generalization capability for handling cross-domain datasets.
翻訳日:2023-01-13 14:38:21 公開日:2023-01-12
# ドローンからの群集流検出のための完全畳み込みネットワークを用いた密度クラスタリング

Density-based clustering with fully-convolutional networks for crowd flow detection from drones ( http://arxiv.org/abs/2301.04937v1 )

ライセンス: Link先を確認
Giovanna Castellano, Eugenio Cotardo, Corrado Mencar, Gennaro Vessio(参考訳) ドローンによる群衆分析は、これらのデバイスの使いやすさと安価なコストのために、近年注目を集めている。 しかし、この技術がクラウドフロー検出のソリューションを提供するには、まだ未調査の研究課題である。 そこで本研究では,ドローンが撮影した映像の群集流検出手法を提案する。 本手法は,群集群集を学習し,群集群集領域の遠心部を検出し,その動きを連続フレームで追跡する,完全畳み込みネットワークに基づいている。 提案手法は,静止画像ではなく映像シーケンスを特徴とするVisDroneチャレンジのクラウドカウンティングデータセットを用いて,効率的かつ効果的に検証された。 その結果,提案手法は,ドローンから高レベルの群集行動を分析する新しい方法が開ける可能性が示唆された。

Crowd analysis from drones has attracted increasing attention in recent times due to the ease of use and affordable cost of these devices. However, how this technology can provide a solution to crowd flow detection is still an unexplored research question. To this end, we propose a crowd flow detection method for video sequences shot by a drone. The method is based on a fully-convolutional network that learns to perform crowd clustering in order to detect the centroids of crowd-dense areas and track their movement in consecutive frames. The proposed method proved effective and efficient when tested on the Crowd Counting datasets of the VisDrone challenge, characterized by video sequences rather than still images. The encouraging results show that the proposed method could open up new ways of analyzing high-level crowd behavior from drones.
翻訳日:2023-01-13 14:37:50 公開日:2023-01-12
# ニューラルネットワークの視覚的説明のための階層型動的マスク

Hierarchical Dynamic Masks for Visual Explanation of Neural Networks ( http://arxiv.org/abs/2301.04970v1 )

ライセンス: Link先を確認
Yitao Peng, Longzhen Yang, Yihang Liu, Lianghua He(参考訳) モデル分類における画像画素の重要性を表す視覚的説明マップを生成するサリエンシ手法は、ニューラルネットワークの決定を説明する一般的な手法である。 本稿では,新しい説明的マップ生成法である階層型動的マスク(HDM)を提案し,サリエンシマップの粒度と包括性を向上する。 まず,複数の小型ベンチマークマスクベクトルを最適化することで,画像中の重要な情報を大まかに学習できる動的マスク(dm)を提案する。 そして、ベンチマークマスクベクトルは、重畳マスクが細粒度画素重要情報を正確に学習し、逆摂動に対する感受性を低減できるように、大サイズの補助マスクベクトルの学習をガイドする。 さらに, DMモジュールを連結してHDMを構築する。 これらのDMモジュールは、学習ベースの方法でマスクイメージ内の残りのニューラルネットワーク分類決定に対する関心領域を見つけ、融合するために使用される。 HDMはDMに異なる領域の重要度分析を強制するため、融解塩分マップをより包括的にする。 提案手法は,自然および医学のデータセット上での認識と局所化能力において,従来のアプローチを大きく上回っている。

Saliency methods generating visual explanatory maps representing the importance of image pixels for model classification is a popular technique for explaining neural network decisions. Hierarchical dynamic masks (HDM), a novel explanatory maps generation method, is proposed in this paper to enhance the granularity and comprehensiveness of saliency maps. First, we suggest the dynamic masks (DM), which enables multiple small-sized benchmark mask vectors to roughly learn the critical information in the image through an optimization method. Then the benchmark mask vectors guide the learning of large-sized auxiliary mask vectors so that their superimposed mask can accurately learn fine-grained pixel importance information and reduce the sensitivity to adversarial perturbations. In addition, we construct the HDM by concatenating DM modules. These DM modules are used to find and fuse the regions of interest in the remaining neural network classification decisions in the mask image in a learning-based way. Since HDM forces DM to perform importance analysis in different areas, it makes the fused saliency map more comprehensive. The proposed method outperformed previous approaches significantly in terms of recognition and localization capabilities when tested on natural and medical datasets.
翻訳日:2023-01-13 14:37:36 公開日:2023-01-12
# Sim2real Transfer Learning for Point Cloud Segmentation: an Industrial application case on autonomous disassembly

Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial Application Case on Autonomous Disassembly ( http://arxiv.org/abs/2301.05033v1 )

ライセンス: Link先を確認
Chengzhi Wu, Xuelei Bi, Julius Pfrommer, Alexander Cebulla, Simon Mangold and J\"urgen Beyerer(参考訳) ロボットコンピュータビジョンタスクでは、ディープラーニングベースのアプローチを使用するために現実世界から大量のデータを生成し、注釈を付けることは、しばしば困難または不可能である。 この問題を解決する一般的な戦略は、シミュレーションシーンの助けを借りてシミュレーション・トゥ・リアル(sim2real)アプローチを適用することである。 現在のロボティクスのビジョンであるsim2realの大部分は画像データに焦点を当てているが、ここではsim2real transfer learningをポイントクラウドデータに使用する産業アプリケーションケースを提案する。 実世界のデータに学習モデルが転送される際に、より優れたパフォーマンスを達成するために、合成ポイントクラウドデータの生成および処理方法に関する洞察を提供する。 不均衡学習の課題を複数の戦略を用いて検討する。 この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。

On robotics computer vision tasks, generating and annotating large amounts of data from real-world for the use of deep learning-based approaches is often difficult or even impossible. A common strategy for solving this problem is to apply simulation-to-reality (sim2real) approaches with the help of simulated scenes. While the majority of current robotics vision sim2real work focuses on image data, we present an industrial application case that uses sim2real transfer learning for point cloud data. We provide insights on how to generate and process synthetic point cloud data in order to achieve better performance when the learned model is transferred to real-world data. The issue of imbalanced learning is investigated using multiple strategies. A novel patch-based attention network is proposed additionally to tackle this problem.
翻訳日:2023-01-13 14:37:04 公開日:2023-01-12
# 芸術における人々のポーズ:デジタルアート史における人間のポーズ推定のためのデータセット

Poses of People in Art: A Data Set for Human Pose Estimation in Digital Art History ( http://arxiv.org/abs/2301.05124v1 )

ライセンス: Link先を確認
Stefanie Schneider and Ricarda Vollmer(参考訳) 芸術史を通じて、人体表現の全体的抽象化としてのポーズは多くの研究で定型であることが証明されている。 しかし、これまでの膨大なデータを手作業で処理しなければならないため、古代から美術史的モチーフの形式的再認識において、その重要な役割は選択的に強調するしかなかった。 計算モデルのトレーニングに必要なドメイン固有で十分な大きさのデータセットは、公開されていないか、あるいは十分な粒度でインデックス化されていないため、これは現在自動化された人間のポーズの推定においても当てはまる。 The Poses of People in Art data setでは、アートにおける人間のポーズを推定し、人間のポーズを推定する最初のオープンライセンスデータセットを紹介します。 19世紀以来、身体の生命のような表現から遠ざかってきたものを含む22の美術史的描写様式の2,454枚の画像からなる。 総計で10,749人の人物像は、長方形の境界箱で正確に囲まれており、最大で17個のキーポイントのラベルが付けられている。 機械学習の目的のために、データセットはトレーニング、バリデーション、テストの3つのサブセットに分けられ、それぞれ確立されたJSONベースのMicrosoft COCOフォーマットに従っている。 各画像アノテーションは必須フィールドに加えて、美術史的なオンライン百科事典WikiArtのメタデータを提供する。 本稿では,データセットの取得と構成について詳述し,様々な応用シナリオに対処し,デジタル支援された美術史の展望について議論する。 このデータセットは, 個々の人物が微妙に捉えられるか, 位置, 距離, 近接が考慮される全体像のコンステレーションのレベルにおいて, 芸術における身体現象の調査を可能にすることを示す。

Throughout the history of art, the pose, as the holistic abstraction of the human body's expression, has proven to be a constant in numerous studies. However, due to the enormous amount of data that so far had to be processed by hand, its crucial role to the formulaic recapitulation of art-historical motifs since antiquity could only be highlighted selectively. This is true even for the now automated estimation of human poses, as domain-specific, sufficiently large data sets required for training computational models are either not publicly available or not indexed at a fine enough granularity. With the Poses of People in Art data set, we introduce the first openly licensed data set for estimating human poses in art and validating human pose estimators. It consists of 2,454 images from 22 art-historical depiction styles, including those that have increasingly turned away from lifelike representations of the body since the 19th century. A total of 10,749 human figures are precisely enclosed by rectangular bounding boxes, with a maximum of four per image labeled by up to 17 keypoints; among these are mainly joints such as elbows and knees. For machine learning purposes, the data set is divided into three subsets, training, validation, and testing, that follow the established JSON-based Microsoft COCO format, respectively. Each image annotation, in addition to mandatory fields, provides metadata from the art-historical online encyclopedia WikiArt. With this paper, we elaborate on the acquisition and constitution of the data set, address various application scenarios, and discuss prospects for a digitally supported art history. We show that the data set enables the investigation of body phenomena in art, whether at the level of individual figures, which can be captured in their subtleties, or entire figure constellations, whose position, distance, or proximity to one another is considered.
翻訳日:2023-01-13 14:36:51 公開日:2023-01-12
# 単一カメラからのシーン認識型3次元マルチヒューマンモーションキャプチャ

Scene-Aware 3D Multi-Human Motion Capture from a Single Camera ( http://arxiv.org/abs/2301.05175v1 )

ライセンス: Link先を確認
Diogo Luvizon, Marc Habermann, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt(参考訳) 本研究では,静的カメラで記録された1枚のRGBビデオから,シーン内の複数の人間の3次元位置を推定する問題と,その身体形状と調音性について考察する。 高価なマーカーベースやマルチビューシステムとは対照的に、当社の軽量なセットアップは、インストールが容易で専門家の知識を必要としない安価な3dモーションキャプチャを可能にするため、プライベートユーザにとって理想的です。 この困難な状況に対処するため,我々は,2次元身体関節,関節角度,正規化格差マップ,ヒトセグメンテーションマスクなど,様々な形態の大規模事前学習モデルを用いて,コンピュータビジョンの最近の進歩を活用している。 そこで,本稿では,人間の絶対3次元位置,関節的なポーズ,個々の形状,シーンのスケールについて共同で解く,非線形最適化に基づく最初のアプローチを提案する。 特に, 2次元身体関節と関節角度を用いた正規化不等式予測から, シーンの奥行きと人別尺度を推定した。 フレームあたりのシーン深度を考慮し、3次元空間の静的シーンの点雲を再構成する。 最後に、人間のフレーム当たりの3D推定値とシーンポイントクラウドを考慮し、時間的、空間的、物理的妥当性を確保するために、ビデオ上で時空間コヒーレントな最適化を行う。 本手法は,従来手法を一貫して上回る多人数3次元ポーズベンチマークを用いて評価し,異なる大きさの人物による挑戦シーンを含む実環境条件にロバストな手法であることを定性的に証明した。

In this work, we consider the problem of estimating the 3D position of multiple humans in a scene as well as their body shape and articulation from a single RGB video recorded with a static camera. In contrast to expensive marker-based or multi-view systems, our lightweight setup is ideal for private users as it enables an affordable 3D motion capture that is easy to install and does not require expert knowledge. To deal with this challenging setting, we leverage recent advances in computer vision using large-scale pre-trained models for a variety of modalities, including 2D body joints, joint angles, normalized disparity maps, and human segmentation masks. Thus, we introduce the first non-linear optimization-based approach that jointly solves for the absolute 3D position of each human, their articulated pose, their individual shapes as well as the scale of the scene. In particular, we estimate the scene depth and person unique scale from normalized disparity predictions using the 2D body joints and joint angles. Given the per-frame scene depth, we reconstruct a point-cloud of the static scene in 3D space. Finally, given the per-frame 3D estimates of the humans and scene point-cloud, we perform a space-time coherent optimization over the video to ensure temporal, spatial and physical plausibility. We evaluate our method on established multi-person 3D human pose benchmarks where we consistently outperform previous methods and we qualitatively demonstrate that our method is robust to in-the-wild conditions including challenging scenes with people of different sizes.
翻訳日:2023-01-13 14:36:18 公開日:2023-01-12
# アドホックデブリによるイベントベースフレーム補間

Event-Based Frame Interpolation with Ad-hoc Deblurring ( http://arxiv.org/abs/2301.05191v1 )

ライセンス: Link先を確認
Lei Sun, Christos Sakaridis, Jingyun Liang, Peng Sun, Jiezhang Cao, Kai Zhang, Qi Jiang, Kaiwei Wang, Luc Van Gool(参考訳) 映像フレーム補間の性能は、入力シーンにおける動きの処理能力と本質的に相関する。 以前の作業では非同期イベント情報の実用性が認識されていたが、フレームの露光時間の長さや動きの速度によって、動きが補間される入力ビデオのぼやけを生じさせるか無視し、入力ビデオがシャープでフレーム補間に制限されているか、あるいはパイプラインの補間前に明示的で分離した補間ステージを含むぼやけているかのどちらかを想定している。 代わりに,アドホックをデブラリングし,シャープでぼやけた入力ビデオで動作させる,イベントベースのフレーム補間法を提案する。 本モデルでは,相互補間の時間的次元を自然に取り入れ,入力フレームとイベントからの情報を時間的近接に基づいて適応的に融合する双方向リカレントネットワークを構成する。 さらに,イベントとカラービデオを備えた新しいリアルタイム高解像度データセットであるHighREVを導入し,その課題に対する挑戦的な評価設定を提供する。 GoProの標準ベンチマークとデータセットによる大規模な実験により、我々のネットワークはフレーム補間、単一画像の分解、補間と分解のジョイントタスクにおいて、常に最先端の手法を上回ります。 私たちのコードとデータセットは公開される予定だ。

The performance of video frame interpolation is inherently correlated with the ability to handle motion in the input scene. Even though previous works recognize the utility of asynchronous event information for this task, they ignore the fact that motion may or may not result in blur in the input video to be interpolated, depending on the length of the exposure time of the frames and the speed of the motion, and assume either that the input video is sharp, restricting themselves to frame interpolation, or that it is blurry, including an explicit, separate deblurring stage before interpolation in their pipeline. We instead propose a general method for event-based frame interpolation that performs deblurring ad-hoc and thus works both on sharp and blurry input videos. Our model consists in a bidirectional recurrent network that naturally incorporates the temporal dimension of interpolation and fuses information from the input frames and the events adaptively based on their temporal proximity. In addition, we introduce a novel real-world high-resolution dataset with events and color videos named HighREV, which provides a challenging evaluation setting for the examined task. Extensive experiments on the standard GoPro benchmark and on our dataset show that our network consistently outperforms previous state-of-the-art methods on frame interpolation, single image deblurring and the joint task of interpolation and deblurring. Our code and dataset will be made publicly available.
翻訳日:2023-01-13 14:35:53 公開日:2023-01-12
# eccv 2022 ood-cvチャレンジ画像分類トラックの1位解

1st Place Solution for ECCV 2022 OOD-CV Challenge Image Classification Track ( http://arxiv.org/abs/2301.04795v1 )

ライセンス: Link先を確認
Yilu Guo, Xingyue Shi, Weijie Chen, Shicai Yang, Di Xie, Shiliang Pu, Yueting Zhuang(参考訳) OOD-CVチャレンジは配布外一般化タスクである。 この課題において、我々のコアソリューションは、ノイズの多いラベル学習は強力なテスト時ドメイン適応最適化である、と要約できる。 簡単に言えば、我々のメインパイプラインは、ドメイン一般化のための事前訓練段階と、ドメイン適応のためのテストタイムトレーニング段階の2つの段階に分けられる。 事前学習段階ではラベル付きソースデータのみを利用し、テスト時間トレーニング段階ではラベルなしターゲットデータのみを活用する。 事前学習段階では, 形状, ポーズ, コンテクスト, テクスチャ, 咬合, 気象領域の変化に抵抗するために, 分散一般化能力を高めるための, 単純かつ効果的なマスクレベルのコピーペーストデータ拡張戦略を提案する。 テスト時間トレーニング段階では、事前学習したモデルを用いてラベル付き対象データにノイズラベルを割り当て、ラベル付きラベル学習のためのラベル付き周期更新DivideMix法を提案する。 テスト時間拡張戦略とモデルアンサンブル戦略を統合することで、OOD-CVチャレンジの画像分類リーダーボードに第一位にランクインする。 コードはhttps://github.com/hikvision-research/OOD-CVでリリースされる。

OOD-CV challenge is an out-of-distribution generalization task. In this challenge, our core solution can be summarized as that Noisy Label Learning Is A Strong Test-Time Domain Adaptation Optimizer. Briefly speaking, our main pipeline can be divided into two stages, a pre-training stage for domain generalization and a test-time training stage for domain adaptation. We only exploit labeled source data in the pre-training stage and only exploit unlabeled target data in the test-time training stage. In the pre-training stage, we propose a simple yet effective Mask-Level Copy-Paste data augmentation strategy to enhance out-of-distribution generalization ability so as to resist shape, pose, context, texture, occlusion, and weather domain shifts in this challenge. In the test-time training stage, we use the pre-trained model to assign noisy label for the unlabeled target data, and propose a Label-Periodically-Updated DivideMix method for noisy label learning. After integrating Test-Time Augmentation and Model Ensemble strategies, our solution ranks the first place on the Image Classification Leaderboard of the OOD-CV Challenge. Code will be released in https://github.com/hikvision-research/OOD-CV.
翻訳日:2023-01-13 14:28:20 公開日:2023-01-12
# eccv 2022 ood-cvチャレンジオブジェクト検出トラックの1位解

1st Place Solution for ECCV 2022 OOD-CV Challenge Object Detection Track ( http://arxiv.org/abs/2301.04796v1 )

ライセンス: Link先を確認
Wei Zhao, Binbin Chen, Weijie Chen, Shicai Yang, Di Xie, Shiliang Pu, Yueting Zhuang(参考訳) OOD-CVチャレンジは配布外一般化タスクである。 オブジェクト検出トラックにおけるこの問題を解決するために,2段階の領域一般化部と1段階の領域適応部からなる,シンプルで効果的な一般化適応(G&A)フレームワークを提案する。 ドメイン一般化部は、モデルウォームアップのためのソースデータを用いた教師付きモデルプリトレーニングステージと、ボックスレベルラベル付きソースデータと、パフォーマンスブースティング用画像レベルラベル付き補助データ(imagenet-1k)の両方を使用して弱半教師付きモデルプリトレーニングステージとによって実装される。 ドメイン適応部は、事前訓練されたモデルと未ラベルのターゲットデータのみを使用して、自己監督的なトレーニング方法でさらなる最適化を行う、ソースフリードメイン適応パラダイムとして実装される。 提案したG&Aフレームワークは,OOD-CVチャレンジにおけるオブジェクト検出リーダボードの初歩的な実現に役立ちます。 コードはhttps://github.com/hikvision-research/OOD-CVでリリースされる。

OOD-CV challenge is an out-of-distribution generalization task. To solve this problem in object detection track, we propose a simple yet effective Generalize-then-Adapt (G&A) framework, which is composed of a two-stage domain generalization part and a one-stage domain adaptation part. The domain generalization part is implemented by a Supervised Model Pretraining stage using source data for model warm-up and a Weakly Semi-Supervised Model Pretraining stage using both source data with box-level label and auxiliary data (ImageNet-1K) with image-level label for performance boosting. The domain adaptation part is implemented as a Source-Free Domain Adaptation paradigm, which only uses the pre-trained model and the unlabeled target data to further optimize in a self-supervised training manner. The proposed G&A framework help us achieve the first place on the object detection leaderboard of the OOD-CV challenge. Code will be released in https://github.com/hikvision-research/OOD-CV.
翻訳日:2023-01-13 14:27:56 公開日:2023-01-12
# ポリープセグメンテーションのための適応文脈選択

Adaptive Context Selection for Polyp Segmentation ( http://arxiv.org/abs/2301.04799v1 )

ライセンス: Link先を確認
Ruifei Zhang, Guanbin Li, Zhen Li, Shuguang Cui, Dahong Qian and Yizhou Yu(参考訳) 大腸癌の診断と治療には, ポリプの正確な分画が重要である。 しかし、ポリプの形状や大きさが多様であるため、常に非常に難しかった。 近年、最先端の手法は深い畳み込みニューラルネットワークの助けを借りて、このタスクにおいて大きなブレークスルーを達成している。 しかし、ポリプのサイズと形状と複雑な空間的コンテキストがセグメント化性能に与える影響を明示的に考慮するアルゴリズムは少なく、複雑なサンプルではアルゴリズムが依然として無力である。 実際、異なるサイズのポリプのセグメンテーションは、地域的コントラスト推論のために異なる局所的およびグローバルな文脈情報に依存している。 これらの問題に対処するために,ローカルコンテキストアテンション(LCA)モジュール,グローバルコンテキストモジュール(GCM)モジュール,適応選択モジュール(ASM)モジュールで構成される適応コンテキスト選択に基づくエンコーダデコーダフレームワークを提案する。 特にlcaモジュールは、エンコーダ層からデコーダ層へのローカルコンテキスト機能を提供し、前のレイヤの予測マップによって決定されるハード領域への注目を高める。 GCMはグローバルなコンテキスト機能を調べ、デコーダ層に送信することを目指している。 ASMは、チャンネルワイズによるコンテキスト特徴の適応的選択と集約に使用される。 提案手法は,EndoSceneおよびKvasir-SEGデータセットを用いて評価し,他の最先端手法と比較して優れた性能を示した。 コードはhttps://github.com/ReaFly/ACSNetで入手できる。

Accurate polyp segmentation is of great significance for the diagnosis and treatment of colorectal cancer. However, it has always been very challenging due to the diverse shape and size of polyp. In recent years, state-of-the-art methods have achieved significant breakthroughs in this task with the help of deep convolutional neural networks. However, few algorithms explicitly consider the impact of the size and shape of the polyp and the complex spatial context on the segmentation performance, which results in the algorithms still being powerless for complex samples. In fact, segmentation of polyps of different sizes relies on different local and global contextual information for regional contrast reasoning. To tackle these issues, we propose an adaptive context selection based encoder-decoder framework which is composed of Local Context Attention (LCA) module, Global Context Module (GCM) and Adaptive Selection Module (ASM). Specifically, LCA modules deliver local context features from encoder layers to decoder layers, enhancing the attention to the hard region which is determined by the prediction map of previous layer. GCM aims to further explore the global context features and send to the decoder layers. ASM is used for adaptive selection and aggregation of context features through channel-wise attention. Our proposed approach is evaluated on the EndoScene and Kvasir-SEG Datasets, and shows outstanding performance compared with other state-of-the-art methods. The code is available at https://github.com/ReaFly/ACSNet.
翻訳日:2023-01-13 14:27:37 公開日:2023-01-12
# DEA-Net:細部強調畳み込みとコンテンツ誘導による単一画像デハージング

DEA-Net: Single image dehazing based on detail-enhanced convolution and content-guided attention ( http://arxiv.org/abs/2301.04805v1 )

ライセンス: Link先を確認
Zixuan Chen, Zewei He, Zhe-Ming Lu(参考訳) 単一画像デハジングは、観測されたヘイズ画像から潜伏したヘイズフリー画像を推定する難題である。 既存のディープラーニングベースの手法は、畳み込みの深さや幅を増大させることで、モデルの性能を改善することに専心している。 畳み込みニューラルネットワーク(CNN)構造の学習能力はまだ解明されていない。 本稿では,de detail-enhanced convolution (DEConv) とcontent-guided attention (CGA) を組み合わせたDEABを提案する。 具体的には、deconvは従来の情報を通常の畳み込み層に統合し、表現と一般化能力を高める。 次に、再パラメータ化手法を用いて、DeConvは等価に、余分なパラメータと計算コストのないバニラ畳み込みに変換する。 各チャネルに独自の空間重要度マップ(SIM)を割り当てることで、CGAは機能に符号化されたより有用な情報にたどり着くことができる。 さらに,cgaベースのmixup fusionスキームにより,その特徴を効果的に融合し,勾配流を支援する。 上述の成分を組み合わせることで,高品質なヘイズフリー画像を復元するための詳細注意ネットワーク(DEA-Net)を提案する。 実験の結果,3.653MパラメータのPSNR指数を41dB以上に高めることにより,最先端(SOTA)手法よりも優れた結果が得られた。 DEA-Netのソースコードはhttps://github.com/cecret3350/DEA-Netで公開されます。

Single image dehazing is a challenging ill-posed problem which estimates latent haze-free images from observed hazy images. Some existing deep learning based methods are devoted to improving the model performance via increasing the depth or width of convolution. The learning ability of convolutional neural network (CNN) structure is still under-explored. In this paper, a detail-enhanced attention block (DEAB) consisting of the detail-enhanced convolution (DEConv) and the content-guided attention (CGA) is proposed to boost the feature learning for improving the dehazing performance. Specifically, the DEConv integrates prior information into normal convolution layer to enhance the representation and generalization capacity. Then by using the re-parameterization technique, DEConv is equivalently converted into a vanilla convolution with NO extra parameters and computational cost. By assigning unique spatial importance map (SIM) to every channel, CGA can attend more useful information encoded in features. In addition, a CGA-based mixup fusion scheme is presented to effectively fuse the features and aid the gradient flow. By combining above mentioned components, we propose our detail-enhanced attention network (DEA-Net) for recovering high-quality haze-free images. Extensive experimental results demonstrate the effectiveness of our DEA-Net, outperforming the state-of-the-art (SOTA) methods by boosting the PSNR index over 41 dB with only 3.653 M parameters. The source code of our DEA-Net will be made available at https://github.com/cecret3350/DEA-Net.
翻訳日:2023-01-13 14:27:15 公開日:2023-01-12
# 高性能ワンステージヒューマンポース推定に向けて

Towards High Performance One-Stage Human Pose Estimation ( http://arxiv.org/abs/2301.04842v1 )

ライセンス: Link先を確認
Ling Li, Lin Zhao, Linhao Xu, Jie Xu(参考訳) 優れた性能と高効率の両方を示すトップダウンの人格推定手法が魅力的である。 Mask RCNNは、バックボーンが提供する特徴を2つのタスクで共有できるため、単一のフレームワークで人物検出とポーズ推定を行うことで、効率を大幅に改善することができる。 しかし、従来の2段階の手法ほどパフォーマンスは良くない。 本稿では,Mask-RCNNの人間のポーズ推定結果を大きく推し進め,効率性を維持することを目的とする。 具体的には,特徴抽出とキーポイント検出を含むポーズ推定のプロセス全体を改善した。 機能抽出の部分は、十分に価値あるポーズ情報を得ることが保証される。 次に,キーポイント検出ブランチにGlobal Context Moduleを導入し,人間のポーズ推定を成功させるため,受容領域を拡大する。 COCO val2017セットでは、ResNet-50バックボーンを用いたモデルでは、Mask RCNN(APは65.5)よりも2.6倍の68.1のAPを達成した。 従来の2段階トップダウン手法SimpleBaselineと比較して,提案手法の有効性を実証し,より高速な推論速度(77ms vs. 168ms)で性能ギャップ(68.1 AP vs. 68.9 AP)を大幅に狭めている。 コードはhttps://github.com/lingl_space/maskrcnn_keypoint_refined.com/で入手できる。

Making top-down human pose estimation method present both good performance and high efficiency is appealing. Mask RCNN can largely improve the efficiency by conducting person detection and pose estimation in a single framework, as the features provided by the backbone are able to be shared by the two tasks. However, the performance is not as good as traditional two-stage methods. In this paper, we aim to largely advance the human pose estimation results of Mask-RCNN and still keep the efficiency. Specifically, we make improvements on the whole process of pose estimation, which contains feature extraction and keypoint detection. The part of feature extraction is ensured to get enough and valuable information of pose. Then, we introduce a Global Context Module into the keypoints detection branch to enlarge the receptive field, as it is crucial to successful human pose estimation. On the COCO val2017 set, our model using the ResNet-50 backbone achieves an AP of 68.1, which is 2.6 higher than Mask RCNN (AP of 65.5). Compared to the classic two-stage top-down method SimpleBaseline, our model largely narrows the performance gap (68.1 AP vs. 68.9 AP) with a much faster inference speed (77 ms vs. 168 ms), demonstrating the effectiveness of the proposed method. Code is available at: https://github.com/lingl_space/maskrcnn_keypoint_refined.
翻訳日:2023-01-13 14:26:46 公開日:2023-01-12
# 半監督バイオメディカル画像分割のための自己修正補正学習

Self-Supervised Correction Learning for Semi-Supervised Biomedical Image Segmentation ( http://arxiv.org/abs/2301.04866v1 )

ライセンス: Link先を確認
Ruifei Zhang, Sishuo Liu, Yizhou Yu and Guanbin Li(参考訳) バイオメディカル画像分割はコンピュータ支援診断において重要な役割を果たす。 しかし、既存のCNNベースのメソッドは、非常に高価で膨大な人的リソースを必要とする大量の手動アノテーションに大きく依存している。 そこで本研究では,細粒化戦略を採用し,半教師ありバイオメディカルイメージセグメンテーションのための自己教師あり補正学習パラダイムを提案する。 具体的には,共有エンコーダとセグメンテーションのための2つの独立したデコーダを含むデュアルタスクネットワークを設計する。 第1段階では、セグメント化分岐のみを使用して比較的粗いセグメント化結果を得る。 第2のステップでは、初期セグメンテーションマップに基づいて検出された元の画像上の病変領域を隠蔽し、元の画像と共にネットワークに再度送信し、同時に塗装とセグメンテーションを別々に行う。 ラベル付きデータでは、このプロセスはセグメンテーションアノテーションによって管理され、ラベルなしデータでは、マスク付き病変領域の劣化損失によってガイドされる。 この2つのタスクは、類似の特徴情報に依存するため、ラベルなしデータは、病変領域へのネットワークの表現を効果的に強化し、セグメンテーション性能をさらに向上させる。 さらに、ゲート機能融合(GFF)モジュールは、2つのタスクの補完機能を組み込むように設計されている。 ポリープ, 皮膚病変, 眼底乳頭セグメンテーションの3つの医用画像セグメンテーションデータセットについて検討した結果, 他の半教師付きアプローチと比較して, 優れた性能を示した。 コードはhttps://github.com/ReaFly/SemiMedSegで入手できる。

Biomedical image segmentation plays a significant role in computer-aided diagnosis. However, existing CNN based methods rely heavily on massive manual annotations, which are very expensive and require huge human resources. In this work, we adopt a coarse-to-fine strategy and propose a self-supervised correction learning paradigm for semi-supervised biomedical image segmentation. Specifically, we design a dual-task network, including a shared encoder and two independent decoders for segmentation and lesion region inpainting, respectively. In the first phase, only the segmentation branch is used to obtain a relatively rough segmentation result. In the second step, we mask the detected lesion regions on the original image based on the initial segmentation map, and send it together with the original image into the network again to simultaneously perform inpainting and segmentation separately. For labeled data, this process is supervised by the segmentation annotations, and for unlabeled data, it is guided by the inpainting loss of masked lesion regions. Since the two tasks rely on similar feature information, the unlabeled data effectively enhances the representation of the network to the lesion regions and further improves the segmentation performance. Moreover, a gated feature fusion (GFF) module is designed to incorporate the complementary features from the two tasks. Experiments on three medical image segmentation datasets for different tasks including polyp, skin lesion and fundus optic disc segmentation well demonstrate the outstanding performance of our method compared with other semi-supervised approaches. The code is available at https://github.com/ReaFly/SemiMedSeg.
翻訳日:2023-01-13 14:26:20 公開日:2023-01-12
# 言語認知と言語計算-人間と機械による言語理解

Language Cognition and Language Computation -- Human and Machine Language Understanding ( http://arxiv.org/abs/2301.04788v1 )

ライセンス: Link先を確認
Shaonan Wang, Nai Ding, Nan Lin, Jiajun Zhang, Chengqing Zong(参考訳) 言語理解は認知科学とコンピュータ科学の分野で重要な科学的問題である。 しかし、この2つの分野は特定の研究課題において大きく異なる。 認知科学は、脳の特定のメカニズムを分析し、言語に対する脳の反応を調べることに焦点を当てている。 対照的に、コンピュータ科学者は研究課題を選択する際に実用的応用の効率性に重点を置いているが、言語に関する最も重要な法則を無視する可能性がある。 これらの違いを考えると、これらの分野の組み合わせは、知的言語モデルの構築と言語認知メカニズムの研究に新たな洞察を与えることができるだろうか? 以下のテキストでは、認知科学とコンピュータ科学における言語理解の研究課題、歴史、方法について概観し、現在の進歩と課題に焦点をあてる。 次に、認知科学とコンピュータ科学における言語理解の研究を比較し、対比する。 最後に,言語認知と言語計算の知見を組み合わせた既存の研究をレビューし,今後の開発動向を展望する。

Language understanding is a key scientific issue in the fields of cognitive and computer science. However, the two disciplines differ substantially in the specific research questions. Cognitive science focuses on analyzing the specific mechanism of the brain and investigating the brain's response to language; few studies have examined the brain's language system as a whole. By contrast, computer scientists focus on the efficiency of practical applications when choosing research questions but may ignore the most essential laws of language. Given these differences, can a combination of the disciplines offer new insights for building intelligent language models and studying language cognitive mechanisms? In the following text, we first review the research questions, history, and methods of language understanding in cognitive and computer science, focusing on the current progress and challenges. We then compare and contrast the research of language understanding in cognitive and computer sciences. Finally, we review existing work that combines insights from language cognition and language computation and offer prospects for future development trends.
翻訳日:2023-01-13 14:20:46 公開日:2023-01-12
# クルド人(ソラニ)のエンティティのデータセット - クルド人-ブラク人の名前のエンティティの修正-

A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities ( http://arxiv.org/abs/2301.04962v1 )

ライセンス: Link先を確認
Sazan Salar and Hossein Hassani(参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)の重要な応用の1つである。 また、機械翻訳(MT)、情報検索(IR)、音声タグリング(POST)など、他の多くのNLPアプリケーションにおいて重要な役割を果たしている。 Kurdishは、NLPの観点からは、未公開言語である。 特に、すべてのカテゴリにおいて、NERリソースの欠如はクルド人の処理の他の側面を妨げる。 本研究では,クルド語 (sorani) における nes のいくつかのカテゴリをカバーするデータセットを提案する。 このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。 11のカテゴリと33261のエントリをカバーしている。 データセットは、https://kurdishblark.github.io/でcc by-nc-sa 4.0ライセンスの下で非商用利用が公開されている。

Named Entity Recognition (NER) is one of the essential applications of Natural Language Processing (NLP). It is also an instrument that plays a significant role in many other NLP applications, such as Machine Translation (MT), Information Retrieval (IR), and Part of Speech Tagging (POST). Kurdish is an under-resourced language from the NLP perspective. Particularly, in all the categories, the lack of NER resources hinders other aspects of Kurdish processing. In this work, we present a data set that covers several categories of NEs in Kurdish (Sorani). The dataset is a significant amendment to a previously developed dataset in the Kurdish BLARK (Basic Language Resource Kit). It covers 11 categories and 33261 entries in total. The dataset is publicly available for non-commercial use under CC BY-NC-SA 4.0 license at https://kurdishblark.github.io/.
翻訳日:2023-01-13 14:20:30 公開日:2023-01-12
# 局所高濃度電解質希釈スクリーニングのためのスパースラベリングトレーニングデータを用いた多拘束分子生成

Multi-Constraint Molecular Generation using Sparsely Labelled Training Data for Localized High-Concentration Electrolyte Diluent Screening ( http://arxiv.org/abs/2301.04814v1 )

ライセンス: Link先を確認
Jonathan P. Mailoa, Xin Li, Jiezhong Qiu, Shengyu Zhang(参考訳) 近年,大規模化学空間の探索に特に有用である,所望の特性を持つ分子の探索に機械学習手法が用いられている。 しかし、これらの方法は完全なラベル付きトレーニングデータに依存しており、複数の特性制約のある分子を必要とする状況では実用的ではない。 特に条件付き分子生成モデルの訓練にab-initioシミュレーションや実験的特性データが望まれる場合には、公開データベースから得られる全ての特性のトレーニングデータが不十分であることが多い。 本稿では,半教師付き変分オートエンコーダ(ssvae)モデルを,完全にラベル付きで完全にラベル付されていない分子特性トレーニングデータのみをcongenモデルに修正する方法を示す。 本研究では,複数の利用可能な分子特性データベースから組み合わせたデータセット上で,複数の制約のある分子を生成することにおけるcongenの性能を評価し,リチウムイオン電池局所化高濃度電解質 (lhce) 用仮想化学空間の構築例を示す。

Recently, machine learning methods have been used to propose molecules with desired properties, which is especially useful for exploring large chemical spaces efficiently. However, these methods rely on fully labelled training data, and are not practical in situations where molecules with multiple property constraints are required. There is often insufficient training data for all those properties from publicly available databases, especially when ab-initio simulation or experimental property data is also desired for training the conditional molecular generative model. In this work, we show how to modify a semi-supervised variational auto-encoder (SSVAE) model which only works with fully labelled and fully unlabelled molecular property training data into the ConGen model, which also works on training data that have sparsely populated labels. We evaluate ConGen's performance in generating molecules with multiple constraints when trained on a dataset combined from multiple publicly available molecule property databases, and demonstrate an example application of building the virtual chemical space for potential Lithium-ion battery localized high-concentration electrolyte (LHCE) diluents.
翻訳日:2023-01-13 14:20:16 公開日:2023-01-12
# Text-to-SQLにおける構造一般化について

On the Structural Generalization in Text-to-SQL ( http://arxiv.org/abs/2301.04790v1 )

ライセンス: Link先を確認
Jieyu Li, Lu Chen, Ruisheng Cao, Su Zhu, Hongshen Xu, Zhi Chen, Hanchong Zhang, Kai Yu(参考訳) 現実のデータベースを自動的に適応させるためには,テキストからSQLへのパーサの一般化を探求することが不可欠である。 以前の研究は、自然言語質問とデータベースの両方における同義語と摂動の影響を含む、語彙の多様性に焦点を当てた調査を行った。 しかし、データベーススキーマ~(DS)の構造多様性の研究は不十分である。 特に、同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。 本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。 現在のデータセットは、構造的一般化を研究するにはテンプレート化されすぎている。 テストデータを取得するために,自動および同期(DS, SQL)ペア変更による新しいテキスト-SQLデータを生成するフレームワークを提案する。 実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。 包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。

Exploring the generalization of a text-to-SQL parser is essential for a system to automatically adapt the real-world databases. Previous works provided investigations focusing on lexical diversity, including the influence of the synonym and perturbations in both natural language questions and databases. However, research on the structure variety of database schema~(DS) is deficient. Specifically, confronted with the same input question, the target SQL is probably represented in different ways when the DS comes to a different structure. In this work, we provide in-deep discussions about the structural generalization of text-to-SQL tasks. We observe that current datasets are too templated to study structural generalization. To collect eligible test data, we propose a framework to generate novel text-to-SQL data via automatic and synchronous (DS, SQL) pair altering. In the experiments, significant performance reduction when evaluating well-trained text-to-SQL models on the synthetic samples demonstrates the limitation of current research regarding structural generalization. According to comprehensive analysis, we suggest the practical reason is the overfitting of (NL, SQL) patterns.
翻訳日:2023-01-13 14:19:33 公開日:2023-01-12
# アルゴリズムによる人間の脆弱性の搾取

Against Algorithmic Exploitation of Human Vulnerabilities ( http://arxiv.org/abs/2301.04993v1 )

ライセンス: Link先を確認
Inga Str\"umke and Marija Slavkovik and Clemens Stachl(参考訳) 次にどの映画を見るべきか、どの曲を聴くか、オンラインを買うかといった決定は、ユーザーの過去の行動や好み、デジタル化されたコンテンツに関する情報を取り入れたレコメンデーションシステムやユーザーモデルの影響がますます強まっている。 レコメンデーションやユーザデータでトレーニングされるマシンラーニングモデルは、うつ病や若年者、ギャンブル中毒などの脆弱性と考えられる人間の特性に関する情報を意図せずに活用する可能性がある。 潜在的な脆弱な状態表現に基づくアルゴリズム的決定の使用は、マニピュレーションと見なすことができ、脆弱な個人の状態に対する影響を悪化させる可能性がある。 本稿では,脆弱性を不注意にモデル化する機械学習モデルの問題に関心を持ち,法律やAI倫理において考慮すべき問題に対する認識を高めたい。 したがって、共通の脆弱性を定義し、記述し、アルゴリズム的意思決定においてそれらが役割を担っているケースを説明する。 本稿では,脆弱性モデリングの可能性を検出し,脆弱性集団がモデルによって異なる扱いを受けるかどうかを検知し,モデルが脆弱性の内部表現を作成したかどうかを検出するための一連の要件を提案する。 機械学習に基づくレコメンデーションシステムによる脆弱性エクスプロイトの検出には,説明可能な人工知能手法が必要であると結論づける。

Decisions such as which movie to watch next, which song to listen to, or which product to buy online, are increasingly influenced by recommender systems and user models that incorporate information on users' past behaviours, preferences, and digitally created content. Machine learning models that enable recommendations and that are trained on user data may unintentionally leverage information on human characteristics that are considered vulnerabilities, such as depression, young age, or gambling addiction. The use of algorithmic decisions based on latent vulnerable state representations could be considered manipulative and could have a deteriorating impact on the condition of vulnerable individuals. In this paper, we are concerned with the problem of machine learning models inadvertently modelling vulnerabilities, and want to raise awareness for this issue to be considered in legislation and AI ethics. Hence, we define and describe common vulnerabilities, and illustrate cases where they are likely to play a role in algorithmic decision-making. We propose a set of requirements for methods to detect the potential for vulnerability modelling, detect whether vulnerable groups are treated differently by a model, and detect whether a model has created an internal representation of vulnerability. We conclude that explainable artificial intelligence methods may be necessary for detecting vulnerability exploitation by machine learning-based recommendation systems.
翻訳日:2023-01-13 14:19:17 公開日:2023-01-12
# 時系列から離散イベントシステムを学ぶための永続性に基づく離散化

Persistence-Based Discretization for Learning Discrete Event Systems from Time Series ( http://arxiv.org/abs/2301.05041v1 )

ライセンス: Link先を確認
L\'ena\"ig Cornanguer (LACODAM, IRISA), Christine Largou\"et (LACODAM, IRISA), Laurence Roz\'e (LACODAM, IRISA), Alexandre Termier (LACODAM, IRISA)(参考訳) 力学系をよく理解するためには、解釈可能で汎用的なモデルを持つことが便利である。 時間的な離散イベントシステムは、これらの要求に応答するモデルの一種です。 しかし、そのようなモデルはタイムスタンプされたイベントシーケンスから推測できるが、数値データから直接は推論できない。 この問題を解決するためには、時系列のイベントやシンボルを識別するために、離散化ステップを行なわなければならない。 persistenceは、persistence scoreと呼ばれるスコアを使用して、永続的なシンボルを作成するための離散化メソッドである。 これにより、望ましくないシンボル変更のリスクを軽減することができ、複雑すぎるモデルにつながる。 パーシステンススコアの研究の後、興味深い持続的シンボルを見逃しがちな過剰なケースが好まれる傾向が指摘された。 この振る舞いを正すために、持続スコア、kullback-leiblerダイバージェンスで使われるメトリックをwasserstein距離に置き換える。 実験により、永続性スコアが向上することで、元の時系列の情報をキャプチャする永続性が向上し、離散的なイベントシステム学習に適していることが示されている。

To get a good understanding of a dynamical system, it is convenient to have an interpretable and versatile model of it. Timed discrete event systems are a kind of model that respond to these requirements. However, such models can be inferred from timestamped event sequences but not directly from numerical data. To solve this problem, a discretization step must be done to identify events or symbols in the time series. Persist is a discretization method that intends to create persisting symbols by using a score called persistence score. This allows to mitigate the risk of undesirable symbol changes that would lead to a too complex model. After the study of the persistence score, we point out that it tends to favor excessive cases making it miss interesting persisting symbols. To correct this behavior, we replace the metric used in the persistence score, the Kullback-Leibler divergence, with the Wasserstein distance. Experiments show that the improved persistence score enhances Persist's ability to capture the information of the original time series and that it makes it better suited for discrete event systems learning.
翻訳日:2023-01-13 14:18:41 公開日:2023-01-12
# hos規制下での運転行動の発見と説明

Discovering and Explaining Driver Behaviour under HoS Regulations ( http://arxiv.org/abs/2301.05082v1 )

ライセンス: Link先を確認
Ignacio Vellido, Juan Fdez-Olivares, Ra\'ul P\'erez(参考訳) 世界規模の交通機関は、サービス提供時の作業量、運転時間、休息時間を制限しているドライバーに、複雑なサービス時間規制を課している。 結果として、輸送会社は、運転者の法的行動を定義する法律に沿った運転計画のスケジューリングだけでなく、制裁によってコストを被る可能性のある問題パターンをできるだけ早く監視し特定する責任を負う。 運輸の専門家は、多くのドライバーの責任を負うことが多く、センサーが記録した膨大なデータを分析する時間がない。 本稿では、これらの規則に従って生のドライバアクティビティログを要約し、人間の可読形式でドライバの振る舞いを説明するアプリケーションを公開する。 このシステムは、計画、制約、クラスタリング技術を用いて、ドライバーが何をしているかを抽出し、記述し、違反とそれの原因となる活動を特定する。 さらに、同様の運転パターンに基づいてドライバをグループ化する。 実世界のデータでの実験では、繰り返し発生する運転パターンが、短い基本運転シーケンスから全運転日程までクラスタ化可能であることが示されている。

World wide transport authorities are imposing complex Hours of Service regulations to drivers, which constraint the amount of working, driving and resting time when delivering a service. As a consequence, transport companies are responsible not only of scheduling driving plans aligned with laws that define the legal behaviour of a driver, but also of monitoring and identifying as soon as possible problematic patterns that can incur in costs due to sanctions. Transport experts are frequently in charge of many drivers and lack time to analyse the vast amount of data recorded by the onboard sensors, and companies have grown accustomed to pay sanctions rather than predict and forestall wrongdoings. This paper exposes an application for summarising raw driver activity logs according to these regulations and for explaining driver behaviour in a human readable format. The system employs planning, constraint, and clustering techniques to extract and describe what the driver has been doing while identifying infractions and the activities that originate them. Furthermore, it groups drivers based on similar driving patterns. An experimentation in real world data indicates that recurring driving patterns can be clustered from short basic driving sequences to whole drivers working days.
翻訳日:2023-01-13 14:18:17 公開日:2023-01-12
# プロパゲータモデルの半線形後悔による統計的学習

Statistical Learning with Sublinear Regret of Propagator Models ( http://arxiv.org/abs/2301.05157v1 )

ライセンス: Link先を確認
Eyal Neuman, Yufei Zhang(参考訳) 本研究では,未知の畳み込みプロパゲータによる過渡的価格影響と,未知のパラメータによる線形一時的価格影響を両立させながら,エージェントがリスク資産を清算する学習問題を考察する。 我々はトレーダーのパフォーマンスを収益リスク関数の最大化として特徴付け、トレーダーは価格予測信号の利用可能な情報も活用する。 本稿では,探索フェーズと搾取フェーズを交互に切り替え,高い確率でサブリニア後悔を実現するトレーディングアルゴリズムを提案する。 探索フェーズでは,可視価格過程のみを観測し,プロパゲータの特異性によって特徴付けられる収束率の鋭い境界を導出することにより,価格影響カーネルの非パラメトリックな推定手法を提案する。 これらのカーネル推定法は、逆問題に対するTikhonov正則化領域から既存の手法を拡張し、独立した関心を持つ。 無限次元確率制御問題の関連するクラスの最適化器と値関数の安定性結果を導出することにより、搾取相における後悔の束縛が得られる。 相補的な結果として、非マルコフ信号の条件予測を推定し、収束率を導出する回帰に基づくアルゴリズムを提案する。

We consider a class of learning problems in which an agent liquidates a risky asset while creating both transient price impact driven by an unknown convolution propagator and linear temporary price impact with an unknown parameter. We characterize the trader's performance as maximization of a revenue-risk functional, where the trader also exploits available information on a price predicting signal. We present a trading algorithm that alternates between exploration and exploitation phases and achieves sublinear regrets with high probability. For the exploration phase we propose a novel approach for non-parametric estimation of the price impact kernel by observing only the visible price process and derive sharp bounds on the convergence rate, which are characterised by the singularity of the propagator. These kernel estimation methods extend existing methods from the area of Tikhonov regularisation for inverse problems and are of independent interest. The bound on the regret in the exploitation phase is obtained by deriving stability results for the optimizer and value function of the associated class of infinite-dimensional stochastic control problems. As a complementary result we propose a regression-based algorithm to estimate the conditional expectation of non-Markovian signals and derive its convergence rate.
翻訳日:2023-01-13 14:10:58 公開日:2023-01-12
# 量子アニーリングに基づく多様なケメニーランクアグリゲーションのヒューリスティック

Heuristic for Diverse Kemeny Rank Aggregation based on Quantum Annealing ( http://arxiv.org/abs/2301.05146v1 )

ライセンス: Link先を確認
Sven Fiergolla, Kevin Goergen, Patrick Neises, Petra Wolf(参考訳) Kemeny Rank Aggregation(KRA)問題(英語版)は、データベースや検索エンジンなど、様々な分野の様々な応用で社会選択の分野でよく研究されている問題である。 直感的には、一組の候補者に対して一組の票が与えられると、問題は投票に関する全体的な不満を最小限に抑える候補者の合計ランキングを見つけることを求める。 近年、KRAの多様なバージョンが検討され、十分多様な優れた解を求めるようになった。 ソリューションの多様性の枠組みは、人工知能の分野で若くて活発なトピックである。 主なアイデアは、ユーザに対して1つだけでなく、さまざまなソリューションセットを提供することで、モデリングが困難あるいは不可能な追加の主観的基準を満たす十分な優れたソリューションを選択できるようにすることです。 本研究では,量子アニールを用いてKRA問題を解き,代表的な解の集合を計算する。 量子アニーリング(quantum annealing)はメタ検索のヒューリスティックであり、既存のプロトタイプ上で有望な実行時の振る舞いを示すだけでなく、量子効果を利用した本質的に異なる方法で解空間をサンプリングする。 KRAインスタンスが量子アニールによってどのように解けるかを説明し、実験的評価と実装を提供する。 既存の量子アニールは量子ビット数に制限されているため、インスタンスを小さなインスタンスの集合に分割できる2つの異なるデータ還元ルールをさらに実装します。 本評価では,物理量子アニーラ上で行う量子アニーラリングとシミュレーションアニーラリングや局所探索のような複数の解をサンプリングできる古典ヒューリスティックスを比較した。 先行するデータ削減ルールを適用せずに、ランタイム、ソリューションの品質、ソリューションの多様性を比較します。

The Kemeny Rank Aggregation (KRA) problem is a well-studied problem in the field of Social Choice with a variety of applications in many different areas like databases and search engines. Intuitively, given a set of votes over a set of candidates, the problem asks to find an aggregated ranking of candidates that minimizes the overall dissatisfaction concerning the votes. Recently, a diverse version of KRA was considered which asks for a sufficiently diverse set of sufficiently good solutions. The framework of diversity of solutions is a young and thriving topic in the field of artificial intelligence. The main idea is to provide the user with not just one, but with a set of different solutions, enabling her to pick a sufficiently good solution that satisfies additional subjective criteria that are hard or impossible to model. In this work, we use a quantum annealer to solve the KRA problem and to compute a representative set of solutions. Quantum annealing is a meta search heuristic that does not only show promising runtime behavior on currently existing prototypes but also samples the solutions space in an inherently different way, making use of quantum effects. We describe how KRA instances can be solved by a quantum annealer and provide an implementation as well as experimental evaluations. As existing quantum annealers are still restricted in their number of qubits, we further implement two different data reduction rules that can split an instance into a set of smaller instances. In our evaluation, we compare classical heuristics that allow to sample multiple solutions such as simulated annealing and local search with quantum annealing performed on a physical quantum annealer. We compare runtime, quality of solution, and diversity of solutions, with and without applying preceding data reduction rules.
翻訳日:2023-01-13 14:10:36 公開日:2023-01-12
# 音声合成拡散モデルによる音声駆動映像編集

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model ( http://arxiv.org/abs/2301.04474v2 )

ライセンス: Link先を確認
Dan Bigioi, Shubhajit Basak, Hugh Jordan, Rachel McDonnell, Peter Corcoran(参考訳) 本稿では,雑音拡散モデルを用いたエンド・ツー・エンド音声映像編集手法を提案する。 話し手の映像から,顔のランドマークや3次元顔モデルなどの中間的構造表現に頼ることなく,別の聴覚音声記録に応答して,人の唇と顎の動きを再同期させることが目的である。 音声スペクトル特徴を持つ偏波拡散モデルを用いて、同期顔の動きを生成することで、これを実現できることを示す。 そこで本研究では,非構造化単一話者ビデオ編集作業において,オフセルフリップ読解モデルを用いて単語誤り率45%を達成し,説得力のある結果を得た。 さらに、我々のアプローチがマルチスピーカー領域にどのように拡張できるかを示す。 我々の知る限り、これは音声駆動ビデオ編集のタスクに難読化拡散モデルを適用する可能性を探る最初の試みである。

In this paper we propose a method for end-to-end speech driven video editing using a denoising diffusion model. Given a video of a person speaking, we aim to re-synchronise the lip and jaw motion of the person in response to a separate auditory speech recording without relying on intermediate structural representations such as facial landmarks or a 3D face model. We show this is possible by conditioning a denoising diffusion model with audio spectral features to generate synchronised facial motion. We achieve convincing results on the task of unstructured single-speaker video editing, achieving a word error rate of 45% using an off the shelf lip reading model. We further demonstrate how our approach can be extended to the multi-speaker domain. To our knowledge, this is the first work to explore the feasibility of applying denoising diffusion models to the task of audio-driven video editing.
翻訳日:2023-01-13 14:10:08 公開日:2023-01-12
# 皮膚疾患分類のための拡散法に基づくデータ拡張:医用データから全合成画像へ及ぼす影響

Diffusion-based Data Augmentation for Skin Disease Classification: Impact Across Original Medical Datasets to Fully Synthetic Images ( http://arxiv.org/abs/2301.04802v1 )

ライセンス: Link先を確認
Mohamed Akrout, B\'alint Gyepesi, P\'eter Holl\'o, Adrienn Po\'or, Bl\'aga Kincs\H{o}, Stephen Solis, Katrina Cirone, Jeremy Kawahara, Dekker Slade, Latif Abid, M\'at\'e Kov\'acs, Istv\'an Fazekas(参考訳) 近年の進歩にもかかわらず、深層ニューラルネットワークは過度な適合を避けるために大量のトレーニングデータに依存している。 しかし、医療などの現実世界のアプリケーションのためのラベル付きトレーニングデータは、長年のプライバシーと厳格なデータ共有ポリシーによって、限定的でアクセスが困難である。 画素や特徴空間で画像データセットを操作することにより、既存のデータ拡張技術は、トレーニングデータの量と多様性を改善する効果的な方法の1つである。 そこで本研究では,大脳皮質皮膚疾患データセットのトレーニングサンプルを増強する上で,テキスト・画像拡散確率モデルの成功を生かして,拡張手法の進歩を目指す。 入力テキストプロンプトによる画像生成プロセスのきめ細かい制御を可能にした。 この生成データ拡張手法は、完全合成皮膚疾患データセットでトレーニングした場合でも、視覚分類器の類似した分類精度を維持することを実証する。 近年のジェネレーティブ・モデルの応用と同様に、拡散モデルは分類器の性能を犠牲にせず、キュレーション後のトレーニングデータセットの増大を改善できる高品質な皮膚画像を生成するのに有効であることを示す。

Despite continued advancement in recent years, deep neural networks still rely on large amounts of training data to avoid overfitting. However, labeled training data for real-world applications such as healthcare is limited and difficult to access given longstanding privacy, and strict data sharing policies. By manipulating image datasets in the pixel or feature space, existing data augmentation techniques represent one of the effective ways to improve the quantity and diversity of training data. Here, we look to advance augmentation techniques by building upon the emerging success of text-to-image diffusion probabilistic models in augmenting the training samples of our macroscopic skin disease dataset. We do so by enabling fine-grained control of the image generation process via input text prompts. We demonstrate that this generative data augmentation approach successfully maintains a similar classification accuracy of the visual classifier even when trained on a fully synthetic skin disease dataset. Similar to recent applications of generative models, our study suggests that diffusion models are indeed effective in generating high-quality skin images that do not sacrifice the classifier performance, and can improve the augmentation of training datasets after curation.
翻訳日:2023-01-13 14:09:54 公開日:2023-01-12
# 宇宙へ向かっている - Part 1: 衛星にどのデバイスを展開すべきか?

We are Going to the Space -- Part 1: Which device to deploy in a satellite? ( http://arxiv.org/abs/2301.04954v1 )

ライセンス: Link先を確認
Robert Bayer (1), Julian Priest (1), P{\i}nar T\"oz\"un (1) ((1) IT University of Copenhagen)(参考訳) 衛星を構成する部品のサイズが縮小し、衛星がより広く低コストで利用可能になった。 その結果、さまざまなデータ集約アプリケーションを備えた衛星を運用する能力を持つ小さな組織が出現した。 例えば、陸地、氷、雲などを検出するための画像解析が一般的なアプリケーションである。 しかし、衛星に展開する装置の資源制約の性質は、この資源集約的な応用にさらなる課題をもたらす。 本稿では,宇宙空間における深層学習に基づく画像処理のためのエッジデバイスの性能について検討する。 我々のゴールは、衛星の遅延と電力制約を満たすデバイスを、合理的に正確な結果を得ることです。 以上の結果から,ハードウェアアクセラレータ(TPU,GPU)がレイテンシ要求に到達するために必要であることを示す。 一方、gpuを搭載した最先端のエッジデバイスは高電力の引き分けが可能であり、衛星への展開には適さない。

The shrinkage in sizes of components that make up satellites led to wider and low cost availability of satellites. As a result, there has been an advent of smaller organizations having the ability to deploy satellites with a variety of data-intensive applications to run on them. One popular application is image analysis to detect, for example, land, ice, clouds, etc. However, the resource-constrained nature of the devices deployed in satellites creates additional challenges for this resource-intensive application. In this paper, we investigate the performance of a variety of edge devices for deep-learning-based image processing in space. Our goal is to determine the devices that satisfy the latency and power constraints of satellites while achieving reasonably accurate results. Our results demonstrate that hardware accelerators (TPUs, GPUs) are necessary to reach the latency requirements. On the other hand, state-of-the-art edge devices with GPUs could have a high power draw, making them unsuitable for deployment on a satellite.
翻訳日:2023-01-13 14:09:34 公開日:2023-01-12
# 半教師付き学習のためのグラフラプラシアン

Graph Laplacian for Semi-Supervised Learning ( http://arxiv.org/abs/2301.04956v1 )

ライセンス: Link先を確認
Or Streicher and Guy Gilboa(参考訳) 半教師付き学習は、ラベル付きデータが少ないがラベルなしデータが豊富である一般的なシナリオで非常に有用である。 グラフ(または非局所)ラプラシアンは、様々な学習タスクを解決する基本的な平滑化演算子である。 教師なしクラスタリングでは、グラフラプラシア固有ベクトルに基づくスペクトル埋め込みがしばしば用いられる。 半教師付き問題に対して、一般的なアプローチは、グラフ-ラプラシアンに基づくディリクレエネルギーによって正規化される制約付き最適化問題を解くことである。 しかし、監督が減少するにつれて、ディリクレ最適化は準最適となる。 したがって、教師なしクラスタリングと教師なしグラフベースの分類の間のスムーズな遷移を求める。 本稿では,Semi-Supervised Learning (SSL)問題に適応した新しいグラフラプラシアンを提案する。 これは密度とコントラストの両測度に基づいており、演算子に直接ラベル付きデータの符号化を可能にする。 そこで,スペクトルクラスタリングによる半教師付き学習を成功させる。 私たちのアプローチの利点は、SSLのいくつかの問題に対して説明されています。

Semi-supervised learning is highly useful in common scenarios where labeled data is scarce but unlabeled data is abundant. The graph (or nonlocal) Laplacian is a fundamental smoothing operator for solving various learning tasks. For unsupervised clustering, a spectral embedding is often used, based on graph-Laplacian eigenvectors. For semi-supervised problems, the common approach is to solve a constrained optimization problem, regularized by a Dirichlet energy, based on the graph-Laplacian. However, as supervision decreases, Dirichlet optimization becomes suboptimal. We therefore would like to obtain a smooth transition between unsupervised clustering and low-supervised graph-based classification. In this paper, we propose a new type of graph-Laplacian which is adapted for Semi-Supervised Learning (SSL) problems. It is based on both density and contrastive measures and allows the encoding of the labeled data directly in the operator. Thus, we can perform successfully semi-supervised learning using spectral clustering. The benefits of our approach are illustrated for several SSL problems.
翻訳日:2023-01-13 14:09:22 公開日:2023-01-12
# かなりプライベート:視覚プライバシー保護アルゴリズムの公平性を調査する

Fairly Private: Investigating The Fairness of Visual Privacy Preservation Algorithms ( http://arxiv.org/abs/2301.05012v1 )

ライセンス: Link先を確認
Sophie Noiret, Siddharth Ravi, Martin Kampel, Francisco Florez-Revuelta(参考訳) カメラの監視と顔認識によるプライバシーリスクの増加に伴い、プライバシー保護アルゴリズムの研究も行われている。 これらのうち、視覚的プライバシー保護アルゴリズムは、プライバシーに敏感な領域を曖昧にすることで、視覚障害者に身体的プライバシーを付与しようとする。 表現型にまたがる顔認識システムの異なる性能は、多くの研究の対象となっているが、プライバシ保護(privacy preservation)はフェアネスの観点からは一般的には分析されていない。 本稿では, 難読画像上での顔認識モデルの性能から, 一般的に使われている視覚的プライバシー保護アルゴリズムの公平性を検討した。 PubFigデータセットの実験は、提供されたプライバシ保護がグループ間で不平等であることを明確に示している。

As the privacy risks posed by camera surveillance and facial recognition have grown, so has the research into privacy preservation algorithms. Among these, visual privacy preservation algorithms attempt to impart bodily privacy to subjects in visuals by obfuscating privacy-sensitive areas. While disparate performances of facial recognition systems across phenotypes are the subject of much study, its counterpart, privacy preservation, is not commonly analysed from a fairness perspective. In this paper, the fairness of commonly used visual privacy preservation algorithms is investigated through the performances of facial recognition models on obfuscated images. Experiments on the PubFig dataset clearly show that the privacy protection provided is unequal across groups.
翻訳日:2023-01-13 14:09:07 公開日:2023-01-12
# Scene-centric vs. Object-centric Image-Text Cross-Modal Retrieval: Reproducibility Study

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study ( http://arxiv.org/abs/2301.05174v1 )

ライセンス: Link先を確認
Mariya Hendriksen, Svitlana Vakulenko, Ernst Kuiper, Maarten de Rijke(参考訳) クロスモーダル検索(CMR)へのほとんどのアプローチは、オブジェクト中心のデータセット、つまり各ドキュメントが1つのオブジェクトを描写または記述すること、またはシーン中心のデータセットに焦点を当てている。 我々は、ロバストなcmrモデルが両方のデータセットタイプをまたいでうまく一般化するべきであると仮定する。 CMRの最近の進歩にもかかわらず、結果の再現性と、異なるデータセットタイプにわたるそれらの一般化性は、これまで研究されていない。 我々はこのギャップに対処し,オブジェクト中心およびシーン中心のデータセット上での評価において,最先端のcmr結果の再現性に注目する。 アーキテクチャの異なる2つの最先端CMRモデルを選択します。 (i)CLIP、および (ii)x-vlm。 さらに,シーン中心のデータセットを2つ,オブジェクト中心のデータセットを3つ選択し,これらのデータセット上で選択したモデルの相対性能を決定する。 先行するcmr実験の結果の再現性,再現性,一般化性に注目した。 実験が完全に再現可能で複製可能でないことが分かりました。 さらに、相対的なパフォーマンス結果は、オブジェクト中心およびシーン中心のデータセットで部分的に一般化される。 さらに、オブジェクト中心のデータセットで得られるスコアは、シーン中心のデータセットで得られるスコアよりもはるかに低い。 再現性と透明性のために、ソースコードとトレーニング済みモデルを公開しています。

Most approaches to cross-modal retrieval (CMR) focus either on object-centric datasets, meaning that each document depicts or describes a single object, or on scene-centric datasets, meaning that each image depicts or describes a complex scene that involves multiple objects and relations between them. We posit that a robust CMR model should generalize well across both dataset types. Despite recent advances in CMR, the reproducibility of the results and their generalizability across different dataset types has not been studied before. We address this gap and focus on the reproducibility of the state-of-the-art CMR results when evaluated on object-centric and scene-centric datasets. We select two state-of-the-art CMR models with different architectures: (i) CLIP; and (ii) X-VLM. Additionally, we select two scene-centric datasets, and three object-centric datasets, and determine the relative performance of the selected models on these datasets. We focus on reproducibility, replicability, and generalizability of the outcomes of previously published CMR experiments. We discover that the experiments are not fully reproducible and replicable. Besides, the relative performance results partially generalize across object-centric and scene-centric datasets. On top of that, the scores obtained on object-centric datasets are much lower than the scores obtained on scene-centric datasets. For reproducibility and transparency we make our source code and the trained models publicly available.
翻訳日:2023-01-13 14:08:55 公開日:2023-01-12
# 画像生成器の領域拡張

Domain Expansion of Image Generators ( http://arxiv.org/abs/2301.05225v1 )

ライセンス: Link先を確認
Yotam Nitzan, Micha\"el Gharbi, Richard Zhang, Taesung Park, Jun-Yan Zhu, Daniel Cohen-Or, Eli Shechtman(参考訳) 既存の構造と知識を尊重しながら、すでに訓練された生成モデルに新しい概念を注入できるだろうか? この問題に対処するための新しいタスク、ドメイン拡張を提案する。 事前訓練されたジェネレータと新しい(しかし関連する)ドメインが与えられたら、ジェネレータを拡張して、古い、新しい、調和して全てのドメインを共同でモデル化する。 まず、生成元は有意義で事前訓練された潜在空間を含むことに注意する。 新しいドメインを最大限に表現しながら、このハードアーンド表現を最小限に摂動することは可能か? 興味深いことに、潜在空間は、出力に影響を与えない未使用の「ドーマント」方向を提供する。 これらの方向を"再提案"することで、元の表現を混乱させることなく、新しいドメインを表現できる。 実際、事前訓練されたジェネレータには、数百もの新しいドメインを追加する能力があることに気付きました。 拡張手法を用いることで、モデルサイズを拡大することなく、多数のドメイン固有モデルに取って代わることができる。 さらに、単一の拡張ジェネレータはドメイン間のスムーズな遷移とドメインの構成をネイティブにサポートする。 コードとプロジェクトページはhttps://yotamnitzan.github.io/domain-expansion/。

Can one inject new concepts into an already trained generative model, while respecting its existing structure and knowledge? We propose a new task - domain expansion - to address this. Given a pretrained generator and novel (but related) domains, we expand the generator to jointly model all domains, old and new, harmoniously. First, we note the generator contains a meaningful, pretrained latent space. Is it possible to minimally perturb this hard-earned representation, while maximally representing the new domains? Interestingly, we find that the latent space offers unused, "dormant" directions, which do not affect the output. This provides an opportunity: By "repurposing" these directions, we can represent new domains without perturbing the original representation. In fact, we find that pretrained generators have the capacity to add several - even hundreds - of new domains! Using our expansion method, one "expanded" model can supersede numerous domain-specific models, without expanding the model size. Additionally, a single expanded generator natively supports smooth transitions between domains, as well as composition of domains. Code and project page available at https://yotamnitzan.github.io/domain-expansion/.
翻訳日:2023-01-13 14:08:31 公開日:2023-01-12
# スイッチイベントによる有能なアクティブラーニング:分散データの効率的なサンプリング

Forgetful Active Learning with Switch Events: Efficient Sampling for Out-of-Distribution Data ( http://arxiv.org/abs/2301.05106v1 )

ライセンス: Link先を確認
Ryan Benkert, Mohit Prabhushankar, and Ghassan AlRegib(参考訳) 本稿では,分散型アクティブラーニングについて考察する。 実際には、完全に訓練されたニューラルネットワークは、out-of-distribution (ood)入力とランダムに相互作用し、モデル表現空間内で異常なサンプルをランダムにマップする。 データ表現はトレーニング分布の直接的な表現であるため、データ選択プロセスは外れた堅牢性において重要な役割を果たす。 アクティブラーニングのようなパラダイムでは、プロトコルはトレーニングディストリビューションのパフォーマンスを最も効果的に向上するだけでなく、堅牢な表現空間をレンダリングする必要があるため、特に難しい。 しかしながら、既存の戦略は、oodサンプルでランダムなラベルなしデータのデータ表現に基づいて、データ選択を直接基礎としている。 そこで本研究では,スイッチイベント(false)を用いた,分散型アクティブラーニングのための新しいアクティブラーニングプロトコルであるleetful active learningを導入する。 データ表現におけるサンプルの重要性を直接定義する代わりに、トレーニング中の学習の困難さを"情報的"に定式化する。 具体的には、ネットワークの"forgets"がラベルなしのサンプルの頻度を近似し、最も"forgotten"なサンプルをアノテーションに問い合わせる。 270以上の実験では4つのプロトコル、2つのOODベンチマーク、1つの分散ベンチマーク、3つの異なるアーキテクチャを含む4.5 %の精度改善が報告されている。

This paper considers deep out-of-distribution active learning. In practice, fully trained neural networks interact randomly with out-of-distribution (OOD) inputs and map aberrant samples randomly within the model representation space. Since data representations are direct manifestations of the training distribution, the data selection process plays a crucial role in outlier robustness. For paradigms such as active learning, this is especially challenging since protocols must not only improve performance on the training distribution most effectively but further render a robust representation space. However, existing strategies directly base the data selection on the data representation of the unlabeled data which is random for OOD samples by definition. For this purpose, we introduce forgetful active learning with switch events (FALSE) - a novel active learning protocol for out-of-distribution active learning. Instead of defining sample importance on the data representation directly, we formulate "informativeness" with learning difficulty during training. Specifically, we approximate how often the network "forgets" unlabeled samples and query the most "forgotten" samples for annotation. We report up to 4.5\% accuracy improvements in over 270 experiments, including four commonly used protocols, two OOD benchmarks, one in-distribution benchmark, and three different architectures.
翻訳日:2023-01-13 14:02:31 公開日:2023-01-12
# 授業増分学習における効果的な意思決定境界学習

Effective Decision Boundary Learning for Class Incremental Learning ( http://arxiv.org/abs/2301.05180v1 )

ライセンス: Link先を確認
Kunchi Li, Jun Wan, Shan Yu(参考訳) クラスインクリメンタル学習(cil)におけるリハーサルアプローチは、知識蒸留のための古いクラスデータの不足と、記憶メモリの制限による学習と新しいクラス間の不均衡という2つの要因によって引き起こされる、新しいクラスへの決定境界オーバーフィットに苦しむ。 本稿では,これら2つの要因に取り組むための,単純かつ効果的なアプローチを提案する。 まず,kdの性能を向上させるために,再サンプリング戦略と混合k}nowledge d}istillation (re-mkd) を用いて,過剰充填問題を大幅に軽減した。 具体的には,混合戦略と再サンプリング戦略を組み合わせて,学習クラスと新しいクラス間の潜在分布と一貫性のあるkdトレーニングで使用される適切なデータを合成する。 次に,本手法をcil設定に拡張し,その影響によってサンプルを再重み付けし,適切な決定境界を形成することにより,不均衡データの分類に取り組むための新しいインクリメンタル・インフルエント・バランス(iib)手法を提案する。 これら2つの改善により、KDの性能を改善し、不均衡なデータ学習を同時に扱う効果的な決定境界学習アルゴリズム(EDBL)を提案する。 実験の結果、EDBLはいくつかのCILベンチマークで最先端のパフォーマンスを達成することがわかった。

Rehearsal approaches in class incremental learning (CIL) suffer from decision boundary overfitting to new classes, which is mainly caused by two factors: insufficiency of old classes data for knowledge distillation and imbalanced data learning between the learned and new classes because of the limited storage memory. In this work, we present a simple but effective approach to tackle these two factors. First, we employ a re-sampling strategy and Mixup K}nowledge D}istillation (Re-MKD) to improve the performances of KD, which would greatly alleviate the overfitting problem. Specifically, we combine mixup and re-sampling strategies to synthesize adequate data used in KD training that are more consistent with the latent distribution between the learned and new classes. Second, we propose a novel incremental influence balance (IIB) method for CIL to tackle the classification of imbalanced data by extending the influence balance method into the CIL setting, which re-weights samples by their influences to create a proper decision boundary. With these two improvements, we present the effective decision boundary learning algorithm (EDBL) which improves the performance of KD and deals with the imbalanced data learning simultaneously. Experiments show that the proposed EDBL achieves state-of-the-art performances on several CIL benchmarks.
翻訳日:2023-01-13 14:02:09 公開日:2023-01-12
# kaer: エンティティ解決のための知識強化事前学習言語モデル

KAER: A Knowledge Augmented Pre-Trained Language Model for Entity Resolution ( http://arxiv.org/abs/2301.04770v1 )

ライセンス: Link先を確認
Liri Fang, Lan Li, Yiren Liu, Vetle I. Torvik, Bertram Lud\"ascher(参考訳) エンティティの解決は、何十年にもわたってデータクリーニング研究において重要かつよく研究されてきたタスクです。 既存の研究は、事前訓練された言語モデルを用いてエンティティの解決を行い、有望な結果が得られる可能性について論じてきた。 しかし、エンティティ解決タスクで事前学習された言語モデルのパフォーマンスを改善するためにドメイン知識の注入を議論した作品はほとんどない。 本研究では,事前学習した言語モデルに,エンティティ解決のための外部知識を付加した新しいフレームワークであるKnowledge Augmented Entity Resolution (KAER)を提案する。 本稿では,異なる知識の強化と実体分解能向上のための手法の活用について論じる。 我々のモデルは、既存の最先端エンティティ解決手法であるDittoを改善している。 特に 1) KAERはより堅牢に動作し、"汚れデータ"のより良い結果を得る。 2) より一般的な知識注入により、kaerはオンライン製品ドメインのテキストデータセットとデータセットの既存のベースラインモデルを上回る。 3) KAERは,引用データセットなどの高ドメイン固有のデータセットに対して,将来的な作業において専門家の知識を注入する必要がある競争結果を達成する。

Entity resolution has been an essential and well-studied task in data cleaning research for decades. Existing work has discussed the feasibility of utilizing pre-trained language models to perform entity resolution and achieved promising results. However, few works have discussed injecting domain knowledge to improve the performance of pre-trained language models on entity resolution tasks. In this study, we propose Knowledge Augmented Entity Resolution (KAER), a novel framework named for augmenting pre-trained language models with external knowledge for entity resolution. We discuss the results of utilizing different knowledge augmentation and prompting methods to improve entity resolution performance. Our model improves on Ditto, the existing state-of-the-art entity resolution method. In particular, 1) KAER performs more robustly and achieves better results on "dirty data", and 2) with more general knowledge injection, KAER outperforms the existing baseline models on the textual dataset and dataset from the online product domain. 3) KAER achieves competitive results on highly domain-specific datasets, such as citation datasets, requiring the injection of expert knowledge in future work.
翻訳日:2023-01-13 14:01:38 公開日:2023-01-12
# センサデータ応用のための明示的コンテキスト統合リカレントニューラルネットワーク

Explicit Context Integrated Recurrent Neural Network for Sensor Data Applications ( http://arxiv.org/abs/2301.05031v1 )

ライセンス: Link先を確認
Rashmi Dutta Baruah and Mario Mu\~noz Organero(参考訳) センサ、通信、コンピューティング技術の発展と進歩は、データ豊富な環境に繋がった。 このような環境では、データは監視されたエンティティだけでなく、そのエンティティが動作している環境からも容易に取得できる。 問題領域から利用可能な追加データは、学習モデルに独立して使用できないため、コンテキストを構成する。 このような文脈を学習中に考慮すれば、予測モデルの性能が向上する可能性がある。 通常、様々なセンサーからのデータは時系列の形で存在している。 リカレントニューラルネットワーク(RNN)は、時間的コンテキストを本質的に扱えるようなデータに好まれる。 しかし、エルマンRNN、Long Short-Term Memory(LSTM)、Gated Recurrent Unit(GRU)といった従来のRNNモデルは、明示的なコンテキストを統合するメカニズムを提供していない。 本稿ではコンテキスト統合RNN(CiRNN)を提案する。 CiRNNでは、ネットワークの重みは文脈的特徴に影響され、与えられた文脈により関連性のある主入力特徴がより重要となる。 CiRNNの有効性を示すために,各種センサからデータを取り出すアプリケーション領域,エンジンの健康診断,コンテキスト情報の利用方法などを選択した。 我々は、NASA Turbofan Engine Degradation Simulationデータセットを使用して、コンテキスト情報を提供するために、Remaining Useful Life (RUL)を推定した。 我々はCiRNNをベースラインモデルや最先端手法と比較した。 実験の結果,RMSEと非対称スコアリング関数による評価では,最先端技術モデルよりも39%,87%向上した。 後者の尺度は、RUL推定のタスクに特化している。

The development and progress in sensor, communication and computing technologies have led to data rich environments. In such environments, data can easily be acquired not only from the monitored entities but also from the surroundings where the entity is operating. The additional data that are available from the problem domain, which cannot be used independently for learning models, constitute context. Such context, if taken into account while learning, can potentially improve the performance of predictive models. Typically, the data from various sensors are present in the form of time series. Recurrent Neural Networks (RNNs) are preferred for such data as it can inherently handle temporal context. However, the conventional RNN models such as Elman RNN, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) in their present form do not provide any mechanism to integrate explicit contexts. In this paper, we propose a Context Integrated RNN (CiRNN) that enables integrating explicit contexts represented in the form of contextual features. In CiRNN, the network weights are influenced by contextual features in such a way that the primary input features which are more relevant to a given context are given more importance. To show the efficacy of CiRNN, we selected an application domain, engine health prognostics, which captures data from various sensors and where contextual information is available. We used the NASA Turbofan Engine Degradation Simulation dataset for estimating Remaining Useful Life (RUL) as it provides contextual information. We compared CiRNN with baseline models as well as the state-of-the-art methods. The experimental results show an improvement of 39% and 87% respectively, over state-of-the art models, when performance is measured with RMSE and score from an asymmetric scoring function. The latter measure is specific to the task of RUL estimation.
翻訳日:2023-01-13 14:01:19 公開日:2023-01-12
# 分割・分割原理による機械学習の推論性能の向上

Improving Inference Performance of Machine Learning with the Divide-and-Conquer Principle ( http://arxiv.org/abs/2301.05099v1 )

ライセンス: Link先を確認
Alex Kogan(参考訳) 多くの一般的な機械学習モデルは、CPUにデプロイすると、スケールが悪くなります。 本稿では,この課題に対処するために,よく知られたDivide-and-Conquer Principleに基づく,シンプルで効果的なアプローチを提案する。 推論ジョブが与えられた場合、実行するために利用可能なすべてのコンピューティングリソース(CPUコア)を使用する代わりに、ジョブを並列に実行できる独立した部分に分割し、それぞれが期待される計算コストに応じてコア数を割り当てる。 OnnxRuntimeフレームワークでこのアイデアを実装し,光文字認識(PaddleOCR)や自然言語処理(BERT)など,いくつかのユースケースで有効性を評価する。

Many popular machine learning models scale poorly when deployed on CPUs. In this paper we explore the reasons why and propose a simple, yet effective approach based on the well-known Divide-and-Conquer Principle to tackle this problem of great practical importance. Given an inference job, instead of using all available computing resources (i.e., CPU cores) for running it, the idea is to break the job into independent parts that can be executed in parallel, each with the number of cores according to its expected computational cost. We implement this idea in the popular OnnxRuntime framework and evaluate its effectiveness with several use cases, including the well-known models for optical character recognition (PaddleOCR) and natural language processing (BERT).
翻訳日:2023-01-13 14:00:52 公開日:2023-01-12
# NOPA: 社会的にインテリジェントなホームアシスタント構築のためのニューラルネットワークによるオンライン確率的支援

NOPA: Neurally-guided Online Probabilistic Assistance for Building Socially Intelligent Home Assistants ( http://arxiv.org/abs/2301.05223v1 )

ライセンス: Link先を確認
Xavier Puig and Tianmin Shu and Joshua B. Tenenbaum and Antonio Torralba(参考訳) 本研究は,家庭の人を支援するために,社会的に知的なロボットを構築する方法を研究する。 特に,ロボットが同時に人間の目標を推定し,その目標を達成するのにどう役立つかという,オンライン目標推論の支援に焦点を当てる。 事前支援手法には、目標に対する不確実性に対応する支援戦略(例えば、いつ、どのように支援するか)を調整する適応性や、大きな目標空間で高速な推論を行うスケーラビリティが欠けている。 我々のNOPA(Neurally-guided Online Probabilistic Assistance)手法はこれらの課題に対処する。 NOPAは,1)不確実性下での堅牢な推論のための逆計画と粒子フィルタリングを組み合わせたオンラインゴール推論モジュールと,(2)ゴール推論における不確実性を認識し,有効なサブゴールを発見するための支援プランナーから構成される。 オンラインウォッチアンドヘルプ(Online Watch-And-Help)は、ヘルパーエージェントがメインエージェントのアクションを同時に監視し、その目標を推測し、現実的なバーチャルホーム環境で一般的な家庭用タスクを高速に実行できるようにする。 実験の結果,我々のエージェントは,目標推論を堅牢に更新し,その支援計画を変化する不確実性のレベルに適応させることがわかった。

In this work, we study how to build socially intelligent robots to assist people in their homes. In particular, we focus on assistance with online goal inference, where robots must simultaneously infer humans' goals and how to help them achieve those goals. Prior assistance methods either lack the adaptivity to adjust helping strategies (i.e., when and how to help) in response to uncertainty about goals or the scalability to conduct fast inference in a large goal space. Our NOPA (Neurally-guided Online Probabilistic Assistance) method addresses both of these challenges. NOPA consists of (1) an online goal inference module combining neural goal proposals with inverse planning and particle filtering for robust inference under uncertainty, and (2) a helping planner that discovers valuable subgoals to help with and is aware of the uncertainty in goal inference. We compare NOPA against multiple baselines in a new embodied AI assistance challenge: Online Watch-And-Help, in which a helper agent needs to simultaneously watch a main agent's action, infer its goal, and help perform a common household task faster in realistic virtual home environments. Experiments show that our helper agent robustly updates its goal inference and adapts its helping plans to the changing level of uncertainty.
翻訳日:2023-01-13 14:00:23 公開日:2023-01-12
# 複雑ネットワークにおけるニューラルダイナミクスの普遍性

Universality of neural dynamics on complex networks ( http://arxiv.org/abs/2301.04900v1 )

ライセンス: Link先を確認
Vaiva Vasiliauskaite and Nino Antulov-Fantulin(参考訳) 本稿では,複素ネットワーク上の力学を規定する常微分方程式の関数形式を学ぶためのグラフニューラルネットワークの能力について論じる。 本稿では,そのような問題,すなわち帰納バイアス,ニューラルネットワークアーキテクチャ,学習タスクに必要な要素を提案する。 統計的学習理論は、ニューラルネットワークの一般化能力は、トレーニングとテストデータの独立性と同一分布(d.d.)に依存することを示唆している。 この仮定は、適切なニューラルネットワークアーキテクチャと学習機構とともに、例えば、拡散力学の場合の分布外一般化を研究することによって、例えば、質量運動学のようなダイナミクスのサンプル外の正確な予測に十分であるが、ニューラルネットワークモデルがあることが分かる。 (i)初期値データ流通の最初の瞬間に依存する一般化能力を有する。 (ii)非散逸的な力学の性質を暗黙的に学ぶこと、 (iii)モデルの精度の限界は、サイズが$n$のシステムに対して$\mathcal{o}(1/\sqrt{n})$である。

This paper discusses the capacity of graph neural networks to learn the functional form of ordinary differential equations that govern dynamics on complex networks. We propose necessary elements for such a problem, namely, inductive biases, a neural network architecture and a learning task. Statistical learning theory suggests that generalisation power of neural networks relies on independence and identical distribution (i.i.d.)\ of training and testing data. Although this assumption together with an appropriate neural architecture and a learning mechanism is sufficient for accurate out-of-sample predictions of dynamics such as, e.g.\ mass-action kinetics, by studying the out-of-distribution generalisation in the case of diffusion dynamics, we find that the neural network model: (i) has a generalisation capacity that depends on the first moment of the initial value data distribution; (ii) learns the non-dissipative nature of dynamics implicitly; and (iii) the model's accuracy resolution limit is of order $\mathcal{O}(1/\sqrt{n})$ for a system of size $n$.
翻訳日:2023-01-13 13:59:40 公開日:2023-01-12
# 確率的近位ポリアークステップサイズ

A Stochastic Proximal Polyak Step Size ( http://arxiv.org/abs/2301.04935v1 )

ライセンス: Link先を確認
Fabian Schaipp, Robert M. Gower, Michael Ulbrich(参考訳) 近年,確率的ポリアクステップサイズ (SPS) が,確率的勾配降下のための適応的ステップサイズスキームとして出現している。 ここでは正規化項を扱えるSPSの近位変種であるProxSPSを開発する。 SPS の近位変種の開発は特に重要であり、SPS は目的関数の下位境界をうまく機能させる必要がある。 目的関数が損失と正規化子の和であるとき、その和の下限の利用可能な推定はゆるくすることができる。 対照的に、ProxSPSは損失に対して低いバウンダリしか必要としない。 その結果,正規化の存在下では,ProxSPSのチューニングが容易で,より安定であることが示唆された。 さらに、画像分類タスクでは、ProxSPSはAdamWと同様にチューニングをほとんど行わず、結果としてより小さな重みパラメータを持つネットワークとなる。 また,非平滑,滑らか,弱凸,強凸の設定を含む ProxSPS に対して広範な収束解析を行う。

Recently, the stochastic Polyak step size (SPS) has emerged as a competitive adaptive step size scheme for stochastic gradient descent. Here we develop ProxSPS, a proximal variant of SPS that can handle regularization terms. Developing a proximal variant of SPS is particularly important, since SPS requires a lower bound of the objective function to work well. When the objective function is the sum of a loss and a regularizer, available estimates of a lower bound of the sum can be loose. In contrast, ProxSPS only requires a lower bound for the loss which is often readily available. As a consequence, we show that ProxSPS is easier to tune and more stable in the presence of regularization. Furthermore for image classification tasks, ProxSPS performs as well as AdamW with little to no tuning, and results in a network with smaller weight parameters. We also provide an extensive convergence analysis for ProxSPS that includes the non-smooth, smooth, weakly convex and strongly convex setting.
翻訳日:2023-01-13 13:59:20 公開日:2023-01-12
# 難易度測定による難易度に基づくサンプル重み付けの理解

Understanding Difficulty-based Sample Weighting with a Universal Difficulty Measure ( http://arxiv.org/abs/2301.04850v1 )

ライセンス: Link先を確認
Xiaoling Zhou, Ou Wu, Weiyao Zhu, Ziyang Liang(参考訳) サンプル重み付けはディープラーニングで広く使われている。 多くの重み付け手法は、基本的にトレーニングサンプルの学習困難を利用して重みを計算する。 本研究では、このスキームを困難に基づく重み付けと呼ぶ。 このスキームを説明する際に2つの重要な問題が生じる。 第一に、トレーニングサンプルに対して理論的に保証できる統一された難易度尺度は存在しない。 サンプルの学習困難度は、ノイズレベル、不均衡度、マージン、不確実性を含む複数の要因によって決定される。 それにもかかわらず、既存の措置は単一の要因または一部しか考慮していないが、その全体においては考慮されていない。 第2に,難易度に基づく重み付け方式が深層学習に有効であることを示す上で,包括的な理論的説明が欠如している。 本研究では,サンプルの一般化誤差を普遍的難易度尺度として利用できることを理論的に証明する。 さらに,深層学習における難易度に基づく重み付けの役割に関する形式的理論的正当化を行い,既存の重み付けスキームを指導する深層モデルの最適化ダイナミクスと一般化性能の両方に正の影響を明らかにした。

Sample weighting is widely used in deep learning. A large number of weighting methods essentially utilize the learning difficulty of training samples to calculate their weights. In this study, this scheme is called difficulty-based weighting. Two important issues arise when explaining this scheme. First, a unified difficulty measure that can be theoretically guaranteed for training samples does not exist. The learning difficulties of the samples are determined by multiple factors including noise level, imbalance degree, margin, and uncertainty. Nevertheless, existing measures only consider a single factor or in part, but not in their entirety. Second, a comprehensive theoretical explanation is lacking with respect to demonstrating why difficulty-based weighting schemes are effective in deep learning. In this study, we theoretically prove that the generalization error of a sample can be used as a universal difficulty measure. Furthermore, we provide formal theoretical justifications on the role of difficulty-based weighting for deep learning, consequently revealing its positive influences on both the optimization dynamics and generalization performance of deep models, which is instructive to existing weighting schemes.
翻訳日:2023-01-13 13:52:53 公開日:2023-01-12
# 有限状態制御によるpomdpの安全ポリシー改善

Safe Policy Improvement for POMDPs via Finite-State Controllers ( http://arxiv.org/abs/2301.04939v1 )

ライセンス: Link先を確認
Thiago D. Sim\~ao, Marnix Suilen, Nils Jansen(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)に対する安全政策改善(SPI)について検討した。 spiは,(1)環境に関する履歴データへのアクセスを前提としたオフライン強化学習(rl)問題であり,(2)環境とのインタラクションによってこれまで生成された行動ポリシーである。 spiメソッドはモデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。 既存の手法は環境が完全に観測可能であることを強く仮定する。 我々は,POMDPのSPI問題に対する新しいアプローチとして,有限状態制御器(FSC)が動作ポリシーを表現し,有限メモリが最適ポリシーを導出するのに十分であると考えている。 この仮定により、POMDP を有限状態完全可観測 MDP、履歴 MDP にマッピングできる。 歴史的データとFSCのメモリを組み合わせることで,このMDPを推定し,既製のSPIアルゴリズムを用いて改良されたポリシーを算出する。 基礎となるSPI法は、利用可能なデータに従ってポリシー空間を制約し、新たに計算されたポリシーは、十分なデータが利用可能であった場合にのみ行動ポリシーと異なる。 我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。 いくつかのよく確立されたベンチマークの実験結果は、有限メモリが十分でない場合でも、アプローチの適用可能性を示している。

We study safe policy improvement (SPI) for partially observable Markov decision processes (POMDPs). SPI is an offline reinforcement learning (RL) problem that assumes access to (1) historical data about an environment, and (2) the so-called behavior policy that previously generated this data by interacting with the environment. SPI methods neither require access to a model nor the environment itself, and aim to reliably improve the behavior policy in an offline manner. Existing methods make the strong assumption that the environment is fully observable. In our novel approach to the SPI problem for POMDPs, we assume that a finite-state controller (FSC) represents the behavior policy and that finite memory is sufficient to derive optimal policies. This assumption allows us to map the POMDP to a finite-state fully observable MDP, the history MDP. We estimate this MDP by combining the historical data and the memory of the FSC, and compute an improved policy using an off-the-shelf SPI algorithm. The underlying SPI method constrains the policy-space according to the available data, such that the newly computed policy only differs from the behavior policy when sufficient data was available. We show that this new policy, converted into a new FSC for the (unknown) POMDP, outperforms the behavior policy with high probability. Experimental results on several well-established benchmarks show the applicability of the approach, even in cases where finite memory is not sufficient.
翻訳日:2023-01-13 13:52:34 公開日:2023-01-12
# 不確実性を伴う時間的知識グラフの進化のモデル化

Modeling the evolution of temporal knowledge graphs with uncertainty ( http://arxiv.org/abs/2301.04977v1 )

ライセンス: Link先を確認
Soeren Nolting, Zhen Han, Volker Tresp(参考訳) 将来の事象を予測することは、時間的知識グラフ(tKG)の基本的な課題である。 平均関数を予測する現実の生活では、ほとんどの場合十分ではないが、我々の予測に対してどの程度自信が持てるのかという疑問が残る。 そこで本研究では,事象の発生確率とその時間依存性の不確実性の時間的進化を共同でモデル化するために,(重み付けされた)ガウス過程を用いた新しいグラフニューラルネットワークアーキテクチャ(WGP-NN)を導入する。 特にガウス過程を用いて将来のリンクの不確かさを予測的分散の予測能力によってモデル化する。 これは、学習された実体表現において不確実性しか表現できない既存の作品とは対照的である。 さらに、wgp-nnは連続時間におけるtkgのパラメータフリー複素時間および構造ダイナミクスをモデル化することができる。 2つの実世界のベンチマークデータセットで、モデルの最先端のパフォーマンスをさらに実証する。

Forecasting future events is a fundamental challenge for temporal knowledge graphs (tKG). As in real life predicting a mean function is most of the time not sufficient, but the question remains how confident can we be about our prediction? Thus, in this work, we will introduce a novel graph neural network architecture (WGP-NN) employing (weighted) Gaussian processes (GP) to jointly model the temporal evolution of the occurrence probability of events and their time-dependent uncertainty. Especially we employ Gaussian processes to model the uncertainty of future links by their ability to predict predictive variance. This is in contrast to existing works, which are only able to express uncertainties in the learned entity representations. Moreover, WGP-NN can model parameter-free complex temporal and structural dynamics of tKGs in continuous time. We further demonstrate the model's state-of-the-art performance on two real-world benchmark datasets.
翻訳日:2023-01-13 13:52:11 公開日:2023-01-12
# $\mathcal{elh}$ における概念の反事実的説明

Counterfactual Explanations for Concepts in $\mathcal{ELH}$ ( http://arxiv.org/abs/2301.05109v1 )

ライセンス: Link先を確認
Leonie Nora Sieger, Stefan Heindorf, Lukas Bl\"ubaum, Axel-Cyrille Ngonga Ngomo(参考訳) 知識ベースはWeb上の情報管理に広く使われており、Web検索、質問応答、自然言語処理などの高インパクトアプリケーションを可能にする。 また、医療診断や信用スコアなどの自動意思決定システムのバックボーンとしても機能している。 これらの決定に影響を受ける利害関係者は自らの状況を理解し、公平な決定を検証したいと考えているため、説明論理の概念を用いて多くの説明アプローチが提案されている。 しかしながら、学習された概念は、言語化されても、非専門家にとって長くて難しいものになりうる。 さらに、長い概念は、状況を変えるための明確な行動経路をすぐに提供しない。 異なる分類を得るためにどのように特徴値を変更する必要があるか?」という疑問に答える反事実は、表データに対して短く、人間にやさしい説明として提案されてきた。 本稿では,反事実の概念を記述論理に移し,記述論理 $\mathcal{elh}$ で反事実記述を生成する最初のアルゴリズムを提案する。 概念から反事実候補を生成し、最も少ない特徴変化候補を反事実として選択する。 複数の反事実の場合、それらの特徴の組み合わせの類似性に応じてそれらをランク付けする。 評価のために,参加者による説明にどちらが望ましいかを調べるために,ユーザ調査を実施している。 第2の研究では、対実的説明の可能性を探る。

Knowledge bases are widely used for information management on the web, enabling high-impact applications such as web search, question answering, and natural language processing. They also serve as the backbone for automatic decision systems, e.g. for medical diagnostics and credit scoring. As stakeholders affected by these decisions would like to understand their situation and verify fair decisions, a number of explanation approaches have been proposed using concepts in description logics. However, the learned concepts can become long and difficult to fathom for non-experts, even when verbalized. Moreover, long concepts do not immediately provide a clear path of action to change one's situation. Counterfactuals answering the question "How must feature values be changed to obtain a different classification?" have been proposed as short, human-friendly explanations for tabular data. In this paper, we transfer the notion of counterfactuals to description logics and propose the first algorithm for generating counterfactual explanations in the description logic $\mathcal{ELH}$. Counterfactual candidates are generated from concepts and the candidates with fewest feature changes are selected as counterfactuals. In case of multiple counterfactuals, we rank them according to the likeliness of their feature combinations. For evaluation, we conduct a user survey to investigate which of the generated counterfactual candidates are preferred for explanation by participants. In a second study, we explore possible use cases for counterfactual explanations.
翻訳日:2023-01-13 13:51:57 公開日:2023-01-12
# Laplacian Augmentationを用いた手書きグラフコントラスト学習

Signed Directed Graph Contrastive Learning with Laplacian Augmentation ( http://arxiv.org/abs/2301.05163v1 )

ライセンス: Link先を確認
Taewook Ko, Yoonhyuk Choi, Chong-Kwon Kim(参考訳) グラフの対比学習は、いくつかのグラフマイニングタスクにおいて強力なテクニックとなっている。 拡張グラフの異なる視点から識別表現を学ぶ。 日々の生活の中では、singed-directed graphは、さまざまなグラフタイプの中でもっとも複雑で難しい。 そのため、singed-directed graphのコントラスト学習はあまり研究されていないが、unsignedとundirectedのコントラスト研究は数多く存在する。 そこで本研究では,新しい符号付きグラフコントラスト学習SDGCLを提案する。 2つの異なる構造的摂動グラフビューを作成し、磁気ラプラシアン摂動を介してノード表現を得る。 2つのグラフビュー間の相互情報を最大化するために,ノードレベルのコントラスト損失を用いる。 モデルは、コントラストと教師付き目的と共に学習される。 SDGCLのグラフエンコーダは、社会的理論や事前定義された仮定に依存しない。 したがって、トリアードの発見や隣人の選択は不要である。 磁気ラプラシアンによるエッジサインと方向のみを利用する。 我々の知る限りでは、磁気ラプラシアン摂動とスペクトルグラフの対比学習を導入するのは初めてである。 提案モデルの優位性は、4つの実世界のデータセットに対する徹底的な実験によって実証される。 SDGCLは、他の4つの評価指標よりも優れたパフォーマンスを示している。

Graph contrastive learning has become a powerful technique for several graph mining tasks. It learns discriminative representation from different perspectives of augmented graphs. Ubiquitous in our daily life, singed-directed graphs are the most complex and tricky to analyze among various graph types. That is why singed-directed graph contrastive learning has not been studied much yet, while there are many contrastive studies for unsigned and undirected. Thus, this paper proposes a novel signed-directed graph contrastive learning, SDGCL. It makes two different structurally perturbed graph views and gets node representations via magnetic Laplacian perturbation. We use a node-level contrastive loss to maximize the mutual information between the two graph views. The model is jointly learned with contrastive and supervised objectives. The graph encoder of SDGCL does not depend on social theories or predefined assumptions. Therefore it does not require finding triads or selecting neighbors to aggregate. It leverages only the edge signs and directions via magnetic Laplacian. To the best of our knowledge, it is the first to introduce magnetic Laplacian perturbation and signed spectral graph contrastive learning. The superiority of the proposed model is demonstrated through exhaustive experiments on four real-world datasets. SDGCL shows better performance than other state-of-the-art on four evaluation metrics.
翻訳日:2023-01-13 13:51:35 公開日:2023-01-12
# 機械的解釈可能性によるグラッキングの進展対策

Progress measures for grokking via mechanistic interpretability ( http://arxiv.org/abs/2301.05217v1 )

ライセンス: Link先を確認
Neel Nanda and Lawrence Chan and Tom Liberum and Jess Smith and Jacob Steinhardt(参考訳) ニューラルネットワークは、パラメータの量、トレーニングデータ、トレーニングステップのスケールアップから、定性的に新しい能力が生まれる、創発的な振る舞いを示すことが多い。 出現を理解する一つのアプローチは、一見不連続な質的変化を裏付ける連続的な \textit{progress measures} を見つけることである。 我々は、学習した振る舞いを個々のコンポーネントにリバースエンジニアリングすることで、メカニスティックな解釈可能性を通じて進捗測定を見出すことができると論じる。 そこで本研究では,モジュール付加タスクを訓練した小型変圧器による'grokking'現象について検討した。 離散フーリエ変換と三角比を用いて円周まわりの回転への付加を変換するアルゴリズムを,これらのネットワークで学習したアルゴリズムを完全にリバースエンジニアリングする。 本アルゴリズムは,アクティベーションと重みを解析し,フーリエ空間でアブレーションを行うことで検証する。 この理解に基づいて、トレーニングのダイナミクスを学習し、トレーニングを3つの連続フェーズ(記憶、回路形成、クリーンアップ)に分割するための進捗対策を定義する。 以上の結果から,突然のシフトではなく,重みに符号化された構造機構の段階的な増幅と,その後の記憶成分の除去が示唆された。

Neural networks often exhibit emergent behavior, where qualitatively new capabilities arise from scaling up the amount of parameters, training data, or training steps. One approach to understanding emergence is to find continuous \textit{progress measures} that underlie the seemingly discontinuous qualitative changes. We argue that progress measures can be found via mechanistic interpretability: reverse-engineering learned behaviors into their individual components. As a case study, we investigate the recently-discovered phenomenon of ``grokking'' exhibited by small transformers trained on modular addition tasks. We fully reverse engineer the algorithm learned by these networks, which uses discrete Fourier transforms and trigonometric identities to convert addition to rotation about a circle. We confirm the algorithm by analyzing the activations and weights and by performing ablations in Fourier space. Based on this understanding, we define progress measures that allow us to study the dynamics of training and split training into three continuous phases: memorization, circuit formation, and cleanup. Our results show that grokking, rather than being a sudden shift, arises from the gradual amplification of structured mechanisms encoded in the weights, followed by the later removal of memorizing components.
翻訳日:2023-01-13 13:51:18 公開日:2023-01-12
# グラフに基づく確率比推定によるオンライン集中型非パラメトリック変化点検出

Online Centralized Non-parametric Change-point Detection via Graph-based Likelihood-ratio Estimation ( http://arxiv.org/abs/2301.03011v2 )

ライセンス: Link先を確認
Alejandro de la Concha and Argyris Kalogeratos and Nicolas Vayatis(参考訳) グラフの各ノードを、ほぼリアルタイムで同期して観測されるデータストリームを生成するようにします。 変更点 $\tau$ において、変更は、関連するノードストリームの確率分布に影響を与える$c$ のサブセットで発生する。 本稿では,ノードストリームの変動後分布と変更前分布との相関の直接推定に基づいて,$\tau$ の検出と$c$ のローカライズを行う新しいカーネルベース手法を提案する。 我々の主要な作業仮説は、グラフ上の確率比の推定の滑らかさであり、すなわち、連結ノードも同様の確率比を持つことが期待されている。 提案手法の品質は, 合成シナリオに関する広範囲な実験で実証された。

Consider each node of a graph to be generating a data stream that is synchronized and observed at near real-time. At a change-point $\tau$, a change occurs at a subset of nodes $C$, which affects the probability distribution of their associated node streams. In this paper, we propose a novel kernel-based method to both detect $\tau$ and localize $C$, based on the direct estimation of the likelihood-ratio between the post-change and the pre-change distributions of the node streams. Our main working hypothesis is the smoothness of the likelihood-ratio estimates over the graph, i.e connected nodes are expected to have similar likelihood-ratios. The quality of the proposed method is demonstrated on extensive experiments on synthetic scenarios.
翻訳日:2023-01-13 13:50:57 公開日:2023-01-12
# 変動推論:後部閾値はスパースレジームにおけるネットワーククラスタリング精度を改善する

Variational Inference: Posterior Threshold Improves Network Clustering Accuracy in Sparse Regimes ( http://arxiv.org/abs/2301.04771v1 )

ライセンス: Link先を確認
Xuezhen Li and Can M. Le(参考訳) 変分推論は、様々なベイズモデルに適合する機械学習文献で広く使われている。 ネットワーク解析において,この手法はコミュニティ検出問題の解決に成功している。 これらの結果は有望であるが、理論上の支持は相対的に密度の高いネットワークに限られており、これは実際のネットワークには当てはまらない仮定である。 また, 最近, ばらつき損失面には多数のサドル点があり, 特にスパースネットワークに適用した場合, その性能に深刻な影響を及ぼす可能性が示されている。 本稿では,各反復後のコミュニティ割り当ての後部をハードしきい値にすることで,変分推論法を改善する方法を提案する。 真のコミュニティ割り当てと相関するランダム初期化を用いて,ネットワークの平均ノード次数が有界である場合でも,提案手法が収束し,真のコミュニティラベルを正確に復元できることを示す。 大規模な数値研究により、古典的変分推論と別の最先端アルゴリズムに対する提案手法の利点がさらに裏付けられる。

Variational inference has been widely used in machine learning literature to fit various Bayesian models. In network analysis, this method has been successfully applied to solve the community detection problems. Although these results are promising, their theoretical support is only for relatively dense networks, an assumption that may not hold for real networks. In addition, it has been shown recently that the variational loss surface has many saddle points, which may severely affect its performance, especially when applied to sparse networks. This paper proposes a simple way to improve the variational inference method by hard thresholding the posterior of the community assignment after each iteration. Using a random initialization that correlates with the true community assignment, we show that the proposed method converges and can accurately recover the true community labels, even when the average node degree of the network is bounded. Extensive numerical study further confirms the advantage of the proposed method over the classical variational inference and another state-of-the-art algorithm.
翻訳日:2023-01-13 13:50:42 公開日:2023-01-12
# SITS用ViT:衛星画像時系列用ビジョントランス

ViTs for SITS: Vision Transformers for Satellite Image Time Series ( http://arxiv.org/abs/2301.04944v1 )

ライセンス: Link先を確認
Michail Tarasiou, Erik Chavez, Stefanos Zafeiriou(参考訳) 本稿では、視覚トランスフォーマ(vit)に基づく一般衛星画像時系列(sits)処理のためのフルアテンションモデルであるtemporo-spatial vision transformer(tsvit)を提案する。 TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。 自然画像とは対照的に、時空間分解はSITS処理においてより直感的であり、この主張に対する実験的証拠を提示する。 さらに,獲得時間固有の時間的位置符号化と複数の学習可能なクラストークンの2つの新しいメカニズムを導入することにより,モデルの識別能力を高める。 新たな設計選択が与える影響は広範なアブレーション研究を通じて評価される。 提案アーキテクチャは,3つのSITSセマンティックセグメンテーションと分類データセットにおいて,従来のアプローチをはるかに上回り,最先端の性能を実現する。 すべてのモデル、トレーニング、評価コードは、さらなる研究を促進するために公開されています。

In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model's discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.
翻訳日:2023-01-13 13:50:24 公開日:2023-01-12
# DeMT:Dense Predictionのマルチタスク学習のための変形可能なミキサー変換器

DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2301.03461v2 )

ライセンス: Link先を確認
Yangyang Xu and Yibo Yang and Lefei Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーには独自の利点があり、どちらもマルチタスク学習(MTL)における密度予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なCNNとクエリベースのTransformerを併用した新しいMTLモデルを提案する。 demt(demt)という名前の手法は、単純で効果的なエンコーダ-デコーダアーキテクチャ(つまり、変形可能なミキサエンコーダとタスクアウェアトランスデコーダ)に基づいている。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするために利用されたチャネル認識ミキサー演算子(例えば、効率的なチャネル位置ミキシング)と、より情報のある空間位置(例えば、変形特徴)を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識可変形演算子(英語版)の2種類を含む。 第2に、タスク対応トランスフォーマーデコーダは、タスクインタラクションブロックとタスククエリブロックで構成される。 前者は自己注意によってタスクインタラクションの機能をキャプチャするために適用される。 後者は変形した機能とタスクに相互作用した機能を活用し、対応するタスク予測のためのクエリベースのトランスフォーマーを通じて対応するタスク特有の機能を生成する。 2つの高密度画像予測データセット(NYUD-v2とPASCAL-Context)に対する大規模な実験により、我々のモデルはGFLOPを少なくし、現在のTransformerとCNNベースの競合モデルよりも大幅に優れていることが示された。 コードはhttps://github.com/yangyangxu0/DeMT で公開されている。

Convolution neural networks (CNNs) and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer for multi-task learning of dense prediction. Our method, named DeMT, is based on a simple and effective encoder-decoder architecture (i.e., deformable mixer encoder and task-aware transformer decoder). First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels ($i.e.,$ efficient channel location mixing), and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations (i.e., deformed features). Second, the task-aware transformer decoder consists of the task interaction block and task query block. The former is applied to capture task interaction features via self-attention. The latter leverages the deformed features and task-interacted features to generate the corresponding task-specific feature through a query-based Transformer for corresponding task predictions. Extensive experiments on two dense image prediction datasets, NYUD-v2 and PASCAL-Context, demonstrate that our model uses fewer GFLOPs and significantly outperforms current Transformer- and CNN-based competitive models on a variety of metrics. The code are available at https://github.com/yangyangxu0/DeMT .
翻訳日:2023-01-13 13:44:23 公開日:2023-01-12
# 言語・視覚・言語理解のための一般基礎モデルの構築に向けて

Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks ( http://arxiv.org/abs/2301.05065v1 )

ライセンス: Link先を確認
Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li(参考訳) 基礎モデルや事前学習されたモデルは、様々な言語、視覚、視覚言語理解タスクの性能を大幅に改善した。 しかし、既存の基礎モデルは1つのタイプのタスク、すなわち言語、ビジョン、またはビジョン言語でしか実行できない。 一般基盤モデルと呼ぶすべての理解タスクに最適な基礎モデルを構築することが可能かどうかについては,まだ未解決の問題である。 本稿では,新しい基礎モデルであるX-FM(X-Foundation Model)を提案する。 X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。 トレーニング方法は、テキスト、画像、画像とテキストのペアデータからX-FMを学習する2つの新しいテクニックを含む。 1つは、言語エンコーダを学習する際に視覚言語トレーニングから勾配を止めることである。 もうひとつは、視覚言語トレーニングを活用して、視覚エンコーダの学習を導くことだ。 ベンチマークデータセットの大規模な実験は、X-FMが既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解に特化した既存の基礎モデルに匹敵する性能を発揮することを示している。

Foundation models or pre-trained models have substantially improved the performance of various language, vision, and vision-language understanding tasks. However, existing foundation models can only perform the best in one type of tasks, namely language, vision, or vision-language. It is still an open question whether it is possible to construct a foundation model performing the best for all the understanding tasks, which we call a general foundation model. In this paper, we propose a new general foundation model, X-FM (the X-Foundation Model). X-FM has one language encoder, one vision encoder, and one fusion encoder, as well as a new training method. The training method includes two new techniques for learning X-FM from text, image, and image-text pair data. One is to stop gradients from the vision-language training when learning the language encoder. The other is to leverage the vision-language training to guide the learning of the vision encoder. Extensive experiments on benchmark datasets show that X-FM can significantly outperform existing general foundation models and perform better than or comparable to existing foundation models specifically for language, vision, or vision-language understanding.
翻訳日:2023-01-13 13:43:18 公開日:2023-01-12
# コンピュータビジョンによる火災煙検出

Wildfire Smoke Detection with Computer Vision ( http://arxiv.org/abs/2301.05070v1 )

ライセンス: Link先を確認
Eldan R. Daniel(参考訳) 森林火災が頻発し、その影響は毎日激しさを増している。 気候変動はこれらの発生に直接的・間接的に影響し、社会現象は人々の脆弱性を増大させた。 したがって、これらが必然的に発生することを考慮し、タイムリーかつ効果的な応答を可能にする早期警戒システムを持つことが重要である。 人工知能、機械学習、コンピュータビジョンは、山火事の検出を効果的かつ達成可能な代替手段を提供し、災害のリスクを低減する。 yolov7は、初期野火の煙柱の早期検出に使用できる、オブジェクト検出モデルのトレーニングのための、シンプルで高速で効率的なアルゴリズムを提供する。 その結果,F1曲線の信頼度が0.298の場合には0.74点,信頼度が0.298点,信頼度が低い場合には0.74点を得た。 これは、条件が偽陽性に有利である場合を意味する。 これらの指標は,煙柱の検出におけるモデルの弾力性と有効性を示す。

Wildfires are becoming more frequent and their effects more devastating every day. Climate change has directly and indirectly affected the occurrence of these, as well as social phenomena have increased the vulnerability of people. Consequently, and given the inevitable occurrence of these, it is important to have early warning systems that allow a timely and effective response. Artificial intelligence, machine learning and Computer Vision offer an effective and achievable alternative for opportune detection of wildfires and thus reduce the risk of disasters. YOLOv7 offers a simple, fast, and efficient algorithm for training object detection models which can be used in early detection of smoke columns in the initial stage wildfires. The developed model showed promising results, achieving a score of 0.74 in the F1 curve when the confidence level is 0.298, that is, a higher score at lower confidence levels was obtained. This means when the conditions are favorable for false positives. The metrics demonstrates the resilience and effectiveness of the model in detecting smoke columns.
翻訳日:2023-01-13 13:42:58 公開日:2023-01-12
# 全員の声:デモグラフィック情報を用いたアノテーションの診断の定量化

Everyone's Voice Matters: Quantifying Annotation Disagreement Using Demographic Information ( http://arxiv.org/abs/2301.05036v1 )

ライセンス: Link先を確認
Ruyuan Wan, Jaehyung Kim, Dongyeop Kang(参考訳) NLPアノテーションでは、複数のアノテータにテキストをラベル付けし、主要なアノテータの合意に基づいて基底となる真理ラベルを取得することが一般的である。 しかし、注釈者は異なる背景を持つ個人であり、未成年者の意見は単に無視されるべきではない。 アノテーションタスクが主観的になり、トピックが議論の的になるにつれて、主観的事項に関する人々の多様な声を表現し、多様性のレベルを予測することができるNLPシステムが必要である。 本稿では,課題のテキストと注釈者の背景情報を用いて,注釈者間の不一致の程度を推定できるかどうかについて検討する。 特に,5つの主観的データセットにおける注釈者の投票履歴から不一致ラベルを抽出し,その不一致を予測するための微調整言語モデルを提案する。 その結果, 性別, 民族, 教育レベルなど, 注釈者の人口統計情報を知ることは, 意見の不一致を予測するのに役立つことがわかった。 本研究は,テキストコンテンツと固有の議論と,注釈者の異なる視点における不一致とを区別するために,注釈者の人為的人口動態の異なる組み合わせで全員の声をシミュレートし,その微調整された不一致予測因子のばらつきを検証した。 本稿では,新たな不一致予測機構により,より効率的かつ包括的なNLPシステムのアノテーション処理を改善することを目的とする。 コードとデータセットは公開されています。

In NLP annotation, it is common to have multiple annotators label the text and then obtain the ground truth labels based on the agreement of major annotators. However, annotators are individuals with different backgrounds, and minors' opinions should not be simply ignored. As annotation tasks become subjective and topics are controversial in modern NLP tasks, we need NLP systems that can represent people's diverse voices on subjective matters and predict the level of diversity. This paper examines whether the text of the task and annotators' demographic background information can be used to estimate the level of disagreement among annotators. Particularly, we extract disagreement labels from the annotators' voting histories in the five subjective datasets, and then fine-tune language models to predict annotators' disagreement. Our results show that knowing annotators' demographic information, like gender, ethnicity, and education level, helps predict disagreements. In order to distinguish the disagreement from the inherent controversy from text content and the disagreement in the annotators' different perspectives, we simulate everyone's voices with different combinations of annotators' artificial demographics and examine its variance of the finetuned disagreement predictor. Our paper aims to improve the annotation process for more efficient and inclusive NLP systems through a novel disagreement prediction mechanism. Our code and dataset are publicly available.
翻訳日:2023-01-13 13:42:45 公開日:2023-01-12
# 位相シフトadversarial training

Phase-shifted Adversarial Training ( http://arxiv.org/abs/2301.04785v1 )

ライセンス: Link先を確認
Yeachan Kim, Seongyeon Kim, Ihyeok Seo, Bonggun Shin(参考訳) 敵のトレーニングは、ニューラルネットワークベースのアプリケーションを現実世界に安全にデプロイするための必須コンポーネントと考えられている。 強い堅牢性を達成するために、既存の手法は主に、更新ステップの数を増やし、スムーズな損失関数でモデルを正規化し、攻撃にランダム性を注入することで、強力な攻撃を生成する方法に焦点を当てている。 代わりに、反応周波数のレンズを通して、敵の訓練の挙動を分析する。 我々は,ニューラルネットワークが高頻度情報への収束度を低くし,各データ付近で高い振動の予測を行うことを示す。 高周波コンテンツを効率的に効果的に学習するために,まず周波数原理の普遍的な現象,すなわち,逆の訓練において依然として保持されていることを証明する。 そこで本研究では,これらの周波数を高速収束が起こる低周波域にシフトさせることで,高周波数成分を学習する位相シフト逆トレーニング(PhaseAT)を提案する。 評価のために,CIFAR-10 と ImageNet を用いて,信頼性評価のための適応攻撃を慎重に設計した実験を行った。 総合的な結果は、phaseatは高周波情報の収束を著しく改善していることを示している。 これにより、モデルが各データ付近でスムーズな予測を行えるようにすることで、対向ロバスト性が改善される。

Adversarial training has been considered an imperative component for safely deploying neural network-based applications to the real world. To achieve stronger robustness, existing methods primarily focus on how to generate strong attacks by increasing the number of update steps, regularizing the models with the smoothed loss function, and injecting the randomness into the attack. Instead, we analyze the behavior of adversarial training through the lens of response frequency. We empirically discover that adversarial training causes neural networks to have low convergence to high-frequency information, resulting in highly oscillated predictions near each data. To learn high-frequency contents efficiently and effectively, we first prove that a universal phenomenon of frequency principle, i.e., \textit{lower frequencies are learned first}, still holds in adversarial training. Based on that, we propose phase-shifted adversarial training (PhaseAT) in which the model learns high-frequency components by shifting these frequencies to the low-frequency range where the fast convergence occurs. For evaluations, we conduct the experiments on CIFAR-10 and ImageNet with the adaptive attack carefully designed for reliable evaluation. Comprehensive results show that PhaseAT significantly improves the convergence for high-frequency information. This results in improved adversarial robustness by enabling the model to have smoothed predictions near each data.
翻訳日:2023-01-13 13:41:49 公開日:2023-01-12
# データ中心AI: 展望と課題

Data-centric AI: Perspectives and Challenges ( http://arxiv.org/abs/2301.04819v1 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Xia Hu(参考訳) AIシステム構築におけるデータの役割は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱する、データ中心型AI(DCAI)という新たな概念によって、近年大きく拡大している。 私たちのコミュニティは、さまざまな側面のデータの強化に継続的に努力してきましたが、特定のタスクに関する独立したイニシアティブであることが多いのです。 コミュニティにおける総合的なイニシアチブの促進とDCAIの推進のために、私たちは大きな図を描き、データ開発、評価データ開発、データ保守という3つの一般的なミッションをまとめました。 代表的DCAIタスクについてトップレベルの議論を行い、視点を共有します。 最後に、将来の探検を動機づけるオープンな課題をリストアップします。

The role of data in building AI systems has recently been significantly magnified by the emerging concept of data-centric AI (DCAI), which advocates a fundamental shift from model advancements to ensuring data quality and reliability. Although our community has continuously invested efforts into enhancing data in different aspects, they are often isolated initiatives on specific tasks. To facilitate the collective initiative in our community and push forward DCAI, we draw a big picture and bring together three general missions: training data development, evaluation data development, and data maintenance. We provide a top-level discussion on representative DCAI tasks and share perspectives. Finally, we list open challenges to motivate future exploration.
翻訳日:2023-01-13 13:41:28 公開日:2023-01-12
# lb-simtsc:半教師付き時系列分類のための効率的な類似性認識グラフニューラルネットワーク

LB-SimTSC: An Efficient Similarity-Aware Graph Neural Network for Semi-Supervised Time Series Classification ( http://arxiv.org/abs/2301.04838v1 )

ライセンス: Link先を確認
Wenjie Xi, Arnav Jain, Li Zhang, Jessica Lin(参考訳) 時系列分類は、過去20年間に多くの関心を集めてきた重要なデータマイニングタスクである。 ラベルの不足により、ラベル付きサンプルの少ない半教師付き時系列分類が一般的になった。 近年,一対の動的時間ワープ(DTW)距離から生成されたグラフ上のグラフニューラルネットワーク分類モデルを用いて,類似性を考慮した時系列分類(SimTSC)を提案する。 精度は優れており、いくつかのラベル設定で最先端のディープラーニングモデルを上回る。 しかし、SimTSCはペアのDTW距離に依存するため、DTWの二次的な複雑さは、その使用性を合理的なサイズのデータセットに限定する。 そこで本研究では,新しいグラフ構築モジュールを用いた半教師付き時系列分類手法LB-SimTSCを提案する。 DTW の代わりに,DTW の低境界 LB_Keogh を用いて線形時間におけるインスタンス間の相似性を近似し,DTW によって得られる相対的近接関係を維持することを提案する。 LB_Keoghを用いてペア距離行列を構築し,グラフニューラルネットワークのためのグラフを構築する。 このアプローチを,有名なudr時系列分類アーカイブの10大データセットに適用する。 その結果,大規模データセット上でグラフを構築する場合,分類精度を著しく低下させることなく,simtscよりも最大104倍高速になることがわかった。

Time series classification is an important data mining task that has received a lot of interest in the past two decades. Due to the label scarcity in practice, semi-supervised time series classification with only a few labeled samples has become popular. Recently, Similarity-aware Time Series Classification (SimTSC) is proposed to address this problem by using a graph neural network classification model on the graph generated from pairwise Dynamic Time Warping (DTW) distance of batch data. It shows excellent accuracy and outperforms state-of-the-art deep learning models in several few-label settings. However, since SimTSC relies on pairwise DTW distances, the quadratic complexity of DTW limits its usability to only reasonably sized datasets. To address this challenge, we propose a new efficient semi-supervised time series classification technique, LB-SimTSC, with a new graph construction module. Instead of using DTW, we propose to utilize a lower bound of DTW, LB_Keogh, to approximate the dissimilarity between instances in linear time, while retaining the relative proximity relationships one would have obtained via computing DTW. We construct the pairwise distance matrix using LB_Keogh and build a graph for the graph neural network. We apply this approach to the ten largest datasets from the well-known UCR time series classification archive. The results demonstrate that this approach can be up to 104x faster than SimTSC when constructing the graph on large datasets without significantly decreasing classification accuracy.
翻訳日:2023-01-13 13:41:17 公開日:2023-01-12
# SemPPL: より良いコントラスト表現のための擬似ラベル予測

SemPPL: Predicting pseudo-labels for better contrastive representations ( http://arxiv.org/abs/2301.05158v1 )

ライセンス: Link先を確認
Matko Bo\v{s}njak, Pierre H. Richemond, Nenad Tomasev, Florian Strub, Jacob C. Walker, Felix Hill, Lars Holger Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic(参考訳) 大量の教師なしデータと少量の監督データから学ぶことは、コンピュータビジョンにおいて重要なオープンな問題である。 本稿では,ラベル付きデータとラベルなしデータを組み合わせて情報表現を学習する半教師付き学習手法であるSemantic Positivesを提案する。 提案手法は, 自己教師付きコントラスト学習を拡張し, 2つのサンプルが同一のデイタム(正)を表現しているか(負)を識別することで表現を形作る。 正の集合を豊かにするために、ラベル付きデータの学習埋め込みを用いて、既存の基盤トラスラベルを利用して、不足したラベルを$k$-nearest 近傍の分類器で予測する。 したがって、同じ擬似ラベルを持つデータポイントで正の集合を拡張し、これらの意味的正を呼び出す。 我々は、表現を共同で学習し、自己ストラップ付き擬似ラベルを予測する。 これは強化サイクルを生み出します。 強い初期表現は、より良い擬似ラベル予測を可能にし、セマンティックポジティクスの選択を改善し、さらに優れた表現をもたらす。 SemPPLは、ResNet-50$の使用とImageNet上のラベルの1\%$と10\%$のトレーニングにおいて、新しい最先端のパフォーマンスを68.5\%と7.6\%$で設定する競合する半教師方式よりも優れている。 さらに、選択的なカーネルを使用する場合、SemPPLは、ImageNetで72.3 %$と78.3 %$のトップ-$1$の精度で、それぞれ1\%$と10\%$の精度で、絶対的な$+7.8 %$と$+6.2 %の精度を向上している。 SemPPLはまた、より大きなResNetモデルに対する最先端のパフォーマンス、強力な堅牢性、アウト・オブ・ディストリビューション、転送性能を示している。

Learning from large amounts of unsupervised data and a small amount of supervision is an important open problem in computer vision. We propose a new semi-supervised learning method, Semantic Positives via Pseudo-Labels (SemPPL), that combines labelled and unlabelled data to learn informative representations. Our method extends self-supervised contrastive learning -- where representations are shaped by distinguishing whether two samples represent the same underlying datum (positives) or not (negatives) -- with a novel approach to selecting positives. To enrich the set of positives, we leverage the few existing ground-truth labels to predict the missing ones through a $k$-nearest neighbours classifier by using the learned embeddings of the labelled data. We thus extend the set of positives with datapoints having the same pseudo-label and call these semantic positives. We jointly learn the representation and predict bootstrapped pseudo-labels. This creates a reinforcing cycle. Strong initial representations enable better pseudo-label predictions which then improve the selection of semantic positives and lead to even better representations. SemPPL outperforms competing semi-supervised methods setting new state-of-the-art performance of $68.5\%$ and $76\%$ top-$1$ accuracy when using a ResNet-$50$ and training on $1\%$ and $10\%$ of labels on ImageNet, respectively. Furthermore, when using selective kernels, SemPPL significantly outperforms previous state-of-the-art achieving $72.3\%$ and $78.3\%$ top-$1$ accuracy on ImageNet with $1\%$ and $10\%$ labels, respectively, which improves absolute $+7.8\%$ and $+6.2\%$ over previous work. SemPPL also exhibits state-of-the-art performance over larger ResNet models as well as strong robustness, out-of-distribution and transfer performance.
翻訳日:2023-01-13 13:35:13 公開日:2023-01-12
# Causal Triplet: インターベンション中心のCausal Representation Learningのためのオープンチャレンジ

Causal Triplet: An Open Challenge for Intervention-centric Causal Representation Learning ( http://arxiv.org/abs/2301.05169v1 )

ライセンス: Link先を確認
Yuejiang Liu, Alexandre Alahi, Chris Russell, Max Horn, Dominik Zietlow, Bernhard Sch\"olkopf, Francesco Locatello(参考訳) 近年、介入の下で低レベルの画像ペアから高レベルの因果表現を学ぶことへの関心が高まっている。 しかし、既存の取り組みは、現実世界の問題とは程遠い単純な合成設定に限られている。 本稿では,視覚的により複雑なシーンを特徴とする因果表現学習ベンチマークであるcausal tripletを提案する。 (i)あるオブジェクトレベル変数のみが反事実観察を許すが、他の変数が許さない行為可能な反事実設定 (ii)独立因果機構原理からの分散的ロバスト性を重視した介入的下流課題。 広範な実験を通じて、乱れやオブジェクト中心の表現の知識で構築されたモデルは、分散表現よりも著しく優れていることが分かりました。 しかし、近年の因果表現学習手法は、そのような潜伏構造を特定するのに苦慮しており、今後の仕事のかなりの課題と機会を示している。 私たちのコードとデータセットはhttps://sites.google.com/view/causaltripletで利用可能です。

Recent years have seen a surge of interest in learning high-level causal representations from low-level image pairs under interventions. Yet, existing efforts are largely limited to simple synthetic settings that are far away from real-world problems. In this paper, we present Causal Triplet, a causal representation learning benchmark featuring not only visually more complex scenes, but also two crucial desiderata commonly overlooked in previous works: (i) an actionable counterfactual setting, where only certain object-level variables allow for counterfactual observations whereas others do not; (ii) an interventional downstream task with an emphasis on out-of-distribution robustness from the independent causal mechanisms principle. Through extensive experiments, we find that models built with the knowledge of disentangled or object-centric representations significantly outperform their distributed counterparts. However, recent causal representation learning methods still struggle to identify such latent structures, indicating substantial challenges and opportunities for future work. Our code and datasets will be available at https://sites.google.com/view/causaltriplet.
翻訳日:2023-01-13 13:34:29 公開日:2023-01-12
# なぜニューラルネットワークがこれほど混乱しているのか? ネットワークプルーニングにおける公平性,比較設定,訓練性について

Why is the State of Neural Network Pruning so Confusing? On the Fairness, Comparison Setup, and Trainability in Network Pruning ( http://arxiv.org/abs/2301.05219v1 )

ライセンス: Link先を確認
Huan Wang, Can Qin, Yue Bai, Yun Fu(参考訳) ニューラルネットワークのプルーニング状態は、"標準化されたベンチマークとメトリクスの欠如"が原因で、しばらくの間不明瞭で混乱していたことが指摘されている。 ベンチマークを標準化するには、まず、以下の質問に答える必要がある。 この基本的な重要な質問は、残念ながらコミュニティでほとんど明確化されていない。 一方,いくつかの論文では,プルーニング実験において(ほぼ)準最適ハイパーパラメータを用いたが,その背後にある理由も不明である。 これらの準最適ハイパーパラメータは歪んだベンチマークをさらに悪化させ、ニューラルネットワークのプルーニング状態はさらに曖昧になる。 プルーニングにおける2つの謎は、より大きな微調整学習率による性能ブースティング効果と、フィルタープルーニングにおける事前訓練された重みを継承する価値のない議論である。 本研究では,2つの謎を解き明かすことにより,ネットワークプルーニングの混乱状態を説明する。 具体的には,(1)プルーニング実験における公正性原理を明確にし,広く利用されている比較設定を要約し,(2)2つのプルーニングミステリーを公表し,これまでよく認識されていなかったネットワークトレーサビリティの中心的役割を指摘し,(3)最後に論文を締めくくり,今後のプルーニングベンチマークの校正方法について具体的な提案を行う。 コード: https://github.com/mingsun-tse/why-the-state-of-pruning-so-confusing。

The state of neural network pruning has been noticed to be unclear and even confusing for a while, largely due to "a lack of standardized benchmarks and metrics" [3]. To standardize benchmarks, first, we need to answer: what kind of comparison setup is considered fair? This basic yet crucial question has barely been clarified in the community, unfortunately. Meanwhile, we observe several papers have used (severely) sub-optimal hyper-parameters in pruning experiments, while the reason behind them is also elusive. These sub-optimal hyper-parameters further exacerbate the distorted benchmarks, rendering the state of neural network pruning even more obscure. Two mysteries in pruning represent such a confusing status: the performance-boosting effect of a larger finetuning learning rate, and the no-value argument of inheriting pretrained weights in filter pruning. In this work, we attempt to explain the confusing state of network pruning by demystifying the two mysteries. Specifically, (1) we first clarify the fairness principle in pruning experiments and summarize the widely-used comparison setups; (2) then we unveil the two pruning mysteries and point out the central role of network trainability, which has not been well recognized so far; (3) finally, we conclude the paper and give some concrete suggestions regarding how to calibrate the pruning benchmarks in the future. Code: https://github.com/mingsun-tse/why-the-state-of-pruning-so-confusing.
翻訳日:2023-01-13 13:34:11 公開日:2023-01-12
# スライスワッサースタイン点雲再構成のための自己注意補正分布投影最適化

Self-Attention Amortized Distributional Projection Optimization for Sliced Wasserstein Point-Cloud Reconstruction ( http://arxiv.org/abs/2301.04791v1 )

ライセンス: Link先を確認
Khai Nguyen and Dang Nguyen and Nhat Ho(参考訳) マックススライスワッサースタイン距離(max sliced wasserstein distance)は、スライスワッサースタイン距離(sw)の冗長射影の解として広く知られている。 様々な確率測度の独立対を持つアプリケーションでは、不定形射影最適化を用いて、2つの入力測度に与えられた「最大」射影方向を複数回投影する代わりに予測する。 効率的であるにもかかわらず、現在のフレームワークの第一の問題は、置換不変性および対称性特性の違反である。 この問題に対処するため,我々は自己追従アーキテクチャに基づく償却モデルの設計を提案する。 さらに,効率的な自己対応アーキテクチャを採用し,サポート数で計算を線形にする。 第二に、Max-SWとその償却バージョンは、投影された勾配上昇と償却ギャップの準最適性により、計量性を保証することができない。 そこで我々は,Max-SWを分布スライスしたワッサーシュタイン距離に置き換え,von Mises-Fisher (vMF) 投影分布 (v-DSW) に置き換えることを提案する。 v-DSW は任意の非退化 vMF 分布を持つ計量であるため、その補正版は最良の微分射影分布を予測するときの計量性を保証することができる。 この2つの改良により,自己アテンションによる分布射影最適化を導出し,ポイントクラウド再構築および下流アプリケーションにおけるその魅力的な性能を示す。

Max sliced Wasserstein (Max-SW) distance has been widely known as a solution for redundant projections of sliced Wasserstein (SW) distance. In applications that have various independent pairs of probability measures, amortized projection optimization is utilized to predict the ``max" projecting directions given two input measures instead of using projected gradient ascent multiple times. Despite being efficient, the first issue of the current framework is the violation of permutation invariance property and symmetry property. To address the issue, we propose to design amortized models based on self-attention architecture. Moreover, we adopt efficient self-attention architectures to make the computation linear in the number of supports. Secondly, Max-SW and its amortized version cannot guarantee metricity property due to the sub-optimality of the projected gradient ascent and the amortization gap. Therefore, we propose to replace Max-SW with distributional sliced Wasserstein distance with von Mises-Fisher (vMF) projecting distribution (v-DSW). Since v-DSW is a metric with any non-degenerate vMF distribution, its amortized version can guarantee the metricity when predicting the best discriminate projecting distribution. With the two improvements, we derive self-attention amortized distributional projection optimization and show its appealing performance in point-cloud reconstruction and its downstream applications.
翻訳日:2023-01-13 13:33:41 公開日:2023-01-12
# 対人会話における係り合いと会話関係を記憶する学習

Learning to Memorize Entailment and Discourse Relations for Persona-Consistent Dialogues ( http://arxiv.org/abs/2301.04871v1 )

ライセンス: Link先を確認
Ruijun Chen, Jin Wang, Liang-Chih Yu and Xuejie Zhang(参考訳) 対話システムでは、エンゲージメントと一貫性を維持することが特に重要である。 既存の作業は、高度ネットワーク構造を持つ対話者ペルソナを意図的に学習することで、対話システムの性能を改善した。 このアプローチの1つの問題は、アノテーションがより個人的なコーパスを必要とすることである。 さらに、これらのモデルは通常、応答を生成するために次の発話予測を実行するが、会話全体における会話の一貫性を無視する。 これらの問題に対処するため,本研究は,対人関係を包含する対話課題を記憶するための学習手法を提案する。 自然言語推論データセットにおける係り受けテキスト対を適用し,前提対韻律生成タスクによる外部記憶としての潜伏係り受け関係を学習した。 また,対話中の談話情報には,類似したアーキテクチャを持つ内部記憶が適用された。 これら2つのメモリ空間に直交性制限を課すことで、潜在的な包含関係は対話に依存しないままとなる。 両者の記憶は、世代のための細部と談話表現を得るために協力し、一貫性と一貫性の両方をより深く理解する。 PersonaChat と DSTC7-AVSD の2つの大規模公開データセット実験により,提案手法の有効性が示された。 自動評価と人的評価はともに,提案モデルがペルソナ一貫性と応答コヒーレンスの両方において,いくつかの強いベースラインを上回っていることを示している。 ソースコードはhttps://github.com/chenrj233/lmedrで入手できます。

Maintaining engagement and consistency is particularly important in dialogue systems. Existing works have improved the performance of dialogue systems by intentionally learning interlocutor personas with sophisticated network structures. One issue with this approach is that it requires more personal corpora with annotations. Additionally, these models typically perform the next utterance prediction to generate a response but neglect the discourse coherence in the entire conversation. To address these issues, this study proposes a method of learning to memorize entailment and discourse relations for persona-consistent dialogue tasks. Entailment text pairs in natural language inference dataset were applied to learn latent entailment relations as external memories by premise-to-hypothesis generation task. Furthermore, an internal memory with a similar architecture was applied to the discourse information in the dialogue. Placing orthogonality restrictions on these two memory spaces ensures that the latent entailment relations remain dialogue-independent. Both memories collaborate to obtain entailment and discourse representation for the generation, allowing a deeper understanding of both consistency and coherence. Experiments on two large public datasets, PersonaChat and DSTC7-AVSD, demonstrated the effectiveness of the proposed method. Both automatic and human evaluations indicate that the proposed model outperforms several strong baselines in terms of both persona consistency and response coherence. Our source code is available at https://github.com/Chenrj233/LMEDR.
翻訳日:2023-01-13 13:32:45 公開日:2023-01-12
# 不均一環境における進化型オートMLの計算性能の向上

Improvement of Computational Performance of Evolutionary AutoML in a Heterogeneous Environment ( http://arxiv.org/abs/2301.05102v1 )

ライセンス: Link先を確認
Nikolay O. Nikitin, Sergey Teryoshkin, Valerii Pokrovskii, Sergey Pakulin, Denis Nasonov(参考訳) リソース集約型計算は、自動機械学習ソリューションの有効性を制限する主要な要因である。 本稿では,グラフベースの構造を持つパイプラインのモデリングにおける進化的最適化の質を向上させるためのモジュラーアプローチを提案する。 並列化、キャッシング、評価といったいくつかの段階から成り立っている。 異種リソースやリモートリソースは評価段階に含めることができる。 実験により,提案手法の正確性と有効性を確認した。 実装されたアルゴリズムは、オープンソースフレームワークFEDOTの一部として利用可能である。

Resource-intensive computations are a major factor that limits the effectiveness of automated machine learning solutions. In the paper, we propose a modular approach that can be used to increase the quality of evolutionary optimization for modelling pipelines with a graph-based structure. It consists of several stages - parallelization, caching and evaluation. Heterogeneous and remote resources can be involved in the evaluation stage. The conducted experiments confirm the correctness and effectiveness of the proposed approach. The implemented algorithms are available as a part of the open-source framework FEDOT.
翻訳日:2023-01-13 13:32:25 公開日:2023-01-12
# slidevqa: 複数の画像に対する視覚的質問応答を文書化するデータセット

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images ( http://arxiv.org/abs/2301.04883v1 )

ライセンス: Link先を確認
Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi Saito, Kuniko Saito(参考訳) 近年,文書VQAと呼ばれるテキスト情報,視覚情報,レイアウト情報を含む文書画像に対する視覚的質問応答が注目されている。 文書VQAシステムを開発するために多くのデータセットが提案されているが、既存のデータセットのほとんどは、単一の画像内のコンテンツ関係を理解し、複数の画像にまたがるものではない。 本研究では,52k以上のスライド画像とスライドデッキに関する14.5kの質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 SlideVQAは、単一ホップ、マルチホップ、数値推論を含む複雑な推論を必要とし、数値推論の能力を高めるために、数値解の注釈付き算術表現を提供する。 さらに,証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で処理する文書VQAモデルを開発した。 SlideVQAの実験では、我々のモデルは既存の最先端QAモデルよりも優れていますが、人間のパフォーマンスに大きなギャップがあることが示されています。 われわれのデータセットは文書VQAの研究を促進するだろう。

Visual question answering on document images that contain textual, visual, and layout information, called document VQA, has received much attention recently. Although many datasets have been proposed for developing document VQA systems, most of the existing datasets focus on understanding the content relationships within a single image and not across multiple images. In this study, we propose a new multi-image document VQA dataset, SlideVQA, containing 2.6k+ slide decks composed of 52k+ slide images and 14.5k questions about a slide deck. SlideVQA requires complex reasoning, including single-hop, multi-hop, and numerical reasoning, and also provides annotated arithmetic expressions of numerical answers for enhancing the ability of numerical reasoning. Moreover, we developed a new end-to-end document VQA model that treats evidence selection and question answering in a unified sequence-to-sequence format. Experiments on SlideVQA show that our model outperformed existing state-of-the-art QA models, but that it still has a large gap behind human performance. We believe that our dataset will facilitate research on document VQA.
翻訳日:2023-01-13 13:32:19 公開日:2023-01-12
# スピン量子ビット環境における深層学習によるノイズスペクトロスコピー

Deep learning enhanced noise spectroscopy of a spin qubit environment ( http://arxiv.org/abs/2301.05079v1 )

ライセンス: Link先を確認
Stefano Martina, Santiago Hern\'andez-G\'omez, Stefano Gherardini, Filippo Caruso, Nicole Fabbri(参考訳) 量子系と環境との望ましくない相互作用は、一般に時間における重ね合わせ状態のコヒーレンス崩壊を引き起こす。 環境によって引き起こされる雑音のスペクトル成分の正確な知識は、量子ビットコヒーレンスを保護し、量子デバイス応用におけるその雇用を最適化するために重要である。 本研究では, ダイヤモンド中の窒素空孔(nv)中心付近の炭素不純物のアンサンブルを特徴付けるパワースペクトル密度を再構成することにより, ニューラルネットワークの利用によりノイズスペクトルの精度が高まることを実験的に示す。 ニューラルネットワークは、異なるカーパーセル配列のnv中心のスピンコヒーレンス関数に基づいて訓練され、典型的には動的デカップリング(dd)に用いられる。 その結果, 標準ddノイズスペクトロメトリー法よりも, はるかに少ないdd系列を必要とすることで, 深層学習モデルの方が精度が高いことが判明した。

The undesired interaction of a quantum system with its environment generally leads to a coherence decay of superposition states in time. A precise knowledge of the spectral content of the noise induced by the environment is crucial to protect qubit coherence and optimize its employment in quantum device applications. We experimentally show that the use of neural networks can highly increase the accuracy of noise spectroscopy, by reconstructing the power spectral density that characterizes an ensemble of carbon impurities around a nitrogen-vacancy (NV) center in diamond. Neural networks are trained over spin coherence functions of the NV center subjected to different Carr-Purcell sequences, typically used for dynamical decoupling (DD). As a result, we determine that deep learning models can be more accurate than standard DD noise-spectroscopy techniques, by requiring at the same time a much smaller number of DD sequences.
翻訳日:2023-01-13 13:25:11 公開日:2023-01-12
# 知識に基づく視覚推論のための視覚と言語モデル間の対話的プロンプト

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning ( http://arxiv.org/abs/2301.05226v1 )

ライセンス: Link先を確認
Zhenfang Chen, Qinhong Zhou, Yikang Shen, Yining Hong, Hao Zhang, Chuang Gan(参考訳) 大きな事前訓練されたビジョンと言語モデルは、様々なタスクに顕著な能力を示している。 しかし、知識に基づく視覚的推論課題の解決は依然として困難であり、画像コンテンツを包括的に理解し、外部の知識を結びつけ、質問に正しく答えるためにステップバイステップの推論を行うモデルが必要である。 そこで本研究では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 ipvrには see, think, confirmedという3つのステージがある。 seeステージは画像をスキャンし、視覚知覚モデルを用いて視覚概念候補を根拠とする。 シンクステージは、学習済みの大規模言語モデル(LLM)を採用し、候補から重要な概念を適応的に受け入れる。 その後、それらをテキストコンテキストに変換して、視覚的なキャプションモデルでプロンプトし、LLMを採用して回答を生成する。 確認段階はさらに、LCMを使用して回答に対する支持的論理を生成し、生成した論理をクロスモダリティ分類器で検証し、予測された出力を一貫して推測できるようにする。 知識に基づく視覚推論データセットについて実験を行った。 IPVRにはいくつかのメリットがあります。 以前のマイナショット学習ベースラインよりも優れたパフォーマンスを実現している。 各推論ステップの根拠を提供することで、推論プロセス全体の完全な透明性と信頼性を享受する。 他の微調整ベースラインと比べて計算効率が良い。

Large pre-trained vision and language models have demonstrated remarkable capacities for various tasks. However, solving the knowledge-based visual reasoning tasks remains challenging, which requires a model to comprehensively understand image content, connect the external world knowledge, and perform step-by-step reasoning to answer the questions correctly. To this end, we propose a novel framework named Interactive Prompting Visual Reasoner (IPVR) for few-shot knowledge-based visual reasoning. IPVR contains three stages, see, think and confirm. The see stage scans the image and grounds the visual concept candidates with a visual perception model. The think stage adopts a pre-trained large language model (LLM) to attend to the key concepts from candidates adaptively. It then transforms them into text context for prompting with a visual captioning model and adopts the LLM to generate the answer. The confirm stage further uses the LLM to generate the supporting rationale to the answer, verify the generated rationale with a cross-modality classifier and ensure that the rationale can infer the predicted output consistently. We conduct experiments on a range of knowledge-based visual reasoning datasets. We found our IPVR enjoys several benefits, 1). it achieves better performance than the previous few-shot learning baselines; 2). it enjoys the total transparency and trustworthiness of the whole reasoning process by providing rationales for each reasoning step; 3). it is computation-efficient compared with other fine-tuning baselines.
翻訳日:2023-01-13 13:24:55 公開日:2023-01-12
# 量子強化学習の非同期学習

Asynchronous training of quantum reinforcement learning ( http://arxiv.org/abs/2301.05096v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen(参考訳) 量子機械学習(QML)の開発は、最近、量子コンピューティング(QC)と機械学習(ML)の両方の発展により、多くの関心を集めている。 逐次的な意思決定問題に対処するために使用できるMLパラダイムの1つは強化学習(RL)である。 古典的RLが多くの困難なタスクを完遂できることが証明されている。 量子RLエージェントを構築する主要な方法は、変分量子回路(VQC)に依存する。 しかし、QRLアルゴリズムをVQCで訓練するにはかなりの量の計算資源が必要である。 この問題は様々なqrlアプリケーションの探索を妨げている。 本稿では,QRLエージェントを非同期トレーニングすることで,この問題に対処する。 具体的には,アクター批判型変動量子ポリシーの非同期トレーニングを選択する。 我々は,qrlエージェントの非同期学習が,類似したモデルサイズとアーキテクチャを持つ従来のエージェントに匹敵する性能あるいは優れていることを示す数値シミュレーションにより,結果を示す。

The development of quantum machine learning (QML) has received a lot of interest recently thanks to developments in both quantum computing (QC) and machine learning (ML). One of the ML paradigms that can be utilized to address challenging sequential decision-making issues is reinforcement learning (RL). It has been demonstrated that classical RL can successfully complete many difficult tasks. A leading method of building quantum RL agents relies on the variational quantum circuits (VQC). However, training QRL algorithms with VQCs requires significant amount of computational resources. This issue hurdles the exploration of various QRL applications. In this paper, we approach this challenge through asynchronous training QRL agents. Specifically, we choose the asynchronous training of advantage actor-critic variational quantum policies. We demonstrate the results via numerical simulations that within the tasks considered, the asynchronous training of QRL agents can reach performance comparable to or superior than classical agents with similar model sizes and architectures.
翻訳日:2023-01-13 13:24:34 公開日:2023-01-12
# フランス語のエンティティ認識に対する逆適応

Adversarial Adaptation for French Named Entity Recognition ( http://arxiv.org/abs/2301.05220v1 )

ライセンス: Link先を確認
Arjun Choudhry, Inder Khatri, Pankaj Gupta, Aaryan Gupta, Maxime Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma(参考訳) 名前付きエンティティ認識(NER)は、大規模テキスト中の名前付きエンティティを事前に定義されたクラスに識別し分類するタスクである。 フランス語や他の比較的限られたソース言語におけるNERは、大きくて堅牢なデータセットの不足のため、英語のような言語に提案されたアプローチの恩恵を受けることができない。 本稿では,この大規模ラベル付きデータセットの影響を軽減することを目的とした研究について述べる。 本稿では, 類似領域や一般コーパスに対する逆適応を用いて, 特徴抽出を改善し, より一般化できるトランスフォーマーベースNERアプローチを提案する。 このアプローチでは、同一ドメインや混合ドメインから大規模未ラベルコーパスを使用してより良い機能を学び、トレーニング中により多くのバリエーションを導入し、オーバーフィッティングを減らすことができる。 3つのラベル付きデータセットの実験結果から,我々の適応フレームワークはトランスフォーマーモデル,ソースデータセット,ターゲットコーパスの組み合わせにおいて,対応する非適応モデルよりも優れていた。 また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。

Named Entity Recognition (NER) is the task of identifying and classifying named entities in large-scale texts into predefined classes. NER in French and other relatively limited-resource languages cannot always benefit from approaches proposed for languages like English due to a dearth of large, robust datasets. In this paper, we present our work that aims to mitigate the effects of this dearth of large, labeled datasets. We propose a Transformer-based NER approach for French, using adversarial adaptation to similar domain or general corpora to improve feature extraction and enable better generalization. Our approach allows learning better features using large-scale unlabeled corpora from the same domain or mixed domains to introduce more variations during training and reduce overfitting. Experimental results on three labeled datasets show that our adaptation framework outperforms the corresponding non-adaptive models for various combinations of Transformer models, source datasets, and target corpora. We also show that adversarial adaptation to large-scale unlabeled corpora can help mitigate the performance dip incurred on using Transformer models pre-trained on smaller corpora.
翻訳日:2023-01-13 13:24:20 公開日:2023-01-12
# マルチモーダルディープラーニング

Multimodal Deep Learning ( http://arxiv.org/abs/2301.04856v1 )

ライセンス: Link先を確認
Cem Akkus, Luyang Chu, Vladana Djakovic, Steffen Jauch-Walser, Philipp Koch, Giacomo Loss, Christopher Marquardt, Marco Moldovan, Nadja Sauter, Maximilian Schneider, Rickmer Schulte, Karol Urbanczyk, Jann Goschenhofer, Christian Heumann, Rasmus Hvingelby, Daniel Schalk, Matthias A{\ss}enmacher(参考訳) この本は,Deep Learningの2つのサブフィールドにおける現在最先端のアプローチから始まる,マルチモーダルなアプローチをレビューし,現場をしっかりと概観しようとしたセミナーの結果である。 さらに、一方のモダリティが他方に変換されるようなモデリングフレームワークや、他方のモダリティが他方のモダリティを表現学習に活用するモデルについても論じる。 第2部では、両方のモダリティを同時に扱うことに焦点を当てたアーキテクチャを紹介する。 最後に、他のモダリティや汎用マルチモーダルモデルについても取り上げ、単一の統一アーキテクチャ内で異なるモダリティ上の異なるタスクを処理できる。 興味深いアプリケーション(Generative Art)が最終的にこのブックレットを終了する。

This book is the result of a seminar in which we reviewed multimodal approaches and attempted to create a solid overview of the field, starting with the current state-of-the-art approaches in the two subfields of Deep Learning individually. Further, modeling frameworks are discussed where one modality is transformed into the other, as well as models in which one modality is utilized to enhance representation learning for the other. To conclude the second part, architectures with a focus on handling both modalities simultaneously are introduced. Finally, we also cover other modalities as well as general-purpose multi-modal models, which are able to handle different tasks on different modalities within one unified architecture. One interesting application (Generative Art) eventually caps off this booklet.
翻訳日:2023-01-13 13:24:02 公開日:2023-01-12
# Tracr: 解釈可能性研究所としてのコンパイルトランス

Tracr: Compiled Transformers as a Laboratory for Interpretability ( http://arxiv.org/abs/2301.05062v1 )

ライセンス: Link先を確認
David Lindner and J\'anos Kram\'ar and Matthew Rahtz and Thomas McGrath and Vladimir Mikulik(参考訳) 解釈可能性の研究は、機械学習(ML)モデルを理解するためのツールを構築することを目的としている。 しかし、このようなツールは本質的に評価が難しい。なぜなら、私たちはMLモデルが実際にどのように機能するかに関する基礎的な真実情報を持っていないからです。 本研究では,解釈可能性研究のためのテストベッドとして手動でトランスフォーマーモデルを構築することを提案する。 本稿では,人間の可読プログラムをトランスフォーマーモデルの重みに翻訳する "コンパイラ" である tracr を紹介する。 Tracrはドメイン固有の言語であるRASP(Weiss et al. 2021)で書かれたコードを、標準のデコーダのみのGPTライクなトランスフォーマーアーキテクチャの重みに翻訳する。 Tracrを使って、トークンの周波数、ソート、Dyck-nの括弧チェックなどのプログラムを実装する、さまざまな真理変換器を作成します。 幅広い研究コミュニティがコンパイルされたモデルの探索と使用を可能にするために、我々はtracrのオープンソース実装をhttps://github.com/deepmind/tracrで提供している。

Interpretability research aims to build tools for understanding machine learning (ML) models. However, such tools are inherently hard to evaluate because we do not have ground truth information about how ML models actually work. In this work, we propose to build transformer models manually as a testbed for interpretability research. We introduce Tracr, a "compiler" for translating human-readable programs into weights of a transformer model. Tracr takes code written in RASP, a domain-specific language (Weiss et al. 2021), and translates it into weights for a standard, decoder-only, GPT-like transformer architecture. We use Tracr to create a range of ground truth transformers that implement programs including computing token frequencies, sorting, and Dyck-n parenthesis checking, among others. To enable the broader research community to explore and use compiled models, we provide an open-source implementation of Tracr at https://github.com/deepmind/tracr.
翻訳日:2023-01-13 13:23:49 公開日:2023-01-12
# 拡散生成前のトンプソンサンプリング

Thompson Sampling with Diffusion Generative Prior ( http://arxiv.org/abs/2301.05182v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton, Patrick Bl\"obaum(参考訳) 本研究は,オンライン意思決定問題の事前学習に拡散モデルを用いた手法を導入する。 我々は,同クラスのバンドイットタスクに対して,優れた戦略を学習することを目的とした,バンドイットフレームワークのメタラーニングに重点を置いている。 そこで我々は,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを訓練する。 後者のサンプリングアルゴリズムは,学習者と環境との相互作用から生じる騒音観測とを慎重にバランスさせるように設計されている。 また,現実的なバンディットシナリオを捉えるために,不完全データやノイズデータからトレーニングを行う新たな拡散モデルトレーニング手法を提案する。 最後に,提案手法の可能性を明確に実証する実験を行った。

In this work, we initiate the idea of using denoising diffusion models to learn priors for online decision making problems. Our special focus is on the meta-learning for bandit framework, with the goal of learning a strategy that performs well across bandit tasks of a same class. To this end, we train a diffusion model that learns the underlying task distribution and combine Thompson sampling with the learned prior to deal with new tasks at test time. Our posterior sampling algorithm is designed to carefully balance between the learned prior and the noisy observations that come from the learner's interaction with the environment. To capture realistic bandit scenarios, we also propose a novel diffusion model training procedure that trains even from incomplete and/or noisy data, which could be of independent interest. Finally, our extensive experimental evaluations clearly demonstrate the potential of the proposed approach.
翻訳日:2023-01-13 13:23:28 公開日:2023-01-12