このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230224となっている論文です。

PDF登録状況(公開日: 20230224)

TitleAuthorsAbstract論文公表日・翻訳日
# クラウドコンピューティングにおける不確実性を考慮したワークロード予測

Uncertainty-Aware Workload Prediction in Cloud Computing ( http://arxiv.org/abs/2303.13525v1 )

ライセンス: Link先を確認
Andrea Rossi and Andrea Visentin and Steven Prestwich and Kenneth N. Brown(参考訳) クラウドコンピューティングにおける将来のリソース需要を予測することは、クラウドデータセンタを管理し、顧客に最小品質のサービス(QoS)レベルを保証するために不可欠である。 将来の需要の不確実性のモデル化は予測の品質を改善し、過割による無駄を減らす。 本稿では,将来の資源需要の分布とその不確実性を予測するために,ベイズ深層学習モデルを提案する。 我々はこれらのモデルをトレーニングするための異なるトレーニングシナリオを設計し、各手順は、複数のデータセット設定に対する事前トレーニングと微調整のステップの異なる組み合わせである。 また,2変量モデルと1つ以上のデータセットとの無変量学習を比較し,予測の精度とqosへの影響について検討した。 最後に,モデルが伝達学習能力を持つかどうかを検討する。 大規模な実験では、複数のデータセットによる事前トレーニングによってパフォーマンスが向上する一方で、微調整は行われない。 私たちのモデルは、関連するが未熟な時系列をうまく一般化し、転送学習能力を証明する。 実行時のパフォーマンス分析は、モデルが現実世界のアプリケーションにデプロイ可能であることを示している。 本研究では,実世界の痕跡から得られた12のデータセットを,一貫した,詳細な方法で前処理し,この分野の研究を促進する。

Predicting future resource demand in Cloud Computing is essential for managing Cloud data centres and guaranteeing customers a minimum Quality of Service (QoS) level. Modelling the uncertainty of future demand improves the quality of the prediction and reduces the waste due to overallocation. In this paper, we propose univariate and bivariate Bayesian deep learning models to predict the distribution of future resource demand and its uncertainty. We design different training scenarios to train these models, where each procedure is a different combination of pretraining and fine-tuning steps on multiple datasets configurations. We also compare the bivariate model to its univariate counterpart training with one or more datasets to investigate how different components affect the accuracy of the prediction and impact the QoS. Finally, we investigate whether our models have transfer learning capabilities. Extensive experiments show that pretraining with multiple datasets boosts performances while fine-tuning does not. Our models generalise well on related but unseen time series, proving transfer learning capabilities. Runtime performance analysis shows that the models are deployable in real-world applications. For this study, we preprocessed twelve datasets from real-world traces in a consistent and detailed way and made them available to facilitate the research in this field.
翻訳日:2023-03-31 16:35:46 公開日:2023-02-24
# スターコンベックス関数の最小化と超越化のための準最適手法

Near-Optimal Methods for Minimizing Star-Convex Functions and Beyond ( http://arxiv.org/abs/1906.11985v3 )

ライセンス: Link先を確認
Oliver Hinder and Aaron Sidford and Nimit S. Sohoni(参考訳) 本稿では,全直線に厳密なユニモーダルな滑らかな非凸関数の広いクラスを最小化するための近似最適加速度一階法を提案する。 この函数クラスは滑らかな準凸函数のクラスと呼ばれ、定数 $\gamma \in (0,1]$ でパラメータ化され、$\gamma = 1$ は滑らかな凸函数と星-凸函数のクラスを包含し、$\gamma$ の小さい値は函数が「より非凸」であることを示している。 我々は,最大$o(\gamma^{-1} \epsilon^{-1/2} \log(\gamma^{-1} \epsilon^{-1}))$の全関数と勾配評価の滑らかな$\gamma$-quasar-convex関数の$\epsilon$-approximate minimumrを計算する,加速度勾配降下の変種を開発した。 また、決定論的一階法が要求する勾配評価の最悪のケース数に対して、$\Omega(\gamma^{-1} \epsilon^{-1/2})$の低い境界を導出し、対数係数まで、決定論的一階法は改善できないことを示す。

In this paper, we provide near-optimal accelerated first-order methods for minimizing a broad class of smooth nonconvex functions that are strictly unimodal on all lines through a minimizer. This function class, which we call the class of smooth quasar-convex functions, is parameterized by a constant $\gamma \in (0,1]$, where $\gamma = 1$ encompasses the classes of smooth convex and star-convex functions, and smaller values of $\gamma$ indicate that the function can be "more nonconvex." We develop a variant of accelerated gradient descent that computes an $\epsilon$-approximate minimizer of a smooth $\gamma$-quasar-convex function with at most $O(\gamma^{-1} \epsilon^{-1/2} \log(\gamma^{-1} \epsilon^{-1}))$ total function and gradient evaluations. We also derive a lower bound of $\Omega(\gamma^{-1} \epsilon^{-1/2})$ on the worst-case number of gradient evaluations required by any deterministic first-order method, showing that, up to a logarithmic factor, no deterministic first-order method can improve upon ours.
翻訳日:2023-03-25 04:33:34 公開日:2023-02-24
# 超放射の時間反転による超吸収の実現

Realization of superabsorption by time reversal of superradiance ( http://arxiv.org/abs/1906.06477v2 )

ライセンス: Link先を確認
Daeho Yang, Seung-hoon Oh, Junseok Han, Gibeom Son, Jinuk Kim, Junki Kim, Moonjoo Lee and Kyungwon An(参考訳) 光の放出と吸収は光-物質相互作用の中心にある。 放出と吸収速度は原子や分子の固有の性質と見なされているが、量子情報処理、気象学、光エネルギー収穫など、様々な方法でこれらの速度を変更する方法が求められている。 有望なアプローチの1つは、superradiance5と同様にエミッターの集団的な振る舞いを利用することである。 様々な系で超放射光が観測されているが、吸収における概念的な相似性はこれまでになく実現されている。 本稿では,超高輝度の時間反転プロセスを実現することで,協調吸収の強化を実証する。 観察された超吸収速度は通常の吸収よりもはるかに高く、吸収された光子の数は原子数の二乗に拡大し、超吸収の協調性を示す。 現在の超吸収 - 従来の吸収の限界を超える - は弱信号センシング、光エネルギー収穫、光マッター量子界面を促進できる

Emission and absorption of light lie at the heart of light-matter interaction. Although emission and absorption rates are regarded as intrinsic properties of atoms and molecules, various ways to modify these rates have been sought in applications such as quantum information processing, metrology and light-energy harvesting. One promising approach is to utilize collective behaviour of emitters in the same way as in superradiance5. Although superradiance has been observed in diverse systems, its conceptual counterpart in absorption has never been realized11 until now. Here we demonstrate enhanced cooperative absorption - superabsorption - by implementing a time-reversal process of superradiance. The observed superabsorption rate is much higher than that of ordinary absorption, with the number of absorbed photons scaling with the square of the number of atoms, exhibiting the cooperative nature of superabsorption. The present superabsorption - which performs beyond the limitations of conventional absorption - can facilitate weak-signal sensing, light-energy harvesting and light-matter quantum interfaces
翻訳日:2023-03-25 04:32:28 公開日:2023-02-24
# キャビティ・マグノメカニクスシステムにおけるエンタングルメントと非対称ステアリングの完全移動

Perfect Transfer of enhanced entanglement and asymmetric steering in a cavity magnomechanical system ( http://arxiv.org/abs/2011.13515v2 )

ライセンス: Link先を確認
Yao-Tong Chen, Lei Du, Yan Zhang, Jin-Hui Wu(参考訳) 本研究では,バイパルタイトエンタングルメントとアインシュタイン・ポドルスキー・ローゼン(EPR)ステアリングをマグノン,光子,フォノン間で実現するハイブリッドキャビティマグノメカニクスシステムを提案する。 自然磁歪マグノン-フォノン相互作用を示すパリティ時間対称的な構造として、我々のパッシブアクティブキャビティシステムは、強固な遠方量子エンタングルメントを強化し、2つのエンタングル状態間の双方向局所測定の高度に非対称な信頼を持つタスクに有用である比較的明白な非対称(偶方向)eprステアリングを生成するために研究することができる。 このような調整可能なマグノメカニカルシステムに基づいて、結合パラメータを調整することで、近距離および遠距離の絡み合いと異なるモードペアのステアリング間の完全移動を実現すること、特に、ステアリングの完全移動スキームを提案することには大きな関心がある。 これらの転送プロセスは、量子情報保存と操作の代替手段となることを示唆している。 さらに、アンタングルメントとステアリングは、異なるモード間のデチューンを調整することで、異なるモードペア間で交換することもできる。 この研究は、遠方および非対称量子変調の潜在的なプラットフォームを提供するかもしれない。

We propose a hybrid cavity magnomechanical system to realize and transfer the bipartite entanglements and Einstein-Podolsky-Rosen (EPR) steerings between magnons, photons, and phonons in the regime of stability of the system. As a parity-time-symmetric-like structure exhibiting the natural magnetostrictive magnon-phonon interaction, our passive-active cavity system can be explored to enhance the robust distant quantum entanglement and generate the relatively obvious asymmetric (even directional) EPR steering that is useful for the task with the highly asymmetric trusts of the bidirectional local measurements between two entangled states. It is of great interest that, based on such a tunable magnomechanical system, the perfect transfer between near and distant entanglements and steerings of different mode pairs is realized by adjusting the coupling parameters; in particular, we propose a perfect transfer scheme of steerings. These transferring processes suggest indeed an alternative method for quantum information storage and manipulation. In addition, the entanglements and steerings can also be exchanged between different mode pairs by adjusting the detunings between different modes. This work may provide a potential platform for distant and asymmetric quantum modulation.
翻訳日:2023-03-25 04:05:14 公開日:2023-02-24
# 指の視覚的動作解析

Visual motion analysis of the player's finger ( http://arxiv.org/abs/2303.12697v1 )

ライセンス: Link先を確認
Marco Costanzo(参考訳) この研究は、ビデオシーケンスからキーボード奏者の3つの調律で指の動きを抽出することに関するものである。 この問題との関連性にはいくつかの側面があり、実際に指の動きの抽出はキーストロークの効率と個々のジョイントコントリビュートを計算するために用いられ、werner goebl と caroline palmer は論文 "temporal control and hand movement efficiency in skilled music performance" で示した。 これらの措置は、タイミングと力の精度に直接関係している。 ハンドジェスチャ認識問題に対する非常に優れたアプローチが「指分割を用いたリアルタイムハンドジェスチャ認識」という論文で紹介されている。 キーボードで押されたキーを検知することは、結果の品質を低下させ、おそらく押されていないキーを検知する可能性があるため、複雑なタスクである。 既に存在するいくつかのアプローチの中で、それらの多くは、その圧力によって引き起こされるキーの動きを検出するために、フレームの減算に基づいている。 押されたキーを検出することは、ピアニストの演奏を自動的に評価したり、演奏中のメロディの楽譜を自動的に書き込むのに役立つ。

This work is about the extraction of the motion of fingers, in their three articulations, of a keyboard player from a video sequence. The relevance of the problem involves several aspects, in fact, the extraction of the movements of the fingers may be used to compute the keystroke efficiency and individual joint contributions, as showed by Werner Goebl and Caroline Palmer in the paper 'Temporal Control and Hand Movement Efficiency in Skilled Music Performance'. Those measures are directly related to the precision in timing and force measures. A very good approach to the hand gesture recognition problem has been presented in the paper ' Real-Time Hand Gesture Recognition Using Finger Segmentation'. Detecting the keys pressed on a keyboard is a task that can be complex because of the shadows that can degrade the quality of the result and possibly cause the detection of not pressed keys. Among the several approaches that already exist, a great amount of them is based on the subtraction of frames in order to detect the movements of the keys caused by their pressure. Detecting the keys that are pressed could be useful to automatically evaluate the performance of a pianist or to automatically write sheet music of the melody that is being played.
翻訳日:2023-03-25 03:18:53 公開日:2023-02-24
# オンデバイス非教師画像分割

On-Device Unsupervised Image Segmentation ( http://arxiv.org/abs/2303.12753v1 )

ライセンス: Link先を確認
Junhuan Yang, Yi Sheng, Yuzhou Zhang, Weiwen Jiang, Lei Yang(参考訳) 畳み込みニューラルネットワークのブレークスルーとともに、学習に基づくセグメンテーションは多くの研究に現れている。 その多くは教師付き学習に基づいており、多くの注釈付きデータを必要とするが、セグメンテーションをサポートするには各ピクセルのラベルが必要である。 その結果、注釈付きセグメンテーションデータが欠落する問題は一般的に存在する。 継続的学習は、この問題に対処するための有望な方法ですが、それでもアノテーションに対する人間の労働に対する高い要求があります。 さらに、実際のアプリケーションのセグメンテーションデータにはプライバシが極めて必要で、デバイス上での学習がさらに必要になります。 本稿では,この課題を別の方法で解決することを目的としている: 教師付きセグメンテーションの代わりに,エッジデバイス上で実行可能な効率的な教師なしセグメンテーションを開発することを提案する。 我々は,高次元空間に画素がマッピングされた場合,セグメント化によって高い性能が得られることを観察し,セグメント化タスクに脳にインスパイアされた超次元計算(HDC)を初めて導入した。 我々はHDCベースの教師なしセグメンテーションフレームワーク「SegHDC」を構築した。 SegHDCでは,マンハッタン距離に追従する新しい符号化手法を考案した。 さらに、符号化された高次元ベクトル上にクラスタリングアルゴリズムを開発し、セグメンテーション結果を得る。 実験の結果,seghdcはニューラルネットワークに基づく教師なしセグメンテーションを大幅に超えることがわかった。 標準セグメンテーションデータセットであるDSB2018では、SegHDCはIntersection over Union(IoU)スコアが28.0%向上し、Raspberry PIでは300倍以上のスピードアップを実現している。 さらに、bbbc005データセットにある大きな画像では、メモリ不足のため既存のアプローチはraspberry piに対応できない。

Along with the breakthrough of convolutional neural networks, learning-based segmentation has emerged in many research works. Most of them are based on supervised learning, requiring plenty of annotated data; however, to support segmentation, a label for each pixel is required, which is obviously expensive. As a result, the issue of lacking annotated segmentation data commonly exists. Continuous learning is a promising way to deal with this issue; however, it still has high demands on human labor for annotation. What's more, privacy is highly required in segmentation data for real-world applications, which further calls for on-device learning. In this paper, we aim to resolve the above issue in an alternative way: Instead of supervised segmentation, we propose to develop efficient unsupervised segmentation that can be executed on edge devices. Based on our observation that segmentation can obtain high performance when pixels are mapped to a high-dimension space, we for the first time bring brain-inspired hyperdimensional computing (HDC) to the segmentation task. We build the HDC-based unsupervised segmentation framework, namely "SegHDC". In SegHDC, we devise a novel encoding approach that follows the Manhattan distance. A clustering algorithm is further developed on top of the encoded high-dimension vectors to obtain segmentation results. Experimental results show SegHDC can significantly surpass neural network-based unsupervised segmentation. On a standard segmentation dataset, DSB2018, SegHDC can achieve a 28.0% improvement in Intersection over Union (IoU) score; meanwhile, it achieves over 300x speedup on Raspberry PI. What's more, for a larger size image in the BBBC005 dataset, the existing approach cannot be accommodated to Raspberry PI due to out of memory; on the other hand, SegHDC can obtain segmentation results within 3 minutes while achieving a 0.9587 IoU score.
翻訳日:2023-03-25 02:50:54 公開日:2023-02-24
# フェルミ表面異常の定義と分類

Definition and Classification of Fermi Surface Anomalies ( http://arxiv.org/abs/2302.12731v1 )

ライセンス: Link先を確認
Da-Chuan Lu, Juven Wang, Yi-Zhuang You(参考訳) 任意の次元における対称性群$G$のフェルミ曲面異常は、(0+1)$次元時空におけるフェルミオン対称性保護位相(SPT)相によって普遍的に分類される。 この議論はフェルミ面上のギャップのないフェルミオンが位相空間(位置-運動空間)におけるチャーン絶縁体の位相境界モードと見なすことができるという視点に基づいている。 位相空間座標の非可換性を考えると、運動量空間次元は SPT 分類の目的で負の次元としてカウントされるべきである。 したがって、位相空間チャーン絶縁体(またはより一般にフェルミオンSPT相)の分類は、常に$(0+1)$-次元問題に還元され、コボルディズムのアプローチによって答えられる。 本稿では,我々の分類法の有効性を示す具体例と,フェルミ表面対称質量生成の最近の発展とを関連づける。

We propose that the Fermi surface anomaly of symmetry group $G$ in any dimension is universally classified by $G$-symmetric interacting fermionic symmetry-protected topological (SPT) phases in $(0+1)$-dimensional spacetime. The argument is based on the perspective that the gapless fermions on the Fermi surface can be viewed as the topological boundary modes of Chern insulators in the phase space (position-momentum space). Given the non-commutative nature of the phase space coordinates, we show that the momentum space dimensions should be counted as negative dimensions for SPT classification purposes. Therefore, the classification of phase-space Chern insulators (or, more generally fermionic SPT phases) always reduces to a $(0+1)$-dimensional problem, which can then be answered by the cobordism approach. We provide concrete examples to demonstrate the validity of our classification scheme, and make connections to the recent development of Fermi surface symmetric mass generation.
翻訳日:2023-03-19 12:04:22 公開日:2023-02-24
# ネットワークの変調:構造的ネットワーク特性の違いが倉本振動子の大域的同期に与える影響

Networks' modulation: How different structural network properties affect the global synchronization of coupled Kuramoto oscillators ( http://arxiv.org/abs/2303.03099v1 )

ライセンス: Link先を確認
Juliette Courson, Thanos Manos and Mathias Quoy(参考訳) 様々なシステム(生物学的、物理的、社会的など)において、異なる振動物体が互いに相互作用する際にリズムを調整すると同期が発生する。 これらのオブジェクト間の接続性を定義するネットワークは、複雑な方法でグローバルダイナミクスを駆動し、システムのグローバル同期度に影響を与える。 本稿では,内蔵元位相発振器結合系の大域的動的活動における,フリー接続,ランダム,正規リング格子グラフ,スモールワールド,スケールフリーなどのネットワークアーキテクチャの影響について検討する。 我々は、外部刺激パラメータを固定し、異なるノードが刺激を受けると、大域的な同期度を測定する。 これらのノードはランダムに選択されるか、あるいはそれぞれの強弱接続特性(中央性、最短経路長、クラスタリング係数)に基づいて選択される。 我々の主な発見は、スケールフリーおよびランダムネットワークにおいて、固有ベクトル中心性と平均最短経路長に基づく洗練されたノードの選択が、より高い同期性を達成するための体系的な傾向を示すことである。 しかしながら、クラスタリング係数を基準として使用する場合、この傾向は発生しない。 他の種類のグラフについて考えると、刺激されたノードの選択(上記基準をランダムに使用した場合と選択する場合)は顕著な効果がないようである。

In a large variety of systems (biological, physical, social etc.), synchronization occurs when different oscillating objects tune their rhythm when they interact with each other. The different underlying network defining the connectivity properties among these objects drives the global dynamics in a complex fashion and affects the global degree of synchrony of the system. Here we study the impact of such types of different network architectures, such as Fully-Connected, Random, Regular ring lattice graph, Small-World and Scale-Free in the global dynamical activity of a system of coupled Kuramoto phase oscillators. We fix the external stimulation parameters and we measure the global degree of synchrony when different fractions of nodes receive stimulus. These nodes are chosen either randomly or based on their respective strong/weak connectivity properties (centrality, shortest path length and clustering coefficient). Our main finding is, that in Scale-Free and Random networks a sophisticated choice of nodes based on their eigenvector centrality and average shortest path length exhibits a systematic trend in achieving higher degree of synchrony. However, this trend does not occur when using the clustering coefficient as a criterion. For the other types of graphs considered, the choice of the stimulated nodes (randomly vs selectively using the aforementioned criteria) does not seem to have a noticeable effect.
翻訳日:2023-03-12 03:50:03 公開日:2023-02-24
# LaSER: 言語特有のイベントレコメンデーション

LaSER: Language-Specific Event Recommendation ( http://arxiv.org/abs/2303.04712v1 )

ライセンス: Link先を確認
Sara Abdollahi, Simon Gottschalk, Elena Demidova(参考訳) 社会的な出来事は、しばしば世界中の人々に影響を及ぼすが、かなりの数の出来事は、特定の言語コミュニティに主に影響する局所的な焦点を持っている。 例えば、国家選挙、異なる国での新型コロナウイルスのパンデミックの進展、フランスのc\'esar awardsやロシアのモスクワ国際映画祭といった地元の映画祭などがある。 しかし、既存のエンティティレコメンデーションアプローチは、レコメンデーションの言語コンテキストに十分対応していない。 本稿では、言語固有のコンテキストにおけるユーザクエリに関連するイベントを推奨することを目的とした、言語固有のイベントレコメンデーションの新たなタスクを紹介する。 このタスクは、ユーザ情報ニーズの言語コンテキストを考慮して、Webナビゲーションや探索検索などの重要な情報検索活動を支援することができる。 言語固有のイベントレコメンデーションに対する新しいアプローチであるLaSERを提案する。 LaSERは、エンティティとイベントの言語固有の潜在表現(埋め込み)と、学習からランク付けするモデルにおける時空間イベントの特徴をブレンドする。 このモデルは、wikipediaの公開クリックストリームデータに基づいてトレーニングされる。 本研究の結果は,レーザーが推奨イベントの言語固有の関連性について,最大33ポイントのmap@5の推奨基準値を上回ることを示した。

While societal events often impact people worldwide, a significant fraction of events has a local focus that primarily affects specific language communities. Examples include national elections, the development of the Coronavirus pandemic in different countries, and local film festivals such as the C\'esar Awards in France and the Moscow International Film Festival in Russia. However, existing entity recommendation approaches do not sufficiently address the language context of recommendation. This article introduces the novel task of language-specific event recommendation, which aims to recommend events relevant to the user query in the language-specific context. This task can support essential information retrieval activities, including web navigation and exploratory search, considering the language context of user information needs. We propose LaSER, a novel approach toward language-specific event recommendation. LaSER blends the language-specific latent representations (embeddings) of entities and events and spatio-temporal event features in a learning to rank model. This model is trained on publicly available Wikipedia Clickstream data. The results of our user study demonstrate that LaSER outperforms state-of-the-art recommendation baselines by up to 33 percentage points in MAP@5 concerning the language-specific relevance of recommended events.
翻訳日:2023-03-12 03:42:20 公開日:2023-02-24
# 強化学習を用いた不均一エージェントマクロ経済モデルの正規化競合平衡

Finding Regularized Competitive Equilibria of Heterogeneous Agent Macroeconomic Models with Reinforcement Learning ( http://arxiv.org/abs/2303.04833v1 )

ライセンス: Link先を確認
Ruitu Xu, Yifei Min, Tianhao Wang, Zhaoran Wang, Michael I. Jordan, Zhuoran Yang(参考訳) 労働市場で競争する家計や企業を無限に数える異質なエージェントマクロ経済モデルについて検討する。 各世帯は収入を得て、その基盤となる市場条件に照らされた凹凸ユーティリティを最大化しつつ、各段階の消費に従事している。 世帯は、市場状況に応じて割引累積ユーティリティを最大化する最適な貯蓄戦略を見出すとともに、世帯の行動に基づいて企業利益を最大化し、市場状況を決定することを目指している。 本モデルは,マクロ経済学研究における幅広い応用を捉え,モデルの正規化競争均衡を求めるデータ駆動型強化学習フレームワークを提案する。 提案アルゴリズムは,市場均衡を線形以下の速度で収束させる理論的保証を享受する。

We study a heterogeneous agent macroeconomic model with an infinite number of households and firms competing in a labor market. Each household earns income and engages in consumption at each time step while aiming to maximize a concave utility subject to the underlying market conditions. The households aim to find the optimal saving strategy that maximizes their discounted cumulative utility given the market condition, while the firms determine the market conditions through maximizing corporate profit based on the household population behavior. The model captures a wide range of applications in macroeconomic studies, and we propose a data-driven reinforcement learning framework that finds the regularized competitive equilibrium of the model. The proposed algorithm enjoys theoretical guarantees in converging to the equilibrium of the market at a sub-linear rate.
翻訳日:2023-03-12 03:31:42 公開日:2023-02-24
# 部分格子対称性からの量子化および最大絡み合い

Quantized and maximum entanglement from sublattice symmetry ( http://arxiv.org/abs/2112.15177v2 )

ライセンス: Link先を確認
Henrik Wilming and Tobias J. Osborne(参考訳) 準格子対称性を持つ任意の二次フェルミオンハミルトニアンの多体固有状態は、亜格子の間に量子化された絡み合いエントロピーを持つ。 さらに、そのような系は常に2つの部分格子の間で最大に絡み合う基底状態を持つ。 事実、同じ仮定の下では常にエネルギー固有状態の(潜在的に異なる)基底が存在しており、各エネルギー固有状態がサブ格子間で最大に絡み合っている粒子数を保存していないことも示している。 翻訳不変性などの追加的な性質は不要である。 また,相互作用を導入した場合,基底状態の絡み合いの量子化が持続することを示した。

We observe that the many-body eigenstates of any quadratic, fermionic Hamiltonian with sublattice symmetry have quantized entanglement entropies between the sublattices: the entanglement comes in multiple singlets. Moreover, such systems always have a ground state that is maximally entangled between the two sublattices. In fact we also show that under the same assumptions there always exists a (potentially distinct) basis of energy eigenstates that do not conserve the particle number in which each energy eigenstate is maximally entangled between the sublattices. No additional properties, such as translation invariance, are required. We also show that the quantization of ground state entanglement may persist when interactions are introduced.
翻訳日:2023-03-02 21:11:45 公開日:2023-02-24
# 非安定化状態に基づくベル非局所性の決定論的全可逆証明

Deterministic all-versus-nothing proofs of Bell nonlocality based on non-stabilizer states ( http://arxiv.org/abs/2201.01886v2 )

ライセンス: Link先を確認
Weidong Tang(参考訳) ベル非局所性の正反対の証明は、不等式のないベルの定理の主流の証明である。 決定論的全可逆証明(英語版)と確率的全可逆証明(英語版)(probabilistic all-versus-nothing proof)と呼ばれる2種類の証明はどちらも広く研究されている。 今までのところ、ベル非局所性の全ての決定論的全可逆証明は安定化状態に基づいて構築されている。 この伝統を破るために、非安定状態から引き起こされる決定論的な万逆証明が本書で最初に提示される。 これらの結果は、不等式を伴わないベル非局所性の実証の家族を大いに豊かにするだけでなく、ある種の量子情報処理において有用なリソースを提供するかもしれない。

The all-versus-nothing proof of Bell nonlocality is a kind of mainstream demonstration of Bell's theorem without inequalities. Two kinds of such proofs, called the deterministic all-versus-nothing proof and the probabilistic all-versus-nothing proof, are both widely investigated. So far, all previous deterministic all-versus-nothing proofs of Bell nonlocality are constructed based on stabilizer states. To break with this tradition, some deterministic all-versus-nothing proofs induced from non-stabilizer states are firstly presented in this work. These results not only can greatly enrich the family of the demonstration of Bell nonlocality without inequalities, but also may provide us some useful resources in certain quantum information processing.
翻訳日:2023-03-02 03:41:20 公開日:2023-02-24
# 自己教師付き音声表現における音声と話者空間構造

Phone and speaker spatial organization in self-supervised speech representations ( http://arxiv.org/abs/2302.14055v1 )

ライセンス: Link先を確認
Pablo Riera, Manuela Cerdeiro, Leonardo Pepino, Luciana Ferrer(参考訳) 音声の自己教師あり表現は、現在多くのアプリケーションで広く使われている。 近年、これらの表現のそれぞれに存在する情報の種類を分析する試みがなされている。 このような作業のほとんどは、ダウンストリームモデルを使用して、特定のタスクで表現がうまく使えるかどうかをテストする。 しかし、下流モデルは通常、元の表現では利用できなかったかもしれない情報を抽出する表現に対して非線形操作を行う。 本研究では,下流モデルを必要としない手法を用いて,最先端音声表現における電話と話者情報の空間的構成を分析する。 表象類似度解析を用いて,ホルマントやピッチなどの基本音響パラメータを異なる層でエンコードする方法を計測する。 さらに,非パラメトリック統計テストを用いて,各表現が音声サンプルを電話または話者クラスで収集する程度について検討した。 以上の結果から,モデルによる音声特性の表現は,事前学習時の対象課題によって異なることが示唆された。

Self-supervised representations of speech are currently being widely used for a large number of applications. Recently, some efforts have been made in trying to analyze the type of information present in each of these representations. Most such work uses downstream models to test whether the representations can be successfully used for a specific task. The downstream models, though, typically perform nonlinear operations on the representation extracting information that may not have been readily available in the original representation. In this work, we analyze the spatial organization of phone and speaker information in several state-of-the-art speech representations using methods that do not require a downstream model. We measure how different layers encode basic acoustic parameters such as formants and pitch using representation similarity analysis. Further, we study the extent to which each representation clusters the speech samples by phone or speaker classes using non-parametric statistical testing. Our results indicate that models represent these speech attributes differently depending on the target task used during pretraining.
翻訳日:2023-03-01 19:28:08 公開日:2023-02-24
# ホーマーは再びうなずいた。 von neumann による compton-simon 実験の誤読とその誤読

Homer nodded once more. Von Neumann's misreading of the Compton-Simon experiment and its fallout ( http://arxiv.org/abs/2302.14610v1 )

ライセンス: Link先を確認
R. N. Sen(参考訳) フォン・ノイマンは著書『量子力学の数学的基礎』で次のように主張した: コンプトン・サイモンの実験は、状態ベクトルは任意の自己随伴作用素の測定によって崩壊しなければならないことを示した。 フォン・ノイマンの論文とコンプトン・サイモンの論文を比較すると、フォン・ノイマンはこの実験を2つの連続した測定結果(同じ結果となった)からなるものと誤解したのに対し、実験は同じ写真板上の2つの角度しか測定しなかった。 しかし、状態ベクトルは加法保存量の測定によって崩壊しなければならず、さもないと保存則に違反する可能性があることに注意されたい。 次に、崩壊を説明する数学的問題は、装置の性質が特定されるまで完全には定義されないことがわかった。 もしこの装置が「古典的記述」を持っていなければ、その問題は、たとえ測定値が近似的であるとしても(Fine, Simony, Brown, Simony, Busch)不溶であるが、そうであるなら、加法的に保存された可観測物に対してシュレーディンガー力学(時間依存ハミルトニアンを含む)の中で可溶である。 この解はセウェルの修正であり、状態ベクトルが崩壊したことを示しているが、崩壊した状態の固有値は明らかにしない。 崩壊は不可逆であり、量子測定の仮定と加法保存則の相互作用によって生じる。 実際、ウィグナーが述べたように、量子測定問題は、両者が互いに互換性があることを確立する問題として理解され、実際の測定とはほとんど関係がない。

In his book `Mathematical Foundations of Quantum Mechanics', von Neumann asserted the following: the Compton-Simon experiment showed that the state vector must collapse upon measurement of any self-adjoint operator. Comparing von Neumann's account with the Compton-Simon paper, we find that von Neumann had misinterpreted the experiment as consisting of two successive measurements (which gave identical results), whereas the experiment only measured two angles on the same photographic plate. Note, however, that the state vector must collapse upon measurement of an additively-conserved quantity; otherwise the conservation law could be violated. Next, it turns out that the mathematical problem of explaining collapse is not fully defined until one specifies the nature of the apparatus. If the apparatus does not have a `classical description', the problem is insoluble, even if the measurement is only approximate (Fine, Simony, Brown, Simony and Busch); but if it does, the problem is soluble within Schroedinger dynamics (with a time-dependent hamiltonian) for additively-conserved observables. The solution, a modification of Sewell's, shows that the state vector has collapsed, but it does not reveal the eigenvalue of the collapsed state. The collapse is irreversible, and results from the interplay of additive conservation laws with the quantum measurement postulate. Indeed, the quantum measurement problem - as expounded by Wigner - may be better understood as the problem of establishing that the two are compatible with each other; it has little relevance to actual measurements.
翻訳日:2023-03-01 16:18:07 公開日:2023-02-24
# 逆作業者のための分散ランダム化カッツマルツ

Distributed Randomized Kaczmarz for the Adversarial Workers ( http://arxiv.org/abs/2302.14615v1 )

ライセンス: Link先を確認
Longxiu Huang, Xia Li, Deanna Needell(参考訳) 敵や腐敗した労働者の存在に頑健な大規模分散手法の開発は、現実の問題を解決する上で重要な要素である。 本稿では,凸最適化問題に対して逆耐性を持つ反復的アプローチを提案する。 本手法は, 単純な統計量を利用して収束を保証し, 逆分布に適応できる。 さらに, 対流問題を解くための提案手法の効率性は, 敵の存在下でのシミュレーションで示される。 シミュレーションにより, 敵の存在下でのアプローチの効率と, 敵の労働者を高い精度で識別し, 様々な敵率のレベルを許容する能力を示す。

Developing large-scale distributed methods that are robust to the presence of adversarial or corrupted workers is an important part of making such methods practical for real-world problems. In this paper, we propose an iterative approach that is adversary-tolerant for convex optimization problems. By leveraging simple statistics, our method ensures convergence and is capable of adapting to adversarial distributions. Additionally, the efficiency of the proposed methods for solving convex problems is shown in simulations with the presence of adversaries. Through simulations, we demonstrate the efficiency of our approach in the presence of adversaries and its ability to identify adversarial workers with high accuracy and tolerate varying levels of adversary rates.
翻訳日:2023-03-01 16:05:21 公開日:2023-02-24
# TransAdapt: オンラインテスト時間適応セマンティックセマンティックセグメンテーションのための変換フレームワーク

TransAdapt: A Transformative Framework for Online Test Time Adaptive Semantic Segmentation ( http://arxiv.org/abs/2302.14611v1 )

ライセンス: Link先を確認
Debasmit Das, Shubhankar Borse, Hyojin Park, Kambiz Azarian, Hong Cai, Risheek Garrepalli, Fatih Porikli(参考訳) テスト時間適応(tta)セマンティクスセグメンテーションは、ソース事前学習されたイメージセマンティクスセグメンテーションモデルを、実世界とは異なる、対象領域のテストイメージのラベルなしバッチに適応させる。 オンライン設定に対処するため,変換器と入力変換を用いてセグメンテーション性能を向上させるフレームワークであるTransAdaptを提案する。 具体的には,テスト時オンライントレーニングを必要とせずに,教師なしセグメント出力をより信頼性の高い教師付き出力に変換するセグメント化ネットワーク上で,トランスフォーマティブベースのモジュールを事前トレーニングする。 また、テスト時間適応を容易にするために、変換された入力に基づく教師なしの損失を提案し、それぞれが光度と幾何学的摂動に不変かつ同変であるようにモデルを強制する。 全体として、当社のフレームワークは17.6%までの高品質セグメンテーションマスクと、2.8%のmiou改善をそれぞれ無適応と競合ベースラインで実現しています。

Test-time adaptive (TTA) semantic segmentation adapts a source pre-trained image semantic segmentation model to unlabeled batches of target domain test images, different from real-world, where samples arrive one-by-one in an online fashion. To tackle online settings, we propose TransAdapt, a framework that uses transformer and input transformations to improve segmentation performance. Specifically, we pre-train a transformer-based module on a segmentation network that transforms unsupervised segmentation output to a more reliable supervised output, without requiring test-time online training. To also facilitate test-time adaptation, we propose an unsupervised loss based on the transformed input that enforces the model to be invariant and equivariant to photometric and geometric perturbations, respectively. Overall, our framework produces higher quality segmentation masks with up to 17.6% and 2.8% mIOU improvement over no-adaptation and competitive baselines, respectively.
翻訳日:2023-03-01 16:05:10 公開日:2023-02-24
# 例 forgetting: 深層ニューラルネットワークの地震解釈における説明と解釈のための新しいアプローチ

Example Forgetting: A Novel Approach to Explain and Interpret Deep Neural Networks in Seismic Interpretation ( http://arxiv.org/abs/2302.14644v1 )

ライセンス: Link先を確認
Ryan Benkert, Oluwaseun Joseph Aribido, and Ghassan AlRegib(参考訳) 近年,深層ニューラルネットワークが地震波の解釈過程に大きな影響を与えている。 単純な実装と低い解釈コストのため、ディープニューラルネットワークは共通の解釈パイプラインにとって魅力的なコンポーネントである。 しかし、ニューラルネットワークは、モデルがトレーニングされていないセクションに露出すると、意味的に不正確なアウトプットを生成する性質から、しばしば不信感に満ちている。 まず,ニューラルネットワーク表現多様体内の重み付け位置に対して,意味論的に故障した予測を効果的に関連付ける手法を提案する。 より具体的に,本手法は,訓練中にモデルが地震反射を「忘れる」方法を追跡し,対象クラスの決定境界近傍との接続を確立する。 第2に,本解析手法を用いて学習ボリューム内の忘れられた領域を識別し,コンピュータビジョンによる最新技術によるトレーニングセットの強化を行う。 本手法は,オランダのf3ボリュームにおける忘れられた領域を大幅に削減しながら,低表現クラスのセグメンテーション性能を向上させることを示す。

In recent years, deep neural networks have significantly impacted the seismic interpretation process. Due to the simple implementation and low interpretation costs, deep neural networks are an attractive component for the common interpretation pipeline. However, neural networks are frequently met with distrust due to their property of producing semantically incorrect outputs when exposed to sections the model was not trained on. We address this issue by explaining model behaviour and improving generalization properties through example forgetting: First, we introduce a method that effectively relates semantically malfunctioned predictions to their respectful positions within the neural network representation manifold. More concrete, our method tracks how models "forget" seismic reflections during training and establishes a connection to the decision boundary proximity of the target class. Second, we use our analysis technique to identify frequently forgotten regions within the training volume and augment the training set with state-of-the-art style transfer techniques from computer vision. We show that our method improves the segmentation performance on underrepresented classes while significantly reducing the forgotten regions in the F3 volume in the Netherlands.
翻訳日:2023-03-01 15:58:12 公開日:2023-02-24
# hulat at semeval-2023 task 10: data augmentedation for pre-trained transformers applied to the detection of sexism in social media

HULAT at SemEval-2023 Task 10: Data augmentation for pre-trained transformers applied to the detection of sexism in social media ( http://arxiv.org/abs/2302.12840v1 )

ライセンス: Link先を確認
Isabel Segura-Bedmar(参考訳) 本稿では,ソーシャルメディアにおける性差別の検出を目標とするSemEval-2023タスク10への参加について述べる。 BERT, DistilBERT, RoBERTa, XLNet など,最も人気のあるトランスフォーマーモデルについて検討する。 トレーニングデータセットを増やすために、さまざまなデータ拡張テクニックも研究しています。 開発段階では,RoBERTaとデータ拡張をタスクBとCで行い,最適な結果を得たが,合成データの利用はタスクCでは改善せず,3つのサブタスクに参加した。 私たちのアプローチは、特に2つのきめ細かい分類において、まだ改善の余地があります。 私たちのコードはすべて、リポジトリhttps://github.com/isegura/hulat_edosで利用可能です。

This paper describes our participation in SemEval-2023 Task 10, whose goal is the detection of sexism in social media. We explore some of the most popular transformer models such as BERT, DistilBERT, RoBERTa, and XLNet. We also study different data augmentation techniques to increase the training dataset. During the development phase, our best results were obtained by using RoBERTa and data augmentation for tasks B and C. However, the use of synthetic data does not improve the results for task C. We participated in the three subtasks. Our approach still has much room for improvement, especially in the two fine-grained classifications. All our code is available in the repository https://github.com/isegura/hulat_edos.
翻訳日:2023-02-28 20:21:50 公開日:2023-02-24
# 癌分子サブタイプ分類のためのマルチモーダルグラフニューラルネットワークフレームワーク

A Multimodal Graph Neural Network Framework for Cancer Molecular Subtype Classification ( http://arxiv.org/abs/2302.12838v1 )

ライセンス: Link先を確認
Bingjun Li, Sheida Nabavi(参考訳) 近年の高スループットシークエンシングの発展は、多数のマルチオミクスデータを生み出し、研究者は、分子サブタイプに基づくがんの分子プロファイルとがんの分類をよりよく研究することができる。 マルチオミクスデータの統合はより正確な分類モデルを構築するのに有効であることが証明されている。 現在のマルチオミクス統合モデルは主に、ディープニューラルネットワークに基づく結合または後期融合による早期融合を用いる。 生物学的システムの性質から、グラフは生体医療データのより良い表現である。 グラフニューラルネットワーク(GNN)に基づくマルチオミクス積分法はほとんど提案されていないが、3つの共通の欠点に悩まされている。 ひとつは、ミオニクスまたはオーミック内接続のどちらかで、もうひとつは、グラフ畳み込みネットワーク(GCN)またはグラフアテンションネットワーク(GAT)のどちらかの種類のGNN層のみを考慮し、もうひとつは、これらの手法のほとんどは、より複雑ながん分類タスクの試験を欠いていることである。 本稿では, 癌サブタイプ分類の正確かつ堅牢な分類のための, エンドツーエンドマルチオミクスGNNフレームワークを提案する。 提案モデルでは, 確立された生物学的知識から, 生体内および生体内の両方を結合した異種多層グラフの形で, マルチオミクスデータを利用する。 提案モデルは、正確な分類のために学習グラフの特徴とグローバルゲノムの特徴を組み込んだものである。 そこで本研究では,分子サブタイプ分類と癌サブタイプ分類のためのTGAパン癌データセットとTGA乳がんデータセットを用いて提案モデルを検証した。 提案モデルでは,現状の4つのベースラインモデルを複数の評価指標で比較した。 gatモデルとgcnモデルの比較分析により、gatモデルが情報が少ない小さなグラフに好まれ、gcnモデルが余分な情報を持つ大きなグラフに好まれることが明らかとなった。

The recent development of high-throughput sequencing creates a large collection of multi-omics data, which enables researchers to better investigate cancer molecular profiles and cancer taxonomy based on molecular subtypes. Integrating multi-omics data has been proven to be effective for building more precise classification models. Current multi-omics integrative models mainly use early fusion by concatenation or late fusion based on deep neural networks. Due to the nature of biological systems, graphs are a better representation of bio-medical data. Although few graph neural network (GNN) based multi-omics integrative methods have been proposed, they suffer from three common disadvantages. One is most of them use only one type of connection, either inter-omics or intra-omic connection; second, they only consider one kind of GNN layer, either graph convolution network (GCN) or graph attention network (GAT); and third, most of these methods lack testing on a more complex cancer classification task. We propose a novel end-to-end multi-omics GNN framework for accurate and robust cancer subtype classification. The proposed model utilizes multi-omics data in the form of heterogeneous multi-layer graphs that combines both inter-omics and intra-omic connections from established biological knowledge. The proposed model incorporates learned graph features and global genome features for accurate classification. We test the proposed model on TCGA Pan-cancer dataset and TCGA breast cancer dataset for molecular subtype and cancer subtype classification, respectively. The proposed model outperforms four current state-of-the-art baseline models in multiple evaluation metrics. The comparative analysis of GAT-based models and GCN-based models reveals that GAT-based models are preferred for smaller graphs with less information and GCN-based models are preferred for larger graphs with extra information.
翻訳日:2023-02-28 20:21:36 公開日:2023-02-24
# 4次元フローMRIの教師なし超解像・復調のための暗黙的神経表現

Implicit neural representations for unsupervised super-resolution and denoising of 4D flow MRI ( http://arxiv.org/abs/2302.12835v1 )

ライセンス: Link先を確認
Simone Saitta, Marcello Carioni, Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb, Alberto Redaelli(参考訳) 4d flow mriは、経時的に血流速度を測定する非侵襲的イメージング手法である。 しかし, この手法で検出された速度場は, 低分解能と測定ノイズのため限界がある。 コーディネートベースのニューラルネットワークは精度を向上させるために研究されており、SIRENは超解像度タスクに適している。 本研究は, 大動脈内3方向速度場を4次元フローMRIで計測し, 偏極性および超解像性を実現したSIRENについて検討した。 本手法をボクセル座標で訓練し, 合成計測と実際の4次元フローMRIによるアプローチをベンチマークした。 我々の最適化されたSIRENアーキテクチャは最先端技術より優れており、臨床データから解離・超解離速度場を生成する。 提案手法は, 新規ケースに対して容易に実装でき, 4次元超解像を実現する。

4D flow MRI is a non-invasive imaging method that can measure blood flow velocities over time. However, the velocity fields detected by this technique have limitations due to low resolution and measurement noise. Coordinate-based neural networks have been researched to improve accuracy, with SIRENs being suitable for super-resolution tasks. Our study investigates SIRENs for time-varying 3-directional velocity fields measured in the aorta by 4D flow MRI, achieving denoising and super-resolution. We trained our method on voxel coordinates and benchmarked our approach using synthetic measurements and a real 4D flow MRI scan. Our optimized SIREN architecture outperformed state-of-the-art techniques, producing denoised and super-resolved velocity fields from clinical data. Our approach is quick to execute and straightforward to implement for novel cases, achieving 4D super-resolution.
翻訳日:2023-02-28 20:21:07 公開日:2023-02-24
# 深部強化学習における休眠性ニューロン現象

The Dormant Neuron Phenomenon in Deep Reinforcement Learning ( http://arxiv.org/abs/2302.12902v1 )

ライセンス: Link先を確認
Ghada Sokar, Rishabh Agarwal, Pablo Samuel Castro, Utku Evci(参考訳) 本研究では,エージェントのネットワークが不活性ニューロンの増加に苦しむ深層強化学習における休眠ニューロン現象を同定し,ネットワークの表現性に影響を及ぼす。 我々は,様々なアルゴリズムや環境にまたがるこの現象の存在を実証し,その学習への影響を強調する。 この問題に対処するために,学習中に休眠ニューロンをリサイクルする簡便で効果的な手法(redo)を提案する。 実験により、ReDoは休眠ニューロン数を減らし、ネットワークの表現力を維持し、性能を向上することを示した。

In this work we identify the dormant neuron phenomenon in deep reinforcement learning, where an agent's network suffers from an increasing number of inactive neurons, thereby affecting network expressivity. We demonstrate the presence of this phenomenon across a variety of algorithms and environments, and highlight its effect on learning. To address this issue, we propose a simple and effective method (ReDo) that Recycles Dormant neurons throughout training. Our experiments demonstrate that ReDo maintains the expressive power of networks by reducing the number of dormant neurons and results in improved performance.
翻訳日:2023-02-28 20:13:53 公開日:2023-02-24
# アンテナ傾き最適化のための共通ポリシーを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Common Policy for Antenna Tilt Optimization ( http://arxiv.org/abs/2302.12899v1 )

ライセンス: Link先を確認
Adriano Mendo, Jose Outes-Carnero, Yak Ng-Molina and Juan Ramiro-Moreno(参考訳) 本稿では,調整セルとその周辺セルの性能に影響を与えるセルパラメータのチューニングに適用可能な無線ネットワーク最適化手法を提案する。 この方法は、共通の方針を共有し、近隣の細胞からの情報と報酬を含む複数の強化学習エージェントに依存する。 学習の第1段階のネットワーク性能を損なわないために、エージェントはオフライン学習の初期段階において、静的ネットワークシミュレータからのフィードバックと様々なシナリオを考慮した初期ポリシーを得るように事前訓練される。 最後に、エージェントは、小さなインクリメンタルな変更を提案することで、テストネットワークのセルパラメータを巧みに調整し、ネットワークを最適な構成へとゆっくりと制御することができる。 エージェントは、プレトレーニングフェーズでシミュレータで得られた経験を用いて最適な変更を提案するが、変更毎に現在のネットワーク読み取りから学び続ける。 提案手法は, 遠隔アンテナ傾斜最適化に適用した場合に, エキスパートシステムによる性能向上を著しく改善することを示す。 また、提案手法と、隣接する細胞からの情報を状態と報酬が含まない同様の手法を比較する際にも、さらなる利得が見られる。

This paper proposes a method for wireless network optimization applicable to tuning cell parameters that impact the performance of the adjusted cell and the surrounding neighboring cells. The method relies on multiple reinforcement learning agents that share a common policy and include information from neighboring cells in the state and reward. In order not to impair network performance during the first steps of learning, agents are pre-trained during an earlier phase of offline learning, in which an initial policy is obtained using feedback from a static network simulator and considering a wide variety of scenarios. Finally, agents can wisely tune the cell parameters of a test network by suggesting small incremental changes to slowly steer the network toward an optimal configuration. Agents propose optimal changes using the experience gained with the simulator in the pre-training phase, but also continue to learn from current network readings after each change. The results show how the proposed approach significantly improves the performance gains already provided by expert system-based methods when applied to remote antenna tilt optimization. Additional gains are also seen when comparing the proposed approach with a similar method in which the state and reward do not include information from neighboring cells.
翻訳日:2023-02-28 20:13:42 公開日:2023-02-24
# 騙されるな - 説明法におけるラベル漏洩とその定量的評価の重要性

Don't be fooled: label leakage in explanation methods and the importance of their quantitative evaluation ( http://arxiv.org/abs/2302.12893v1 )

ライセンス: Link先を確認
Neil Jethani, Adriel Saporta, Rajesh Ranganath(参考訳) 特徴属性法は、入力のどの特徴がモデルの出力に最も影響するかを特定する。 最も広く使われている特徴帰属法(SHAP、LIME、Grad-CAMなど)は、機能帰属ベクトルをクラスの関数として生成する「クラス依存」法である。 本研究では,クラス依存型メソッドが選択したクラスに関する情報を「隠す」ことができることを示す。 これにより、クラス依存メソッドによって生成された説明を解釈する際に、エンドユーザは誤った結論を導くリスクを負う。 対照的に,入力のすべての特徴を考慮し,ラベルの分布をその分布に近づける説明を好む「分配認識」手法を導入する。 shap-klとfastshap-klは,shapley値を計算する2つのベースライン分散認識手法である。 最後に, 画像, バイオシグナー, テキストの3種類の高次元データ型の臨床データセットに対して, クラス依存型および分布認識型の7つの手法を総合的に評価する。

Feature attribution methods identify which features of an input most influence a model's output. Most widely-used feature attribution methods (such as SHAP, LIME, and Grad-CAM) are "class-dependent" methods in that they generate a feature attribution vector as a function of class. In this work, we demonstrate that class-dependent methods can "leak" information about the selected class, making that class appear more likely than it is. Thus, an end user runs the risk of drawing false conclusions when interpreting an explanation generated by a class-dependent method. In contrast, we introduce "distribution-aware" methods, which favor explanations that keep the label's distribution close to its distribution given all features of the input. We introduce SHAP-KL and FastSHAP-KL, two baseline distribution-aware methods that compute Shapley values. Finally, we perform a comprehensive evaluation of seven class-dependent and three distribution-aware methods on three clinical datasets of different high-dimensional data types: images, biosignals, and text.
翻訳日:2023-02-28 20:13:24 公開日:2023-02-24
# 楕円型PDE学習はデータ効率が高い

Elliptic PDE learning is provably data-efficient ( http://arxiv.org/abs/2302.12888v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Diana Halikias, Alex Townsend(参考訳) PDE学習は、物理と機械学習を組み合わせて未知の物理システムを実験データから復元する新興分野である。 ディープラーニングモデルは伝統的に大量のトレーニングデータを必要とするが、最近のPDE学習技術はデータ可用性に制限のある素晴らしい結果が得られる。 しかし、この結果は実証的だ。 本研究は,pde学習に必要な入出力訓練ペア数を理論的に保証し,これらの手法がデータ効率が高い理由を説明する。 具体的には、ランダム化された数値線形代数とPDE理論を用いて、入力出力データから3次元楕円型PDEの解演算子を復元し、例外的に高い確率でトレーニングデータセットのサイズに対する指数収束率を達成する、実証可能なデータ効率のアルゴリズムを導出する。

PDE learning is an emerging field that combines physics and machine learning to recover unknown physical systems from experimental data. While deep learning models traditionally require copious amounts of training data, recent PDE learning techniques achieve spectacular results with limited data availability. Still, these results are empirical. Our work provides theoretical guarantees on the number of input-output training pairs required in PDE learning, explaining why these methods can be data-efficient. Specifically, we exploit randomized numerical linear algebra and PDE theory to derive a provably data-efficient algorithm that recovers solution operators of 3D elliptic PDEs from input-output data and achieves an exponential convergence rate with respect to the size of the training dataset with an exceptionally high probability of success.
翻訳日:2023-02-28 20:13:06 公開日:2023-02-24
# 合成データからの形状事前変形による野生3次元表面再構成

3D Surface Reconstruction in the Wild by Deforming Shape Priors from Synthetic Data ( http://arxiv.org/abs/2302.12883v1 )

ライセンス: Link先を確認
Nicolai H\"ani, Jun-Jee Chao and Volkan Isler(参考訳) 1枚の画像から物体の3d表面を再構築することは、コンピュータビジョンコミュニティから広く注目を集めている困難な問題である。 多くの学習ベースのアプローチは、3Dデータや多視点観察から3次元形状を学習することでこの問題に対処する。 これらの手法は、対象が固定された標準座標フレームに対して指定されていると仮定し、同じカテゴリのインスタンスが完全に整列している。 本稿では,単一の画像からカテゴリー別3次元再構成と物体ポーズ推定を行う新しい手法を提案する。 その結果,純合成3dデータで学習した形状事前情報とポイントクラウドポーズの正準化手法を併用して,高品質な3d再構成を実現することができた。 テスト時に単一の深度画像が与えられると、まずこの部分点雲を学習された正準フレームに変換する。 次に,神経変形場を用いて物体の3次元表面を再構成する。 最後に,物体のポーズと3次元形状を協調的に最適化し,部分深度観測に適合させる。 提案手法は, 合成データのみを用いてトレーニングしても, 実世界のデータセット間での最先端の再構築性能を実現する。 さらに,本手法は,高密度深度画像からスパース・ノイズLIDARスキャンまで,様々な入力モードに一般化可能であることを示す。

Reconstructing the underlying 3D surface of an object from a single image is a challenging problem that has received extensive attention from the computer vision community. Many learning-based approaches tackle this problem by learning a 3D shape prior from either ground truth 3D data or multi-view observations. To achieve state-of-the-art results, these methods assume that the objects are specified with respect to a fixed canonical coordinate frame, where instances of the same category are perfectly aligned. In this work, we present a new method for joint category-specific 3D reconstruction and object pose estimation from a single image. We show that one can leverage shape priors learned on purely synthetic 3D data together with a point cloud pose canonicalization method to achieve high-quality 3D reconstruction in the wild. Given a single depth image at test time, we first transform this partial point cloud into a learned canonical frame. Then, we use a neural deformation field to reconstruct the 3D surface of the object. Finally, we jointly optimize object pose and 3D shape to fit the partial depth observation. Our approach achieves state-of-the-art reconstruction performance across several real-world datasets, even when trained only on synthetic data. We further show that our method generalizes to different input modalities, from dense depth images to sparse and noisy LIDAR scans.
翻訳日:2023-02-28 20:12:52 公開日:2023-02-24
# 微調整非線形材料特性を有する逆設計のための分極拡散アルゴリズム

Denoising diffusion algorithm for inverse design of microstructures with fine-tuned nonlinear material properties ( http://arxiv.org/abs/2302.12881v1 )

ライセンス: Link先を確認
Nikolaos N. Vlassis and WaiChing Sun(参考訳) 本稿では,非線形微調整特性を有する微細構造を探索する分極拡散アルゴリズムを提案する。 デノイジング拡散確率モデル(denoising diffusion probabilistic models)は、拡散に基づくダイナミクスを用いて徐々に画像をデノイジングし、現実的な合成サンプルを生成する生成モデルである。 マルコフ拡散過程の逆を学習することにより, 構造トポロジーを効率的に操作し, 指定された非線形構成応答に十分近い構成応答を示す多数のプロトタイプを生成する人工知能を設計した。 十分に精密な微調整特性を有する微細構造のサブセットを同定するために、畳み込みニューラルネットワークを訓練し、高忠実度有限要素シミュレーションを置き換え、許容範囲外のプロトタイプをフィルタする。 本研究の結果から, 偏極拡散過程は, トレーニングデータの潜伏空間内で微調整された非線形材料特性の微細構造を生成できることが示唆された。 さらに重要なことに、得られたアルゴリズムは、潜在空間に埋め込まれた高次元構造を導入することで、追加の位相的および幾何学的な修正を組み込むように容易に拡張することができる。 このアルゴリズムは、オープンソースのメカニカルMNISTデータセットでテストされる。 したがって, このアルゴリズムは, 非線形有効媒体の逆設計を行うだけでなく, 非線形構造特性マップを学習し, 幾何およびトポロジー間のマルチスケール相互作用とその有効マクロ特性を定量的に理解することができる。

In this paper, we introduce a denoising diffusion algorithm to discover microstructures with nonlinear fine-tuned properties. Denoising diffusion probabilistic models are generative models that use diffusion-based dynamics to gradually denoise images and generate realistic synthetic samples. By learning the reverse of a Markov diffusion process, we design an artificial intelligence to efficiently manipulate the topology of microstructures to generate a massive number of prototypes that exhibit constitutive responses sufficiently close to designated nonlinear constitutive responses. To identify the subset of microstructures with sufficiently precise fine-tuned properties, a convolutional neural network surrogate is trained to replace high-fidelity finite element simulations to filter out prototypes outside the admissible range. The results of this study indicate that the denoising diffusion process is capable of creating microstructures of fine-tuned nonlinear material properties within the latent space of the training data. More importantly, the resulting algorithm can be easily extended to incorporate additional topological and geometric modifications by introducing high-dimensional structures embedded in the latent space. The algorithm is tested on the open-source mechanical MNIST data set. Consequently, this algorithm is not only capable of performing inverse design of nonlinear effective media but also learns the nonlinear structure-property map to quantitatively understand the multiscale interplay among the geometry and topology and their effective macroscopic properties.
翻訳日:2023-02-28 20:12:27 公開日:2023-02-24
# FLINT:フェデレーションラーニング統合のためのプラットフォーム

FLINT: A Platform for Federated Learning Integration ( http://arxiv.org/abs/2302.12862v1 )

ライセンス: Link先を確認
Ewen Wang, Ajay Kannan, Yuefeng Liang, Boyi Chen, Mosharaf Chowdhury(参考訳) クロスデバイスフェデレーション学習(fl)はアルゴリズム、システムのスケーラビリティ、トレーニング速度の観点からよく研究されている。 それでも、数百万から数十億のデバイスを対象とした集中トレーニングからクロスデバイスFLへの移行は、パフォーマンス損失、開発者の慣性、ユーザエクスペリエンスの低下、予期せぬアプリケーション障害など、多くのリスクをもたらします。 さらに、対応するインフラ、開発コスト、投資のリターンを見積もるのは困難である。 本稿では,既存の機械学習プラットフォームと統合し,実世界の制約を計測し,インフラストラクチャ能力を評価し,モデルのトレーニング性能を評価し,システムリソース要件を見積もって,責任を持ってflを運用可能にする,デバイスクラウド協調型flプラットフォームを提案する。 また、fl統合プラットフォームを利用して、クロスデバイスflのトレードオフを包括的に評価し、数億人のユーザに影響を与えるビジネスクリティカルな機械学習アプリケーションの経験的評価を共有できる決定ワークフローも提示します。

Cross-device federated learning (FL) has been well-studied from algorithmic, system scalability, and training speed perspectives. Nonetheless, moving from centralized training to cross-device FL for millions or billions of devices presents many risks, including performance loss, developer inertia, poor user experience, and unexpected application failures. In addition, the corresponding infrastructure, development costs, and return on investment are difficult to estimate. In this paper, we present a device-cloud collaborative FL platform that integrates with an existing machine learning platform, providing tools to measure real-world constraints, assess infrastructure capabilities, evaluate model training performance, and estimate system resource requirements to responsibly bring FL into production. We also present a decision workflow that leverages the FL-integrated platform to comprehensively evaluate the trade-offs of cross-device FL and share our empirical evaluations of business-critical machine learning applications that impact hundreds of millions of users.
翻訳日:2023-02-28 20:12:02 公開日:2023-02-24
# イジングモデルにおける真空絡み合い収穫

Vacuum Entanglement Harvesting in the Ising Model ( http://arxiv.org/abs/2302.12858v1 )

ライセンス: Link先を確認
Hersh Singh, Tanmoy Bhattacharya, Shailesh Chandrasekharan, Rajan Gupta(参考訳) スピン鎖のような量子多体系の低エネルギー状態は絡み合っている。 テンソルネットワーク計算を用いて,ベル対を原型的横場イジングモデルの基底状態から蒸留するプロトコルを示す。 本稿では,様々な段階における絡み合い蒸留速度の挙動とプロトコルの最適化について検討する。 最後に、連続体理論を定義する量子臨界性にアプローチする際、このプロトコルについてコメントする。

The low-energy states of quantum many body systems, such as spin chains, are entangled. Using tensor network computations, we demonstrate a protocol that distills Bell pairs out of the ground state of the prototypical transverse-field Ising model. We explore the behavior of rate of entanglement distillation in various phases, and possible optimizations of the protocol. Finally, we comment on the protocol as we approach quantum criticality defining a continuum field theory.
翻訳日:2023-02-28 20:11:33 公開日:2023-02-24
# 連続的グルコースモニタリングデータを用いた機械学習による1型糖尿病患者の血糖値の予測

Machine Learning based prediction of Glucose Levels in Type 1 Diabetes Patients with the use of Continuous Glucose Monitoring Data ( http://arxiv.org/abs/2302.12856v1 )

ライセンス: Link先を確認
Jakub J. Dylag(参考訳) 糖尿病管理における重要な臨床的重要な課題は、低血糖/高血糖症の予防である。 継続的なグルコースモニタリング(cgm)は、患者の血糖値の詳細な、非侵襲的、リアルタイムな洞察を提供する。 将来の血糖値を予測する方法として高度な機械学習(ml)モデルを活用することで、生活の質が大幅に向上し、糖尿病のモニタリングに不可欠なツールが提供される。 回帰に基づく予測アプローチは、線形回帰、隠れマルコフモデル、Long-Short Term Memory Networkという一連の機械学習モデルで再帰的に実装される。 患者の過去11時間の血糖値(BG)測定を利用して、60分間の予測を行う。 結果は、ルート平均二乗誤差(rmse)、二階差の正規化エネルギー(esod)、f1スコアを含むパフォーマンス指標を用いて評価される。 過去と現在のアプローチ、および利用可能なデータセットの研究は、将来のモデル開発によって活用されるかもしれないCITYデータセットのための最適なトレーニング方法論の確立につながった。 LSTMはRMSEは28.55であったが、従来のオートレグレッシブARモデルでは大きな優位性は見られなかった。 LSTM予測行動に関する洞察を補うことで、公的および立法的信頼と理解が高まり、人工膵システム(APS)におけるMLモデルの認定が進む可能性がある。

A task of vital clinical importance, within Diabetes management, is the prevention of hypo/hyperglycemic events. Increasingly adopted Continuous Glucose Monitoring (CGM) devices offer detailed, non-intrusive and real time insights into a patient's blood glucose concentrations. Leveraging advanced Machine Learning (ML) Models as methods of prediction of future glucose levels, gives rise to substantial quality of life improvements, as well as providing a vital tool for monitoring diabetes. A regression based prediction approach is implemented recursively, with a series of Machine Learning Models: Linear Regression, Hidden Markov Model, Long-Short Term Memory Network. By exploiting a patient's past 11 hours of blood glucose (BG) concentration measurements, a prediction of the 60 minutes is made. Results will be assessed using performance metrics including: Root Mean Squared Error (RMSE), normalised energy of the second-order differences (ESOD) and F1 score. Research of past and current approaches, as well as available dataset, led to the establishment of an optimal training methodology for the CITY dataset, which may be leveraged by future model development. Performance was aligned with similar state-of-art ML models, with LSTM having RMSE of 28.55, however no significant advantage was observed over classical Auto-regressive AR models. Compelling insights into LSTM prediction behaviour could increase public and legislative trust and understanding, progressing the certification of ML models in Artificial Pancreas Systems (APS).
翻訳日:2023-02-28 20:11:20 公開日:2023-02-24
# 確率作用素分散による時間外相関器の展開

Unveiling out-of-time-order correlators from stochastic operator variance ( http://arxiv.org/abs/2302.12845v1 )

ライセンス: Link先を確認
Pablo Martinez-Azcona, Aritra Kundu, Adolfo del Campo and Aurelia Chenu(参考訳) 変動するハミルトニアンによって生成される力学を考える。 作用素の確率的分散の概念を導入し,その運動方程式を求める。 確率作用素分散 (sov) は、量子カオス理論で導入された、量子リアプノフ指数 $\lambda$ を定義するための時間外コリレータ (otoc) と関連していることを示す。 本研究は,SOV-OTOC関係で示されるように,雑音の作用により安定領域が変化する,確率的Lipkin-Meshkov-Glick (SLMG) Hamiltonian undergoing energy dephasing(SLMG)で示される。

We consider the dynamics generated by a fluctuating Hamiltonian. We introduce the concept of stochastic variance of operators and find their equation of motion. We show that the stochastic operator variance (SOV) is related to the out-of-time-order correlator (OTOC) introduced in the theory of quantum chaos to define a quantum Lyapunov exponent $\lambda$. Our findings are illustrated in a stochastic Lipkin-Meshkov-Glick (sLMG) Hamiltonian undergoing energy dephasing, where the action of noise changes the stability region compared to the noiseless LMG, as demonstrated from the SOV-OTOC relation.
翻訳日:2023-02-28 20:10:46 公開日:2023-02-24
# 犬および猫のラジオグラフィにおけるヘミトラースの対称性の自動分類

Automatic Classification of Symmetry of Hemithoraces in Canine and Feline Radiographs ( http://arxiv.org/abs/2302.12923v1 )

ライセンス: Link先を確認
Peyman Tahghighi, Nicole Norena, Eran Ukwatta, Ryan B Appleby, Amin Komeili(参考訳) 目的:胸部x線撮影は胸部病理の診断や疑似診断に一般的に用いられる。 適切な患者の位置決めは、ヒトよりもイヌやネコのX線撮影においてより困難である。 ラジオグラフィー取得時の不適切な患者位置は誤診につながる可能性がある。 非対称ヘミトロラシは, 自動分類法を提案する斜め性の指標の一つである。 アプローチ: 畳み込みニューラルネットワーク(CNN)とアクティブな輪郭に基づくヘミトトラス分割法を提案する。 我々は,U-Netモデルを用いてリブと背骨を分割し,アクティブな輪郭を用いて左右のヘミトクロースを検索した。 次に,左右から特徴抽出を行い,Support Vector Machine,Gradient Boosting,Multi-Layer Perceptronを含むアンサンブル分類器を訓練した。 5倍のクロスバリデーションを用い,iou (intersection over union) を用いて胸郭分割を評価し, 精度, リコール, 曲線下領域, f1スコアを用いて対称性分類を行った。 結果: 900ラジオグラフの対称性の分類では, f1スコアが82.8%であった。 提案手法のロバスト性を検証するため, 適切に露光されたX線を合成し, IoUを用いて評価した。 その結果、低露光と過剰露光のモデルIoUはそれぞれ2.1%と1.2%減少した。 結論: 胸椎分割法が低曝露x線写真にロバストであることが示唆された。 提案手法は,ヒトのx線撮影に最小限の変更で適用できる。

Purpose: Thoracic radiographs are commonly used to evaluate patients with confirmed or suspected thoracic pathology. Proper patient positioning is more challenging in canine and feline radiography than in humans due to less patient cooperation and body shape variation. Improper patient positioning during radiograph acquisition has the potential to lead to a misdiagnosis. Asymmetrical hemithoraces are one of the indications of obliquity for which we propose an automatic classification method. Approach: We propose a hemithoraces segmentation method based on Convolutional Neural Networks (CNNs) and active contours. We utilized the U-Net model to segment the ribs and spine and then utilized active contours to find left and right hemithoraces. We then extracted features from the left and right hemithoraces to train an ensemble classifier which includes Support Vector Machine, Gradient Boosting and Multi-Layer Perceptron. Five-fold cross-validation was used, thorax segmentation was evaluated by Intersection over Union (IoU), and symmetry classification was evaluated using Precision, Recall, Area under Curve and F1 score. Results: Classification of symmetry for 900 radiographs reported an F1 score of 82.8% . To test the robustness of the proposed thorax segmentation method to underexposure and overexposure, we synthetically corrupted properly exposed radiographs and evaluated results using IoU. The results showed that the models IoU for underexposure and overexposure dropped by 2.1% and 1.2%, respectively. Conclusions: Our results indicate that the proposed thorax segmentation method is robust to poor exposure radiographs. The proposed thorax segmentation method can be applied to human radiography with minimal changes.
翻訳日:2023-02-28 20:04:30 公開日:2023-02-24
# 少数ショット感情音声認識のためのプレファイナリング

Pre-Finetuning for Few-Shot Emotional Speech Recognition ( http://arxiv.org/abs/2302.12921v1 )

ライセンス: Link先を確認
Maximillian Chen, Zhou Yu(参考訳) 音声モデルは、多くの分類タスクにおいて個々の話者に過剰に適合することが長年知られている。 これは、製品環境でよく見られるように、話者がドメイン外あるいは分散外である設定での一般化が貧弱になる。 我々は,話者適応を数ショットの学習問題とみなし,自然言語タスクにおける事前学習モデルによる近年の成功に触発された伝達学習アプローチを提案する。 そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。 我々は,4種類の感情音声認識コーパスのすべての順列にWav2Vec2.0をプリファインチューンし,感情音声データセットの33,600個の数ショットの微調整試行を通して,我々のプレファインチューンモデルを評価する。

Speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view speaker adaptation as a few-shot learning problem and propose investigating transfer learning approaches inspired by recent success with pre-trained models in natural language tasks. We propose pre-finetuning speech models on difficult tasks to distill knowledge into few-shot downstream classification objectives. We pre-finetune Wav2Vec2.0 on every permutation of four multiclass emotional speech recognition corpora and evaluate our pre-finetuned models through 33,600 few-shot fine-tuning trials on the Emotional Speech Dataset.
翻訳日:2023-02-28 20:04:03 公開日:2023-02-24
# 完全パッケージ化マルチチャネル極低温量子メモリモジュール

A fully packaged multi-channel cryogenic quantum memory module ( http://arxiv.org/abs/2302.12919v1 )

ライセンス: Link先を確認
David J. Starling, Katia Shtyrkova, Ian Christen, Ryan Murphy, Linsen Li, Kevin C. Chen, Dave Kharas, Xingyu Zhang, John Cummings, W. John Nowak, Eric Bersin, Robert J. Niffenegger, Madison Sutula, Dirk Englund, Scott Hamilton, P. Benjamin Dixon(参考訳) 量子ネットワークを実現するには、スケーラブルなアーキテクチャに光インターフェースを組み込んだ長寿命の量子メモリが必要である。 ダイヤモンドのカラーセンターは、その光学特性とスケーラブルな統合との互換性から、有望なメモリモダリティとして登場した。 しかしながら、スケーラブルなカラーセンターメモリモジュールの開発には、異種統合と極低温互換パッケージの分野において大きな進歩が必要となる。 本稿では,ダイヤモンド色中心量子メモリ用の低温安定かつネットワーク互換モジュールについて報告する。 この量子メモリモジュールは、分散センシングや処理といった高度な量子ネットワークアプリケーションに向けた重要な開発である。

Realizing a quantum network will require long-lived quantum memories with optical interfaces incorporated into a scalable architecture. Color centers in diamond have emerged as a promising memory modality due to their optical properties and compatibility with scalable integration. However, developing a scalable color center memory module requires significant advances in the areas of heterogeneous integration and cryogenically compatible packaging. Here we report on a cryogenically stable and network compatible module for diamond color center quantum memory use. This quantum memory module is a significant development towards advanced quantum networking applications such as distributed sensing and processing.
翻訳日:2023-02-28 20:03:50 公開日:2023-02-24
# ディープグラフストリームSVDD:サイバー物理システムにおける異常検出

Deep Graph Stream SVDD: Anomaly Detection in Cyber-Physical Systems ( http://arxiv.org/abs/2302.12918v1 )

ライセンス: Link先を確認
Ehtesamul Azim, Dongjie Wang, Yanjie Fu(参考訳) 我々の研究はサイバー物理システムにおける異常検出に焦点を当てている。 先行文献には,(1)システム異常における長期遅延パターンの捕捉の失敗,(2)センサ接続の動的変化の無視,(3)高次元データサンプルの呪い,の3つの制限がある。 これにより、既存の作品の検出性能と有用性が制限される。 そこで本研究では,異常検出のためのdeep graph stream support vector data description (svdd) という新しい手法を提案する。 具体的には、まず、時間的埋め込みにおけるモニタリングデータの短周期パターンと長周期パターンを保存するために変換器を使用する。 次に,これらの埋め込みをセンサタイプに応じてクラスタ化し,各種センサ間の接続性の変化を推定し,新たな重み付きグラフを構築する。 時間埋め込みはノード属性として新しいグラフにマッピングされ、重み付き属性グラフを形成する。 グラフを変分グラフオートエンコーダモデルに入力し、最終的な時空間表現を学ぶ。 最後に,超球とデータサンプル間の距離を計算し,正規埋め込みを包含する超球を学習し,システム状態を予測する。 F1スコアは35.87%向上し、AUCは19.32%向上し、トレーニングや推論において最高のベースラインよりも32倍高速となった。

Our work focuses on anomaly detection in cyber-physical systems. Prior literature has three limitations: (1) Failing to capture long-delayed patterns in system anomalies; (2) Ignoring dynamic changes in sensor connections; (3) The curse of high-dimensional data samples. These limit the detection performance and usefulness of existing works. To address them, we propose a new approach called deep graph stream support vector data description (SVDD) for anomaly detection. Specifically, we first use a transformer to preserve both short and long temporal patterns of monitoring data in temporal embeddings. Then we cluster these embeddings according to sensor type and utilize them to estimate the change in connectivity between various sensors to construct a new weighted graph. The temporal embeddings are mapped to the new graph as node attributes to form weighted attributed graph. We input the graph into a variational graph auto-encoder model to learn final spatio-temporal representation. Finally, we learn a hypersphere that encompasses normal embeddings and predict the system status by calculating the distances between the hypersphere and data samples. Extensive experiments validate the superiority of our model, which improves F1-score by 35.87%, AUC by 19.32%, while being 32 times faster than the best baseline at training and inference.
翻訳日:2023-02-28 20:03:42 公開日:2023-02-24
# ニオブ酸リチウムの誘電率と損失接点のミリケルビン測定

Milli-Kelvin measurements of permittivity and loss tangent of lithium niobate ( http://arxiv.org/abs/2302.12916v1 )

ライセンス: Link先を確認
Silvia Zorzetti, Changqing Wang, Ivan Gonin, Sergey Kazakov, Timergali Khabiboulline, Alexander Romanenko, Vyacheslav P Yakovlev, Anna Grassellin(参考訳) ニオブ酸リチウムは電子光学材料であり、マイクロ波信号処理、通信、量子センシング、量子コンピューティングに多くの応用がある。 本稿では, ニオブ酸リチウムのミリケルビン温度における複素電磁誘電率の評価について述べる。 7GHz帯で動作し, 異方性誘電体を特徴付ける超電導高周波キャビティを用いた共振方式を用いて測定を行った。 相対誘電率テンソルと損失接点は前例のない精度で50mkで測定される。

Lithium Niobate is an electro-optic material with many applications in microwave signal processing, communication, quantum sensing, and quantum computing. In this letter, we present findings on evaluating the complex electromagnetic permittivity of lithium niobate at milli-Kelvin temperatures. Measurements are carried out using a resonant-type method with a superconducting radio-frequency (SRF) cavity operating at 7 GHz and designed to characterize anisotropic dielectrics. The relative permittivity tensor and loss tangent are measured at 50 mK with unprecedented accuracy.
翻訳日:2023-02-28 20:03:21 公開日:2023-02-24
# lstm変分オートエンコーダフレームワークによる知識トレースデータと主題ベーストレーニング

Imputing Knowledge Tracing Data with Subject-Based Training via LSTM Variational Autoencoders Frameworks ( http://arxiv.org/abs/2302.12910v1 )

ライセンス: Link先を確認
Jia Tracy Shen, Dongwon Lee(参考訳) データ不足の問題は、KT( {\displaystyle {\em Knowledge Tracing})問題におけるディープラーニングモデルのパフォーマンス向上と応用に大きな課題をもたらします。 しかし、文献にその問題についての理解の欠如が指摘されている。 %は,この問題に対処する十分な研究ではない。 本研究では,この課題に対処するために,非対象ベーストレーニングと呼ぶ行数分割ではなく,学生IDによるデータ分割とインプットを行う対象ベーストレーニング手法を採用する。 課題ベーストレーニングの利点は、各学生の完全なシーケンスを保持し、効率的なトレーニングを実現することができる。 さらに,変分オートエンコーダ (VAE) と長周期変分オートエンコーダ (LVAE) という2つの既存の深部生成フレームワークを活用し,LSTMカーネルを構築してLSTM-VAEとLSTM LVAE(VAEとLVAEと表記される)モデルを構築し,品質データを生成する。 LVAEでは、ガウス過程(GP)モデルを訓練し、対象(例えば、学生)記述子情報(例えば、年齢、性別)と潜在空間との相関関係を解き放つ。 本論文は,本論文で得られたデータと非主観的モデルvae-nsおよび主観的トレーニングモデル(vaeおよびlvae)から生成されたデータとのモデル性能の比較を行った。 LSTM-VAE と LSTM-LVAE から生成したデータにより,元のモデルの性能を約50%向上できることを示す。 さらに、予測モデルが小さい場合、予測モデルが提案するフレームワークで大きい場合、予測モデルが小さい場合、元の性能を超えるためには10%以上の学生データが必要である。

The issue of missing data poses a great challenge on boosting performance and application of deep learning models in the {\em Knowledge Tracing} (KT) problem. However, there has been the lack of understanding on the issue in the literature. %are not sufficient studies tackling this problem. In this work, to address this challenge, we adopt a subject-based training method to split and impute data by student IDs instead of row number splitting which we call non-subject based training. The benefit of subject-based training can retain the complete sequence for each student and hence achieve efficient training. Further, we leverage two existing deep generative frameworks, namely variational Autoencoders (VAE) and Longitudinal Variational Autoencoders (LVAE) frameworks and build LSTM kernels into them to form LSTM-VAE and LSTM LVAE (noted as VAE and LVAE for simplicity) models to generate quality data. In LVAE, a Gaussian Process (GP) model is trained to disentangle the correlation between the subject (i.e., student) descriptor information (e.g., age, gender) and the latent space. The paper finally compare the model performance between training the original data and training the data imputed with generated data from non-subject based model VAE-NS and subject-based training models (i.e., VAE and LVAE). We demonstrate that the generated data from LSTM-VAE and LSTM-LVAE can boost the original model performance by about 50%. Moreover, the original model just needs 10% more student data to surpass the original performance if the prediction model is small and 50\% more data if the prediction model is large with our proposed frameworks.
翻訳日:2023-02-28 20:03:10 公開日:2023-02-24
# 強ギャップに対する最適速度をもつ確率的サドル点問題に対する微分プライベートアルゴリズム

Differentially Private Algorithms for the Stochastic Saddle Point Problem with Optimal Rates for the Strong Gap ( http://arxiv.org/abs/2302.12909v1 )

ライセンス: Link先を確認
Raef Bassily and Crist\'obal Guzm\'an and Michael Menart(参考訳) n$ がデータセットサイズであり、$d$ が問題の次元である場合、convex-concave lipschitz stochastic saddle point problem (stochastic minimax optimization) は $(\epsilon,\delta)$-differential privacy with \emph{strong (primal-dual) gap} rate of $\tilde o\big(\frac{1}{\sqrt{n}} + \frac{\sqrt{d}}{n\epsilon}\big)$ で解くことができる。 この速度はほぼ最適であり、微分プライベート確率最適化の既存の下限に基づいている。 具体的には,サドル点問題に対する再帰正則化手法の斬新な実装と解析を通じて,強いギャップの強い上限を証明した。 この速度は、損失関数が滑らかであれば、$o\big(\min\big\{\frac{n^2\epsilon^{1.5}}{\sqrt{d}}, n^{3/2}\big\}\big)$勾配複雑性、$o(n)$勾配複雑性で達成できる。 この手法の副産物として,経験的目的に対して一定の$\alpha$素数的精度保証を満たしたサブルーチンへのブラックボックスアクセスを与えられた場合,確率的サドルポイント問題に対して,$\tilde{o}(\alpha+\frac{1}{\sqrt{n}})$という強いギャップを持つ解を与える汎用アルゴリズムを開発した。 この$\alpha$-accuracy条件は、近位点法や確率勾配降下昇降法のような経験的鞍点問題に対する標準アルゴリズムによって満たされていることを示す。 さらに,単純な問題であっても,アルゴリズムがゼロの弱ギャップを持ち,$\Omega(1)$強ギャップに悩まされることが示されている。 また、安定性と精度の間には根本的なトレードオフがあることも示している。 具体的には、任意の$\Delta$-stableアルゴリズムは経験的ギャップ$\Omega\big(\frac{1}{\Delta n}\big)$であり、この境界は厳密であることを示す。 この結果は、経験的リスク最小化の問題にも特に当てはまり、独立した関心を持つ可能性がある。

We show that convex-concave Lipschitz stochastic saddle point problems (also known as stochastic minimax optimization) can be solved under the constraint of $(\epsilon,\delta)$-differential privacy with \emph{strong (primal-dual) gap} rate of $\tilde O\big(\frac{1}{\sqrt{n}} + \frac{\sqrt{d}}{n\epsilon}\big)$, where $n$ is the dataset size and $d$ is the dimension of the problem. This rate is nearly optimal, based on existing lower bounds in differentially private stochastic optimization. Specifically, we prove a tight upper bound on the strong gap via novel implementation and analysis of the recursive regularization technique repurposed for saddle point problems. We show that this rate can be attained with $O\big(\min\big\{\frac{n^2\epsilon^{1.5}}{\sqrt{d}}, n^{3/2}\big\}\big)$ gradient complexity, and $O(n)$ gradient complexity if the loss function is smooth. As a byproduct of our method, we develop a general algorithm that, given a black-box access to a subroutine satisfying a certain $\alpha$ primal-dual accuracy guarantee with respect to the empirical objective, gives a solution to the stochastic saddle point problem with a strong gap of $\tilde{O}(\alpha+\frac{1}{\sqrt{n}})$. We show that this $\alpha$-accuracy condition is satisfied by standard algorithms for the empirical saddle point problem such as the proximal point method and the stochastic gradient descent ascent algorithm. Further, we show that even for simple problems it is possible for an algorithm to have zero weak gap and suffer from $\Omega(1)$ strong gap. We also show that there exists a fundamental tradeoff between stability and accuracy. Specifically, we show that any $\Delta$-stable algorithm has empirical gap $\Omega\big(\frac{1}{\Delta n}\big)$, and that this bound is tight. This result also holds also more specifically for empirical risk minimization problems and may be of independent interest.
翻訳日:2023-02-28 20:02:34 公開日:2023-02-24
# OpenStreetMapのストリートをWikidataの人とリンクする

Linking Streets in OpenStreetMap to Persons in Wikidata ( http://arxiv.org/abs/2302.12907v1 )

ライセンス: Link先を確認
Daria Gurtovoy and Simon Gottschalk(参考訳) OpenStreetMap (OSM) のような地理情報ソースやWikidataのような知識グラフは接続されていないことが多い。 これらのソース間で確立できる例として、OSM内の通りと、彼らが名付けたWikidataの人とのリンクがある。 本稿では,osmの街路を知識グラフ上の知識グラフと空間的依存関係の関係に基づく知識グラフに結びつける手法であるstreettopersonを提案する。 評価の結果,既存のアプローチを26ポイント上回る結果が得られた。 さらに、ドイツのすべてのOSM道路にStreetToPersonを適用し、街路と人との180,000以上のリンクを識別する。

Geographic web sources such as OpenStreetMap (OSM) and knowledge graphs such as Wikidata are often unconnected. An example connection that can be established between these sources are links between streets in OSM to the persons in Wikidata they were named after. This paper presents StreetToPerson, an approach for connecting streets in OSM to persons in a knowledge graph based on relations in the knowledge graph and spatial dependencies. Our evaluation shows that we outperform existing approaches by 26 percentage points. In addition, we apply StreetToPerson on all OSM streets in Germany, for which we identify more than 180,000 links between streets and persons.
翻訳日:2023-02-28 20:01:40 公開日:2023-02-24
# 生成可能可逆量子ニューラルネットワーク

Generative Invertible Quantum Neural Networks ( http://arxiv.org/abs/2302.12906v1 )

ライセンス: Link先を確認
Armand Rousselot and Michael Spannowsky(参考訳) Invertible Neural Networks (INN)は、高度に複雑なデータのシミュレーションと生成のためのツールとして確立されている。 本稿では,量子可逆ニューラルネットワーク(QINN)の量子ゲートアルゴリズムを提案し,これを粒子衝突精度測定の標準ろうそくプロセスであるレプトンに崩壊するZボソンのジェット関連生成のLHCデータに適用する。 異なる損失関数とトレーニングシナリオに対するQINNのパフォーマンスを比較した。 この課題に対して、ハイブリッドQINNは、より大規模な純粋に古典的な INN の性能と、複雑なデータの学習と生成において一致している。

Invertible Neural Networks (INN) have become established tools for the simulation and generation of highly complex data. We propose a quantum-gate algorithm for a Quantum Invertible Neural Network (QINN) and apply it to the LHC data of jet-associated production of a Z-boson that decays into leptons, a standard candle process for particle collider precision measurements. We compare the QINN's performance for different loss functions and training scenarios. For this task, we find that a hybrid QINN matches the performance of a significantly larger purely classical INN in learning and generating complex data.
翻訳日:2023-02-28 20:01:32 公開日:2023-02-24
# NoPPA: 文表現のための非パラメトリックペアワイズ注意ランダムウォークモデル

NoPPA: Non-Parametric Pairwise Attention Random Walk Model for Sentence Representation ( http://arxiv.org/abs/2302.12903v1 )

ライセンス: Link先を確認
Xuansheng Wu, Zhiyi Zhao, Ninghao Liu(参考訳) 非パラメトリックペアワイド注意ランダムウォークモデル(Non-Parametric Pairwise Attention Random Walk Model, NoPPA)と呼ばれる新しい非パラメトリック/非トレーニング可能な言語モデルを提案する。 我々の知る限りでは、この研究はノンパラメトリックな注意機構で単語の袋の仮定の制約を破ろうとする最初の試みである。 本手法は,8つの下流分類タスクについて評価する。 実験の結果,NoPPAは各データセットにおいて,あらゆる種類の単語ベースの手法より優れており,最先端の非パラメトリック手法と同等あるいは優れたパフォーマンスを提供することがわかった。 さらに、可視化は、NoPPAが文脈のトピック、一般的なフレーズ、単語の因果関係を理解するのをサポートする。 私たちのモデルはhttps://github.com/JacksonWuxs/NoPPAで利用可能です。

We propose a novel non-parametric/un-trainable language model, named Non-Parametric Pairwise Attention Random Walk Model (NoPPA), to generate sentence embedding only with pre-trained word embedding and pre-counted word frequency. To the best we know, this study is the first successful attempt to break the constraint on bag-of-words assumption with a non-parametric attention mechanism. We evaluate our method on eight different downstream classification tasks. The experiment results show that NoPPA outperforms all kinds of bag-of-words-based methods in each dataset and provides a comparable or better performance than the state-of-the-art non-parametric methods on average. Furthermore, visualization supports that NoPPA can understand contextual topics, common phrases, and word causalities. Our model is available at https://github.com/JacksonWuxs/NoPPA.
翻訳日:2023-02-28 20:01:21 公開日:2023-02-24
# オンラインエクサム・プロクターの利用(あるいは使用しない)に対する教育者の視点

Educators' Perspectives of Using (or Not Using) Online Exam Proctoring ( http://arxiv.org/abs/2302.12936v1 )

ライセンス: Link先を確認
David G. Balash and Rahel A. Fainchtein and Elena Korkes and Miles Grant and Micah Sherr and Adam J. Aviv(参考訳) 新型コロナウイルス(COVID-19)の感染拡大で教育の状況が変わり、教室の外での評価を受ける際に、学生を監視するリモートプロクターツールの利用が増えた。 従来の研究は、オンラインのプロクターリングツールに関する学生のプライバシーとセキュリティの懸念を探求してきたが、教育者の視点は検討中である。 特に、教育者は教室の意思決定者であり、どのリモート・プロクタリング・サービスと、彼らが適切とみなす観察レベルを選択する。 遠隔試験の要件と学生のセキュリティとプライバシのバランスについて調査するため,2020-21年度にオンライン授業を指導した大規模私立大学で3,400人以上のインストラクターに調査依頼を行った。 調査対象者のうち21%が遠隔学習期間中にオンライン試験プロクターサービスを使用しており、そのうち35%が対人学習に全面的に復帰した場合でもツールの使用を継続する計画である。 試験実施サービスを利用する教育者は、しばしばその監視能力に満足する。 しかし, 教育者は, 学生の身元を確かめるために, 特定情報を収集する場合に, 受験会社とある種の情報を共有することを懸念している。 その結果,オンライン・プロクタリングを必要としない代替アセスメントを開発した教育者が多く,オンライン・プロクタリング・サービスを利用している者は,学生のプライバシに対する潜在的なリスクと,試験・プロクタリング・サービスの有用性や必要性とのトレードオフをよく考えていた。

The onset of the COVID-19 pandemic changed the landscape of education and led to increased usage of remote proctoring tools that are designed to monitor students when they take assessments outside the classroom. While prior work has explored students' privacy and security concerns regarding online proctoring tools, the perspective of educators is under explored. Notably, educators are the decision makers in the classrooms and choose which remote proctoring services and the level of observations they deem appropriate. To explore how educators balance the security and privacy of their students with the requirements of remote exams, we sent survey requests to over 3,400 instructors at a large private university that taught online classes during the 2020/21 academic year. We had n=125 responses: 21% of the educators surveyed used online exam proctoring services during the remote learning period, and of those, 35% plan to continue using the tools even when there is a full return to in-person learning. Educators who use exam proctoring services are often comfortable with their monitoring capabilities. However, educators are concerned about students sharing certain types of information with exam proctoring companies, particularly when proctoring services collect identifiable information to validate students' identities. Our results suggest that many educators developed alternative assessments that did not require online proctoring and that those who did use online proctoring services often considered the tradeoffs between the potential risks to student privacy and the utility or necessity of exam proctoring services.
翻訳日:2023-02-28 19:53:50 公開日:2023-02-24
# ビジュアルプライバシ:小売業における未合意のビデオ分析に関する規制

Visual Privacy: Current and Emerging Regulations Around Unconsented Video Analytics in Retail ( http://arxiv.org/abs/2302.12935v1 )

ライセンス: Link先を確認
Scott Pletcher(参考訳) ビデオ分析は、デジタルビデオデータと機械学習モデルを組み合わせて、そのビデオから様々な特徴を推測するプラクティスである。 この機能は、オブジェクト、ムーブメント、および物理小売店の顧客数を検出するために長年使われてきたが、より複雑な機械学習モデルとより強力なコンピューティングパワーを組み合わせることで、新たなレベルの可能性を解き放った。 研究者らは、特定の年齢、民族、健康状態、感情状態などのビデオ分析を使って、個人の特性全体を推測することが可能になったと主張している。 さらに、個々の視覚的アイデンティティは、他のデータ提供者からの情報を付加して、詳細なプロファイルを構築することができる。 一部の小売業者は、顧客をよりよく知る方法として、この新しいテクノロジーを実験し始めた。 しかし、同じアーリーアダプターたちは、プライバシーとデータの所有権に関して、進化する法的状況に陥っている。 この研究は、ビデオ分析の利用に関する現在進行中の法的な状況と法律、特に小売店の設定について考察する。 個人化されたビデオ分析に関する倫理的および法的規範は依然として流動的であるため、小売業者は待ち行列のアプローチを採用するか、コストのかかる法的費用を負わせ、ブランドに損害を与える可能性がある。

Video analytics is the practice of combining digital video data with machine learning models to infer various characteristics from that video. This capability has been used for years to detect objects, movement, and the number of customers in physical retail stores, but more complex machine learning models combined with more powerful computing power has unlocked new levels of possibility. Researchers claim it is now possible to infer a whole host of characteristics about an individual using video analytics, such as specific age, ethnicity, health status and emotional state. Moreover, an individuals visual identity can be augmented with information from other data providers to build out a detailed profile, all with the individual unknowingly contributing their physical presence in front of a retail store camera. Some retailers have begun to experiment with this new technology as a way to better know their customers. However, those same early adopters are caught in an evolving legal landscape around privacy and data ownership. This research looks into the current legal landscape and legislation currently in progress around the use of video analytics, specifically in the retail store setting. Because the ethical and legal norms around individualized video analytics are still heavily in flux, retailers are urged to adopt a wait and see approach or potentially incur costly legal expenses and risk damage to their brand.
翻訳日:2023-02-28 19:53:20 公開日:2023-02-24
# 大規模言語モデルを用いたロボット行動駆動型タスク生成

Robot Behavior-Tree-Based Task Generation with Large Language Models ( http://arxiv.org/abs/2302.12927v1 )

ライセンス: Link先を確認
Yue Cao and C.S. George Lee(参考訳) 近年,ロボット作業の表現として,モジュール性と再利用性からビヘイビアツリーが普及している。 手動で行動木タスクを設計することは、ロボットのエンドユーザーにとって時間を要するため、自動行動木ベースのタスク生成を調査する必要がある。 以前のビヘイビアツリーベースのタスク生成アプローチは、固定されたプリミティブタスクにフォーカスし、新しいタスクドメインへの一般化性を欠いている。 そこで本研究では,最先端の大規模言語モデルを用いた新しいタスク生成手法を提案する。 本稿では,階層構造を有するロボットタスク生成を可能にし,それとビヘイビアツリーエンベディングに基づく検索と統合して適切なプロンプトを設定するフェーズステッププロンプト設計を提案する。 このようにして、自動およびクロスドメイン動作ツリータスク生成を可能にする。 ビヘイビアツリーベースのタスク生成アプローチは、事前に定義されたプリミティブタスクのセットを必要としない。 エンドユーザは、抽象的なタスクのみを記述する必要があり、提案手法は、迅速に対応する行動木を生成することができる。 提案手法を実証するために全プロセス事例研究を行った。 フェーズステッププロンプトの有効性を評価するため,アブレーション実験を行った。 フェーズステップのプロンプトの評価と大規模言語モデルの制限について論じる。

Nowadays, the behavior tree is gaining popularity as a representation for robot tasks due to its modularity and reusability. Designing behavior-tree tasks manually is time-consuming for robot end-users, thus there is a need for investigating automatic behavior-tree-based task generation. Prior behavior-tree-based task generation approaches focus on fixed primitive tasks and lack generalizability to new task domains. To cope with this issue, we propose a novel behavior-tree-based task generation approach that utilizes state-of-the-art large language models. We propose a Phase-Step prompt design that enables a hierarchical-structured robot task generation and further integrate it with behavior-tree-embedding-based search to set up the appropriate prompt. In this way, we enable an automatic and cross-domain behavior-tree task generation. Our behavior-tree-based task generation approach does not require a set of pre-defined primitive tasks. End-users only need to describe an abstract desired task and our proposed approach can swiftly generate the corresponding behavior tree. A full-process case study is provided to demonstrate our proposed approach. An ablation study is conducted to evaluate the effectiveness of our Phase-Step prompts. Assessment on Phase-Step prompts and the limitation of large language models are presented and discussed.
翻訳日:2023-02-28 19:52:56 公開日:2023-02-24
# Map-and-Conquer: 動的ニューラルネットワークの異種MPSoCへのエネルギー効率の良いマッピング

Map-and-Conquer: Energy-Efficient Mapping of Dynamic Neural Nets onto Heterogeneous MPSoCs ( http://arxiv.org/abs/2302.12926v1 )

ライセンス: Link先を確認
Halima Bouzidi, Mohanad Odema, Hamza Ouarnoughi, Smail Niar, Mohammad Abdullah Al Faruque(参考訳) 不均一MPSoCは様々な計算能力を持つ多様な処理ユニットから構成される。 これまでのところ、ニューラルネットワーク(NN)のそのようなシステムへのマッピング戦略は、本質的にNNの構造と基盤となるハードウェア構成の両方を通じて実現された並列処理の可能性を十分に活用していない。 本稿では,NNをヘテロジニアスMPSoCに効果的にマッピングする手法を提案する。 具体的には,並列nnブロックの異なるハードウェア計算ユニットへの展開を容易にする「幅」次元に沿って,nnの最適分割スキームを特定する。 さらに,提案手法は,MPSoCに分割NNを動的マルチエグジットネットワークとして展開し,性能向上に寄与する。 標準MPSoCプラットフォーム上での実験では、DLAのみのマッピングよりも1.7倍のレイテンシで、GPUのみのマッピングよりも2.1倍エネルギー効率の高い動的マッピング構成が得られた。

Heterogeneous MPSoCs comprise diverse processing units of varying compute capabilities. To date, the mapping strategies of neural networks (NNs) onto such systems are yet to exploit the full potential of processing parallelism, made possible through both the intrinsic NNs' structure and underlying hardware composition. In this paper, we propose a novel framework to effectively map NNs onto heterogeneous MPSoCs in a manner that enables them to leverage the underlying processing concurrency. Specifically, our approach identifies an optimal partitioning scheme of the NN along its `width' dimension, which facilitates deployment of concurrent NN blocks onto different hardware computing units. Additionally, our approach contributes a novel scheme to deploy partitioned NNs onto the MPSoC as dynamic multi-exit networks for additional performance gains. Our experiments on a standard MPSoC platform have yielded dynamic mapping configurations that are 2.1x more energy-efficient than the GPU-only mapping while incurring 1.7x less latency than DLA-only mapping.
翻訳日:2023-02-28 19:52:39 公開日:2023-02-24
# 量子自然言語処理のための事前学習言語モデルの適用

Adapting Pre-trained Language Models for Quantum Natural Language Processing ( http://arxiv.org/abs/2302.13812v1 )

ライセンス: Link先を確認
Qiuchi Li, Benyou Wang, Yudong Zhu, Christina Lioma and Qun Liu(参考訳) 古典量子移動学習パラダイムは、量子モデルと古典的事前学習ニューラルネットワークを組み合わせることで、コンピュータビジョンのような多くのタスクにおける量子計算モデルに十分なパフォーマンスをもたらした。 しかし、事前訓練されたモデルを用いた量子コンピューティングは、自然言語処理(NLP)では研究されていない。 基礎となる量子コンピューティング基盤の高線形性制約のため、既存の量子nlpモデルは実際のタスクでの性能に制限がある。 このギャップを補うために、複雑な値のBERTのようなアーキテクチャで文状態の事前学習を行い、古典的量子変換学習方式に適応する。 量子シミュレーション実験では、事前学習された表現は、エンドツーエンドの量子モデルのキャパシティに50%から60%の増加をもたらす。

The emerging classical-quantum transfer learning paradigm has brought a decent performance to quantum computational models in many tasks, such as computer vision, by enabling a combination of quantum models and classical pre-trained neural networks. However, using quantum computing with pre-trained models has yet to be explored in natural language processing (NLP). Due to the high linearity constraints of the underlying quantum computing infrastructures, existing Quantum NLP models are limited in performance on real tasks. We fill this gap by pre-training a sentence state with complex-valued BERT-like architecture, and adapting it to the classical-quantum transfer learning scheme for sentence classification. On quantum simulation experiments, the pre-trained representation can bring 50\% to 60\% increases to the capacity of end-to-end quantum models.
翻訳日:2023-02-28 15:30:33 公開日:2023-02-24
# GANによるデータ拡張による不均衡データセットの不整脈分類の性能向上

Data Augmentation with GAN increases the Performance of Arrhythmia Classification for an Unbalanced Dataset ( http://arxiv.org/abs/2302.13855v1 )

ライセンス: Link先を確認
Okan D\"uzyel, Mehmet Kuntalp(参考訳) 機械学習の分野における主要な問題の1つであるデータ不足問題のため、多くのアプリケーションの精度レベルは期待よりもかなり低いままである。 研究者が利用可能なデータを使って新しい人工知能ベースのシステムを作るのを防ぐ。 この問題は、拡張法で新しい合成データを生成することで解決できる。 本研究では,最新のデータ拡張手法であるGAN(Generative Adversarial Neural Networks)を用いて,MIT-BIH Arrhythmia Databaseを用いて新しいECG信号を生成する。 これらの生成されたデータは、機械学習システムと実際のECGデータをテストするために使用される。 その結果,この方法で機械学習システムの性能が向上することがわかった。

Due to the data shortage problem, which is one of the major problems in the field of machine learning, the accuracy level of many applications remains well below the expected. It prevents researchers from producing new artificial intelligence-based systems with the available data. This problem can be solved by generating new synthetic data with augmentation methods. In this study, new ECG signals are produced using MIT-BIH Arrhythmia Database by using Generative Adversarial Neural Networks (GAN), which is a modern data augmentation method. These generated data are used for training a machine learning system and real ECG data for testing it. The obtained results show that this way the performance of the machine learning system is increased.
翻訳日:2023-02-28 15:11:33 公開日:2023-02-24
# ディープニューラルネットワークを用いた逆ラジオスペクトログラム探索アルゴリズム

A Deep Neural Network Based Reverse Radio Spectrogram Search Algorithm ( http://arxiv.org/abs/2302.13854v1 )

ライセンス: Link先を確認
Peter Xiangyuan Ma, Steve Croft, Andrew P. V. Siemion(参考訳) ラジオスペクトログラムデータに注目するルックアライズな信号を探すために,高速かつモジュール型のディープラーニングアルゴリズムを開発した。 まず,エネルギー検出アルゴリズムによって返されるフィルタデータに対して自動エンコーダを訓練した。 次に、従来のトランスフォーマーアーキテクチャから周波数ベースの埋め込みに位置埋め込み層を適用した。 次に、オートエンコーダのエンコーダ成分を用いて、ラジオスペクトログラムの小さな (約715,Hz、周波数ビンあたり2.79Hz) 窓から特徴を抽出した。 提案手法では,類似した特徴量を持つ最上位候補を生成するために,信号群(検索項目の符号化特徴)上で与えられた問合せ(興味の符号化信号)の探索を行う。 我々は,元のラジオスペクトログラムデータのみを考慮し,類似した外観の信号の検索に成功した。

We developed a fast and modular deep learning algorithm to search for lookalike signals of interest in radio spectrogram data. First, we trained an autoencoder on filtered data returned by an energy detection algorithm. We then adapted a positional embedding layer from classical Transformer architecture to a frequency-based embedding. Next we used the encoder component of the autoencoder to extract features from small (~ 715,Hz with a resolution of 2.79Hz per frequency bin) windows in the radio spectrogram. We used our algorithm to conduct a search for a given query (encoded signal of interest) on a set of signals (encoded features of searched items) to produce the top candidates with similar features. We successfully demonstrate that the algorithm retrieves signals with similar appearance, given only the original radio spectrogram data.
翻訳日:2023-02-28 15:11:21 公開日:2023-02-24
# 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? ( http://arxiv.org/abs/2302.11713v2 )

ライセンス: Link先を確認
Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang(参考訳) 大規模言語モデルは、知識集約的な疑問に答える創発的な能力を示している。 ウェブスケールのビジュアルおよび言語事前学習の最近の進歩により、これらのモデルは、質問に答える視覚情報についても理解できますか? この疑問に答えるために,情報検索に焦点をあてたビジュアル質問回答データセットであるInfoSeekを紹介した。 質問・回答ペアを求める高品質な視覚情報の自然な分布を収集するために,多段階のヒューマンアノテーションを行う。 また、既存のビジュアルエンティティ認識データセットとWikidataを組み合わせて、大規模で自動で収集されたデータセットを構築し、モデル微調整と検証に100万以上の例を提供する。 InfoSeekに基づいて、事前学習された様々なビジュアルQAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得た。 分析の結果、最先端のマルチモーダル事前学習モデルでは、質問に答えることは困難であるが、この能力は、自動化されたinfoseekデータセットの微調整によって改善されている。 我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。

Large language models have demonstrated an emergent capability in answering knowledge intensive questions. With recent progress on web-scale visual and language pre-training, do these models also understand how to answer visual information seeking questions? To answer this question, we present InfoSeek, a Visual Question Answering dataset that focuses on asking information-seeking questions, where the information can not be answered by common sense knowledge. We perform a multi-stage human annotation to collect a natural distribution of high-quality visual information seeking question-answer pairs. We also construct a large-scale, automatically collected dataset by combining existing visual entity recognition datasets and Wikidata, which provides over one million examples for model fine-tuning and validation. Based on InfoSeek, we analyzed various pre-trained Visual QA systems to gain insights into the characteristics of different pre-trained models. Our analysis shows that it is challenging for the state-of-the-art multi-modal pre-trained models to answer visual information seeking questions, but this capability is improved through fine-tuning on the automated InfoSeek dataset. We hope our analysis paves the way to understand and develop the next generation of multi-modal pre-training.
翻訳日:2023-02-28 12:17:01 公開日:2023-02-24
# 埋め込み型セマンティックSQLクエリのためのスケーラブルな空間効率インデータベース解釈フレームワーク

A Scalable Space-efficient In-database Interpretability Framework for Embedding-based Semantic SQL Queries ( http://arxiv.org/abs/2302.12178v2 )

ライセンス: Link先を確認
Prabhakar Kudva, Rajesh Bordawekar, Apoorva Nitsure(参考訳) AI-Powered Database(AI-DB)は、リレーショナルテーブル上のセマンティックSQLクエリを可能にする、自己教師付きニューラルネットワークであるデータベース埋め込みを使用する、新しいリレーショナルデータベースシステムである。 本稿では、AI-DBがサポートするセマンティックSQLクエリのランキング結果に対する、シンプルで透明で関連性の高い洞察を提供するために設計されたデータベース内解釈可能性インフラストラクチャのアーキテクチャと実装について述べる。 我々は,共起数を保存するための空間効率のよい確率的スケッチ実装を記述するために,共起数に基づく新しい解釈可能性アプローチを導入する。 このアプローチはクエリ非依存(グローバル)とクエリ固有(ローカル)の両方の解釈を提供する。 実験により、我々のデータベース内確率的アプローチは、正確な空間非効率アプローチと同じ解釈可能性品質を提供する一方で、スケーラブルで空間効率のよい実行時挙動(最大8倍の空間節約)をユーザーの介入なしに提供することを示した。

AI-Powered database (AI-DB) is a novel relational database system that uses a self-supervised neural network, database embedding, to enable semantic SQL queries on relational tables. In this paper, we describe an architecture and implementation of in-database interpretability infrastructure designed to provide simple, transparent, and relatable insights into ranked results of semantic SQL queries supported by AI-DB. We introduce a new co-occurrence based interpretability approach to capture relationships between relational entities and describe a space-efficient probabilistic Sketch implementation to store and process co-occurrence counts. Our approach provides both query-agnostic (global) and query-specific (local) interpretabilities. Experimental evaluation demonstrate that our in-database probabilistic approach provides the same interpretability quality as the precise space-inefficient approach, while providing scalable and space efficient runtime behavior (up to 8X space savings), without any user intervention.
翻訳日:2023-02-27 15:47:40 公開日:2023-02-24
# 自己教師型音声モデルのための韻律ベンチマークProsAudit

ProsAudit, a prosodic benchmark for self-supervised speech models ( http://arxiv.org/abs/2302.12057v2 )

ライセンス: Link先を確認
Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux(参考訳) 本稿では,自己教師付き学習(ssl)における構造的韻律知識を評価するための英語ベンチマークprosauditを提案する。 2つのサブタスク、対応するメトリクス、評価データセットで構成される。 プロトシンタックスタスクでは、モデルは強くて弱い韻律境界を正確に識別しなければならない。 語彙的タスクでは、モデルが単語と単語の間に挿入されたポーズを正しく区別する必要がある。 このベンチマークでは人による評価スコアも提供する。 sslの一連のモデルを評価して、見当たらない言語でトレーニングした場合でも、両方のタスクで高い確率で実行できたことを突き止めました。 しかし、非ネイティブモデルは語彙課題においてネイティブモデルよりも著しく悪く、この課題における語彙知識の重要性を強調した。 また、2つのサブタスクにおいて、より多くのデータに基づいてトレーニングされたモデルによるサイズの影響も明らかになりました。

We present ProsAudit, a benchmark in English to assess structural prosodic knowledge in self-supervised learning (SSL) speech models. It consists of two subtasks, their corresponding metrics, an evaluation dataset. In the protosyntax task, the model must correctly identify strong versus weak prosodic boundaries. In the lexical task, the model needs to correctly distinguish between pauses inserted between words and within words. We also provide human evaluation scores on this benchmark. We evaluated a series of SSL models and found that they were all able to perform above chance on both tasks, even when trained on an unseen language. However, non-native models performed significantly worse than native ones on the lexical task, highlighting the importance of lexical knowledge in this task. We also found a clear effect of size with models trained on more data performing better in the two subtasks.
翻訳日:2023-02-27 15:47:24 公開日:2023-02-24
# モデリング前処理技術の比較

A Comparison of Modeling Preprocessing Techniques ( http://arxiv.org/abs/2302.12042v2 )

ライセンス: Link先を確認
Tosan Johnson, Alice J. Liu, Syed Raza, Aaron McGuire(参考訳) 本稿では,構造化データの予測性能の観点から様々なデータ処理手法の性能を比較する。 本稿では,eXtreme Gradient Boosting(XGBoost)モデルに着目し,ツリーベースバイナリ分類モデルの事前処理手法の同定と推奨を行う。 様々な構造、相互作用、複雑さの3つのデータセットが構築され、レンディングクラブの現実世界のデータセットによって補われた。 特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。 モデル予測変数を含む選択した手法の相対比較により性能を評価する。 本論文は,前処理方法論の3つのグループによって提示され,各セクションは一般化された観察によって構成される。 各観察には1つ以上の好ましい方法論が推奨されている。 特徴選択法のうち、置換に基づく特徴重要度、正規化、およびxgboostの特徴重要度は推奨されない。 相関係数の低減は性能の低下も示している。 代わりに、XGBoostの重要さは、最も一貫性があり、最高の性能を示している。 符号化手法の分類は、データセット構造間の性能の差別性を示す。 普遍的な "best" 方式は存在しなかったが、周波数符号化は最も複雑なデータセット (lending club) で最大の性能を示したが、すべての合成(すなわちより単純な)データセットでは最も性能が低かった。 最後に,木インプテーションは極めて貧弱で可変なモデル性能を示したが,指標インプテーションの欠如はインプテーション法の性能の面で支配的であった。

This paper compares the performance of various data processing methods in terms of predictive performance for structured data. This paper also seeks to identify and recommend preprocessing methodologies for tree-based binary classification models, with a focus on eXtreme Gradient Boosting (XGBoost) models. Three data sets of various structures, interactions, and complexity were constructed, which were supplemented by a real-world data set from the Lending Club. We compare several methods for feature selection, categorical handling, and null imputation. Performance is assessed using relative comparisons among the chosen methodologies, including model prediction variability. This paper is presented by the three groups of preprocessing methodologies, with each section consisting of generalized observations. Each observation is accompanied by a recommendation of one or more preferred methodologies. Among feature selection methods, permutation-based feature importance, regularization, and XGBoost's feature importance by weight are not recommended. The correlation coefficient reduction also shows inferior performance. Instead, XGBoost importance by gain shows the most consistency and highest caliber of performance. Categorical featuring encoding methods show greater discrimination in performance among data set structures. While there was no universal "best" method, frequency encoding showed the greatest performance for the most complex data sets (Lending Club), but had the poorest performance for all synthetic (i.e., simpler) data sets. Finally, missing indicator imputation dominated in terms of performance among imputation methods, whereas tree imputation showed extremely poor and highly variable model performance.
翻訳日:2023-02-27 15:47:10 公開日:2023-02-24
# ArtiFact: 汎用・ロバスト合成画像検出のための人工・実画像付き大規模データセット

ArtiFact: A Large-Scale Dataset with Artificial and Factual Images for Generalizable and Robust Synthetic Image Detection ( http://arxiv.org/abs/2302.11970v2 )

ライセンス: Link先を確認
Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah(参考訳) 合成画像生成は新しい機会を開いたが、プライバシー、信頼性、セキュリティに関する脅威も生み出した。 偽画像の検出は違法な活動を防ぐために最重要であり、以前の研究では、生成モデルはそれらを検出するために利用される合成画像にユニークなパターンを残すことが示されている。 しかし、一般化の根本的な問題は依然として残っており、最先端の検出器でさえ、訓練中に決して見えない発電機に直面すると困難に直面する。 実世界の障害に直面した合成画像検出器の一般化性とロバスト性を評価するため,多種多様なジェネレータ,オブジェクトカテゴリ,実世界の課題からなる大規模データセットArtiFactを提案する。 さらに,マルチクラス分類手法とフィルタストライド低減戦略を組み合わせることで,社会的プラットフォーム障害に対処し,目に見えない生成物から合成画像を検出する。 提案手法は、icp 2022のieee vipカップチャレンジにおいて、テスト1、テスト2では1.26%、テスト3では15.08%と、他のトップチームの8.34%を大きく上回っている。

Synthetic image generation has opened up new opportunities but has also created threats in regard to privacy, authenticity, and security. Detecting fake images is of paramount importance to prevent illegal activities, and previous research has shown that generative models leave unique patterns in their synthetic images that can be exploited to detect them. However, the fundamental problem of generalization remains, as even state-of-the-art detectors encounter difficulty when facing generators never seen during training. To assess the generalizability and robustness of synthetic image detectors in the face of real-world impairments, this paper presents a large-scale dataset named ArtiFact, comprising diverse generators, object categories, and real-world challenges. Moreover, the proposed multi-class classification scheme, combined with a filter stride reduction strategy addresses social platform impairments and effectively detects synthetic images from both seen and unseen generators. The proposed solution significantly outperforms other top teams by 8.34% on Test 1, 1.26% on Test 2, and 15.08% on Test 3 in the IEEE VIP Cup challenge at ICIP 2022, as measured by the accuracy metric.
翻訳日:2023-02-27 15:46:26 公開日:2023-02-24
# PIFON-EPT:物理インフォームドフーリエネットワークを用いたMR特性トモグラフィ

PIFON-EPT: MR-Based Electrical Property Tomography Using Physics-Informed Fourier Networks ( http://arxiv.org/abs/2302.11883v2 )

ライセンス: Link先を確認
Xinling Yu, Jos\'e E. C. Serrall\'es, Ilias I. Giannakopoulos, Ziyue Liu, Luca Daniel, Riccardo Lattanzi, Zheng Zhang(参考訳) 本稿では,電気特性(EP)トモグラフィ(EPT)のための物理インフォームドフーリエネットワーク(PIFON)について紹介する。 本手法は,雑音および不完全磁気共鳴(mr)測定に基づく逆散乱問題を解くことで,epsをグローバルに学習することができる。 \textit{methods:} 私たちは、$b_1^{+}$ netとep netという2つの完全に接続されたニューラルネットワークを使って、$b_1^{+}$フィールドとepsを任意の場所で学習します。 ランダムフーリエ特徴マッピングは$b_1^{+}$ netに埋め込まれており、$b_1^{+}$フィールドをより効率的に学習することができる。 これら2つのニューラルネットワークは、勾配降下による物理インフォームド損失とデータミスマッチ損失の組合せを最小化することにより、共同で訓練される。 \textit{Results:} PIFON-EPTによるEPの物理的に一貫した再構成と関心領域全体の送信が,全容積のノイズMR測定の半分が欠落している場合でも可能であることを示した。 平均誤差はファントム全体の体積に対して、相対的な誘電率、導電率、およびB_{1}^{+}$に対して$2.49\%、$4.09\%、$0.32\%であった。 B_z$をゼロと仮定した実験では、PIFON-EPTは境界条件を必要とせず、異なるEP値の領域間の界面付近で正確なEP予測を得ることができた。 \textit{Conclusion:} この研究はPIFON-EPTの実現可能性を示し、電気的特性推定の正確かつ効果的な方法である可能性が示唆された。 \textit{Significance:} PIFON-EPTは、他のMRベースのEPT技術を改善する可能性を示すMR測定を効率的にデノイズ化することができる。 さらに,不完全擬似雑音MR測定からEPと$B_{1}^{+}$フィールドを同時に再構成できるのは,MRベースのEPT法が初めてである。

\textit{Objective:} In this paper, we introduce Physics-Informed Fourier Networks (PIFONs) for Electrical Properties (EP) Tomography (EPT). Our novel deep learning-based method is capable of learning EPs globally by solving an inverse scattering problem based on noisy and/or incomplete magnetic resonance (MR) measurements. \textit{Methods:} We use two separate fully-connected neural networks, namely $B_1^{+}$ Net and EP Net, to learn the $B_1^{+}$ field and EPs at any location. A random Fourier features mapping is embedded into $B_1^{+}$ Net, which allows it to learn the $B_1^{+}$ field more efficiently. These two neural networks are trained jointly by minimizing the combination of a physics-informed loss and a data mismatch loss via gradient descent. \textit{Results:} We showed that PIFON-EPT could provide physically consistent reconstructions of EPs and transmit field in the whole domain of interest even when half of the noisy MR measurements of the entire volume was missing. The average error was $2.49\%$, $4.09\%$ and $0.32\%$ for the relative permittivity, conductivity and $B_{1}^{+}$, respectively, over the entire volume of the phantom. In experiments that admitted a zero assumption of $B_z$, PIFON-EPT could yield accurate EP predictions near the interface between regions of different EP values without requiring any boundary conditions. \textit{Conclusion:} This work demonstrated the feasibility of PIFON-EPT, suggesting it could be an accurate and effective method for electrical properties estimation. \textit{Significance:} PIFON-EPT can efficiently de-noise MR measurements, which shows the potential to improve other MR-based EPT techniques. Furthermore, it is the first time that MR-based EPT methods can reconstruct the EPs and $B_{1}^{+}$ field simultaneously from incomplete simulated noisy MR measurements.
翻訳日:2023-02-27 15:46:02 公開日:2023-02-24
# 半教師付きグラフ学習で資金洗浄を発見

Catch Me If You Can: Semi-supervised Graph Learning for Spotting Money Laundering ( http://arxiv.org/abs/2302.11880v2 )

ライセンス: Link先を確認
Md. Rezaul Karim and Felix Hermsen and Sisay Adugna Chala and Paola de Perthuis and Avikarsha Mandal(参考訳) マネーロンダリング(英: money laundering)とは、犯罪者が金融サービスを使って大量の違法な金を追跡不能な目的地に移動し、それを合法的な金融システムに統合するプロセスである。 反マネーロンダリング(AML)を施行するためには、これらの活動を正確かつ確実に特定することが極めて重要である。 AMLに対する多大な努力にもかかわらず、わずかに違法な活動が妨げられている。 銀行口座間の送金の所定のグラフから、既存のアプローチはマネーロンダリングの検出を試みた。 特に、いくつかのアプローチでは、密集したサブグラフ検出の構造的・行動的ダイナミクスを採用しており、資金洗浄が銀行口座の連鎖を通じて資金の大量流出を伴うことを考慮しない。 いくつかのアプローチでは、トランザクションを多部グラフ形式でモデル化し、ソースから目的地へのお金の完全な流れを検出する。 しかし、既存の手法では検出精度が低く、信頼性が低い。 本稿では,金融取引のグラフ上で半教師付きグラフ学習手法を用いて,マネーロンダリングの可能性があるノードを特定する。 実験結果から,本手法は実取引および合成取引グラフから資金洗浄を行うことができることが示唆された。

Money laundering is the process where criminals use financial services to move massive amounts of illegal money to untraceable destinations and integrate them into legitimate financial systems. It is very crucial to identify such activities accurately and reliably in order to enforce an anti-money laundering (AML). Despite tremendous efforts to AML only a tiny fraction of illicit activities are prevented. From a given graph of money transfers between accounts of a bank, existing approaches attempted to detect money laundering. In particular, some approaches employ structural and behavioural dynamics of dense subgraph detection thereby not taking into consideration that money laundering involves high-volume flows of funds through chains of bank accounts. Some approaches model the transactions in the form of multipartite graphs to detect the complete flow of money from source to destination. However, existing approaches yield lower detection accuracy, making them less reliable. In this paper, we employ semi-supervised graph learning techniques on graphs of financial transactions in order to identify nodes involved in potential money laundering. Experimental results suggest that our approach can sport money laundering from real and synthetic transaction graphs.
翻訳日:2023-02-27 15:45:28 公開日:2023-02-24
# vlsp2022 evjvqaチャレンジ: 多言語視覚質問応答

VLSP2022 EVJVQA Challenge: Multilingual Visual Question Answering ( http://arxiv.org/abs/2302.11752v2 )

ライセンス: Link先を確認
Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T.D Vo, Khanh Quoc Tran, Kiet Van Nguyen(参考訳) VQA(Visual Question Answering)は自然言語処理(NLP)とコンピュータビジョン(CV)の課題であり、研究者から大きな注目を集めている。 英語はリソースに富む言語であり、視覚的な質問応答のためのデータセットやモデルで様々な発展を目撃してきた。 他の言語での視覚的な質問応答も、リソースやモデルのために開発される。 加えて、独自の対象と文化的特徴を持つ、特定の国の視覚コンテンツをターゲットにした多言語データセットは存在しない。 ベトナム語、英語、日本語の3つの言語に対する33,000組以上の質問応答を含む、多言語vqaシステムやモデルを評価するためにベトナムから撮影された約5,000枚の画像を含む、研究コミュニティにevjvqaというベンチマークデータセットを提供する。 EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答の課題に対するベンチマークデータセットとして使用されている。 この作業は、様々な大学や組織から62の参加者を惹きつけた。 本稿では,課題の組織の詳細,共有タスク参加者が採用する手法の概要,その結果について述べる。 最高パフォーマンスはF1スコアの0.4392、プライベートテストセットのBLUEの0.4009である。 トップ2チームが提案した多言語QAシステムは、事前訓練された視覚モデルにViT、事前訓練された言語モデルにmT5を使用している。 EVJVQAは、NLPとCV研究者が視覚的質問応答システムのための多言語モデルやシステムをさらに探求するために、難しいデータセットである。

Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems.
翻訳日:2023-02-27 15:45:07 公開日:2023-02-24
# オープンドメインビジュアルエンティティ認識 : 数百万のウィキペディアエンティティ認識を目指して

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities ( http://arxiv.org/abs/2302.11154v2 )

ライセンス: Link先を確認
Hexiang Hu, Yi Luan, Yang Chen, Urvashi Khandelwal, Mandar Joshi, Kenton Lee, Kristina Toutanova, Ming-Wei Chang(参考訳) CLIPやPaLIのような大規模マルチモーダル事前学習モデルは、様々な視覚領域やタスクに対して強力な一般化を示す。 しかし、既存の画像分類ベンチマークでは、特定の領域(例えば、屋外画像)や特定のタスク(例えば、植物種を分類するなど)に対する認識を評価し、事前訓練された基礎モデルが普遍的な視覚的認識者であるかどうかを評価するには不十分である。 これに対処するために,open-domain visual entity recognition(oven)というタスクを正式に提示する。 我々はOVEN-Wikiを構築し、14の既存のデータセットを再取得し、すべてのラベルを1つのラベル空間、すなわちWikipediaエンティティを基盤とした。 OVENは、600万の可能なウィキペディアエンティティの中からモデルを選択するよう挑戦し、最大数のラベルを持つ一般的な視覚認識ベンチマークとなる。 最先端の事前学習モデルに関する研究により,大規模ラベル空間に一般化した大きなヘッドルームが明らかになった。 私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。 PaLIベースのモデルでは全体的なパフォーマンスが向上する一方、CLIPベースのモデルはテールエンティティを認識するのに優れている。

Large-scale multi-modal pre-training models such as CLIP and PaLI exhibit strong generalization on various visual domains and tasks. However, existing image classification benchmarks often evaluate recognition on a specific domain (e.g., outdoor images) or a specific task (e.g., classifying plant species), which falls short of evaluating whether pre-trained foundational models are universal visual recognizers. To address this, we formally present the task of Open-domain Visual Entity recognitioN (OVEN), where a model need to link an image onto a Wikipedia entity with respect to a text query. We construct OVEN-Wiki by re-purposing 14 existing datasets with all labels grounded onto one single label space: Wikipedia entities. OVEN challenges models to select among six million possible Wikipedia entities, making it a general visual recognition benchmark with the largest number of labels. Our study on state-of-the-art pre-trained models reveals large headroom in generalizing to the massive-scale label space. We show that a PaLI-based auto-regressive visual recognition model performs surprisingly well, even on Wikipedia entities that have never been seen during fine-tuning. We also find existing pretrained models yield different strengths: while PaLI-based models obtain higher overall performance, CLIP-based models are better at recognizing tail entities.
翻訳日:2023-02-27 15:44:30 公開日:2023-02-24
# 掘削作業における早期スタックサイン検出のための半監督的アプローチ

Semi-Supervised Approach for Early Stuck Sign Detection in Drilling Operations ( http://arxiv.org/abs/2302.11135v2 )

ライセンス: Link先を確認
Andres Hernandez-Matamoros, Kohei Sugawara, Tatsuya Kaneko, Ryota Wada, Masahiko Ozaki (JAMSTEC, INPEX, JAPEX, and JOGMEC)(参考訳) 本稿では,リアルタイム定置管予測手法を提案する。 掘削データの挙動が通常の掘削作業から逸脱した場合に,定着管の早期の兆候が明らかになる。 ドリルストリング構成や地質条件による正常度変化の定義。 ここでは、局所化された正常な振る舞いをキャプチャするために、深度領域のデータ表現を採用する。 実掘削データから抽出した正規掘削データに基づいて, オートエンコーダと変分オートエンコーダに基づく複数のモデルを訓練する。 スタッキングインシデント前のデータセットにトレーニングモデルを適用すると、8回のインシデントで大きな復元エラーが見られた。 これらの結果は、以前報告した教師付きアプローチよりも優れたパフォーマンスを示している。 様々なモデルの相互比較は、我々のアプローチの堅牢性を明らかにする。 モデルの性能は、実際の操作において複数のモデルの必要性を示す特徴パラメータに依存する。

A real-time stuck pipe prediction methodology is proposed in this paper. We assume early signs of stuck pipe to be apparent when the drilling data behavior deviates from that from normal drilling operations. The definition of normalcy changes with drill string configuration or geological conditions. Here, a depth-domain data representation is adopted to capture the localized normal behavior. Several models, based on auto-encoder and variational auto-encoders, are trained on regular drilling data extracted from actual drilling data. When the trained model is applied to data sets before stuck incidents, eight incidents showed large reconstruction errors. These results suggest better performance than the previously reported supervised approach. Inter-comparison of various models reveals the robustness of our approach. The model performance depends on the featured parameter suggesting the need for multiple models in actual operation.
翻訳日:2023-02-27 15:44:05 公開日:2023-02-24
# ノイズとバックへ:共有自律性のための拡散

To the Noise and Back: Diffusion for Shared Autonomy ( http://arxiv.org/abs/2302.12244v2 )

ライセンス: Link先を確認
Takuma Yoneda and Luzhe Sun and and Ge Yang and Bradly Stadie and Matthew Walter(参考訳) 共有自律は、ユーザーと自律エージェントがロボットシステムを協調的に制御する運用概念である。 多くの設定において、フルテレオペレーションとフルオートノミーの極端よりも多くの利点を提供します。 従来の共有自律性へのアプローチは、環境力学の知識、優先事項として知られるユーザ目標の離散的な空間、あるいは多くのドメインで非現実的な仮定に依存する。 最近の研究は、モデルフリーの深層強化学習(RL)で共有自律性を定式化し、これらの仮定の一部を緩和している。 特に、彼らはもはやゴール空間(例えば、ゴールが離散的または制約的である)や環境力学の知識は必要としない。 しかし、ポリシーを訓練するにはタスク固有の報酬関数の知識が必要です。 残念なことに、このような報酬仕様は困難で不安定なプロセスになり得る。 それに加えて、定式化は本質的には人間のループトレーニングに依存しており、ユーザの行動を模倣するポリシーを作成する必要がある。 本稿では,拡散モデルの前方および逆拡散過程の変調を用いた共有自律性への新しいアプローチを提案する。 我々のアプローチは既知の環境ダイナミクスやユーザ目標の空間を前提とせず、以前の作業とは対照的に、報酬のフィードバックは必要とせず、トレーニング中にユーザのポリシにアクセスする必要もない。 その代わり、我々のフレームワークは望ましい行動の空間上の分布を学習する。 次に拡散モデルを使用して、この分布からユーザのアクションをサンプルに変換する。 重要なことは、ユーザのコントロール権限を保持する方法で、このプロセスを実行することが可能であることを示す。 当社のフレームワークを,一連の困難な継続的制御タスクで評価し,その自律性を維持しながらユーザの行動を効果的に修正する能力を分析した。

Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user's policy -- assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users' behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user's policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user's actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user's control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy.
翻訳日:2023-02-27 15:35:27 公開日:2023-02-24
# 数分間の動的人間の神経体積表現の学習

Learning Neural Volumetric Representations of Dynamic Humans in Minutes ( http://arxiv.org/abs/2302.12237v2 )

ライセンス: Link先を確認
Chen Geng, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,疎度なマルチビュー映像から動的人間の自由視点映像を迅速に再構築する課題について述べる。 いくつかの最近の研究は、動的人間を標準的な神経放射場(NeRF)と運動場として表現している。 しかし、シーンごとの最適化は通常数時間を要する。 他の一般的なnerfモデルはデータセットから事前学習し、ビジュアル忠実度を犠牲にして新しいシーンを微調整するだけで最適化時間を短縮できる。 本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。 具体的には、ネットワークの表現力を異なる人間によりよく分配するために、新しい部分ベースのvoxelized human representationを定義する。 さらに,変形場学習の収束率を高めるために,新しい2次元運動パラメータ化手法を提案する。 実験により,レンダリング品質の面での競争力を保ちつつ,事前の最適化手法よりも100倍早く学習できることが実証された。 512 \times 512$のビデオで、100フレームでモデルをトレーニングするには、通常、RTX 3090 GPUで約5分かかります。 コードはプロジェクトページでリリースされる。 https://zju3dv.github.io/instant_nvr。

This paper addresses the challenge of quickly reconstructing free-viewpoint videos of dynamic humans from sparse multi-view videos. Some recent works represent the dynamic human as a canonical neural radiance field (NeRF) and a motion field, which are learned from videos through differentiable rendering. But the per-scene optimization generally requires hours. Other generalizable NeRF models leverage learned prior from datasets and reduce the optimization time by only finetuning on new scenes at the cost of visual fidelity. In this paper, we propose a novel method for learning neural volumetric videos of dynamic humans from sparse view videos in minutes with competitive visual quality. Specifically, we define a novel part-based voxelized human representation to better distribute the representational power of the network to different human parts. Furthermore, we propose a novel 2D motion parameterization scheme to increase the convergence rate of deformation field learning. Experiments demonstrate that our model can be learned 100 times faster than prior per-scene optimization methods while being competitive in the rendering quality. Training our model on a $512 \times 512$ video with 100 frames typically takes about 5 minutes on a single RTX 3090 GPU. The code will be released on our project page: https://zju3dv.github.io/instant_nvr
翻訳日:2023-02-27 15:34:59 公開日:2023-02-24
# pits:end-to-end pitch-controllable ttsにおける基本周波数のない変分ピッチ推定

PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS ( http://arxiv.org/abs/2302.12391v1 )

ライセンス: Link先を確認
Junhyeok Lee, Wonbin Jung, Hyunjae Cho, Jaeyeon Kim(参考訳) 従来のピッチ制御可能なテキスト音声合成(TTS)モデルは、基本周波数を直接モデル化することに依存しており、合成音声のばらつきは低い。 この問題に対処するために,変分推論を用いてピッチをモデル化するエンドツーエンドのピッチ制御可能なTSモデルPITSを提案する。 VITSに基づいて、PITSはYingramエンコーダ、Yingramデコーダ、ピッチシフト合成の対角訓練を組み込んでピッチ制御性を実現する。 実験の結果,pitsは品質劣化を伴わずに高いピッチ制御性を有するため,精度の高い音声を生成することがわかった。 コードとオーディオサンプルはhttps://github.com/anonymous-pits/pits.comで入手できる。

Previous pitch-controllable text-to-speech (TTS) models rely on directly modeling fundamental frequency, leading to low variance in synthesized speech. To address this issue, we propose PITS, an end-to-end pitch-controllable TTS model that utilizes variational inference to model pitch. Based on VITS, PITS incorporates the Yingram encoder, the Yingram decoder, and adversarial training of pitch-shifted synthesis to achieve pitch-controllability. Experiments demonstrate that PITS generates high-quality speech that is indistinguishable from ground truth speech and has high pitch-controllability without quality degradation. Code and audio samples will be available at https://github.com/anonymous-pits/pits.
翻訳日:2023-02-27 15:01:52 公開日:2023-02-24
# 説明可能なAIは死んだ、長く生きた説明可能なAI! 仮説駆動意思決定支援

Explainable AI is Dead, Long Live Explainable AI! Hypothesis-driven decision support ( http://arxiv.org/abs/2302.12389v1 )

ライセンス: Link先を確認
Tim Miller(参考訳) 本稿では,従来の説明可能な人工知能(XAI)モデルからのパラダイムシフトについて論じる。 早期意思決定支援システムでは、人々に推奨を与え、それらを考慮し、必要なときにそれに従うことができると仮定した。 しかし、研究によると、人々はレコメンデーションを信用していないために無視することが多く、レコメンデーションが間違っていても盲目的にフォローしている。 説明可能な人工知能は、モデルが特定のレコメンデーションを与える方法と理由を理解するのを助けることでこれを緩和する。 しかし、最近の研究では、人々は必ずしも意思決定を改善するのに十分な説明可能性ツールに携わるとは限らない。 人々がレコメンデーションや説明に従事するという仮定は根拠がないことが証明されている。 これは、我々は2つのことを説明できなかったからである。 まず、リコメンデーション(と説明)が人間の意思決定者からコントロールを受け、代理店を制限します。 第二に、レコメンデーションや説明を与えることは、意思決定を行う人々が採用する認知プロセスと一致しない。 本稿では,説明可能な意思決定支援のための評価AIという新しい概念的枠組みを提案する。 これはマシン・イン・ザ・ループのパラダイムであり、決定支援ツールは、受け入れや拒否を推奨するのではなく、人々の決定に対する証拠を提供する。 これは意思決定支援ツールへの過度な信頼と過度な信頼の問題を緩和し、意思決定における人間の専門知識をより活用する、と我々は主張する。

In this paper, we argue for a paradigm shift from the current model of explainable artificial intelligence (XAI), which may be counter-productive to better human decision making. In early decision support systems, we assumed that we could give people recommendations and that they would consider them, and then follow them when required. However, research found that people often ignore recommendations because they do not trust them; or perhaps even worse, people follow them blindly, even when the recommendations are wrong. Explainable artificial intelligence mitigates this by helping people to understand how and why models give certain recommendations. However, recent research shows that people do not always engage with explainability tools enough to help improve decision making. The assumption that people will engage with recommendations and explanations has proven to be unfounded. We argue this is because we have failed to account for two things. First, recommendations (and their explanations) take control from human decision makers, limiting their agency. Second, giving recommendations and explanations does not align with the cognitive processes employed by people making decisions. This position paper proposes a new conceptual framework called Evaluative AI for explainable decision support. This is a machine-in-the-loop paradigm in which decision support tools provide evidence for and against decisions made by people, rather than provide recommendations to accept or reject. We argue that this mitigates issues of over- and under-reliance on decision support tools, and better leverages human expertise in decision making.
翻訳日:2023-02-27 15:01:37 公開日:2023-02-24
# TrafFormer: 長期交通予測のためのトランスフォーマーモデル

TrafFormer: A Transformer Model for Prediction Long-term Traffic ( http://arxiv.org/abs/2302.12388v1 )

ライセンス: Link先を確認
David Alexander Tedjopurnomo, Farhana M. Choudhury, A. K. Qin(参考訳) 交通予測は、都市空間における人間の移動性の重要性から、繁栄する研究分野である。 それにもかかわらず、既存の研究は、数時間前の短期的な予測にのみ焦点を合わせており、ほとんどが1時間のみである。 長期交通予測は交通渋滞に対するより包括的で情報があり、予防的な対策を可能にするため、調査すべき重要な課題である。 本稿では,長期交通予測の課題について検討し,24時間前までの交通予測を行う。 本稿では,長期トラフィック予測のための再帰構造に基づく既存モデルの弱点に注目し,改良されたトランスフォーマーモデル ``TrafFormer を提案する。 我々のモデルと既存のハイブリッドニューラルネットワークモデルを比較する実験は、我々のモデルの優位性を示している。

Traffic prediction is a flourishing research field due to its importance in human mobility in the urban space. Despite this, existing studies only focus on short-term prediction of up to few hours in advance, with most being up to one hour only. Long-term traffic prediction can enable more comprehensive, informed, and proactive measures against traffic congestion and is therefore an important task to explore. In this paper, we explore the task of long-term traffic prediction; where we predict traffic up to 24 hours in advance. We note the weaknesses of existing models--which are based on recurrent structures--for long-term traffic prediction and propose a modified Transformer model ``TrafFormer". Experiments comparing our model with existing hybrid neural network models show the superiority of our model.
翻訳日:2023-02-27 15:01:15 公開日:2023-02-24
# コントラスト表現学習のための一般化分析

Generalization Analysis for Contrastive Representation Learning ( http://arxiv.org/abs/2302.12383v1 )

ライセンス: Link先を確認
Yunwen Lei, Tianbao Yang, Yiming Ying, Ding-Xuan Zhou(参考訳) 近年、対照的な学習は、さまざまな機械学習タスクの解決において、最先端の技術の進歩に顕著な成功を収めている。 しかし、既存の一般化分析は非常に限定的であるか、あるいは意味がない。 特に、既存の一般化誤差境界は負の例の$k$の数に線形に依存するが、実際にはダウンストリームタスクにおけるコントラスト学習のよい一般化を保証するためには、大きな$k$を選択する必要があることが広く示されている。 本稿では、対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。 本解析では,損失関数のリプシッツ連続性を活用するために,経験的被覆数とラドマシェ複素数に関する構造的結果を用いる。 自己拘束型リプシッツ損失関数については,低騒音下での高速速度を示す楽観的境界を発達させることにより,さらに改善する。 本稿では,ニューラルネットワークによる線形表現と非線形表現の両方の学習に適用し,Radecherの複雑性境界を導出して一般化境界を改良した。

Recently, contrastive learning has found impressive success in advancing the state of the art in solving various machine learning tasks. However, the existing generalization analysis is very limited or even not meaningful. In particular, the existing generalization error bounds depend linearly on the number $k$ of negative examples while it was widely shown in practice that choosing a large $k$ is necessary to guarantee good generalization of contrastive learning in downstream tasks. In this paper, we establish novel generalization bounds for contrastive learning which do not depend on $k$, up to logarithmic terms. Our analysis uses structural results on empirical covering numbers and Rademacher complexities to exploit the Lipschitz continuity of loss functions. For self-bounding Lipschitz loss functions, we further improve our results by developing optimistic bounds which imply fast rates in a low noise condition. We apply our results to learning with both linear representation and nonlinear representation by deep neural networks, for both of which we derive Rademacher complexity bounds to get improved generalization bounds.
翻訳日:2023-02-27 15:01:03 公開日:2023-02-24
# 宇宙マイクロ波背景再生:グラフに基づくベイズ畳み込みネットワークアプローチ

Cosmic Microwave Background Recovery: A Graph-Based Bayesian Convolutional Network Approach ( http://arxiv.org/abs/2302.12378v1 )

ライセンス: Link先を確認
Jadie Adams, Steven Lu, Krzysztof M. Gorski, Graca Rocha, Kiri L. Wagstaff(参考訳) 宇宙マイクロ波背景(CMB)は、宇宙の起源と進化に関する重要な知識源である。 しかし、CMBの観測は、前景の放射によって汚染され、CMB信号が隠蔽され、宇宙論的パラメータの制約による効果が低下する。 深層学習を多周波フルスキーマップからのCMBクリーニングのためのデータ駆動アプローチとして採用する。 特に、U-Netアーキテクチャに基づくグラフベースのベイズ畳み込みニューラルネットワークを開発し、画素ワイド不確実性推定によるクリーンなCMBを予測する。 プランク計画に基づく現実的なシミュレーションデータにこの手法の可能性を実証する。 その結果,不確実性領域を同定しながら,cmbスカイマップと角パワースペクトルを正確に復元できることがわかった。 最後に,CMB回復のためのモデルを実際の観測上に展開する上での現在の課題と道筋について論じる。

The cosmic microwave background (CMB) is a significant source of knowledge about the origin and evolution of our universe. However, observations of the CMB are contaminated by foreground emissions, obscuring the CMB signal and reducing its efficacy in constraining cosmological parameters. We employ deep learning as a data-driven approach to CMB cleaning from multi-frequency full-sky maps. In particular, we develop a graph-based Bayesian convolutional neural network based on the U-Net architecture that predicts cleaned CMB with pixel-wise uncertainty estimates. We demonstrate the potential of this technique on realistic simulated data based on the Planck mission. We show that our model accurately recovers the cleaned CMB sky map and resulting angular power spectrum while identifying regions of uncertainty. Finally, we discuss the current challenges and the path forward for deploying our model for CMB recovery on real observations.
翻訳日:2023-02-27 15:00:44 公開日:2023-02-24
# スポンサー付き検索広告におけるキーワード決定:文献レビューと研究課題

Keyword Decisions in Sponsored Search Advertising: A Literature Review and Research Agenda ( http://arxiv.org/abs/2302.12372v1 )

ライセンス: Link先を確認
Yanwu Yang and Huiran Li(参考訳) スポンサード検索広告(ssa)では、キーワードはビジネスモデルの基本単位であり、消費者、広告主、検索エンジンの3つの利害関係者を結びつける。 本稿では,キーワードプール生成,キーワードターゲティング,キーワード割り当てとグループ化,キーワード調整の4段階を含む,検索広告管理におけるタッチポイントを強調する,キーワード決定のための包括的フレームワークを提案する。 本フレームワークを用いて,キーワード決定に関する最新の研究文献を,技術,入力特徴,評価指標についてレビューする。 最後に,進化する問題について議論し,文献に存在する潜在的なギャップを特定し,今後の探究のための新たな研究展望を概説する。

In sponsored search advertising (SSA), keywords serve as the basic unit of business model, linking three stakeholders: consumers, advertisers and search engines. This paper presents an overarching framework for keyword decisions that highlights the touchpoints in search advertising management, including four levels of keyword decisions, i.e., domain-specific keyword pool generation, keyword targeting, keyword assignment and grouping, and keyword adjustment. Using this framework, we review the state-of-the-art research literature on keyword decisions with respect to techniques, input features and evaluation metrics. Finally, we discuss evolving issues and identify potential gaps that exist in the literature and outline novel research perspectives for future exploration.
翻訳日:2023-02-27 15:00:31 公開日:2023-02-24
# 分散適応的後悔境界を持つ3世界リニアバンディットアルゴリズム

Best-of-Three-Worlds Linear Bandit Algorithm with Variance-Adaptive Regret Bounds ( http://arxiv.org/abs/2302.12370v1 )

ライセンス: Link先を確認
Shinji Ito, Kei Takemura(参考訳) 本稿では,2つの階層レベルの環境に適応した線形バンディットアルゴリズムを提案する。 高いレベルでは、提案されたアルゴリズムは様々な種類の環境に適応する。 より正確には、これは3つの世界の最良な後悔境界、すなわち、敵の環境に対して${O}(\sqrt{T \log T})$と$O(\frac{\log T}{\Delta_{\min}} + \sqrt {\frac{C \log T}{\Delta_{\min}}})$に対して$T$、$\Delta_{\min}$および$C$が達成される。 ここでは次元の多項式因子を省略する。 低レベルでは、各対向的および確率的体制において、提案アルゴリズムは特定の環境特性に適応し、より良い性能を発揮する。 提案アルゴリズムは, 最適動作に対する累積損失, 総二次変動, 損失ベクトル列の経路長に依存するデータ依存的残差を持つ。 さらに,確率環境において,提案手法は分散適応的後悔値が$o(\frac{\sigma^2 \log t}{\delta_{\min}})であるのに対し,$\sigma^2$ はフィードバック損失の最大分散を表す。 提案アルゴリズムはscribleアルゴリズムに基づいている。 我々は,この手法をスケールアップサンプリングと呼ぶ新しい手法を取り入れ,高いレベルの適応性を得るとともに,楽観的なオンライン学習手法を取り入れることで,低レベルの適応性を得る。

This paper proposes a linear bandit algorithm that is adaptive to environments at two different levels of hierarchy. At the higher level, the proposed algorithm adapts to a variety of types of environments. More precisely, it achieves best-of-three-worlds regret bounds, i.e., of ${O}(\sqrt{T \log T})$ for adversarial environments and of $O(\frac{\log T}{\Delta_{\min}} + \sqrt{\frac{C \log T}{\Delta_{\min}}})$ for stochastic environments with adversarial corruptions, where $T$, $\Delta_{\min}$, and $C$ denote, respectively, the time horizon, the minimum sub-optimality gap, and the total amount of the corruption. Note that polynomial factors in the dimensionality are omitted here. At the lower level, in each of the adversarial and stochastic regimes, the proposed algorithm adapts to certain environmental characteristics, thereby performing better. The proposed algorithm has data-dependent regret bounds that depend on all of the cumulative loss for the optimal action, the total quadratic variation, and the path-length of the loss vector sequence. In addition, for stochastic environments, the proposed algorithm has a variance-adaptive regret bound of $O(\frac{\sigma^2 \log T}{\Delta_{\min}})$ as well, where $\sigma^2$ denotes the maximum variance of the feedback loss. The proposed algorithm is based on the SCRiBLe algorithm. By incorporating into this a new technique we call scaled-up sampling, we obtain high-level adaptability, and by incorporating the technique of optimistic online learning, we obtain low-level adaptability.
翻訳日:2023-02-27 15:00:17 公開日:2023-02-24
# Factual Consistency Oriented Speech Recognition

Factual Consistency Oriented Speech Recognition ( http://arxiv.org/abs/2302.12369v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Takuya Yoshioka, Yang Liu(参考訳) 本稿では,ASRモデルによる幻覚の低減を目的とした,自動音声認識(ASR)のための新しい最適化フレームワークを提案する。 提案フレームワークは、ASRモデルを用いて、予測されるASR仮説と基底トラス転写との整合性スコアを最大化し、その整合性スコアを個別に訓練された推定器で計算する。 AMIミーティングコーパスとVoxPopuliコーパスを用いた実験結果から,提案フレームワークを用いてトレーニングしたASRモデルは,クロスエントロピー学習されたASRモデルに近い単語誤り率を維持しつつ,地上構造転写との整合性が高いASR仮説を生成することがわかった。 さらに,提案フレームワークを用いてasrモデルを訓練することで,大規模言語モデルによって生成された会話要約の事実整合性によって測定された音声要約品質が向上することを示す。

This paper presents a novel optimization framework for automatic speech recognition (ASR) with the aim of reducing hallucinations produced by an ASR model. The proposed framework optimizes the ASR model to maximize an expected factual consistency score between ASR hypotheses and ground-truth transcriptions, where the factual consistency score is computed by a separately trained estimator. Experimental results using the AMI meeting corpus and the VoxPopuli corpus show that the ASR model trained with the proposed framework generates ASR hypotheses that have significantly higher consistency scores with ground-truth transcriptions while maintaining the word error rates close to those of cross entropy-trained ASR models. Furthermore, it is shown that training the ASR models with the proposed framework improves the speech summarization quality as measured by the factual consistency of meeting conversation summaries generated by a large language model.
翻訳日:2023-02-27 14:59:39 公開日:2023-02-24
# 感情要因対抽出のための複数監督による感情予測指向手法

Emotion Prediction Oriented method with Multiple Supervisions for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2302.12417v1 )

ライセンス: Link先を確認
Guimin Hu and Yi Zhao and Guangming Lu(参考訳) 感情原因ペア抽出(ECPE)タスクは、無注釈の感情テキストからすべての感情とその原因を抽出することを目的としている。 前作は通常、感情と原因の2つの視点から感情によるペアを抽出する。 しかし、感情抽出は原因抽出よりもECPEタスクにおいて重要である。 本研究では,感情予測の可能性を最大限に活用し,感情のペア抽出を促進することを目的として,感情予測(epo-ecpe)を指向したエンド・ツー・エンド感情抽出手法を提案する。 感情予測と感情によるペア抽出の強い依存を考慮し、学習過程における改善を共有するための同期機構を提案する。 すなわち、感情予測の改善により、感情原因のペア抽出が容易になり、感情原因のペア抽出の結果も同時に感情予測の精度を向上させるために使用できる。 感情によって引き起こされるペアの抽出については、本物のペアの監督と偽のペアの監督に分割し、真のペアの監督は感情によって引き起こされるペアになる可能性の高いペアから学ぶ。 対照的に、偽ペア監視は他のペアから学習する。 これにより、感情原因対を真対から直接抽出することができ、抽出の難しさを低減できる。 実験の結果,本手法は比較した13のシステムより優れ,新しい最先端性能を実現していることがわかった。

Emotion-cause pair extraction (ECPE) task aims to extract all the pairs of emotions and their causes from an unannotated emotion text. The previous works usually extract the emotion-cause pairs from two perspectives of emotion and cause. However, emotion extraction is more crucial to the ECPE task than cause extraction. Motivated by this analysis, we propose an end-to-end emotion-cause extraction approach oriented toward emotion prediction (EPO-ECPE), aiming to fully exploit the potential of emotion prediction to enhance emotion-cause pair extraction. Considering the strong dependence between emotion prediction and emotion-cause pair extraction, we propose a synchronization mechanism to share their improvement in the training process. That is, the improvement of emotion prediction can facilitate the emotion-cause pair extraction, and then the results of emotion-cause pair extraction can also be used to improve the accuracy of emotion prediction simultaneously. For the emotion-cause pair extraction, we divide it into genuine pair supervision and fake pair supervision, where the genuine pair supervision learns from the pairs with more possibility to be emotion-cause pairs. In contrast, fake pair supervision learns from other pairs. In this way, the emotion-cause pairs can be extracted directly from the genuine pair, thereby reducing the difficulty of extraction. Experimental results show that our approach outperforms the 13 compared systems and achieves new state-of-the-art performance.
翻訳日:2023-02-27 14:53:07 公開日:2023-02-24
# サイドスキャンソナーデータのセマンティックセグメンテーションのための畳み込み視覚変換器

A Convolutional Vision Transformer for Semantic Segmentation of Side-Scan Sonar Data ( http://arxiv.org/abs/2302.12416v1 )

ライセンス: Link先を確認
Hayat Rajani and Nuno Gracias and Rafael Garcia(参考訳) 異なる海洋底生生物の生息地の特徴を区別することは、石油掘削装置の設置からケーブルの敷設、海洋生態系への影響の監視まで幅広い海底操作において重要な意味を持つ。 Side-Scan Sonar (SSS)は、この点において広く使われている画像センサである。 海底から反射する音波の強度を検層し、高解像度の海底地図を生成する。 本研究では,これらの音響強度マップを利用して,異なる海底タイプの画素ワイド分類を行う。 エンコーダ・デコーダ・フレームワークにおける視覚変換器(ViT)を応用した新しいアーキテクチャを提案する。 さらに、より小さなデータセットに対して、ViTsの適用性を評価する。 cnnライクなインダクティブバイアスの欠如を克服し、低データ環境におけるアプリケーションへのvitsの誘導性を高めるために、トランスフォーマレイヤ内のマルチレイヤ・パーセプトロン(mlp)ブロックを置き換えるための新しい特徴抽出モジュールと、マルチスケール・パッチ埋め込みを抽出する新しいモジュールを提案する。 マルチスケール特徴抽出をさらに促進するために、この設計を補完する軽量デコーダも提案されている。 アーキテクチャの変更により、最先端の結果が得られ、リアルタイムの計算要求を満たす。 コードは~\url{https://github.com/hayatrajani/s3seg-vitで利用可能です。

Distinguishing among different marine benthic habitat characteristics is of key importance in a wide set of seabed operations ranging from installations of oil rigs to laying networks of cables and monitoring the impact of humans on marine ecosystems. The Side-Scan Sonar (SSS) is a widely used imaging sensor in this regard. It produces high-resolution seafloor maps by logging the intensities of sound waves reflected back from the seafloor. In this work, we leverage these acoustic intensity maps to produce pixel-wise categorization of different seafloor types. We propose a novel architecture adapted from the Vision Transformer (ViT) in an encoder-decoder framework. Further, in doing so, the applicability of ViTs is evaluated on smaller datasets. To overcome the lack of CNN-like inductive biases, thereby making ViTs more conducive to applications in low data regimes, we propose a novel feature extraction module to replace the Multi-layer Perceptron (MLP) block within transformer layers and a novel module to extract multiscale patch embeddings. A lightweight decoder is also proposed to complement this design in order to further boost multiscale feature extraction. With the modified architecture, we achieve state-of-the-art results and also meet real-time computational requirements. We make our code available at ~\url{https://github.com/hayatrajani/s3seg-vit
翻訳日:2023-02-27 14:52:43 公開日:2023-02-24
# HyperAttack:ハイパーグラフニューラルネットワークのマルチグラディエントガイド型ホワイトボックス対向構造攻撃

HyperAttack: Multi-Gradient-Guided White-box Adversarial Structure Attack of Hypergraph Neural Networks ( http://arxiv.org/abs/2302.12407v1 )

ライセンス: Link先を確認
Chao Hu, Ruishi Yu, Binqi Zeng, Yu Zhan, Ying Fu, Quan Zhang, Rongkai Liu and Heyuan Shi(参考訳) ハイパーグラフニューラルネットワーク(HGNN)は、ハイパーエッジモデリングによって2つ以上のノードを接続することで、データ間の複雑な相関を定式化する高次表現能力を活用し、様々なディープラーニングタスクにおいて優れた性能を示している。 グラフニューラルネットワーク(GNN)に対するよく研究されている敵攻撃にもかかわらず、HGNNに対する敵攻撃についてはほとんど研究されていないため、HGNNアプリケーションの安全性に対する脅威となる。 本稿では,ハイパーグラフニューラルネットワークに対する初のホワイトボックス攻撃フレームワークであるhyperattackを提案する。 HyperAttackは、ハイパーエッジリンクステータスを、グラデーションと統合グラデーションの両方のガイダンスでターゲットノードに摂動することで、ホワイトボックス構造攻撃を行う。 我々は、広く使われているCoraおよびPubMedデータセットと典型的なハイパーグラフモデリング技術を用いた3つのハイパーグラフニューラルネットワーク上でHyperAttackを評価する。 GNNの最先端のホワイトボックス構造攻撃手法と比較して、HyperAttackは時間効率が10~20倍向上し、攻撃成功率も1.3%-3.7%向上した。 その結果,HyperAttackは効率性と時間的コストのバランスをとる効果的な敵攻撃を実現できることがわかった。

Hypergraph neural networks (HGNN) have shown superior performance in various deep learning tasks, leveraging the high-order representation ability to formulate complex correlations among data by connecting two or more nodes through hyperedge modeling. Despite the well-studied adversarial attacks on Graph Neural Networks (GNN), there is few study on adversarial attacks against HGNN, which leads to a threat to the safety of HGNN applications. In this paper, we introduce HyperAttack, the first white-box adversarial attack framework against hypergraph neural networks. HyperAttack conducts a white-box structure attack by perturbing hyperedge link status towards the target node with the guidance of both gradients and integrated gradients. We evaluate HyperAttack on the widely-used Cora and PubMed datasets and three hypergraph neural networks with typical hypergraph modeling techniques. Compared to state-of-the-art white-box structural attack methods for GNN, HyperAttack achieves a 10-20X improvement in time efficiency while also increasing attack success rates by 1.3%-3.7%. The results show that HyperAttack can achieve efficient adversarial attacks that balance effectiveness and time costs.
翻訳日:2023-02-27 14:52:20 公開日:2023-02-24
# 量子コンピューティングにおける仮説テストに対するプライバシ

Privacy Against Hypothesis-Testing Adversaries for Quantum Computing ( http://arxiv.org/abs/2302.12405v1 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) 本稿では,量子仮説テストに基づく量子コンピューティングにおけるデータプライバシの新たな定義について述べる。 このプライバシー概念のパラメータは、データが量子状態の任意の測定値を用いて属するプライベートカテゴリを識別できる全能の敵の成功/失敗に基づく運用上の解釈を持っている。 ポスト処理と構成の重要な特性は、新しいプライバシー概念のために証明される。 本論文で定義した仮説検証敵に対するプライバシと量子差分プライバシーの関係について検討する。 これらの定義はいくつかのパラメータ体系に絡み合っていることが示されている。 これにより、仮説テスト敵に対するプライバシーとの関係に基づいて、量子微分プライバシーにおけるプライバシー予算の解釈が可能になる。

A novel definition for data privacy in quantum computing based on quantum hypothesis testing is presented in this paper. The parameters in this privacy notion possess an operational interpretation based on the success/failure of an omnipotent adversary being able to distinguish the private categories to which the data belongs using arbitrary measurements on quantum states. Important properties of post processing and composition are then proved for the new notion of privacy. The relationship between privacy against hypothesis-testing adversaries, defined in this paper, and quantum differential privacy are then examined. It is shown that these definitions are intertwined in some parameter regimes. This enables us to provide an interpretation for the privacy budget in quantum differential privacy based on its relationship with privacy against hypothesis testing adversaries.
翻訳日:2023-02-27 14:51:57 公開日:2023-02-24
# 優先トレース選択:高性能DRLネットワークコントローラを目指して

Prioritized Trace Selection: Towards High-Performance DRL-based Network Controllers ( http://arxiv.org/abs/2302.12403v1 )

ライセンス: Link先を確認
Sagar Patel, Junyang Zhang, Sangeetha Abdu Jyothi, Nina Narodytska(参考訳) Deep Reinforcement Learning (DRL)ベースのコントローラは、様々なネットワーク環境で高いパフォーマンスを提供する。 しかし、実世界のトレースの高度に歪んだデータセットを用いたDRLコントローラのシミュレータベースのトレーニングは、しばしば野生では性能が低下する。 本稿では,シミュレータにおける高性能DRLコントローラのトレーニングのための一般化可能なソリューションとして,Prioritized Trace Selection (PTS)を提案する。 PTSは自動化された3段階プロセスを採用している。 まず,追跡行動を決定する重要な特徴を特定する。 第2に、トレースをクラスタに分類する。 最後に,トレーニング中のsalientクラスタを動的に識別し,優先順位付けする。 PTSはDRLワークフローを変更する必要はない。 オン・ポリティクスとオフ・ポリティクスのDRLアルゴリズムの両方で動作する。 我々は、適応ビットレート選択と渋滞制御を代表アプリケーションとして使用し、PSSが複数のコントローラとDRLアルゴリズムでシミュレーションと実世界のパフォーマンスを向上させることを示す。 私たちの新しいABRコントローラーであるGelatoは、実世界のライブストリーミングプラットフォームであるPufferの最先端のコントローラよりも優れており、ストールを59%削減し、平均的なビデオ品質を大幅に向上させています。

Deep Reinforcement Learning (DRL) based controllers offer high performance in a variety of network environments. However, simulator-based training of DRL controllers using highly skewed datasets of real-world traces often results in poor performance in the wild. In this paper, we put forward a generalizable solution for training high-performance DRL controllers in simulators -- Prioritized Trace Selection (PTS). PTS employs an automated three-stage process. First, we identify critical features that determine trace behavior. Second, we classify the traces into clusters. Finally, we dynamically identify and prioritize the salient clusters during training. PTS does not require any changes to the DRL workflow. It can work across both on-policy and off-policy DRL algorithms. We use Adaptive Bit Rate selection and Congestion Control as representative applications to show that PTS offers better performance in simulation and real-world, across multiple controllers and DRL algorithms. Our novel ABR controller, Gelato, trained with PTS outperforms state-of-the-art controllers on the real-world live-streaming platform, Puffer, reducing stalls by 59% and significantly improving average video quality.
翻訳日:2023-02-27 14:51:47 公開日:2023-02-24
# フェムトテスラダイヤモンド磁気センサによる核四極子共鳴分光

Nuclear quadrupole resonance spectroscopy with a femtotesla diamond magnetometer ( http://arxiv.org/abs/2302.12401v1 )

ライセンス: Link先を確認
Yaser Silani, Janis Smits, Ilja Fescenko, Michael W. Malone, Andrew F. McDowell, Andrey Jarmola, Pauli Kehayias, Bryan Richards, Nazanin Mosavian, Nathaniel Ristoff, Victor M. Acosta(参考訳) 核四極子共鳴(NQR)分光法などの応用のためには、フェムトテラレベルの振動磁場を検出できる感度無線周波数(RF)磁気センサが必要である。 ダイヤモンド中の窒素-原子価(NV)中心に基づくRF磁力計はフェムトテラ感度を与えると予測されているが、公表された実験はピコテトラレベルに限られている。 ここでは、2つのフェライトフラックス濃縮器の間に挿入されたNVドープダイヤモンド膜に基づくフェムトテラRF磁力計を示す。 この装置は2-10ミクロテラのバイアス磁場で動作し、0.07-3.6MHzの範囲でRF磁場のためにダイヤモンド内で約300倍の振幅増強を提供する。 磁気センサの感度は0.35MHzで約70 fT s^{1/2}であり、ノイズフロアは1時間の取得後に2 fT未満に低下する。 このセンサを用いて室温で硝酸ナトリウム粉末中の14Nの3.6MHzのNQR信号を検出した。 NQR信号はサンプルの周りに巻かれた共鳴RFコイルによって増幅され、より高い信号対雑音比検出が可能となる。 強いRFパルス後のダイヤモンドRF磁力計の回復時間は、コイルリングダウン時間によって制限される35usである。 ナトリウム-硝酸NQR周波数は-1.00 +/-0.02 kHz/Kで直線的に変化し、磁化減速時間はT2* = 887 +/-51 usとなり、スピンロックスピンエチョパルスシーケンスは信号寿命を332 +/-23 msに延長し、コイルベースのNQR研究と一致している。 本研究は, ダイヤモンド磁気センサの感度フロンティアをフェムトテラ範囲に拡張し, セキュリティ, 医用画像, 材料科学への応用の可能性について検討した。

Sensitive Radio-Frequency (RF) magnetometers that can detect oscillating magnetic fields at the femtotesla level are needed for demanding applications such as Nuclear Quadrupole Resonance (NQR) spectroscopy. RF magnetometers based on Nitrogen-Vacancy (NV) centers in diamond have been predicted to offer femtotesla sensitivity, but published experiments have largely been limited to the picotesla level. Here, we demonstrate a femtotesla RF magnetometer based on an NV-doped diamond membrane inserted between two ferrite flux concentrators. The device operates in bias magnetic fields of 2-10 microtesla and provides a ~300-fold amplitude enhancement within the diamond for RF magnetic fields in the 0.07-3.6 MHz range. The magnetometer's sensitivity is ~70 fT s^{1/2} at 0.35 MHz, and the noise floor decreases to below 2 fT after 1 hour of acquisition. We used this sensor to detect the 3.6 MHz NQR signal of 14N in sodium nitrite powder at room temperature. NQR signals are amplified by a resonant RF coil wrapped around the sample, allowing for higher signal-to-noise ratio detection. The diamond RF magnetometer's recovery time after a strong RF pulse is ~35 us, limited by the coil ring-down time. The sodium-nitrite NQR frequency shifts linearly with temperature as -1.00 +/- 0.02 kHz/K, the magnetization dephasing time is T2* = 887 +/- 51 us, and a spin-lock spin-echo pulse sequence extends the signal lifetime to 332 +/- 23 ms, all consistent with coil-based NQR studies. Our results expand the sensitivity frontier of diamond magnetometers to the femtotesla range, with potential applications in security, medical imaging, and materials science.
翻訳日:2023-02-27 14:51:31 公開日:2023-02-24
# ダイナミック・ワイルド・ワールドにおける安定なテストタイム適応に向けて

Towards Stable Test-Time Adaptation in Dynamic Wild World ( http://arxiv.org/abs/2302.12400v1 )

ライセンス: Link先を確認
Shuaicheng Niu, Jiaxiang Wu, Yifan Zhang, Zhiquan Wen, Yaofo Chen, Peilin Zhao, Mingkui Tan(参考訳) テスト時間適応(TTA)は、与えられたモデルをテストサンプルに適応させることで、トレーニングとテストデータの分散シフトに取り組むのに有効であることが示されている。 しかし、TTAのオンラインモデル更新は不安定であり、これはしばしば既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。 具体的には、TTAは、テストデータが持つ場合、モデルのパフォーマンスを改善または損なうことができない。 1)混合分布シフト、 2)小バッチサイズ、及び 3) オンライン不均衡ラベル分布シフトは, 実際には極めて一般的である。 本稿では,不安定な原因を調査し,バッチ標準層がTTA安定性を阻害する重要な要因であることを示す。 逆に、TTAはバッチ非依存のノルム層、\ie、groupまたはlayer normでより安定して実行できる。 しかし、グループとレイヤのノルムを持つTTAは必ずしも成功せず、まだ多くの障害を抱えている。 故障事例を掘り下げると、大きな勾配を持つある種のノイズのあるテストサンプルがモデル適応を阻害し、結果として崩壊した自明な解 \ie が全てのサンプルに対して同じクラスラベルを割り当てることが分かる。 上記の崩壊問題に対処するため、我々はSARと呼ばれる鋭く信頼性の高いエントロピー最小化法を提案し、TTAをさらに2つの側面から安定化させる。 1) 大きな勾配のある部分雑音サンプルを除去する。 2) モデルウェイトは、モデルが残りのノイズサンプルに対して堅牢になるよう、最小限の平坦化を奨励する。 実験の結果,SARは従来の手法よりも安定に動作し,上述のワイルドテストシナリオでは計算効率がよいことがわかった。

Test-time adaptation (TTA) has shown to be effective at tackling distribution shifts between training and testing data by adapting a given model on test samples. However, the online model updating of TTA may be unstable and this is often a key obstacle preventing existing TTA methods from being deployed in the real world. Specifically, TTA may fail to improve or even harm the model performance when test data have: 1) mixed distribution shifts, 2) small batch sizes, and 3) online imbalanced label distribution shifts, which are quite common in practice. In this paper, we investigate the unstable reasons and find that the batch norm layer is a crucial factor hindering TTA stability. Conversely, TTA can perform more stably with batch-agnostic norm layers, \ie, group or layer norm. However, we observe that TTA with group and layer norms does not always succeed and still suffers many failure cases. By digging into the failure cases, we find that certain noisy test samples with large gradients may disturb the model adaption and result in collapsed trivial solutions, \ie, assigning the same class label for all samples. To address the above collapse issue, we propose a sharpness-aware and reliable entropy minimization method, called SAR, for further stabilizing TTA from two aspects: 1) remove partial noisy samples with large gradients, 2) encourage model weights to go to a flat minimum so that the model is robust to the remaining noisy samples. Promising results demonstrate that SAR performs more stably over prior methods and is computationally efficient under the above wild test scenarios.
翻訳日:2023-02-27 14:50:54 公開日:2023-02-24
# 共有近傍グラフ上のグラフラプラシアンおよび同じ極限を持つ$k$Nearest Neighborグラフ上のグラフラプラシアン

Graph Laplacians on Shared Nearest Neighbor graphs and graph Laplacians on $k$-Nearest Neighbor graphs having the same limit ( http://arxiv.org/abs/2302.12399v1 )

ライセンス: Link先を確認
A. Martina Neuman(参考訳) 共有隣人グラフ(英: Shared Nearest Neighbor graph、SNN)は、共有隣人情報を用いたグラフ構築の一種であり、一次の$k$-nearest(k$-NN)測度によって誘導されるランクに基づく二次類似度尺度である。 SNN測度は従来の距離測度よりも次元の呪いの傾向が低いと評価されており、特に高次元データセットのクラスタリングや高次元データのサブスペースにおけるアウトリーチの発見において、SNNグラフを用いた手法が広く用いられている。 それにもかかわらず、SNNグラフとグラフラプラシアンの理論的研究は未解明のままである。 この先駆的な仕事において、私たちはこの方向に最初に貢献します。 SNNグラフラプラシアンの大規模漸近が一貫した連続極限に達することを示し、この極限は$k$-NNグラフラプラシアンと同じである。 さらに、グラフラプラシアンの点収束率は、高い確率で$(k/n)^{1/m}$に対して線形であることを示した。

A Shared Nearest Neighbor (SNN) graph is a type of graph construction using shared nearest neighbor information, which is a secondary similarity measure based on the rankings induced by a primary $k$-nearest neighbor ($k$-NN) measure. SNN measures have been touted as being less prone to the curse of dimensionality than conventional distance measures, and thus methods using SNN graphs have been widely used in applications, particularly in clustering high-dimensional data sets and in finding outliers in subspaces of high dimensional data. Despite this, the theoretical study of SNN graphs and graph Laplacians remains unexplored. In this pioneering work, we make the first contribution in this direction. We show that large scale asymptotics of an SNN graph Laplacian reach a consistent continuum limit; this limit is the same as that of a $k$-NN graph Laplacian. Moreover, we show that the pointwise convergence rate of the graph Laplacian is linear with respect to $(k/n)^{1/m}$ with high probability.
翻訳日:2023-02-27 14:50:27 公開日:2023-02-24
# ブラインド全方位画像品質評価 : 局所統計とグローバルセマンティックスの統合

Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics ( http://arxiv.org/abs/2302.12393v1 )

ライセンス: Link先を確認
Wei Zhou and Zhou Wang(参考訳) 全方位画像品質評価(oiqa)は、視覚環境の180$\times$360$^{\circ}$ビュー範囲をカバーする全方位画像の知覚的品質を予測することを目的としている。 本稿では、低レベル統計と全方位画像の高レベル意味論のギャップを埋める、S$^2$というブラインド/ノン参照OIQA法を提案する。 具体的には、複数の局所的なビューポートから統計的特徴と意味的特徴をそれぞれ別途抽出し、全方位像を幻視する。 次に、重み付けプロセスとともに品質回帰を行い、抽出した品質認識特徴を知覚的品質予測にマッピングする。 実験の結果,提案手法は最先端手法と高い競合性を有することがわかった。

Omnidirectional image quality assessment (OIQA) aims to predict the perceptual quality of omnidirectional images that cover the whole 180$\times$360$^{\circ}$ viewing range of the visual environment. Here we propose a blind/no-reference OIQA method named S$^2$ that bridges the gap between low-level statistics and high-level semantics of omnidirectional images. Specifically, statistic and semantic features are extracted in separate paths from multiple local viewports and the hallucinated global omnidirectional image, respectively. A quality regression along with a weighting process is then followed that maps the extracted quality-aware features to a perceptual quality prediction. Experimental results demonstrate that the proposed S$^2$ method offers highly competitive performance against state-of-the-art methods.
翻訳日:2023-02-27 14:50:07 公開日:2023-02-24
# 地理空間データと多角形モデルを用いたインピットストックパイルの動的形状のより良い予測

Better Predict the Dynamic of Geometry of In-Pit Stockpiles Using Geospatial Data and Polygon Models ( http://arxiv.org/abs/2302.12392v1 )

ライセンス: Link先を確認
Mehala.Balamurali, Konstantin M. Seiler(参考訳) 資源のモデリングは、鉱山のすべての鉱石が多くの理由で製粉できないわけではないため、鉱業におけるプロジェクトの経済と運営の鍵となる要素である。 さらに、備蓄中の鉱石の財務価値をバランスシートに反映する必要がある。 したがって、備蓄のフロンティアを自動的に追跡することで、鉱山のスケジューリングエンジニアは備蓄に残る鉱石のトン数を計算することができる。 本稿では,ポリゴンモデルを用いて,投棄・回収操作によるストックパイル形状変化の動態を推定する方法を提案する。 また, 埋立物の形状が, 回収バケット情報がない場合にどのように推定されるかを示すとともに, 積立ポリゴンがトラックの積載時に, 掘削機GPS測位データを用いて確立される場合も示す。 この研究は、2次元形状を作るための2つのポリゴンモデルを比較する。

Modelling stockpile is a key factor of a project economic and operation in mining, because not all the mined ores are not able to mill for many reasons. Further, the financial value of the ore in the stockpile needs to be reflected on the balance sheet. Therefore, automatically tracking the frontiers of the stockpile facilitates the mine scheduling engineers to calculate the tonnage of the ore remaining in the stockpile. This paper suggests how the dynamic of stockpile shape changes caused by dumping and reclaiming operations can be inferred using polygon models. The presented work also demonstrates how the geometry of stockpiles can be inferred in the absence of reclaimed bucket information, in which case the reclaim polygons are established using the diggers GPS positional data at the time of truck loading. This work further compares two polygon models for creating 2D shapes.
翻訳日:2023-02-27 14:49:51 公開日:2023-02-24
# バッチ正規化によるシャッフルSGDのトレーニング不安定性について

On the Training Instability of Shuffling SGD with Batch Normalization ( http://arxiv.org/abs/2302.12444v1 )

ライセンス: Link先を確認
David X. Wu, Chulhee Yun, Suvrit Sra(参考訳) 我々は、SGDがバッチ正規化とどのように相互作用するかを明らかにし、分散のような望ましくないトレーニングのダイナミクスを示す。 より正確には、Single Shuffle(SS)とRandom Reshuffle(RR)という2つの広く使われているSGDの変種が、バッチ正規化の存在下で驚くほど異なる相互作用をおこなったかを研究する。 具体的な例として、バッチ正規化を伴う線形ネットワークを用いた回帰について、SSとRRは勾配降下から「歪んだ」異なる大域的最適度に収束することを示す。 その後の分類では,SSとRRの訓練分岐が発生し得ない条件を特徴付ける。 SSが回帰や分類のばらつきにおいて最適に歪むかを示すための明示的な構成を示す一方、RRは歪みとばらつきの両方を避ける。 現実的な設定で実証的に検証し,バッチ正規化で使用するSSとRRの分離が実際に関係していると結論付けた。

We uncover how SGD interacts with batch normalization and can exhibit undesirable training dynamics such as divergence. More precisely, we study how Single Shuffle (SS) and Random Reshuffle (RR) -- two widely used variants of SGD -- interact surprisingly differently in the presence of batch normalization: RR leads to much more stable evolution of training loss than SS. As a concrete example, for regression using a linear network with batch normalization, we prove that SS and RR converge to distinct global optima that are "distorted" away from gradient descent. Thereafter, for classification we characterize conditions under which training divergence for SS and RR can, and cannot occur. We present explicit constructions to show how SS leads to distorted optima in regression and divergence for classification, whereas RR avoids both distortion and divergence. We validate our results by confirming them empirically in realistic settings, and conclude that the separation between SS and RR used with batch normalization is relevant in practice.
翻訳日:2023-02-27 14:43:06 公開日:2023-02-24
# MUX-PLM: データ多重化による事前学習言語モデル

MUX-PLMs: Pre-training Language Models with Data Multiplexing ( http://arxiv.org/abs/2302.12441v1 )

ライセンス: Link先を確認
Vishvak Murahari, Ameet Deshpande, Carlos E. Jimenez, Izhak Shafran, Mingqiu Wang, Yuan Cao, Karthik Narasimhan(参考訳) データ多重化は、注文された表現混合を用いて複数のインスタンスを同時に処理することで、モデルの推論効率を改善するための最近提案された手法である。 データ多重化の以前の作業は、事前トレーニングなしでタスク固有のトランスフォーマーのみを使用しており、精度と汎用性が制限されていた。 本稿では,ダウンストリームタスクで広く微調整可能な事前学習されたマルチプレックス言語モデル(mux-plms)を開発した。 提案手法は、3段階のトレーニング手順とスループットとダウンストリームタスクの正確性を改善するための新しい多重化および多重化モジュールを含む。 MUX-BERT と MUX-ELECTRA モデルは,GLUE の絶対性能が 2-4 % ,トークンレベルのタスクが 1-2 % 低下した 2x/5x の推論速度アップを達成した。

Data multiplexing is a recently proposed method for improving a model's inference efficiency by processing multiple instances simultaneously using an ordered representation mixture. Prior work on data multiplexing only used task-specific Transformers without any pre-training, which limited their accuracy and generality. In this paper, we develop pre-trained multiplexed language models (MUX-PLMs) that can be widely finetuned on any downstream task. Our approach includes a three-stage training procedure and novel multiplexing and demultiplexing modules for improving throughput and downstream task accuracy. We demonstrate our method on BERT and ELECTRA pre-training objectives, with our MUX-BERT and MUX-ELECTRA models achieving 2x/5x inference speedup with a 2-4 \% drop in absolute performance on GLUE and 1-2 \% drop on token-level tasks.
翻訳日:2023-02-27 14:42:46 公開日:2023-02-24
# ニューラルネットワークによるヘッジによるアメリカのオプション価格の同時上・下限

Simultaneous upper and lower bounds of American option prices with hedging via neural networks ( http://arxiv.org/abs/2302.12439v1 )

ライセンス: Link先を確認
Ivan Guo, Nicolas Langren\'e and Jiahao Wu(参考訳) 本稿では,ニューラルネットワークを用いてアメリカンスタイルのオプション価格問題と,その2つの形式を同時に解く方法を提案する。 ネストしたモンテカルロを適用することなく、第1の方法は一連のニューラルネットワークを使用してオプション価格の下限と上限の両方を同時に計算し、第2の方法は1つのグローバルネットワークで同じ目標を達成する。 得られた数値実験で示すように、余剰シミュレーションの回避とニューラルネットワークの使用は計算複雑性を大幅に低減し、高次元での頻繁な運動機会を持つベルムダンオプションの価格設定を可能にした。 副産物として、これらの方法はオプションのヘッジ戦略を導出し、分散低減のための制御変数としても使用できる。

In this paper, we introduce two methods to solve the American-style option pricing problem and its dual form at the same time using neural networks. Without applying nested Monte Carlo, the first method uses a series of neural networks to simultaneously compute both the lower and upper bounds of the option price, and the second one accomplishes the same goal with one global network. The avoidance of extra simulations and the use of neural networks significantly reduce the computational complexity and allow us to price Bermudan options with frequent exercise opportunities in high dimensions, as illustrated by the provided numerical experiments. As a by-product, these methods also derive a hedging strategy for the option, which can also be used as a control variate for variance reduction.
翻訳日:2023-02-27 14:42:28 公開日:2023-02-24
# catch youとi can:音声変換のソース音声プリントを公開

Catch You and I Can: Revealing Source Voiceprint Against Voice Conversion ( http://arxiv.org/abs/2302.12434v1 )

ライセンス: Link先を確認
Jiangyi Deng (1), Yanjiao Chen (1), Yinan Zhong (1), Qianhao Miao (1), Xueluan Gong (2), Wenyuan Xu (1) ((1) Zhejiang University, (2) Wuhan University)(参考訳) 音声変換(VC)技術は、悪意ある当事者によって、音声をターゲットスピーカーのような音に変換するために悪用され、人間や話者の検証・識別システムがソーススピーカーを追跡するのを難しくする。 本稿では,音声変換法によって合成された音声から音源音声を高いクレジットで復元する最初の試みを行う。 しかし、変換音声から音源話者の特徴を明らかにすることは、音声変換操作が元の特徴をゆがめ、ターゲット話者の特徴を注入することを目的としているため、困難である。 この目的を達成するために、変換された音声サンプルから音源話者の音声を効果的に抽出する表現学習モデルであるRevelioを開発した。 対象話者の音声入力に平行な表現成分を除去し,対象話者の影響を解消するために,revelioを念入りに設計した差分整流アルゴリズムを備える。 我々は,VQVC,VQVC+,AGAIN,BNEに変換された音声からの音声の復元におけるRevelioの有効性を評価するために,広範囲な実験を行った。 実験は、revelioが話者検証と識別システムによってソーススピーカーにトレース可能な音声プリントを再構築できることを検証する。 Revelioはまた、ジェンダー間の変換、見えない言語、電話ネットワークの下での堅牢なパフォーマンスを示している。

Voice conversion (VC) techniques can be abused by malicious parties to transform their audios to sound like a target speaker, making it hard for a human being or a speaker verification/identification system to trace the source speaker. In this paper, we make the first attempt to restore the source voiceprint from audios synthesized by voice conversion methods with high credit. However, unveiling the features of the source speaker from a converted audio is challenging since the voice conversion operation intends to disentangle the original features and infuse the features of the target speaker. To fulfill our goal, we develop Revelio, a representation learning model, which learns to effectively extract the voiceprint of the source speaker from converted audio samples. We equip Revelio with a carefully-designed differential rectification algorithm to eliminate the influence of the target speaker by removing the representation component that is parallel to the voiceprint of the target speaker. We have conducted extensive experiments to evaluate the capability of Revelio in restoring voiceprint from audios converted by VQVC, VQVC+, AGAIN, and BNE. The experiments verify that Revelio is able to rebuild voiceprints that can be traced to the source speaker by speaker verification and identification systems. Revelio also exhibits robust performance under inter-gender conversion, unseen languages, and telephony networks.
翻訳日:2023-02-27 14:42:15 公開日:2023-02-24
# proofnet: 学生レベルの数学の自己形式化と形式証明

ProofNet: Autoformalizing and Formally Proving Undergraduate-Level Mathematics ( http://arxiv.org/abs/2302.12433v1 )

ライセンス: Link先を確認
Zhangir Azerbayev, Bartosz Piotrowski, Hailey Schoelkopf, Edward W. Ayers, Dragomir Radev, Jeremy Avigad(参考訳) 本稿では,学部レベルの数学の自己形式化と形式証明のためのベンチマークであるProofNetを紹介する。 ProofNetベンチマークは371の例で構成され、それぞれがLean 3の正式な定理文、自然言語の定理文、自然言語の証明で構成されている。 問題は、主に一般的な学部生の純粋数学の教科書から引き出され、実数や複素解析、線形代数、抽象代数学、トポロジーなどのトピックをカバーしている。 ProofNetは、自動形式化と自動定理証明の進歩を促す、挑戦的なベンチマークになる予定です。 文脈内学習による文の自動形式化に関する基礎的結果について報告する。 さらに, 迅速検索法と蒸留逆翻訳法という2つの新しいステートメント自動形式化手法を導入する。

We introduce ProofNet, a benchmark for autoformalization and formal proving of undergraduate-level mathematics. The ProofNet benchmarks consists of 371 examples, each consisting of a formal theorem statement in Lean 3, a natural language theorem statement, and a natural language proof. The problems are primarily drawn from popular undergraduate pure mathematics textbooks and cover topics such as real and complex analysis, linear algebra, abstract algebra, and topology. We intend for ProofNet to be a challenging benchmark that will drive progress in autoformalization and automatic theorem proving. We report baseline results on statement autoformalization via in-context learning. Moreover, we introduce two novel statement autoformalization methods: prompt retrieval and distilled backtranslation.
翻訳日:2023-02-27 14:41:52 公開日:2023-02-24
# 学習可能および最適多項式ベースを有するグラフニューラルネットワーク

Graph Neural Networks with Learnable and Optimal Polynomial Bases ( http://arxiv.org/abs/2302.12432v1 )

ライセンス: Link先を確認
Yuhe Guo and Zhewei Wei(参考訳) グラフニューラルネットワークの一種である多項式フィルタは、通常、所定の多項式ベースを使用して、トレーニングデータから係数を学習する。 モデルの有効性は多項式基底の性質に大きく依存していることが観察されている。 トレーニングデータから適切な多項式基底を学習できるか? 与えられたグラフとノードの特徴の最適多項式基底を決定できるのか? 本稿では,上記の質問に対する肯定的な回答を提供する2つのスペクトルGNNモデルを提案する。 まず、ファバードの定理に着想を得て、すべての正則基底の空間から多項式基底を学習するファバードGNNモデルを提案する。 第二に,Wang & Zhang (2022) による最適多項式基底の解決不可能な定義を検証し,与えられたグラフ構造とグラフ信号の最適基底を計算する単純なモデル OptBasisGNN を提案する。 提案モデルの有効性を示すため, 大規模な実験を行った。

Polynomial filters, a kind of Graph Neural Networks, typically use a predetermined polynomial basis and learn the coefficients from the training data. It has been observed that the effectiveness of the model is highly dependent on the property of the polynomial basis. Consequently, two natural and fundamental questions arise: Can we learn a suitable polynomial basis from the training data? Can we determine the optimal polynomial basis for a given graph and node features? In this paper, we propose two spectral GNN models that provide positive answers to the questions posed above. First, inspired by Favard's Theorem, we propose the FavardGNN model, which learns a polynomial basis from the space of all possible orthonormal bases. Second, we examine the supposedly unsolvable definition of optimal polynomial basis from Wang & Zhang (2022) and propose a simple model, OptBasisGNN, which computes the optimal basis for a given graph structure and graph signal. Extensive experiments are conducted to demonstrate the effectiveness of our proposed models.
翻訳日:2023-02-27 14:41:42 公開日:2023-02-24
# バイオプルーシブルコントラスト学習のためのフレキシブル位相ダイナミクス

Flexible Phase Dynamics for Bio-Plausible Contrastive Learning ( http://arxiv.org/abs/2302.12431v1 )

ライセンス: Link先を確認
Ezekiel Williams, Colin Bredenberg, Guillaume Lajoie(参考訳) 多くの学習アルゴリズムは神経科学の規範的モデルとして、あるいはニューロモルフィックチップで学習するための候補的アプローチとして用いられる。 これらのコントラスト学習(cl)アルゴリズムは伝統的に、clを活用できる物理システムの範囲を制限するような、厳格で時間的に非局所的で周期的な学習ダイナミクスで実装されている。 本研究では,生物やニューロモルフィックシステムによってCLをどのように実装するかを探求する最近の研究に基づいて,このような学習形態を時間的に局所的に行うことができ,標準的な訓練手順の動的要求の多くを緩和しても機能することを示す。 複数のclモデルの数値実験によって裏付けられた一連の一般定理により、生体および神経形態的ニューラルネットワークのためのcl法の研究と開発のための理論的基礎が得られた。

Many learning algorithms used as normative models in neuroscience or as candidate approaches for learning on neuromorphic chips learn by contrasting one set of network states with another. These Contrastive Learning (CL) algorithms are traditionally implemented with rigid, temporally non-local, and periodic learning dynamics that could limit the range of physical systems capable of harnessing CL. In this study, we build on recent work exploring how CL might be implemented by biological or neurmorphic systems and show that this form of learning can be made temporally local, and can still function even if many of the dynamical requirements of standard training procedures are relaxed. Thanks to a set of general theorems corroborated by numerical experiments across several CL models, our results provide theoretical foundations for the study and development of CL methods for biological and neuromorphic neural networks.
翻訳日:2023-02-27 14:41:26 公開日:2023-02-24
# ランダム制限PSD行列に対するカルチャー平均の統計的解析

Statistical Analysis of Karcher Means for Random Restricted PSD Matrices ( http://arxiv.org/abs/2302.12426v1 )

ライセンス: Link先を確認
Hengchao Chen, Xiang Li, Qiang Sun(参考訳) 非漸近統計解析は、複雑な非線型多様体構造のため、現代の幾何学的機械学習アルゴリズムには欠落することが多い。 本稿では、制限正半定義行列の多様体上の内在平均モデルについて検討し、カルチャー平均の非漸近的統計解析を提供する。 また、カルチャー平均の決定論的誤差境界が与えられる一般の外部信号プラスノイズモデルについても考察する。 アプリケーションとして,分散主成分分析アルゴリズムであるLRC-dPCAが,全サンプルPCAアルゴリズムと同じ性能を実現することを示す。 数値実験は我々の理論を強く支持する。

Non-asymptotic statistical analysis is often missing for modern geometry-aware machine learning algorithms due to the possibly intricate non-linear manifold structure. This paper studies an intrinsic mean model on the manifold of restricted positive semi-definite matrices and provides a non-asymptotic statistical analysis of the Karcher mean. We also consider a general extrinsic signal-plus-noise model, under which a deterministic error bound of the Karcher mean is provided. As an application, we show that the distributed principal component analysis algorithm, LRC-dPCA, achieves the same performance as the full sample PCA algorithm. Numerical experiments lend strong support to our theories.
翻訳日:2023-02-27 14:41:11 公開日:2023-02-24
# 高解像度リモートセンシング画像を用いた旧地すべり検出のための反復分類とセマンティックセグメンテーションネットワーク

An Iterative Classification and Semantic Segmentation Network for Old Landslide Detection Using High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2302.12420v1 )

ライセンス: Link先を確認
Zili Lu, Yuexing Peng, Wei Li, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 古い地すべり検出には、その形態的特徴が長期間にわたって部分的にあるいは強固に変化し、周囲とはほとんど違いがないため、大きな課題が存在する。 さらに、小さなサンプル問題も深層学習を制限する。 本稿では,2つのネットワークで共有される特徴抽出器を反復的にアップグレードすることにより,オブジェクトレベルの分類性能と画素レベルの分類性能を大幅に向上させるイテレーティブな分類とセマンティックセマンティックセマンティクスネットワーク(ICSSN)を開発した。 対象レベルのコントラスト学習(OCL)戦略は,大域的な特徴抽出を実現するためのシアメネットワークを備えたオブジェクト分類サブネットワークにおいて採用され,セマンティックセグメンテーションサブネットワークではサブオブジェクトレベルのコントラスト学習(SOCL)パラダイムが設計され,地すべりの境界から健全な特徴を効率的に抽出する。 さらに、オブジェクトレベルとピクセルレベルの両方の分類性能が改善されるように、セマンティック空間における特徴を融合する反復的トレーニング戦略を詳しく検討する。 提案したICSSNは実地すべりデータセットに基づいて評価され,実験結果から旧地すべり検出の分類とセグメンテーション精度を大幅に向上できることが示された。 セマンティクスセグメンテーションタスクでは,ベースラインと比較して,f1スコアが0.5054から0.5448に,miouが0.6405から0.6610に,地すべりiouが0.3381から0.3743に,旧地すべりの物体レベル検出精度が0.55から0.9に向上した。 対象分類タスクでは、F1スコアは0.8846から0.9230に増加し、精度スコアは0.8375から0.8875に上昇する。

Huge challenges exist for old landslide detection because their morphology features have been partially or strongly transformed over a long time and have little difference from their surrounding. Besides, small-sample problem also restrict in-depth learning. In this paper, an iterative classification and semantic segmentation network (ICSSN) is developed, which can greatly enhance both object-level and pixel-level classification performance by iteratively upgrading the feature extractor shared by two network. An object-level contrastive learning (OCL) strategy is employed in the object classification sub-network featuring a siamese network to realize the global features extraction, and a sub-object-level contrastive learning (SOCL) paradigm is designed in the semantic segmentation sub-network to efficiently extract salient features from boundaries of landslides. Moreover, an iterative training strategy is elaborated to fuse features in semantic space such that both object-level and pixel-level classification performance are improved. The proposed ICSSN is evaluated on the real landslide data set, and the experimental results show that ICSSN can greatly improve the classification and segmentation accuracy of old landslide detection. For the semantic segmentation task, compared to the baseline, the F1 score increases from 0.5054 to 0.5448, the mIoU improves from 0.6405 to 0.6610, the landslide IoU improved from 0.3381 to 0.3743, and the object-level detection accuracy of old landslides is enhanced from 0.55 to 0.9. For the object classification task, the F1 score increases from 0.8846 to 0.9230, and the accuracy score is up from 0.8375 to 0.8875.
翻訳日:2023-02-27 14:41:01 公開日:2023-02-24
# 変分近似のための目標精度診断

A Targeted Accuracy Diagnostic for Variational Approximations ( http://arxiv.org/abs/2302.12419v1 )

ライセンス: Link先を確認
Yu Wang, Miko{\l}aj Kasprzak, Jonathan H. Huggins(参考訳) 変分推論 (VI) はマルコフ・チェイン・モンテカルロ (MCMC) の代用として、大規模データセットや高次元パラメータを持つ複素モデルの場合の計算効率が優れている。 しかし,変分近似の精度評価は依然として課題である。 既存の手法では、コンポーネントワイド手段や分散のような特定の後続関数が正確であっても、ほとんど常に現実的な応用では不十分な、変動分布全体の品質を特徴付ける。 したがって、これらの診断は限られた状況でのみ実用上有用である。 この問題に対処するために,多くの短並列MCMCチェーンを用いて,各後続関数の誤差の下位境界を求めるTADDAA(TArgeted Diagnostic for Distribution Approximation Accuracy)を提案する。 また, TADDAAの信頼性チェックを開発し, 下位境界が信頼できないかどうかを判定する。 数値実験により,分散ロジスティック回帰やベイズニューラルネットワークモデルなど,多種多様な合成分布と実データ例に対する本手法の実用的有用性と計算効率が検証された。

Variational Inference (VI) is an attractive alternative to Markov Chain Monte Carlo (MCMC) due to its computational efficiency in the case of large datasets and/or complex models with high-dimensional parameters. However, evaluating the accuracy of variational approximations remains a challenge. Existing methods characterize the quality of the whole variational distribution, which is almost always poor in realistic applications, even if specific posterior functionals such as the component-wise means or variances are accurate. Hence, these diagnostics are of practical value only in limited circumstances. To address this issue, we propose the TArgeted Diagnostic for Distribution Approximation Accuracy (TADDAA), which uses many short parallel MCMC chains to obtain lower bounds on the error of each posterior functional of interest. We also develop a reliability check for TADDAA to determine when the lower bounds should not be trusted. Numerical experiments validate the practical utility and computational efficiency of our approach on a range of synthetic distributions and real-data examples, including sparse logistic regression and Bayesian neural network models.
翻訳日:2023-02-27 14:40:23 公開日:2023-02-24
# PaGE-Link:不均一リンク予測のためのパスベースグラフニューラルネットワークの提案

PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction ( http://arxiv.org/abs/2302.12465v1 )

ライセンス: Link先を確認
Shichang Zhang, Jiani Zhang, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos, Yizhou Sun(参考訳) 透明性と説明責任は、ブラックボックス機械学習(ML)モデルの主要な関心事となっている。 モデル行動の適切な説明はモデルの透明性を高め、研究者がより説明可能なモデルを開発するのに役立つ。 グラフニューラルネットワーク(gnn)は最近、従来の方法よりも多くのグラフml問題において優れたパフォーマンスを示している。 しかし、GNNによるリンク予測(LP)の説明は文献に欠けている。 LPは必須のGNNタスクであり、Web上のレコメンデーションやスポンサード検索のようなWebアプリケーションに対応する。 ノード/グラフレベルのタスクにのみ対処する既存のGNN説明法を前提として、接続解釈可能性のある説明を生成し、モデルのスケーラビリティを享受し、グラフの不均一性を扱うパスベースGNN説明法(PaGE-Link)を提案する。 定性的には、ページリンクはノードペアをつなぐ経路として説明を生成でき、2つのノード間の接続を自然にキャプチャし、容易に人間の解釈可能な説明に転送することができる。 PaGE-Linkが生成した説明は、引用グラフとユーザアイコングラフのレコメンデーションを9~35%改善し、人間の評価において78.79%の回答で改善された。

Transparency and accountability have become major concerns for black-box machine learning (ML) models. Proper explanations for the model behavior increase model transparency and help researchers develop more accountable models. Graph neural networks (GNN) have recently shown superior performance in many graph ML problems than traditional methods, and explaining them has attracted increased interest. However, GNN explanation for link prediction (LP) is lacking in the literature. LP is an essential GNN task and corresponds to web applications like recommendation and sponsored search on web. Given existing GNN explanation methods only address node/graph-level tasks, we propose Path-based GNN Explanation for heterogeneous Link prediction (PaGE-Link) that generates explanations with connection interpretability, enjoys model scalability, and handles graph heterogeneity. Qualitatively, PaGE-Link can generate explanations as paths connecting a node pair, which naturally captures connections between the two nodes and easily transfer to human-interpretable explanations. Quantitatively, explanations generated by PaGE-Link improve AUC for recommendation on citation and user-item graphs by 9 - 35% and are chosen as better by 78.79% of responses in human evaluation.
翻訳日:2023-02-27 14:35:06 公開日:2023-02-24
# RGI:ロバストなGANインバージョンによるマスフリー画像の描出と教師なし画素ワイド異常検出

RGI: robust GAN-inversion for mask-free image inpainting and unsupervised pixel-wise anomaly detection ( http://arxiv.org/abs/2302.12464v1 )

ライセンス: Link先を確認
Shancong Mou, Xiaoyi Gu, Meng Cao, Haoping Bai, Ping Huang, Jiulong Shan, Jianjun Shi(参考訳) GAN(Generative Adversarial Network)は、大規模な画像データセットに基づいて訓練され、自然な画像多様体の近似としてよい。 GAN-インバージョンは、事前学習されたジェネレータを深い生成前として使用することで、腐敗下でのイメージ復元に有望なツールである。 しかし、gan反転の性能は、未知の総腐敗に対する頑健さの欠如、すなわち復元された画像が基礎的真理から容易に逸脱することによって制限される。 本稿では,未知の \textit{gross} 腐敗下で画像復元を実現するための,証明可能なロバスト性保証を備えたロバスト gan-inversion (rgi) 法を提案する。 軽微な仮定では,復元された画像と同定された領域マスクが,地中真実に漸近的に収束していることが示されている。 さらに,RGIをRelaxed-RGI(R-RGI)に拡張することで,GAN学習多様体と真の画像多様体とのギャップを緩和し,劣化した入力画像への自明なオーバーフィットを回避し,画像復元や領域マスク識別性能を向上する。 提案したRGI/R-RGI法は,2つの重要な応用を最先端(SOTA)性能で統一する。 (i)腐敗が未知の欠落領域であるマスクフリーセマンティック・インペインティングでは、復元された背景を用いて、欠落したコンテンツを復元することができる。 (II)不規則領域が未知の異常領域である画素ワイド異常検出において、取得したマスクを異常領域のセグメンテーションマスクとして使用することができる。

Generative adversarial networks (GANs), trained on a large-scale image dataset, can be a good approximator of the natural image manifold. GAN-inversion, using a pre-trained generator as a deep generative prior, is a promising tool for image restoration under corruptions. However, the performance of GAN-inversion can be limited by a lack of robustness to unknown gross corruptions, i.e., the restored image might easily deviate from the ground truth. In this paper, we propose a Robust GAN-inversion (RGI) method with a provable robustness guarantee to achieve image restoration under unknown \textit{gross} corruptions, where a small fraction of pixels are completely corrupted. Under mild assumptions, we show that the restored image and the identified corrupted region mask converge asymptotically to the ground truth. Moreover, we extend RGI to Relaxed-RGI (R-RGI) for generator fine-tuning to mitigate the gap between the GAN learned manifold and the true image manifold while avoiding trivial overfitting to the corrupted input image, which further improves the image restoration and corrupted region mask identification performance. The proposed RGI/R-RGI method unifies two important applications with state-of-the-art (SOTA) performance: (i) mask-free semantic inpainting, where the corruptions are unknown missing regions, the restored background can be used to restore the missing content; (ii) unsupervised pixel-wise anomaly detection, where the corruptions are unknown anomalous regions, the retrieved mask can be used as the anomalous region's segmentation mask.
翻訳日:2023-02-27 14:34:45 公開日:2023-02-24
# 世界的なパンデミックがサイバーセキュリティとサイバー犯罪に及ぼす影響

Global Pandemics Influence on Cyber Security and Cyber Crimes ( http://arxiv.org/abs/2302.12462v1 )

ライセンス: Link先を確認
Somya Khatri, Aswani Kumar Cherukuri and Firuz Kamalov(参考訳) 新型コロナウイルス(COVID-19)は、生活の様々な領域に広範な被害をもたらし、人間をインターネットやテクノロジーに頼らせ、安全な遠隔作業環境の重要性を認識しました。 ソーシャルな分離はロックダウンの瞬間に奨励されているが、オンラインインフラストラクチャはコミュニケーション、商業、労働、学習の中心となり、企業が新しい方法や運用モデルを採用するための新たな課題とトレンドを生み出している。 サイバー攻撃のケースは増加し、リモートワーカーの脆弱性や新型コロナウイルスに関する情報に対する国民の関心を利用して不正行為を強化するために詐欺師やサイバー犯罪者が利用した。 本稿では,パンデミック時に人々が直面したセキュリティの脅威とサイバー犯罪の種類と,安全で安全なサイバーインフラストラクチャの必要性について検討する。 本稿では,問題のセキュリティへの影響を分析する。

COVID-19 has caused widespread damage across many areas of life and has made humans more dependent on the internet and technology making us realize the importance of secure remote working environments. While social separation is encouraged during moments of lockdown, online infrastructure has become the central focus for communication, commerce, working, and learning, creating a new challenge and trend for companies to adopt new methods and operating models. The cases of cyber-attacks increased, and fraudsters and cybercriminals took use of this to intensify their illegal activities by taking advantage of remote workers' vulnerabilities and the public's interest in information about the coronavirus. This paper examines the different types of security threats and cyber crimes that people faced in the pandemic time and the need for a safe and secure cyber infrastructure. This paper attempts to analyze the security implications of the issues.
翻訳日:2023-02-27 14:34:14 公開日:2023-02-24
# バックドア言語モデルの内部メカニズムの解析と編集

Analyzing And Editing Inner Mechanisms Of Backdoored Language Models ( http://arxiv.org/abs/2302.12461v1 )

ライセンス: Link先を確認
Max Lamparth, Anka Reuel(参考訳) 最近の解釈可能性研究の進歩により、トランスフォーマー言語モデルはより透明になった。 この進歩は、おもちゃや自然発生モデルに対する内部の働きをよりよく理解することにつながった。 しかし、これらのモデルの内部的な感情変化の処理方法はまだ十分に答えられていない。 そこで本研究では,アクティベーションの主成分に基づいてモジュールを低ランク行列に置き換え,モデルパラメータとその挙動を本質に還元する,pcpアブレーションと呼ばれる新しい解釈ツールを提案する。 バックドア型玩具, バックドア型大型模型, 自然発生モデルにおいて, MLP とアテンション層に PCP の付加効果を示す。 我々は,MDPをバックドア機構において最も重要なものと判断し,PCPアブレーションによるバックドア機構の除去,挿入,変更を行う。

Recent advancements in interpretability research made transformer language models more transparent. This progress led to a better understanding of their inner workings for toy and naturally occurring models. However, how these models internally process sentiment changes has yet to be sufficiently answered. In this work, we introduce a new interpretability tool called PCP ablation, where we replace modules with low-rank matrices based on the principal components of their activations, reducing model parameters and their behavior to essentials. We demonstrate PCP ablations on MLP and attention layers in backdoored toy, backdoored large, and naturally occurring models. We determine MLPs as most important for the backdoor mechanism and use this knowledge to remove, insert, and modify backdoor mechanisms with engineered replacements via PCP ablation.
翻訳日:2023-02-27 14:34:00 公開日:2023-02-24
# 線形MDPを超えた強化学習における対数スイッチングコスト

Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs ( http://arxiv.org/abs/2302.12456v1 )

ライセンス: Link先を確認
Dan Qiao, Ming Yin, Yu-Xiang Wang(参考訳) 多くの現実の強化学習(rl)問題では、新しいポリシーの導入はコストがかかる。 これらのシナリオでは、アルゴリズムは(適応性を必要とする)探索を解決し、(適応性を制限する)配置されたポリシーをわずかに切り替えなければならない。 本稿では, 線形マルコフ決定過程 (MDP) に着目し, 固有なベルマン誤差の少ない線形ベルマン完全 MDP について検討する。 ELEANOR-LowSwitchingアルゴリズムは,時間軸の$H$と特徴次元$d$で,エピソード数と線形数に切り替えコスト対数で,ほぼ最適の後悔を実現する。 また、サブ線形後悔を伴う全てのアルゴリズムの中で、$dH$に比例する低い有界性も証明する。 さらに,eleanor-lowswitching で用いられる ‘doubling trick'' を一般化線形関数近似にさらに活用し,最適に近いスイッチングコストでサンプル効率のよいアルゴリズムを設計できることを示した。

In many real-life reinforcement learning (RL) problems, deploying new policies is costly. In those scenarios, algorithms must solve exploration (which requires adaptivity) while switching the deployed policy sparsely (which limits adaptivity). In this paper, we go beyond the existing state-of-the-art on this problem that focused on linear Markov Decision Processes (MDPs) by considering linear Bellman-complete MDPs with low inherent Bellman error. We propose the ELEANOR-LowSwitching algorithm that achieves the near-optimal regret with a switching cost logarithmic in the number of episodes and linear in the time-horizon $H$ and feature dimension $d$. We also prove a lower bound proportional to $dH$ among all algorithms with sublinear regret. In addition, we show the ``doubling trick'' used in ELEANOR-LowSwitching can be further leveraged for the generalized linear function approximation, under which we design a sample-efficient algorithm with near-optimal switching cost.
翻訳日:2023-02-27 14:33:33 公開日:2023-02-24
# 大規模組合せ最適化問題に対する確率量子モンテカルロアルゴリズム

Stochastic Quantum Monte Carlo Algorithm for Large-Scale Combinatorial Optimization Problems ( http://arxiv.org/abs/2302.12454v1 )

ライセンス: Link先を確認
Naoya Onizawa and Ryoma Sasaki and Duckgyu Shin and Warren J. Gross and Takahiro Hanyu(参考訳) 本稿では,大規模組合せ最適化問題に対する確率計算に基づく量子モンテカルロ(qmc)アルゴリズムを提案する。 QMCは古典計算におけるトロッタースズキ分解に基づくスピンの複数のレプリカ(確率ビット)を用いて量子アニール(QA)を模倣することができる。 したがって、大規模問題に対する量子的なアニーリングの両方を実現し、qaとは異なり、組合せ最適化において完全連結モデルを扱う。 確率計算はQMCの効率的なスピン状態更新アルゴリズムを実現する。 提案手法はグラフ同型問題に対してMATLABにおいて典型的な組合せ最適化問題として評価される。 提案手法は,確率計算に基づく模擬アニール法よりもはるかに高速な収束速度を実現する。 さらに、D-Wave Two QAマシンよりも2桁のスピン数で問題を解く。

In this brief, we introduce a quantum Monte Carlo (QMC) algorithm based on stochastic computing for large-scale combinatorial optimization problems. QMC can mimic quantum annealing (QA) using multiple replicas of spins (probabilistic bits) based on the Trotter-Suzuki decomposition in classical computing. Hence, it realizes both quantum-like annealing for large-scale problems and handles fully connected models in combinatorial optimization, unlike QA. Stochastic computing realizes an efficient spin-state update algorithm for QMC, which can quickly search for a solution around the global minimum energy. The proposed annealing method is evaluated in MATLAB on graph isomorphism problems as a typical combinatorial optimization problem. The proposed method achieves a convergence speed an order of magnitude faster than that of a simulated annealing method based on stochastic computing. In addition, it solves problems using two orders-of-magnitude larger number of spins than the D-Wave Two QA machine.
翻訳日:2023-02-27 14:33:03 公開日:2023-02-24
# 深部学習における神経崩壊の誘発

Inducing Neural Collapse in Deep Long-tailed Learning ( http://arxiv.org/abs/2302.12453v1 )

ライセンス: Link先を確認
Xuantong Liu, Jianfeng Zhang, Tianyang Hu, He Cao, Lujia Pan, Yuan Yao(参考訳) ディープニューラルネットワークは様々な分類タスクで大きな成功を収めるが、トレーニングデータセットが長い尾の分布を示すと、一般化能力は低下する。 理由の1つは、不均衡なデータセットからの学習された表現(すなわち特徴)がバランスのとれたデータセットの表現よりも効果が低いことである。 具体的には、クラスバランス分布下での学習表現は、ニューラル崩壊(NC)現象を示す。 ncは、同一のカテゴリの特徴が互いに近いことを示し、異なるカテゴリからの特徴が最大距離であることを示し、最適な線形分離可能な分類状態を示す。 しかし、このパターンは不均衡なデータセットによって異なり、部分的にモデルの性能低下の原因となっている。 本研究では,クラス不均衡データの高次表現を学習するための2つの明示的特徴正規化項を提案する。 提案する正規化により,クラス不均衡分布下でnc現象が出現し,一般化能力が著しく向上する。 本手法は, 実装が容易で, 有効であり, 既存のほとんどの方法に組み込むことができる。 広く用いられているベンチマークの広範な実験結果から,本手法の有効性が示された。

Although deep neural networks achieve tremendous success on various classification tasks, the generalization ability drops sheer when training datasets exhibit long-tailed distributions. One of the reasons is that the learned representations (i.e. features) from the imbalanced datasets are less effective than those from balanced datasets. Specifically, the learned representation under class-balanced distribution will present the Neural Collapse (NC) phenomena. NC indicates the features from the same category are close to each other and from different categories are maximally distant, showing an optimal linear separable state of classification. However, the pattern differs on imbalanced datasets and is partially responsible for the reduced performance of the model. In this work, we propose two explicit feature regularization terms to learn high-quality representation for class-imbalanced data. With the proposed regularization, NC phenomena will appear under the class-imbalanced distribution, and the generalization ability can be significantly improved. Our method is easily implemented, highly effective, and can be plugged into most existing methods. The extensive experimental results on widely-used benchmarks show the effectiveness of our method
翻訳日:2023-02-27 14:32:41 公開日:2023-02-24
# SGL-PT: グラフプロンプトチューニングによるグラフ学習

SGL-PT: A Strong Graph Learner with Graph Prompt Tuning ( http://arxiv.org/abs/2302.12449v1 )

ライセンス: Link先を確認
Yun Zhu and Jianhao Guo and Siliang Tang(参考訳) 近年,グラフ自己教師法の設計,一般化事前学習モデルの作成,微調整による下流タスクへの事前学習モデルの適用に多くの努力が払われている。 しかし、プリテキストとダウンストリームグラフのタスクの間には固有のギャップがあり、事前訓練されたモデルの能力は不十分であり、負の移動につながる。 一方、プロンプトチューニングは、事前トレーニングと微調整を一貫したトレーニング目標に合わせることで、自然言語処理において新たな成功を収めている。 本稿では,グラフ領域における日没事前学習手法にまたがる強固で普遍的な事前学習タスクが欠如していることから,グラフプロンプトチューニングの課題を明らかにする。 第2の課題は,事前トレーニングとダウンストリームタスクの両方に対して,一貫したトレーニング目標を設計することの難しさにある。 以上の障害を克服するために,< Pre-train, Prompt, and Predict'' という学習戦略に従う新しいフレームワーク SGL-PT を提案する。 具体的には,生成的および対照的自己教師付きグラフ学習の補完的メリットを得るsglとして,強固で普遍的な事前学習課題を提起する。 そして, グラフ分類タスクを目標として, 先行学習と微調整を統一し, 下流課題を前文課題と類似した形式に再構成する, 新規な動詞化なしプロンプト関数を設計した。 実験結果から,本手法は教師なし設定で他のベースラインを上回っており,微調整法よりも生体データセットのモデルを大幅に促進できることがわかった。

Recently, much exertion has been paid to design graph self-supervised methods to obtain generalized pre-trained models, and adapt pre-trained models onto downstream tasks through fine-tuning. However, there exists an inherent gap between pretext and downstream graph tasks, which insufficiently exerts the ability of pre-trained models and even leads to negative transfer. Meanwhile, prompt tuning has seen emerging success in natural language processing by aligning pre-training and fine-tuning with consistent training objectives. In this paper, we identify the challenges for graph prompt tuning: The first is the lack of a strong and universal pre-training task across sundry pre-training methods in graph domain. The second challenge lies in the difficulty of designing a consistent training objective for both pre-training and downstream tasks. To overcome above obstacles, we propose a novel framework named SGL-PT which follows the learning strategy ``Pre-train, Prompt, and Predict''. Specifically, we raise a strong and universal pre-training task coined as SGL that acquires the complementary merits of generative and contrastive self-supervised graph learning. And aiming for graph classification task, we unify pre-training and fine-tuning by designing a novel verbalizer-free prompting function, which reformulates the downstream task in a similar format as pretext task. Empirical results show that our method surpasses other baselines under unsupervised setting, and our prompt tuning method can greatly facilitate models on biological datasets over fine-tuning methods.
翻訳日:2023-02-27 14:32:25 公開日:2023-02-24
# サブスペースに基づくフェデレーション・アンラーニング

Subspace based Federated Unlearning ( http://arxiv.org/abs/2302.12448v1 )

ライセンス: Link先を確認
Guanghao Li, Li Shen, Yan Sun, Yue Hu, Han Hu, Dacheng Tao(参考訳) フェデレーション学習(fl)は、複数のクライアントがローカルデータを交換することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 フェデレート・アンラーニング(Federated Unlearning)は、ユーザが忘れられる権利を満たすために、特定のターゲットクライアントのFLへの貢献を取り除くことを目的とした逆FLプロセスである。 既存のfederated unlearningアルゴリズムの多くは、パラメータ更新の履歴をサーバに保存する必要があるが、サーバストレージリソースが制約されているシナリオでは適用できない。 本稿では,他のクライアントが生成する入力勾配空間の直交空間において,グローバルモデルが勾配上昇を行うことにより,追加のストレージを必要とせずにターゲットクライアントの寄与を排除できる,単純イエット効率のサブスペースベースフェデレーションアンラーニング手法sfuを提案する。 具体的には、まず、勾配上昇を行った後、ターゲットクライアントから生成された勾配を収集し、残りのクライアントによって、入力表現行列をローカルに計算する。 また、表現行列のプライバシーを保護するために差分プライバシー法を設計する。 次に、サーバはこれらの表現行列をマージして入力勾配部分空間を取得し、入力勾配部分空間の直交部分空間のグローバルモデルを更新し、最小限のモデル性能劣化を伴う忘れ処理を完了させる。 MNIST、CIFAR10、CIFAR100の実験では、SFUは様々な設定において、いくつかの最先端(SOTA)フェデレーションアンラーニングアルゴリズムより優れていた。

Federated learning (FL) enables multiple clients to train a machine learning model collaboratively without exchanging their local data. Federated unlearning is an inverse FL process that aims to remove a specified target client's contribution in FL to satisfy the user's right to be forgotten. Most existing federated unlearning algorithms require the server to store the history of the parameter updates, which is not applicable in scenarios where the server storage resource is constrained. In this paper, we propose a simple-yet-effective subspace based federated unlearning method, dubbed SFU, that lets the global model perform gradient ascent in the orthogonal space of input gradient spaces formed by other clients to eliminate the target client's contribution without requiring additional storage. Specifically, the server first collects the gradients generated from the target client after performing gradient ascent, and the input representation matrix is computed locally by the remaining clients. We also design a differential privacy method to protect the privacy of the representation matrix. Then the server merges those representation matrices to get the input gradient subspace and updates the global model in the orthogonal subspace of the input gradient subspace to complete the forgetting task with minimal model performance degradation. Experiments on MNIST, CIFAR10, and CIFAR100 show that SFU outperforms several state-of-the-art (SOTA) federated unlearning algorithms by a large margin in various settings.
翻訳日:2023-02-27 14:31:56 公開日:2023-02-24
# 分散ディープラーニングを高速化するall-reduceプリミティブの分離

Decoupling the All-Reduce Primitive for Accelerating Distributed Deep Learning ( http://arxiv.org/abs/2302.12445v1 )

ライセンス: Link先を確認
Lin Zhang, Shaohuai Shi, Xiaowen Chu, Wei Wang, Bo Li, Chengjian Liu(参考訳) 通信スケジューリングは、バックプロパゲーション計算と重複するオールリデュース通信を可能にする分散トレーニングの高速化に有効であることが示されている。 これは一般的な分散ディープラーニングフレームワークで採用されている。 しかし,1)全リデュース操作毎のワーカ数に比例する過度の起動遅延,(2)次回におけるフィードフォワード計算の依存性と同期要求による準最適トレーニング性能の達成,という2つの根本的な問題が存在する。 そこで,提案するスケジューリングアルゴリズムである dear では,全reduceプリミティブを2つの連続演算に分離し,余分な通信を必要とせず,バックプロパゲーションとフィードフォワード演算の両方と重なるスケジューリングアルゴリズムを提案する。 さらに,訓練性能を向上させるために,実用的なテンソル融合アルゴリズムも設計する。 5つの一般的なモデルによる実験結果から、DeARは10Gb/sのイーサネットと100Gb/sのInfiniBand相互接続を持つ64GPUクラスタ上で、最先端のソリューションに対して最大83%と15%のトレーニングスピードアップを達成することが示された。

Communication scheduling has been shown to be effective in accelerating distributed training, which enables all-reduce communications to be overlapped with backpropagation computations. This has been commonly adopted in popular distributed deep learning frameworks. However, there exist two fundamental problems: (1) excessive startup latency proportional to the number of workers for each all-reduce operation; (2) it only achieves sub-optimal training performance due to the dependency and synchronization requirement of the feed-forward computation in the next iteration. We propose a novel scheduling algorithm, DeAR, that decouples the all-reduce primitive into two continuous operations, which overlaps with both backpropagation and feed-forward computations without extra communications. We further design a practical tensor fusion algorithm to improve the training performance. Experimental results with five popular models show that DeAR achieves up to 83% and 15% training speedup over the state-of-the-art solutions on a 64-GPU cluster with 10Gb/s Ethernet and 100Gb/s InfiniBand interconnects, respectively.
翻訳日:2023-02-27 14:31:31 公開日:2023-02-24
# SEO:エッジにおけるマルチセンサニューラルコントローラの安全性を考慮したエネルギー最適化フレームワーク

SEO: Safety-Aware Energy Optimization Framework for Multi-Sensor Neural Controllers at the Edge ( http://arxiv.org/abs/2302.12493v1 )

ライセンス: Link先を確認
Mohanad Odema, James Ferlez, Yasser Shoukry, Mohammad Abdullah Al Faruque(参考訳) プラットフォーム制約を考慮すれば,実行時のエネルギ管理は,高パフォーマンスを実現するためのエッジにおけるマルチセンサ自律システムにとって極めて重要になっている。 しかしながら、そのようなシステムでは、それらのコントローラは、そのような最適化が優先される前に、安全に関する公式な保証を伴って設計される。 本稿では,自律システムの安全状態を意識した新しいエネルギー最適化フレームワークを提案する。 特に、システムの安全性状態を動的処理の期限として形式的に特徴づけることで、基礎となるモデルの計算処理を適応させることができる。 そこで本研究では,標準のnvidia drive px2adsプラットフォームから得られた性能特性を用いて,carlaシミュレーション環境における2つの実行時エネルギー最適化手法,オフロードとゲーティングをモデル化し,自律運転システム(ads)のユースケースをシミュレートした。 その結果, テストケースシナリオにおいて認識されるリスクを形式的に認識することで, 所望の安全性を維持しつつも, エネルギー効率の向上(89.9%まで)が達成できることがわかった。

Runtime energy management has become quintessential for multi-sensor autonomous systems at the edge for achieving high performance given the platform constraints. Typical for such systems, however, is to have their controllers designed with formal guarantees on safety that precede in priority such optimizations, which in turn limits their application in real settings. In this paper, we propose a novel energy optimization framework that is aware of the autonomous system's safety state, and leverages it to regulate the application of energy optimization methods so that the system's formal safety properties are preserved. In particular, through the formal characterization of a system's safety state as a dynamic processing deadline, the computing workloads of the underlying models can be adapted accordingly. For our experiments, we model two popular runtime energy optimization methods, offloading and gating, and simulate an autonomous driving system (ADS) use-case in the CARLA simulation environment with performance characterizations obtained from the standard Nvidia Drive PX2 ADS platform. Our results demonstrate that through a formal awareness of the perceived risks in the test case scenario, energy efficiency gains are still achieved (reaching 89.9%) while maintaining the desired safety properties.
翻訳日:2023-02-27 14:25:15 公開日:2023-02-24
# 実劣化画像に対するブラインド超解像とクラックセグメンテーションの連成学習

Joint Learning of Blind Super-Resolution and Crack Segmentation for Realistic Degraded Images ( http://arxiv.org/abs/2302.12491v1 )

ライセンス: Link先を確認
Yuki Kondoa and Norimichi Ukita(参考訳) 本稿では,深層ニューラルネットワークを用いた超解像(SR)によるき裂分割を提案する。 提案手法では,SRネットワークとバイナリセグメンテーションネットワークを協調的にエンドツーエンドにトレーニングする。 この共同学習により、SRネットワークはセグメンテーション結果を改善するために最適化される。 現実的なシナリオでは、SRネットワークは未知のぼやけによって劣化した低解像度の画像を処理するために、非盲点から盲点へと拡張される。 提案する2つの経路により,srとセグメンテーションの相互最適化をさらに促進するジョイントネットワークを改良した。 sotaセグメンテーション法との比較実験により,関節学習の優位性が示され,様々なアブレーション研究が貢献の効果を証明した。

This paper proposes crack segmentation augmented by super resolution (SR) with deep neural networks. In the proposed method, a SR network is jointly trained with a binary segmentation network in an end-to-end manner. This joint learning allows the SR network to be optimized for improving segmentation results. For realistic scenarios, the SR network is extended from non-blind to blind for processing a low-resolution image degraded by unknown blurs. The joint network is improved by our proposed two extra paths that further encourage the mutual optimization between SR and segmentation. Comparative experiments with SoTA segmentation methods demonstrate the superiority of our joint learning, and various ablation studies prove the effects of our contributions.
翻訳日:2023-02-27 14:24:54 公開日:2023-02-24
# 教師なし抽出要約における文類似度推定の改善

Improving Sentence Similarity Estimation for Unsupervised Extractive Summarization ( http://arxiv.org/abs/2302.12490v1 )

ライセンス: Link先を確認
Shichao Sun, Ruifeng Yuan, Wenjie Li, Sujian Li(参考訳) 教師なし抽出要約(unsupervised extractive summarization)は、ラベル付きデータなしで文書から敬文を抽出することを目的としている。 近年の文献では、文の順にランクの文と類似性を利用する方法が研究されている。 しかし、事前訓練された言語モデルを用いた文類似度推定は、文書レベルの情報はほとんど考慮せず、文章サリエンスランキングとの相関が弱い。 本稿では,教師なし抽出要約のための文類似度推定を改善するための2つの新しい手法を提案する。 我々は、対照学習を用いて、同じ文書からの文が異なる文書の文よりも似ているという文書レベルの目標を最適化する。 さらに,文の類似度推定と文塩分ランキングとの関係を相互学習により高め,重要な情報の改良に余分な信号増幅器を用いる。 実験の結果,戦略の有効性が示された。

Unsupervised extractive summarization aims to extract salient sentences from a document as the summary without labeled data. Recent literatures mostly research how to leverage sentence similarity to rank sentences in the order of salience. However, sentence similarity estimation using pre-trained language models mostly takes little account of document-level information and has a weak correlation with sentence salience ranking. In this paper, we proposed two novel strategies to improve sentence similarity estimation for unsupervised extractive summarization. We use contrastive learning to optimize a document-level objective that sentences from the same document are more similar than those from different documents. Moreover, we use mutual learning to enhance the relationship between sentence similarity estimation and sentence salience ranking, where an extra signal amplifier is used to refine the pivotal information. Experimental results demonstrate the effectiveness of our strategies.
翻訳日:2023-02-27 14:24:43 公開日:2023-02-24
# ising結合量子ビットのグローバルトランスバース制御によるディッケ状態形成

Dicke-state preparation through global transverse control of Ising-coupled qubits ( http://arxiv.org/abs/2302.12483v1 )

ライセンス: Link先を確認
Vladimir M. Stojanovic, Julian K. Nauth(参考訳) 我々はDicke状態 $\ket{D^{3}_{2}}$ を長距離(すべて)Ising-type qubit-qubit 相互作用を持つ3量子系において工学的に考える。 システムの初期状態として$|000\rangle$が採用される想定状態準備スキームの理論的基礎は、キュービットの置換に関して不変な初期状態と最終状態の任意の選択に対して、このシステムの状態対状態制御可能性を保証するリー代数的結果によって与えられる。 この状態準備スキームは、3つの即時(\delta$-shaped)制御パルスと、連続する制御パルス間の有限期間の2つのイジング相互作用パルスを含むパルスシーケンスの形で構成される。 このパルス列の設計(トータル持続時間は$t\approx 0.95\:\hbar/j$、ここで$j$はイジング結合強度である)は対称セクタの概念に大きく依存する。 そこで本研究では,体系的誤りに対するロバスト性,すなわち基礎となるパルスシーケンスを特徴付ける8つのパラメータの最適値からの逸脱を詳細に数値解析することにより,提案手法の実現可能性を示す。

We consider the problem of engineering the two-excitation Dicke state $\ket{D^{3}_{2}}$ in a three-qubit system with long-ranged (all-to-all) Ising-type qubit-qubit interaction, which is also subject to global transverse (Zeeman-type) control fields. The theoretical underpinning for our envisioned state-preparation scheme, in which $|000\rangle$ is adopted as the initial state of the system, is provided by a Lie-algebraic result that guarantees state-to-state controllability of this system for an arbitrary choice of initial- and final states that are invariant with respect to permutations of qubits. This state-preparation scheme is envisaged in the form of a pulse sequence that involves three instantaneous ($\delta$-shaped) control pulses, which are equivalent to global qubit rotations, and two Ising-interaction pulses of finite durations between consecutive control pulses. The design of this pulse sequence -- whose total duration is $T\approx 0.95\:\hbar/J$, where $J$ is the Ising-coupling strength -- leans heavily on the concept of the symmetric sector -- a four-dimensional, permutationally-invariant subspace of the three-qubit Hilbert space. We demonstrate the feasibility of the proposed state-preparation scheme by carrying out a detailed numerical analysis of its robustness to systematic errors, i.e. deviations from the optimal values of the eight parameters that characterize the underlying pulse sequence.
翻訳日:2023-02-27 14:24:29 公開日:2023-02-24
# 連続データ拡張による重症度低下

Disease Severity Regression with Continuous Data Augmentation ( http://arxiv.org/abs/2302.12482v1 )

ライセンス: Link先を確認
Shumpei Takezaki, Kiyohito Tanaka, Seiichi Uchida, Takeaki Kadota(参考訳) 医療画像のための畳み込みニューラルネットワーク(CNN)による病気の重度回帰には、重度レベルをラベル付けした十分な数の画像サンプルが必要である。 条件付き生成逆数ネットワーク(cGAN)ベースのデータ拡張(DA)が考えられるが、2つの問題に遭遇する。 第1の問題は、既存のcGANが実値の重大度を条件として扱えないことであり、第2の問題は、生成した画像の重大度が完全に信頼できないことである。 我々はこの2つの問題に対する解決策として連続daを提案する。 本手法では, 連続重大度GANを用いて, 実数値重大度レベルの画像を生成するとともに, 2番目の問題に対処するために, データセット非結合多目的最適化を行う。 内視鏡画像の潰瘍性大腸炎(UC)重症度を推定し,従来のDA法よりも高い分類性能を示した。

Disease severity regression by a convolutional neural network (CNN) for medical images requires a sufficient number of image samples labeled with severity levels. Conditional generative adversarial network (cGAN)-based data augmentation (DA) is a possible solution, but it encounters two issues. The first issue is that existing cGANs cannot deal with real-valued severity levels as their conditions, and the second is that the severity of the generated images is not fully reliable. We propose continuous DA as a solution to the two issues. Our method uses continuous severity GAN to generate images at real-valued severity levels and dataset-disjoint multi-objective optimization to deal with the second issue. Our method was evaluated for estimating ulcerative colitis (UC) severity of endoscopic images and achieved higher classification performance than conventional DA methods.
翻訳日:2023-02-27 14:24:00 公開日:2023-02-24
# ロバストウェイトシグネチャ:ウェイトのパッチングと同じくらいロバスト性を得ること?

Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights? ( http://arxiv.org/abs/2302.12480v1 )

ライセンス: Link先を確認
Ruisi Cai, Zhenyu Zhang, Zhangyang Wang(参考訳) ひとつのあるいは複数の分散シフト(例えば、自然画像の破損)に対して回復力を持つように訓練された堅牢なモデルを考えると、モデルの重みにコード化された「ロバスト性」と、他のモデルにどの程度簡単に切り離され、/または「ゼロショット」に転送できるか? この論文は、驚くほど単純な答えを実証的に示唆している。 We start by drawing several key observations: (1)assuming that we train the same model architecture on both a clean dataset and its corrupted version, resultant weights mostly differ in shallow layers; (2)the weight difference after projection, which we call "Robust Weight Signature" (RWS), appears to be discriminative and indicative of different corruption types; (3)for the same corruption type, the RWSs obtained by one model architecture are highly consistent and transferable across different datasets. クリーンデータでトレーニングされたモデルと事前抽出したRWSを併用した,最小限のモデルロバスト性「パッチング」フレームワークを提案する。 このように、モデルにある種のロバスト性を注入すると、対応するRWSをその重みに直接追加する。 提案するフレームワークは,(1)軽量であることを示す。 RWSは最も浅いいくつかの層に集中しており、さらに痛みなく定量化できることが示されるので、RWSの保存は、全重量コピーを格納するよりも最大13倍コンパクトである。 RWSは必要に応じて追加することができ、その後、無傷でクリーンなモデルを復元するために取り除かれる。 さらに、RWSを線形に再スケールして、パッチされたロバスト性強度を制御することを実証する。 複数のRWSを同時に追加して、より包括的な堅牢性を同時にパッチすることができる。 クリーンモデルバックボーンが継続的に適応されたり更新されたりしても、rwssは優れたクロスデータセット転送性のため、有効なパッチとして残されている。

Given a robust model trained to be resilient to one or multiple types of distribution shifts (e.g., natural image corruptions), how is that "robustness" encoded in the model weights, and how easily can it be disentangled and/or "zero-shot" transferred to some other models? This paper empirically suggests a surprisingly simple answer: linearly - by straightforward model weight arithmetic! We start by drawing several key observations: (1)assuming that we train the same model architecture on both a clean dataset and its corrupted version, resultant weights mostly differ in shallow layers; (2)the weight difference after projection, which we call "Robust Weight Signature" (RWS), appears to be discriminative and indicative of different corruption types; (3)for the same corruption type, the RWSs obtained by one model architecture are highly consistent and transferable across different datasets. We propose a minimalistic model robustness "patching" framework that carries a model trained on clean data together with its pre-extracted RWSs. In this way, injecting certain robustness to the model is reduced to directly adding the corresponding RWS to its weight. We verify our proposed framework to be remarkably (1)lightweight. since RWSs concentrate on the shallowest few layers and we further show they can be painlessly quantized, storing an RWS is up to 13 x more compact than storing the full weight copy; (2)in-situ adjustable. RWSs can be appended as needed and later taken off to restore the intact clean model. We further demonstrate one can linearly re-scale the RWS to control the patched robustness strength; (3)composable. Multiple RWSs can be added simultaneously to patch more comprehensive robustness at once; and (4)transferable. Even when the clean model backbone is continually adapted or updated, RWSs remain as effective patches due to their outstanding cross-dataset transferability.
翻訳日:2023-02-27 14:23:45 公開日:2023-02-24
# 特徴抽出の周波数とスケールの展望

Frequency and Scale Perspectives of Feature Extraction ( http://arxiv.org/abs/2302.12477v1 )

ライセンス: Link先を確認
Liangqi Zhang, Yihao Luo, Xiang Cao, Haibo Shen and Tianjiang Wang(参考訳) 畳み込みニューラルネットワーク(cnns)は優れた性能を達成しているが、特徴抽出の性質や特性については明確ではない。 本稿では,ニューラルネットの周波数・スケールに対する感度を解析した結果,ニューラルネットは低周波数・中周波数のバイアスを持つだけでなく,異なるクラスで異なる周波数帯域を好み,対象のスケールが好みの周波数帯域に影響を及ぼすことを見出した。 これらの観察により、ニューラルネットワークは様々なスケールと周波数で特徴を抽出する能力を学ぶ必要があるという仮説が導かれる。 この仮説を裏付けるために,ガウス微分に基づくネットワークアーキテクチャを提案する。これはスケール空間を構築し,局所特徴抽出演算子として部分微分を用いて高周波情報を分離することで特徴を抽出する。 この手作業で異なるスケールから機能を抽出する方法により、GSSDNetはさまざまなデータセット上のバニラネットワークと同等の精度を達成できます。

Convolutional neural networks (CNNs) have achieved superior performance but still lack clarity about the nature and properties of feature extraction. In this paper, by analyzing the sensitivity of neural networks to frequencies and scales, we find that neural networks not only have low- and medium-frequency biases but also prefer different frequency bands for different classes, and the scale of objects influences the preferred frequency bands. These observations lead to the hypothesis that neural networks must learn the ability to extract features at various scales and frequencies. To corroborate this hypothesis, we propose a network architecture based on Gaussian derivatives, which extracts features by constructing scale space and employing partial derivatives as local feature extraction operators to separate high-frequency information. This manually designed method of extracting features from different scales allows our GSSDNets to achieve comparable accuracy with vanilla networks on various datasets.
翻訳日:2023-02-27 14:23:12 公開日:2023-02-24
# 拡散モデルにおける意味的潜在方向の教師なし発見

Unsupervised Discovery of Semantic Latent Directions in Diffusion Models ( http://arxiv.org/abs/2302.12469v1 )

ライセンス: Link先を確認
Yong-Hyun Park, Mingi Kwon, Junghyo Jo, Youngjung Uh(参考訳) 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。 GANによる画像編集は遅延空間上に構築されるが、DMはテキストプロンプトなどの条件の編集に依存する。 DMの潜在変数 $\mathbf{x}_t \in \mathcal{X}$ の解釈可能な編集方向を検出するための教師なし手法を提案する。 本手法は、u-nets の $\mathcal{x}$ と中間特徴写像 $\mathcal{h}$ の間のリーマン幾何学を採用し、$\mathcal{x}$ の幾何学的構造を深く理解する。 検出された意味的潜在方向は、主に異種属性の変更をもたらし、異なるサンプル間でグローバルに一貫性がある。 さらに、初期のタイムステップでの編集は粗い属性を編集し、後のタイムステップでは高周波の詳細にフォーカスする。 標本間の直線セグメントの曲線性を定義し、$\mathcal{X}$ が曲線多様体であることを示す。 異なるベースラインとデータセットの実験は、安定拡散においても、我々の方法の有効性を示す。 私たちのソースコードは、将来の研究者向けに公開される予定だ。

Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. While image editing with GANs builds upon latent space, DMs rely on editing the conditions such as text prompts. We present an unsupervised method to discover interpretable editing directions for the latent variables $\mathbf{x}_t \in \mathcal{X}$ of DMs. Our method adopts Riemannian geometry between $\mathcal{X}$ and the intermediate feature maps $\mathcal{H}$ of the U-Nets to provide a deep understanding over the geometrical structure of $\mathcal{X}$. The discovered semantic latent directions mostly yield disentangled attribute changes, and they are globally consistent across different samples. Furthermore, editing in earlier timesteps edits coarse attributes, while ones in later timesteps focus on high-frequency details. We define the curvedness of a line segment between samples to show that $\mathcal{X}$ is a curved manifold. Experiments on different baselines and datasets demonstrate the effectiveness of our method even on Stable Diffusion. Our source code will be publicly available for the future researchers.
翻訳日:2023-02-27 14:22:56 公開日:2023-02-24
# プロンプトベースアダプタによるテーブル・ツー・テキスト生成

Few-Shot Table-to-Text Generation with Prompt-based Adapter ( http://arxiv.org/abs/2302.12468v1 )

ライセンス: Link先を確認
Zhixin Guo, Minyxuan Yan, Jiexing Qi, Jianping Zhou, Ziwei He, Zhouhan Lin, Guanjie Zheng, and Xinbing Wang(参考訳) 事前訓練された言語モデル(PLM)は、表-テキスト生成タスクにおいて顕著な進歩を遂げた。 しかし、表データとテキストの間のトポロジー的なギャップとドメイン固有の知識の欠如は、plmが忠実なテキストを生成するのを困難にしている。 本稿では,数ショット条件下でのテーブル・ツー・テキスト生成をターゲットとした新しい拡張手法であるPrompt-based Adapter (PA)を導入することで,上記の課題を軽減する。 PAの中核となる洞察設計は、テーブルデータとアダプタによる記述の間の構造的ギャップを埋めるモデルに、ドメイン固有の知識とテーブル関連の表現を増強するためのプロンプトテンプレートを注入することである。 このようなプロンプトベースの知識拡張手法には,少なくとも2つのメリットがある。(1)plm固有のドメイン知識の欠如という欠点を緩和する,ラベルなしのドメイン固有知識の大量使用を可能にすること,(2)生成的課題をサポートするさまざまなタスクを設計可能にすること,の2つがある。 人間、本、歌という3つのオープンドメインのnlgデータセットで広範な実験と分析が行われている。 従来の最先端手法と比較して,人間の評価や自動評価から判断した流速,精度の両面で優れた性能が得られる。

Pre-trained language models (PLMs) have made remarkable progress in table-to-text generation tasks. However, the topological gap between tabular data and text and the lack of domain-specific knowledge make it difficult for PLMs to produce faithful text, especially in real-world applications with limited resources. In this paper, we mitigate the above challenges by introducing a novel augmentation method: Prompt-based Adapter (PA), which targets table-to-text generation under few-shot conditions. The core insight design of the PA is to inject prompt templates for augmenting domain-specific knowledge and table-related representations into the model for bridging the structural gap between tabular data and descriptions through adapters. Such prompt-based knowledge augmentation method brings at least two benefits: (1) enables us to fully use the large amounts of unlabelled domain-specific knowledge, which can alleviate the PLMs' inherent shortcomings of lacking domain knowledge; (2) allows us to design different types of tasks supporting the generative challenge. Extensive experiments and analyses are conducted on three open-domain few-shot NLG datasets: Humans, Books, and Songs. Compared to previous state-of-the-art approaches, our model achieves superior performance in terms of both fluency and accuracy as judged by human and automatic evaluations.
翻訳日:2023-02-27 14:22:38 公開日:2023-02-24
# (ノン)対称量子回路におけるユニバーサリティ:なぜアベリア対称性が特別なのか

(Non-)Universality in symmetric quantum circuits: Why Abelian symmetries are special ( http://arxiv.org/abs/2302.12466v1 )

ライセンス: Link先を確認
Iman Marvian(参考訳) 本研究では、アーベル対称性を持つ対称量子回路の理論を展開する。 近年、大域的対称性を尊重する一般ユニタリ変換は、同じ対称性を尊重するが、システム内の全てのサブシステムに作用しないユニタリを構成することによって実現できないことが示されている。 su(d) のような一般対称性群に対して、相互作用の局所性は実現可能なユニタリに異なる種類の制約を課す。 例えば、対称性の1つの既約表現(電荷)を持つ部分空間で実現されたユニタリは、その対称性の非同値表現を持つ他の複数のセクタで実現されたユニタリを決定する。 さらに、対称性を尊重するすべてのユニタリよりもむしろあるセクタにおいて、実現可能なユニタリはシンプレクティック群またはこの群の直交部分群である。 相互作用の局所性はまだ実現可能なユニタリに付加的な制約を課しているが、それらは次の2つのタイプである。 (i)電荷の異なる部分空間間の相対位相の制約 (ii)与えられた電荷を持つ部分空間内の複数の不変部分空間の存在による制約は、余剰可観測性をもたらす。 後者の制約は、十分に大きな k を持つ k-局所対称ユニタリ(英語版)(k-local symmetric unitary)によって取り除くことができる(系のサイズに依存しない)。

In this work, we develop the theory of symmetric quantum circuits with Abelian symmetries. It has been recently shown that general unitary transformations that respect a global symmetry can not be realized by composing unitaries that respect the same symmetry but do not act on all the subsystems in the system. For a general symmetry group, such as SU(d), the locality of interactions imposes different types of constraints on the realizable unitaries. For instance, the unitary realized in a subspace with one irreducible representation (charge) of the symmetry dictates the realized unitaries in multiple other sectors with inequivalent representations of the symmetry. Furthermore, in certain sectors rather than all unitaries that respect the symmetry, the realizable unitaries are the symplectic, or the orthogonal subgroups of this group. We show that none of the aforementioned restrictions appear in the case of Abelian symmetries: While the locality of interactions still imposes additional constraints on the realizable unitaries, they are of the following two types: (i) constraints on the relative phases between subspaces with different charges, and (ii) constraints due to the presence of multiple invariant subspaces inside a subspace with a given charge, which results in extra conserved observables. The latter type of constraint can be removed by k-local symmetric unitaries with sufficiently large k (independent of the system size), whereas to remove the former constraints, in general, one needs an ancillary qudit.
翻訳日:2023-02-27 14:22:14 公開日:2023-02-24
# スマートグリッドにおける新しい需要応答モデルとピーク低減手法 -- PowerTAC

A Novel Demand Response Model and Method for Peak Reduction in Smart Grids -- PowerTAC ( http://arxiv.org/abs/2302.12520v1 )

ライセンス: Link先を確認
Sanjay Chandlekar, Arthik Boroju, Shweta Jain and Sujit Gujar(参考訳) スマートグリッドで広く使われているピーク低減手法の1つは需要応答であり、配電会社からの信号に応じて顧客(エージェント)の使用パターンの変化を分析する。 多くの場合、これらの信号はエージェントに提供されるインセンティブの形式である。 本研究は,実世界のスマートグリッドシミュレータPowerTACにおいて,そのような提案を受け入れる可能性に対するインセンティブの影響について検討する。 まず,エージェントが提供した割引の関数として負荷を低減させる可能性を示す関数が存在することを示す。 これを還元確率(RP)と呼ぶ。 RP関数は還元率(RR)によってさらにパラメータ化され、各剤ごとに異なる。 MJS-ExpResponse は,予算制約の下で期待される削減を最大化することにより,各エージェントにディスカウントを出力するアルゴリズムである。 RRが不明な場合、MJSUCB-ExpResponseというマルチアーマッド・バンド(MAB)ベースのオンラインアルゴリズムを提案し、RRを学習する。 実験により,亜線形後悔を示すことが示された。 最後に,PowerTACシミュレータをテストベッドとした実世界のスマートグリッドシステムにおいて,需要ピークを緩和するアルゴリズムの有効性を示す。

One of the widely used peak reduction methods in smart grids is demand response, where one analyzes the shift in customers' (agents') usage patterns in response to the signal from the distribution company. Often, these signals are in the form of incentives offered to agents. This work studies the effect of incentives on the probabilities of accepting such offers in a real-world smart grid simulator, PowerTAC. We first show that there exists a function that depicts the probability of an agent reducing its load as a function of the discounts offered to them. We call it reduction probability (RP). RP function is further parametrized by the rate of reduction (RR), which can differ for each agent. We provide an optimal algorithm, MJS--ExpResponse, that outputs the discounts to each agent by maximizing the expected reduction under a budget constraint. When RRs are unknown, we propose a Multi-Armed Bandit (MAB) based online algorithm, namely MJSUCB--ExpResponse, to learn RRs. Experimentally we show that it exhibits sublinear regret. Finally, we showcase the efficacy of the proposed algorithm in mitigating demand peaks in a real-world smart grid system using the PowerTAC simulator as a test bed.
翻訳日:2023-02-27 14:15:56 公開日:2023-02-24
# AC2C:マルチエージェント強化学習のための適応制御2ホップ通信

AC2C: Adaptively Controlled Two-Hop Communication for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.12515v1 )

ライセンス: Link先を確認
Xuefeng Wang, Xinran Li, Jiawei Shao and Jun Zhang(参考訳) 協調型マルチエージェント強化学習(MARL)における学習コミュニケーション戦略は近年注目されている。 初期の研究は通常、エージェント間で完全に接続された通信トポロジーを仮定し、高い通信コストを発生させ、実現不可能である可能性がある。 近年,コミュニケーションのオーバーヘッドを軽減するための適応的コミュニケーション戦略が開発されているが,これらの手法はコミュニケーション範囲を超えたエージェントから有効な情報を得ることはできない。 本稿では,各エージェントが限られた通信範囲を有し,通信トポロジが動的に変化する現実的な通信モデルを考える。 効果的なエージェント通信を容易にするために,適応制御型2ホップ通信(ac2c)と呼ばれる新しい通信プロトコルを提案する。 最初のローカル通信ラウンドの後、ac2cは適応型2ホップ通信戦略を採用し、エージェント間の長距離情報交換を可能にし、通信コントローラによって実装される性能を向上させる。 このコントローラは、各エージェントが2ホップメッセージを要求すべきかどうかを判断し、分散実行時の通信オーバーヘッドを低減するのに役立つ。 本稿では,3つの協調型マルチエージェントタスクにおけるAC2Cの評価を行った。

Learning communication strategies in cooperative multi-agent reinforcement learning (MARL) has recently attracted intensive attention. Early studies typically assumed a fully-connected communication topology among agents, which induces high communication costs and may not be feasible. Some recent works have developed adaptive communication strategies to reduce communication overhead, but these methods cannot effectively obtain valuable information from agents that are beyond the communication range. In this paper, we consider a realistic communication model where each agent has a limited communication range, and the communication topology dynamically changes. To facilitate effective agent communication, we propose a novel communication protocol called Adaptively Controlled Two-Hop Communication (AC2C). After an initial local communication round, AC2C employs an adaptive two-hop communication strategy to enable long-range information exchange among agents to boost performance, which is implemented by a communication controller. This controller determines whether each agent should ask for two-hop messages and thus helps to reduce the communication overhead during distributed execution. We evaluate AC2C on three cooperative multi-agent tasks, and the experimental results show that it outperforms relevant baselines with lower communication costs.
翻訳日:2023-02-27 14:15:35 公開日:2023-02-24
# DyBit: 効率的な量子化ニューラルネットワーク推論のための動的ビット精度数

DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural Network Inference ( http://arxiv.org/abs/2302.12510v1 )

ライセンス: Link先を確認
Jiajun Zhou, Jiajun Wu, Yizhao Gao, Yuhao Ding, Chaofan Tao, Boyu Li, Fengbin Tu, Kwang-Ting Cheng, Hayden Kwok-Hay So and Ngai Wong(参考訳) ディープニューラルネットワーク(DNN)の推論を高速化するため、低ビット幅数の量子化を積極的に研究している。 顕著な課題は、特に非常に低ビット幅(<8ビット)において、DNNモデルを大きな精度の劣化なしに低ビット幅数に量子化することである。 この作業はDyBitと呼ばれる可変長符号化による適応データ表現をターゲットにしている。 dybitはdnnの重み/アクティベーション分布に適合する分離ビットフィールドの精度と範囲を動的に調整することができる。 また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。 実験の結果、ダイビットによる推定精度は4ビット量子化時の最先端よりも1.997%高く、提案手法は8.1倍の高速化を達成できることがわかった。

To accelerate the inference of deep neural networks (DNNs), quantization with low-bitwidth numbers is actively researched. A prominent challenge is to quantize the DNN models into low-bitwidth numbers without significant accuracy degradation, especially at very low bitwidths (< 8 bits). This work targets an adaptive data representation with variable-length encoding called DyBit. DyBit can dynamically adjust the precision and range of separate bit-field to be adapted to the DNN weights/activations distribution. We also propose a hardware-aware quantization framework with a mixed-precision accelerator to trade-off the inference accuracy and speedup. Experimental results demonstrate that the inference accuracy via DyBit is 1.997% higher than the state-of-the-art at 4-bit quantization, and the proposed framework can achieve up to 8.1x speedup compared with the original model.
翻訳日:2023-02-27 14:15:16 公開日:2023-02-24
# 空中計算による連合学習のパーソナライズ

Personalizing Federated Learning with Over-the-Air Computations ( http://arxiv.org/abs/2302.12509v1 )

ライセンス: Link先を確認
Zihan Chen, Zeshen Li, Howard H. Yang, Tony Q.S. Quek(参考訳) フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする有望な技術である。 このような設定の下で、複数のクライアントはエッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。 しかし、トレーニング効率は、コミュニケーションの制限とデータの多様性によって生じる課題によって、しばしば低下する。 本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。 さらに,データの不均一性問題に対処するために,2レベル最適化フレームワークを活用して連合学習モデルをパーソナライズする。 その結果、各クライアントのローカルモデルの一般化と堅牢性が向上する。 従来のフレームワークに対するモデルトレーニング手順とその利点について詳述する。 理論上は学習効率を示す収束解析を提供する。 また,提案フレームワークの有効性を検証するための広範な実験を行った。

Federated edge learning is a promising technology to deploy intelligence at the edge of wireless networks in a privacy-preserving manner. Under such a setting, multiple clients collaboratively train a global generic model under the coordination of an edge server. But the training efficiency is often throttled by challenges arising from limited communication and data heterogeneity. This paper presents a distributed training paradigm that employs analog over-the-air computation to address the communication bottleneck. Additionally, we leverage a bi-level optimization framework to personalize the federated learning model so as to cope with the data heterogeneity issue. As a result, it enhances the generalization and robustness of each client's local model. We elaborate on the model training procedure and its advantages over conventional frameworks. We provide a convergence analysis that theoretically demonstrates the training efficiency. We also conduct extensive experiments to validate the efficacy of the proposed framework.
翻訳日:2023-02-27 14:15:00 公開日:2023-02-24
# 無注意非局所ニューラルネットワークのための空間バイアス

Spatial Bias for Attention-free Non-local Neural Networks ( http://arxiv.org/abs/2302.12505v1 )

ライセンス: Link先を確認
Junhyung Go, Jongbin Ryu(参考訳) 本稿では,畳み込みニューラルネットワークにおける自己注意なしにグローバル知識を学ぶための空間バイアスを紹介する。 受容領域が限られているため、従来の畳み込みニューラルネットワークは長距離依存の学習に苦しむ。 非ローカルニューラルネットワークは、グローバルな知識を学ぶのに苦労しているが、自己注意操作のためにネットワーク設計が重すぎることは避けられない。 そこで本研究では,畳み込みニューラルネットワークに自着することなく,グローバル知識を効率的にエンコードする,高速で軽量な空間バイアスを提案する。 空間バイアスは特徴マップ上に積み上げられ、畳み込み特徴の空間構造を調整するために結合される。 したがって、コンボリューション層のグローバルな知識を、ごくわずかなリソースで直接学習する。 本手法は非常に高速かつ軽量であり,非局所的注意法とニューラルネットワークの性能向上に寄与する。 非局所ニューラルネットワークと比較して、空間バイアスは約10倍のパラメータを使用し、非常に少ない予算で1.6~3.3倍のスループットで同等のパフォーマンスを達成する。 さらに、従来の非局所ニューラルネットワークで空間バイアスを用いることで、バックボーンモデルの性能をさらに向上することができる。 空間バイアスは,imagenet-1kおよびcifar100データセットの分類精度を+0.79%,+1.5%向上させる競争的性能を達成する。 さらに,オブジェクト検出とセマンティックセグメンテーションを含む下流タスクに対して,MS-COCOおよびADE20Kデータセット上で本手法を検証する。

In this paper, we introduce the spatial bias to learn global knowledge without self-attention in convolutional neural networks. Owing to the limited receptive field, conventional convolutional neural networks suffer from learning long-range dependencies. Non-local neural networks have struggled to learn global knowledge, but unavoidably have too heavy a network design due to the self-attention operation. Therefore, we propose a fast and lightweight spatial bias that efficiently encodes global knowledge without self-attention on convolutional neural networks. Spatial bias is stacked on the feature map and convolved together to adjust the spatial structure of the convolutional features. Therefore, we learn the global knowledge on the convolution layer directly with very few additional resources. Our method is very fast and lightweight due to the attention-free non-local method while improving the performance of neural networks considerably. Compared to non-local neural networks, the spatial bias use about 10 times fewer parameters while achieving comparable performance with 1.6 ~ 3.3 times more throughput on a very little budget. Furthermore, the spatial bias can be used with conventional non-local neural networks to further improve the performance of the backbone model. We show that the spatial bias achieves competitive performance that improves the classification accuracy by +0.79% and +1.5% on ImageNet-1K and cifar100 datasets. Additionally, we validate our method on the MS-COCO and ADE20K datasets for downstream tasks involving object detection and semantic segmentation.
翻訳日:2023-02-27 14:14:47 公開日:2023-02-24
# 不均一処理によるスパースサブグループと解釈可能なサブグループの回復と時間-事象の知覚結果

Recovering Sparse and Interpretable Subgroups with Heterogeneous Treatment Effects with Censored Time-to-Event Outcomes ( http://arxiv.org/abs/2302.12504v1 )

ライセンス: Link先を確認
Chirag Nagpal, Vedant Sanil and Artur Dubrawski(参考訳) ランダム化実験と観測データの両方を含む研究は、典型的には、時間から時間への障害、死亡、または悪条件の発症などの結果を含む。 このような結果は通常、フォローアップの欠如による検閲の対象となり、確立された統計的実践は、治療群と対照群の間のハザード比で治療効果を比較することである。 本稿では,研究人口と比較して異なる治療効果を示すスパース表現群(またはサブタイプ)を回復するための統計的アプローチを提案する。 提案手法では, パラメータの縮小を図りながら, データの混合をモデル化する。 そこで本研究では, 循環器系医療における重要な臨床研究において, スパース表現型の回復に有効であることを示す。

Studies involving both randomized experiments as well as observational data typically involve time-to-event outcomes such as time-to-failure, death or onset of an adverse condition. Such outcomes are typically subject to censoring due to loss of follow-up and established statistical practice involves comparing treatment efficacy in terms of hazard ratios between the treated and control groups. In this paper we propose a statistical approach to recovering sparse phenogroups (or subtypes) that demonstrate differential treatment effects as compared to the study population. Our approach involves modelling the data as a mixture while enforcing parameter shrinkage through structured sparsity regularization. We propose a novel inference procedure for the proposed model and demonstrate its efficacy in recovering sparse phenotypes across large landmark real world clinical studies in cardiovascular health.
翻訳日:2023-02-27 14:14:24 公開日:2023-02-24
# FedPDC:公開データセット修正のためのフェデレーションラーニング

FedPDC:Federated Learning for Public Dataset Correction ( http://arxiv.org/abs/2302.12503v1 )

ライセンス: Link先を確認
Yuquan Zhang, Yongquan Zhang(参考訳) プライバシ保護にもっと注意を払うようになるにつれて、有望な分散機械学習パラダイムである連合学習(federated learning:fl)がますます注目を集めている。 しかし、実生活におけるデバイス上のデータの偏りにより、フェデレーション学習は非IIDシナリオにおける従来の機械学習よりも分類精度が低い。 最適化アルゴリズムは多数存在するが、パラメータサーバのローカルモデル集約は比較的伝統的である。 本稿では,いくつかの産業における共有データセットを用いて,局所モデルの集約モードと局所トレーニングの損失関数を最適化する新しいアルゴリズムfedpdcを提案する。 多くのベンチマーク実験において、FedPDCはクライアントデータのプライバシーを確保しつつ、極めて不均衡なデータ分散の場合のグローバルモデルの精度を効果的に改善することができる。 同時に、FedPDCの精度向上は、追加の通信コストをもたらしない。

As people pay more and more attention to privacy protection, Federated Learning (FL), as a promising distributed machine learning paradigm, is receiving more and more attention. However, due to the biased distribution of data on devices in real life, federated learning has lower classification accuracy than traditional machine learning in Non-IID scenarios. Although there are many optimization algorithms, the local model aggregation in the parameter server is still relatively traditional. In this paper, a new algorithm FedPDC is proposed to optimize the aggregation mode of local models and the loss function of local training by using the shared data sets in some industries. In many benchmark experiments, FedPDC can effectively improve the accuracy of the global model in the case of extremely unbalanced data distribution, while ensuring the privacy of the client data. At the same time, the accuracy improvement of FedPDC does not bring additional communication costs.
翻訳日:2023-02-27 14:14:11 公開日:2023-02-24
# 量子ウォークによる量子ファイナンスのためのランダム状態の作成

Preparing random state for quantum financing with quantum walks ( http://arxiv.org/abs/2302.12500v1 )

ライセンス: Link先を確認
Yen-Jui Chang, Wei-Ting Wang, Hao-Yuan Chen, Shih-Wei Liao, Ching-Ray Chang(参考訳) 近年,コンピュータ科学と物理の2つのイノベーションを組み合わせることで,計算能力の向上が期待されている。 様々なタスクにおいて高い効率性を達成するために量子計算の可能性を探求することは、工学における重要な発展であり、特に量子コンピュータに有利な技術的に複雑な問題に対して指数関数的なスピードアップを提供する重要な可能性を持つ科学における貴重な問題である。 しかし、この可能性を解き放つ上での鍵となる問題は、量子コンピュータや量子シミュレータによって古典的ハードウェア上で実行できる量子状態へ古典的データをロードする効率的なアプローチを構築することである。 そのため、この制限に対処するために、分割ステップ量子ウォーク(SSQW)アルゴリズムが提案された。 SSQWは、確率分布を生成できるパラメータ化量子回路(PQC)を設計し、パラメータを最適化し、変動解法を用いて所望の分布を達成する。 Qiskitを使ったSSQWの実装の実践例がオープンソースソフトウェアとしてリリースされた。 所望の確率振幅分布を生成する有望な方法としてその可能性を示すことは、量子シミュレーションによるオプション価格設定におけるssqwの潜在的応用を浮き彫りにしている。

In recent years, there has been an emerging trend of combining two innovations in computer science and physics to achieve better computation capability. Exploring the potential of quantum computation to achieve highly efficient performance in various tasks is a vital development in engineering and a valuable question in sciences, as it has a significant potential to provide exponential speedups for technologically complex problems that are specifically advantageous to quantum computers. However, one key issue in unleashing this potential is constructing an efficient approach to load classical data into quantum states that can be executed by quantum computers or quantum simulators on classical hardware. Therefore, the split-step quantum walks (SSQW) algorithm was proposed to address this limitation. We facilitate SSQW to design parameterized quantum circuits (PQC) that can generate probability distributions and optimize the parameters to achieve the desired distribution using a variational solver. A practical example of implementing SSQW using Qiskit has been released as open-source software. Showing its potential as a promising method for generating desired probability amplitude distributions highlights the potential application of SSQW in option pricing through quantum simulation.
翻訳日:2023-02-27 14:13:56 公開日:2023-02-24
# グラフ上の測度に対するスケーラブルな非平衡ソボレフ輸送

Scalable Unbalanced Sobolev Transport for Measures on a Graph ( http://arxiv.org/abs/2302.12498v1 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) 最適輸送(OT)は確率測度を比較するために人気があり強力なツールである。 しかし、OTにはいくつかの欠点があります。 (i)同じ質量を持つために必要な入力措置 (ii)計算の複雑さが高く、 (iii)カーネル依存アルゴリズムアプローチへの応用を制限する不確定性。 課題に対処する (ii)- (iii) Le et al. (2022) は、支持体上のグラフ構造を利用して、同じ全体質量のグラフ上の測度に対するソボレフ輸送を提案した。 本研究は,グラフ計量空間上で支持される,異なる総質量を持つような測度について考察する。 欠点を和らげる (i)-- ot の (iii) では, 測定値が総質量が異なるような不均衡な環境において, ソボレフ輸送を拡張できる, 新規でスケーラブルな手法を提案する。 提案した非平衡ソボレフ輸送 (UST) は高速計算のための閉形式式であり, 負の定式であることを示す。 さらに, ust の幾何学構造を導出し, ust と他の輸送距離との関係を確立する。 さらに、負の定値性を利用して正の定値カーネルを設計し、それらを様々なシミュレーションで評価し、グラフ上の不均衡測度に対してそれらの高速計算と同等の性能を示す。

Optimal transport (OT) is a popular and powerful tool for comparing probability measures. However, OT suffers a few drawbacks: (i) input measures required to have the same mass, (ii) a high computational complexity, and (iii) indefiniteness which limits its applications on kernel-dependent algorithmic approaches. To tackle issues (ii)--(iii), Le et al. (2022) recently proposed Sobolev transport for measures on a graph having the same total mass by leveraging the graph structure over supports. In this work, we consider measures that may have different total mass and are supported on a graph metric space. To alleviate the disadvantages (i)--(iii) of OT, we propose a novel and scalable approach to extend Sobolev transport for this unbalanced setting where measures may have different total mass. We show that the proposed unbalanced Sobolev transport (UST) admits a closed-form formula for fast computation, and it is also negative definite. Additionally, we derive geometric structures for the UST and establish relations between our UST and other transport distances. We further exploit the negative definiteness to design positive definite kernels and evaluate them on various simulations to illustrate their fast computation and comparable performances against other transport baselines for unbalanced measures on a graph.
翻訳日:2023-02-27 14:13:36 公開日:2023-02-24
# 高解像度クラウドフリー画像生成のための衛星画像のデータ融合

Data fusion of satellite imagery for generation of daily cloud free images at high resolution level ( http://arxiv.org/abs/2302.12495v1 )

ライセンス: Link先を確認
Natalya Ivanchuk (1), Peter Kogut (2) and Petro Martyniuk (1) ((1) National University of Water and Environmental Engineering Ukraine, (2) Oles Honchar Dnipro National University Ukraine)(参考訳) 本稿では,Sentinel-2 と MODIS のマルチスペクトル衛星画像のDate Fusion 問題に対する新たな変分的アプローチについて論じる。 当社のアプローチの要点は、MODIS画像がクラウドフリーであるのに対して、Sentinel-2の画像は雲やノイズによって破壊されることです。

In this paper we discuss a new variational approach to the Date Fusion problem of multi-spectral satellite images from Sentinel-2 and MODIS that have been captured at different resolution level and, arguably, on different days. The crucial point of our approach that the MODIS image is cloud-free whereas the images from Sentinel-2 can be corrupted by clouds or noise.
翻訳日:2023-02-27 14:13:16 公開日:2023-02-24
# ハイブリッドマシン学習均質化:ベイジアンデータマイニングと畳み込みニューラルネットワーク

Hybrid machine-learned homogenization: Bayesian data mining and convolutional neural networks ( http://arxiv.org/abs/2302.12545v1 )

ライセンス: Link先を確認
Julian Li{\ss}ner and Felix Fritzen(参考訳) 本研究は, 構造特性予測のための一般的な特徴の他, 新たな特徴記述子の開発により, 機械学習予測を改善することを目的としている。 そこで,現在の特徴集合に説明できない特徴を含むサンプルを得るため,ベイズ・インフューズド・データ・マイニングを行い,これらの特徴を記述するための適切な特徴記述子を提案する。 特徴ディスクリプタの反復的な開発は37の新機能を生み出し、予測エラーを約3分の1削減することができた。 さらに予測モデルを改善するために、畳み込みニューラルネットワーク(conv net)をデプロイし、教師付き機械学習方式で補助機能を生成する。 Conv Netsは機能ベースのアプローチより優れていた。 その鍵となる要素は、新たに提案されたデータ拡張スキームと、いわゆるディープインセプションモジュールの開発である。 機能ベースアプローチと畳み込みニューラルネットワークの組み合わせによって、ハイブリッドニューラルネットワークが実現される。単一モデルにおける両方のニューラルネットワークアーチタイプを並列に展開することで、相対根付き平均二乗誤差が1%未満となり、同じデータで動作する以前のモデルと比較して誤差が半減する。 ハイブリッドニューラルネットワークは、低位相のコントラストから高位相のコントラストまで、可変材料パラメータを予測できるように拡張できるほど強力であり、同時に任意の微細構造を可能としていた。

Beyond the generally deployed features for microstructure property prediction this study aims to improve the machine learned prediction by developing novel feature descriptors. Therefore, Bayesian infused data mining is conducted to acquire samples containing characteristics inexplicable to the current feature set, and suitable feature descriptors to describe these characteristics are proposed. The iterative development of feature descriptors resulted in 37 novel features, being able to reduce the prediction error by roughly one third. To further improve the predictive model, convolutional neural networks (Conv Nets) are deployed to generate auxiliary features in a supervised machine learning manner. The Conv Nets were able to outperform the feature based approach. A key ingredient for that is a newly proposed data augmentation scheme and the development of so-called deep inception modules. A combination of the feature based approach and the convolutional neural network leads to a hybrid neural network: A parallel deployment of the both neural network archetypes in a single model achieved a relative rooted mean squared error below 1%, more than halving the error compared to prior models operating on the same data. The hybrid neural network was found powerful enough to be extended to predict variable material parameters, from a low to high phase contrast, while allowing for arbitrary microstructure geometry at the same time.
翻訳日:2023-02-27 14:06:29 公開日:2023-02-24
# 反復最適化アルゴリズムの漸近収束

Asymptotic convergence of iterative optimization algorithms ( http://arxiv.org/abs/2302.12544v1 )

ライセンス: Link先を確認
Randal Douc, Sylvain Le Corff(参考訳) 本稿では,反復最適化アルゴリズムの一般的な枠組みを紹介し,その収束が漸近幾何学的であることを仮定する。 また、適切な仮定の下では収束率を低くすることができることも証明する。 収束は幾何学的であり、正確な漸近収束率を与える。 このフレームワークは、制約付き最適化を処理し、期待最大化アルゴリズムとミラー降下アルゴリズムを包含し、α-エクスプロクテーション最大化やミラープロキシアルゴリズムなどの変種を包含するが、ミラープロキシアルゴリズムの収束に十分な条件を定め、この手法は凸コンパクト集合上の凸関数のユニークな最小値に体系的に収束する。

This paper introduces a general framework for iterative optimization algorithms and establishes under general assumptions that their convergence is asymptotically geometric. We also prove that under appropriate assumptions, the rate of convergence can be lower bounded. The convergence is then only geometric, and we provide the exact asymptotic convergence rate. This framework allows to deal with constrained optimization and encompasses the Expectation Maximization algorithm and the mirror descent algorithm, as well as some variants such as the alpha-Expectation Maximization or the Mirror Prox algorithm.Furthermore, we establish sufficient conditions for the convergence of the Mirror Prox algorithm, under which the method converges systematically to the unique minimizer of a convex function on a convex compact set.
翻訳日:2023-02-27 14:06:05 公開日:2023-02-24
# UnbiasedNets: ニューラルネットワークにおけるロバストネスバイアス緩和のためのデータセット分割フレームワーク

UnbiasedNets: A Dataset Diversification Framework for Robustness Bias Alleviation in Neural Networks ( http://arxiv.org/abs/2302.12538v1 )

ライセンス: Link先を確認
Mahum Naseer, Bharath Srinivas Prabakaran, Osman Hasan, Muhammad Shafique(参考訳) トレーニングされたニューラルネットワーク(nn)モデルのパフォーマンスは、この数年間、特にディープラーニングの出現によって大幅に向上した。 しかしながら、最も正確なnnであっても、利用可能なトレーニングデータセットに固有のバイアスがあるため、特定の出力分類に偏る可能性がある。 本稿では,ある出力クラスの雑音に対するロバスト性が,残りの出力クラスに比べて有意に大きいこと,すなわち,トレーニングされたnnが示すロバスト性バイアスについて述べる。 バイアスは、不均衡データセット、すなわちすべての出力クラスが等しく表現されないデータセットから生じることが示される。 そこで我々は,K平均クラスタリングとNNのノイズ耐性を活用して,比較的小さなデータセットからでも,与えられたトレーニングデータセットを多様化するUnbiasedNetsフレームワークを提案する。 これによりバランスのとれたデータセットが生成され、データセット自体のバイアスが軽減される。 私たちの知る限りでは、NNの堅牢性バイアス問題に対処する最初のフレームワークです。 我々は、UnbiasedNetsがデータ多様化に有効であることを示すために、実世界のデータセットを使用します。 結果は、バランスの取れたデータセットを生成するためのよく知られたツールと比較され、堅牢性バイアスに対処しながら、既存の作業が成功を限定していることを示す。 対照的に、UnbiasedNetsは既存の作業よりも顕著な改善を提供する一方で、多様化されたデータセットとオリジナルのデータセットでトレーニングされたNNを比較することで、いくつかのケースにおいてロバストネスバイアスを著しく低減する。

Performance of trained neural network (NN) models, in terms of testing accuracy, has improved remarkably over the past several years, especially with the advent of deep learning. However, even the most accurate NNs can be biased toward a specific output classification due to the inherent bias in the available training datasets, which may propagate to the real-world implementations. This paper deals with the robustness bias, i.e., the bias exhibited by the trained NN by having a significantly large robustness to noise for a certain output class, as compared to the remaining output classes. The bias is shown to result from imbalanced datasets, i.e., the datasets where all output classes are not equally represented. Towards this, we propose the UnbiasedNets framework, which leverages K-means clustering and the NN's noise tolerance to diversify the given training dataset, even from relatively smaller datasets. This generates balanced datasets and reduces the bias within the datasets themselves. To the best of our knowledge, this is the first framework catering to the robustness bias problem in NNs. We use real-world datasets to demonstrate the efficacy of the UnbiasedNets for data diversification, in case of both binary and multi-label classifiers. The results are compared to well-known tools aimed at generating balanced datasets, and illustrate how existing works have limited success while addressing the robustness bias. In contrast, UnbiasedNets provides a notable improvement over existing works, while even reducing the robustness bias significantly in some cases, as observed by comparing the NNs trained on the diversified and original datasets.
翻訳日:2023-02-27 14:05:53 公開日:2023-02-24
# ターゲットネットワークが時間差を安定化する理由

Why Target Networks Stabilise Temporal Difference Methods ( http://arxiv.org/abs/2302.12537v1 )

ライセンス: Link先を確認
Mattie Fellows, Matthew J. A. Smith, Shimon Whiteson(参考訳) 近年の深層強化学習の成功と一体化して、マルコフ決定過程における政策評価に頻繁に更新された目標値を用いた時間差分法が確立されている。 しかし、ターゲットネットワークの有効性に関する完全な理論的説明は、いまだ解明されていない。 この研究で、我々はこの人気のあるアルゴリズムのクラスを分析し、最後に答える:なぜターゲットネットワークはTD学習を安定化させるのか? そこで我々は,対象ネットワークの利用を記述し,適合する手法と半次時間差分アルゴリズムとのギャップを埋める,部分的に適合した政策評価法の概念を定式化する。 このフレームワークを使用することで、いわゆるDeadly Triad(非線型)関数近似によるTD更新と、非収束アルゴリズムにつながる外部データ)を特徴付けることができます。 この知見から、ターゲットネットワークの使用は、td更新のヤコビアンにおける条件付けの悪い影響を軽減できると結論付けることができる。 代わりに、穏やかな正規性条件と十分に調整されたターゲットネットワーク更新周波数の下では、非常に困難なオフポリシックサンプリングと非線形関数近似設定においても収束が保証されることを示した。

Integral to recent successes in deep reinforcement learning has been a class of temporal difference methods that use infrequently updated target values for policy evaluation in a Markov Decision Process. Yet a complete theoretical explanation for the effectiveness of target networks remains elusive. In this work, we provide an analysis of this popular class of algorithms, to finally answer the question: `why do target networks stabilise TD learning'? To do so, we formalise the notion of a partially fitted policy evaluation method, which describes the use of target networks and bridges the gap between fitted methods and semigradient temporal difference algorithms. Using this framework we are able to uniquely characterise the so-called deadly triad - the use of TD updates with (nonlinear) function approximation and off-policy data - which often leads to nonconvergent algorithms. This insight leads us to conclude that the use of target networks can mitigate the effects of poor conditioning in the Jacobian of the TD update. Instead, we show that under mild regularity conditions and a well tuned target network update frequency, convergence can be guaranteed even in the extremely challenging off-policy sampling and nonlinear function approximation setting.
翻訳日:2023-02-27 14:05:25 公開日:2023-02-24
# HUST Bearing:ボールベアリング断層診断のための実践的データセット

HUST bearing: a practical dataset for ball bearing fault diagnosis ( http://arxiv.org/abs/2302.12533v1 )

ライセンス: Link先を確認
Nguyen Duc Thuan and Hoang Si Hong(参考訳) 本研究では,異なる球軸受の振動データに対して,大量の振動データを提供するハスト軸受という実用的なデータセットを提案する。 このデータセットは、90種類の生振動データ(インナークラック、アウタークラック、ボールクラック、およびそれらの2-コンビネーション)を3つの作業条件で5種類の軸受に格納し、サンプルレートは毎秒51,200サンプルである。 導入したデータセットのエンベロープ解析と順序追跡分析を確立し,データの初期評価を可能にした。 多くの古典的機械学習分類法は、異なるドメインの特徴を用いてデータセットのベアリング障害を特定するために用いられる。 典型的な教師なし転送学習アルゴリズムは、データセット内の知識の転送可能性を監視するためにも機能する。 データセットに対する検討手法の実験結果は、分類タスクで100%、教師なし転帰学習で60-80%の精度で分岐する。

In this work, we introduce a practical dataset named HUST bearing, that provides a large set of vibration data on different ball bearings. This dataset contains 90 raw vibration data of 6 types of defects (inner crack, outer crack, ball crack, and their 2-combinations) on 5 types of bearing at 3 working conditions with the sample rate of 51,200 samples per second. We established the envelope analysis and order tracking analysis on the introduced dataset to allow an initial evaluation of the data. A number of classical machine learning classification methods are used to identify bearing faults of the dataset using features in different domains. The typical advanced unsupervised transfer learning algorithms also perform to observe the transferability of knowledge among parts of the dataset. The experimental results of examined methods on the dataset gain divergent accuracy up to 100% on classification task and 60-80% on unsupervised transfer learning task.
翻訳日:2023-02-27 14:05:04 公開日:2023-02-24
# 階層型オーディオバーテックスによるポーズ制御可能な3次元顔アニメーション合成

Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention ( http://arxiv.org/abs/2302.12532v1 )

ライセンス: Link先を確認
Bin Liu, Xiaolin Wei, Bo Li, Junjie Cao, Yu-Kun Lai(参考訳) 既存の音声駆動の3D顔アニメーション手法のほとんどは、詳細な表情と頭部ポーズの欠如に悩まされ、人間とロボットの相互作用に満足できない経験をもたらした。 本稿では,階層型音声頂点を用いたポーズ制御可能な3次元顔アニメーション合成法を提案する。 実かつ詳細な表現を合成するために,音声信号をグローバル潜在特徴と局所頂点制御特徴の両方に符号化する階層的分解戦略を提案する。 次に、局所音声特徴と頂点空間特徴とを組み合わせたグローバル音声特徴を用いて、顔モデルの固有空間トポロジ構造と対応する音声の意味特徴とを融合させて、グラフ畳み込みニューラルネットワークを介して最終的な一貫した顔アニメーションを予測する。 ポーズ制御可能なアニメーションを実現するために,2次元音声合成技術を用いてポーズ属性増強手法を提案する。 実験の結果,提案手法はよりリアルな表情と頭部姿勢運動を生成できることが示唆された。 定性的かつ定量的な実験により,提案手法は最先端の手法と競合する性能を示す。

Most of the existing audio-driven 3D facial animation methods suffered from the lack of detailed facial expression and head pose, resulting in unsatisfactory experience of human-robot interaction. In this paper, a novel pose-controllable 3D facial animation synthesis method is proposed by utilizing hierarchical audio-vertex attention. To synthesize real and detailed expression, a hierarchical decomposition strategy is proposed to encode the audio signal into both a global latent feature and a local vertex-wise control feature. Then the local and global audio features combined with vertex spatial features are used to predict the final consistent facial animation via a graph convolutional neural network by fusing the intrinsic spatial topology structure of the face model and the corresponding semantic feature of the audio. To accomplish pose-controllable animation, we introduce a novel pose attribute augmentation method by utilizing the 2D talking face technique. Experimental results indicate that the proposed method can produce more realistic facial expressions and head posture movements. Qualitative and quantitative experiments show that the proposed method achieves competitive performance against state-of-the-art methods.
翻訳日:2023-02-27 14:04:46 公開日:2023-02-24
# 微妙な競合を知覚する意味マッチングのための双対経路モデリング

Dual Path Modeling for Semantic Matching by Perceiving Subtle Conflicts ( http://arxiv.org/abs/2302.12530v1 )

ライセンス: Link先を確認
Chao Xue and Di Liang and Sirui Wang and Wei Wu and Jing Zhang(参考訳) トランスフォーマーベースの事前学習モデルではセマンティックマッチングが大幅に改善されている。 しかし、既存のモデルは微妙な違いを捉える能力が不足している。 文対における単語の修正、追加、削除は、モデルがそれらの関係を予測するのを難しくする可能性がある。 そこで本研究では,文対の微妙な差異を知覚するモデルの能力を高めるために,親和性と差異意味論を別々にモデル化する新しい双対経路モデリングフレームワークを提案する。 デュアルパスモデリングフレームワークに基づいて,意味的関係を認識するためにDPM-Net(Dual Path Modeling Network)を設計する。 提案手法は,10種類のセマンティックマッチングとロバストネステストデータセットについて広範な実験を行い,提案手法がベースラインよりも一貫した改善を実現することを示す。

Transformer-based pre-trained models have achieved great improvements in semantic matching. However, existing models still suffer from insufficient ability to capture subtle differences. The modification, addition and deletion of words in sentence pairs may make it difficult for the model to predict their relationship. To alleviate this problem, we propose a novel Dual Path Modeling Framework to enhance the model's ability to perceive subtle differences in sentence pairs by separately modeling affinity and difference semantics. Based on dual-path modeling framework we design the Dual Path Modeling Network (DPM-Net) to recognize semantic relations. And we conduct extensive experiments on 10 well-studied semantic matching and robustness test datasets, and the experimental results show that our proposed method achieves consistent improvements over baselines.
翻訳日:2023-02-27 14:04:26 公開日:2023-02-24
# 時間的知識グラフ質問応答のための時間的マルチウェイ適応核融合ネットワーク

Time-aware Multiway Adaptive Fusion Network for Temporal Knowledge Graph Question Answering ( http://arxiv.org/abs/2302.12529v1 )

ライセンス: Link先を確認
Yonghao Liu and Di Liang and Fang Fang and Sirui Wang and Wei Wu and Rui Jiang(参考訳) 知識グラフ(KG)は自然言語処理に広く応用されているため注目されている。 しかし、時間的質問応答(QA)に対するその使用例はよく研究されていない。 既存の手法のほとんどは、事前訓練された言語モデルに基づいて開発されており、時間的KGQAタスクの観点からエンティティのemph{temporal-specific}プレゼンテーションを学習することはできない。 この問題を緩和するために, 新規な \textbf{T}ime-aware \textbf{M}ultiway \textbf{A}daptive (\textbf{TMA}) 融合ネットワークを提案する。 人間の段階的な推論行動に触発された。 それぞれの質問に対して、TMAはまずKGから関連する概念を抽出し、それからそれらを多方向適応モジュールに供給し、問題の \emph{temporal-specific} 表現を生成する。 この表現は、最終的な予測を生成するために事前訓練されたkg埋め込みと組み込むことができる。 実験により,提案モデルがベンチマークデータセットの最先端モデルよりも優れた性能を実現することを確認した。 特に、cronquestionsデータセットにおけるtmaのhiss@1とhiss@10の結果は、最もパフォーマンスの高いベースラインと比較して、24\%と10\%完全に改善されている。 さらに, 適応融合機構を用いたTMAは, 問題表現における情報の比率を分析することで, 解釈可能性が得られることを示す。

Knowledge graphs (KGs) have received increasing attention due to its wide applications on natural language processing. However, its use case on temporal question answering (QA) has not been well-explored. Most of existing methods are developed based on pre-trained language models, which might not be capable to learn \emph{temporal-specific} presentations of entities in terms of temporal KGQA task. To alleviate this problem, we propose a novel \textbf{T}ime-aware \textbf{M}ultiway \textbf{A}daptive (\textbf{TMA}) fusion network. Inspired by the step-by-step reasoning behavior of humans. For each given question, TMA first extracts the relevant concepts from the KG, and then feeds them into a multiway adaptive module to produce a \emph{temporal-specific} representation of the question. This representation can be incorporated with the pre-trained KG embedding to generate the final prediction. Empirical results verify that the proposed model achieves better performance than the state-of-the-art models in the benchmark dataset. Notably, the Hits@1 and Hits@10 results of TMA on the CronQuestions dataset's complex questions are absolutely improved by 24\% and 10\% compared to the best-performing baseline. Furthermore, we also show that TMA employing an adaptive fusion mechanism can provide interpretability by analyzing the proportion of information in question representations.
翻訳日:2023-02-27 14:04:12 公開日:2023-02-24
# 値関数におけるモデルに基づく不確かさ

Model-Based Uncertainty in Value Functions ( http://arxiv.org/abs/2302.12526v1 )

ライセンス: Link先を確認
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。 特に,mdp上の分布によって引き起こされる値の分散を特徴付けることに着目する。 従来の作業は、いわゆる不確実性ベルマン方程式を解くことによって、値の後方分散を上限とするが、過剰近似は非効率な探索をもたらす。 本稿では,値上の真の後続分散に解が収束する新しい不確実性ベルマン方程式を提案し,先行研究のギャップを明示的に特徴づける。 さらに, 不確実性定量化手法は, 一般的な探索戦略に容易に組み込まれ, 標準の深層強化学習アーキテクチャを用いて, 表裏設定を超えて自然にスケールする。 表と連続的な制御設定の両方において困難な探索作業の実験は、我々のよりシャープな不確実性推定がサンプル効率を改善することを示す。

We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation, but the over-approximation may result in inefficient exploration. We propose a new uncertainty Bellman equation whose solution converges to the true posterior variance over values and explicitly characterizes the gap in previous work. Moreover, our uncertainty quantification technique is easily integrated into common exploration strategies and scales naturally beyond the tabular setting by using standard deep reinforcement learning architectures. Experiments in difficult exploration tasks, both in tabular and continuous control settings, show that our sharper uncertainty estimates improve sample-efficiency.
翻訳日:2023-02-27 14:03:49 公開日:2023-02-24
# カオス振幅制御コヒーレントイジングマシンを用いたl_0正規化圧縮センシングの有効実装

Effective implementation of $l_0$-Regularised Compressed Sensing with Chaotic-Amplitude-Controlled Coherent Ising Machines ( http://arxiv.org/abs/2302.12523v1 )

ライセンス: Link先を確認
Mastiyage Don Sudeera Hasaranga Gunathilaka, Satoshi Kako, Yoshitaka Inui, Kazushi Mimura, Masato Okada, Yoshihisa Yamamoto and Toru Aonishi(参考訳) コヒーレントイジングマシン(Coherent Ising Machine, CIM)は、イジング・ハミルトンの基底状態を見つけることで、大規模な組合せ最適化問題を解くことができる光学パラメトリック発振器のネットワークである。 cimの実用的な応用として、青石らは$l_0$-正規化に基づく圧縮センシングの最適化問題を解決する量子古典ハイブリッドシステムを提案した。 ハイブリッドシステムでは、CIMは振幅制御フィードバックループを持たないオープンループシステムであった。 この場合、ハイブリッドシステムは、閉ループCIMを使用して目標振幅の周囲のカオス的な挙動を達成し、エネルギー景観における局所的なミニマからの脱出を可能にする。 人工および磁気共鳴画像データを用いて,提案した閉ループシステムの試験を行った。 オープンループシステムと比較すると,本研究は精度が向上し,より幅広い有効性が得られた。

Coherent Ising Machine (CIM) is a network of optical parametric oscillators that can solve large-scale combinatorial optimisation problems by finding the ground state of an Ising Hamiltonian. As a practical application of CIM, Aonishi et al., proposed a quantum-classical hybrid system to solve optimisation problems of $l_0$-regularisation-based compressed sensing. In the hybrid system, the CIM was an open-loop system without an amplitude control feedback loop. In this case, the hybrid system is enhanced by using a closed-loop CIM to achieve chaotic behaviour around the target amplitude, which would enable escaping from local minima in the energy landscape. Both artificial and magnetic resonance image data were used for the testing of our proposed closed-loop system. Compared with the open-loop system, the results of this study demonstrate an improved degree of accuracy and a wider range of effectiveness.
翻訳日:2023-02-27 14:03:35 公開日:2023-02-24
# 英語以外の言語モデルの公平性:ギャップと課題

Fairness in Language Models Beyond English: Gaps and Challenges ( http://arxiv.org/abs/2302.12578v1 )

ライセンス: Link先を確認
Krithika Ramesh, Sunayana Sitaram, Monojit Choudhury(参考訳) 言語モデルがますますユビキタス化するにつれ、多様な人口集団や要因に対する不平等な扱いに対処することが不可欠になっている。 フェアネス障害の評価と緩和に関するほとんどの研究は英語に集中しているが、多言語モデルや非英語言語は比較的ほとんど注目されていない。 本稿では,英語や多言語以外の言語における公平性の異なる側面について検討する。 本稿では,多言語・非英語の文脈におけるフェアネスに関する調査を行い,現在の研究の欠点と,英語のための手法が直面する課題を明らかにする。 世界中の多種多様な文化や言語が、公平なデータセットの構築において包括的カバレッジを達成するのを困難にしている、と我々は主張する。 したがって、バイアスの測定と緩和は、特定の次元やバイアスの種類に限定した、現在のデータセット駆動のプラクティスを超えて進化しなければならず、そのため言語や文化にまたがるスケーリングは不可能である。

With language models becoming increasingly ubiquitous, it has become essential to address their inequitable treatment of diverse demographic groups and factors. Most research on evaluating and mitigating fairness harms has been concentrated on English, while multilingual models and non-English languages have received comparatively little attention. In this paper, we survey different aspects of fairness in languages beyond English and multilingual contexts. This paper presents a survey of fairness in multilingual and non-English contexts, highlighting the shortcomings of current research and the difficulties faced by methods designed for English. We contend that the multitude of diverse cultures and languages across the world makes it infeasible to achieve comprehensive coverage in terms of constructing fairness datasets. Thus, the measurement and mitigation of biases must evolve beyond the current dataset-driven practices that are narrowly focused on specific dimensions and types of biases and, therefore, impossible to scale across languages and cultures.
翻訳日:2023-02-27 13:57:54 公開日:2023-02-24
# GCNリファインメントによる3次元PETCT腫瘍病変分割

3D PETCT Tumor Lesion Segmentation via GCN Refinement ( http://arxiv.org/abs/2302.12571v1 )

ライセンス: Link先を確認
Hengzhi Xue, Qingqing Fang, Yudong Yao and Yueyang Teng(参考訳) 全体PET/CTスキャンは様々な悪性腫瘍(悪性黒色腫、リンパ腫、肺癌など)を診断するための重要なツールであり、腫瘍の正確な分節化はその後の治療の鍵となる。 近年,CNNに基づくセグメンテーション手法が広く研究されている。 しかし、これらの手法は、過剰セグメンテーションや過セグメンテーションのような不正確なセグメンテーション結果を与えることが多い。 そこで本研究では,グラフ畳み込みニューラルネットワーク(GCN)を用いた後処理手法を提案し,不正確なセグメンテーション部分を洗練し,全体のセグメンテーション精度を向上させる。 まず、nnunetを初期セグメンテーションフレームワークとして使用し、セグメンテーション結果の不確実性を分析する。 確実性と不確実性ノードは、グラフニューラルネットワークのノードを確立する。 各ノードとその6つの隣接ノードはエッジを形成し、32ノードは不確実なノードに対してランダムに選択されてエッジを形成する。 高度に不確実なノードは、その後の改良ターゲットとして扱われる。 次に、確実性ノードのnnUNet結果を用いて半教師付きグラフネットワーク問題を形成し、GCNネットワークのトレーニングにより不確実性を最適化し、セグメンテーション性能を向上させる。 提案するnnunet-gcnセグメンテーションフレームワークについて述べる。 MICCIA2022 autoPET ChallengeにおいてPET/CTデータセットの腫瘍分画実験を行った。 そのうち30例はランダムに選択され, 実験結果から, nnUNet-GCNの改良により偽陽性率が効果的に減少することが示された。 定量的分析では、平均Diceスコアは2.12 %、Hausdorff Distance(HD95)は6.34 %、平均対称表面距離(ASSD)は1.72 %の改善がある。 定量的および定性的な評価結果は,GCN後処理法が腫瘍セグメンテーション性能を効果的に向上できることを示している。

Whole-body PET/CT scan is an important tool for diagnosing various malignancies (e.g., malignant melanoma, lymphoma, or lung cancer), and accurate segmentation of tumors is a key part for subsequent treatment. In recent years, CNN-based segmentation methods have been extensively investigated. However, these methods often give inaccurate segmentation results, such as over-segmentation and under-segmentation. Therefore, to address such issues, we propose a post-processing method based on a graph convolutional neural network (GCN) to refine inaccurate segmentation parts and improve the overall segmentation accuracy. Firstly, nnUNet is used as an initial segmentation framework, and the uncertainty in the segmentation results is analyzed. Certainty and uncertainty nodes establish the nodes of a graph neural network. Each node and its 6 neighbors form an edge, and 32 nodes are randomly selected for uncertain nodes to form edges. The highly uncertain nodes are taken as the subsequent refinement targets. Secondly, the nnUNet result of the certainty nodes is used as label to form a semi-supervised graph network problem, and the uncertainty part is optimized through training the GCN network to improve the segmentation performance. This describes our proposed nnUNet-GCN segmentation framework. We perform tumor segmentation experiments on the PET/CT dataset in the MICCIA2022 autoPET challenge. Among them, 30 cases are randomly selected for testing, and the experimental results show that the false positive rate is effectively reduced with nnUNet-GCN refinement. In quantitative analysis, there is an improvement of 2.12 % on the average Dice score, 6.34 on 95 % Hausdorff Distance (HD95), and 1.72 on average symmetric surface distance (ASSD). The quantitative and qualitative evaluation results show that GCN post-processing methods can effectively improve tumor segmentation performance.
翻訳日:2023-02-27 13:57:39 公開日:2023-02-24
# 遺伝的アルゴリズム$(\mu+1)の持続的多様性と優れたランタイム保証

Lasting Diversity and Superior Runtime Guarantees for the $(\mu+1)$ Genetic Algorithm ( http://arxiv.org/abs/2302.12570v1 )

ライセンス: Link先を確認
Benjamin Doerr, Aymen Echarghaoui, Mohammed Jamal, Martin S. Krejca(参考訳) ほとんどの進化的アルゴリズム(EA)はクロスオーバーを採用している。 対照的に、少数の人工的な例でのみ、クロスオーバーによる実行時の利点は数学的手法で証明できる。 最も説得力のある結果は、人口サイズの $(\mu+1)$ 遺伝的アルゴリズム (ga) が、ギャップサイズ $k \ge 3$ in time $o(n^k / \mu + n^{k-1}\log n)$ でジャンプ関数を最適化し、多くの変異ベースの eas の $\theta(n^k)$ ランタイムを上回ることである。 この結果は、GA が時折$\Omega(\mu^2)$の反復数に対して単一の遺伝子型に支配されない集団を持つという証明に基づいている。 この研究において、この多様性は(二次の代わりに)$\mu$で指数関数的に高い確率で持続することを示した。 この集団の多様性をよりよく理解することで、より強力なランタイム保証を得ることができ、中でも、$c\ln(n)\le\mu \le n/\log n$ に対して、$c$ のとき、$(\mu+1)$ ga on $\mathrm{jump}_k$ のランタイムは $k \ge 3$ であり、$o(n^{k-1})$ となる。 その結果、既に対数的な人口規模を持つGAは、クロスオーバーからオーダー$\Omega(n)$のスピードアップを得る。

Most evolutionary algorithms (EAs) used in practice employ crossover. In contrast, only for few and mostly artificial examples a runtime advantage from crossover could be proven with mathematical means. The most convincing such result shows that the $(\mu+1)$ genetic algorithm (GA) with population size $\mu=O(n)$ optimizes jump functions with gap size $k \ge 3$ in time $O(n^k / \mu + n^{k-1}\log n)$, beating the $\Theta(n^k)$ runtime of many mutation-based EAs. This result builds on a proof that the GA occasionally and then for an expected number of $\Omega(\mu^2)$ iterations has a population that is not dominated by a single genotype. In this work, we show that this diversity persist with high probability for a time exponential in $\mu$ (instead of quadratic). From this better understanding of the population diversity, we obtain stronger runtime guarantees, among them the statement that for all $c\ln(n)\le\mu \le n/\log n$, with $c$ a suitable constant, the runtime of the $(\mu+1)$ GA on $\mathrm{Jump}_k$, with $k \ge 3$, is $O(n^{k-1})$. Consequently, already with logarithmic population sizes, the GA gains a speed-up of order $\Omega(n)$ from crossover.
翻訳日:2023-02-27 13:57:07 公開日:2023-02-24
# Evidence-based Fact-Checkingのための暗黙的時間推論

Implicit Temporal Reasoning for Evidence-Based Fact-Checking ( http://arxiv.org/abs/2302.12569v1 )

ライセンス: Link先を確認
Liesbeth Allein, Marlon Saelens, Ruben Cartuyvels, Marie-Francine Moens(参考訳) 文脈知識の活用は、クレームの自動検証において標準的な実践となっているが、時間的推論の影響は見過ごされている。 本研究は,エビデンスに基づくファクトチェックのクレーム検証プロセスに時間の影響があることを実証する。 主張と証拠の間の時間的側面と関係は、まず、彼らのテキストから抽出された出版日と時間表現を用いて構築された共有タイムラインに基づいて確立される。 テンポラル情報はRNNベースの分類器やTransformerベースの分類器に、クレームや証拠エンコーディングの前後で提供される。 タイムアウェアなファクトチェックモデルは、MultiFCデータセット上で、最大9%のマイクロF1(64.17%)と15%のマクロF1(47.43%)のベースモデルを上回る。 また、証拠間の時間的関係を明示的にモデル化する先行手法よりも優れている。 本研究は, 時間情報の存在と, タイムラインの構築方法が, 事実確認モデルが証拠文書の関連性, サポート, 反証性を決定する方法に大きな影響を与えることを示す。

Leveraging contextual knowledge has become standard practice in automated claim verification, yet the impact of temporal reasoning has been largely overlooked. Our study demonstrates that time positively influences the claim verification process of evidence-based fact-checking. The temporal aspects and relations between claims and evidence are first established through grounding on shared timelines, which are constructed using publication dates and time expressions extracted from their text. Temporal information is then provided to RNN-based and Transformer-based classifiers before or after claim and evidence encoding. Our time-aware fact-checking models surpass base models by up to 9% Micro F1 (64.17%) and 15% Macro F1 (47.43%) on the MultiFC dataset. They also outperform prior methods that explicitly model temporal relations between evidence. Our findings show that the presence of temporal information and the manner in which timelines are constructed greatly influence how fact-checking models determine the relevance and supporting or refuting character of evidence documents.
翻訳日:2023-02-27 13:56:34 公開日:2023-02-24
# ベイズ深層学習のための変分線形ラプラス近似

Variational Linearized Laplace Approximation for Bayesian Deep Learning ( http://arxiv.org/abs/2302.12565v1 )

ライセンス: Link先を確認
Luis A. Ortega, Sim\'on Rodr\'iguez Santana, Daniel Hern\'andez-Lobato(参考訳) 事前訓練されたディープニューラルネットワークは、Laplace Approximation (LA) やその線形化形式 (LLA) などを通じてベイズニューラルネットワークに変換することで不確実性推定を行うことができる。 これらの手法をより容易にするために、一般化されたガウスニュートン近似(GGN)がよく用いられる。 しかし、複雑な非効率の難しさのため、LAとLAはKronecker-factoredや対角近似GGN行列のようなさらなる近似に依存しており、その結果に影響を与える可能性がある。 これらの問題に対処するために,GP の二重 RKHS に基づく変動スパースガウス過程 (GP) 近似を用いた LLA のスケーリング手法を提案する。 本手法は,トレーニングデータセットのパラメータ数とサイズの両方において,効率的な確率的最適化とスケーラビリティを実現するとともに,元のモデルの予測平均を保持する。 さらに、トレーニングコストはトレーニングポイント数に依存しており、既存の方法よりも改善されている。 予備実験の結果,nystr\"om近似に基づく加速型lla (ella) など既存のllaの効率的変種よりも優れていた。

Pre-trained deep neural networks can be adapted to perform uncertainty estimation by transforming them into Bayesian neural networks via methods such as Laplace approximation (LA) or its linearized form (LLA), among others. To make these methods more tractable, the generalized Gauss-Newton (GGN) approximation is often used. However, due to complex inefficiency difficulties, both LA and LLA rely on further approximations, such as Kronecker-factored or diagonal approximate GGN matrices, which can affect the results. To address these issues, we propose a new method for scaling LLA using a variational sparse Gaussian Process (GP) approximation based on the dual RKHS of GPs. Our method retains the predictive mean of the original model while allowing for efficient stochastic optimization and scalability in both the number of parameters and the size of the training dataset. Moreover, its training cost is independent of the number of training points, improving over previously existing methods. Our preliminary experiments indicate that it outperforms already existing efficient variants of LLA, such as accelerated LLA (ELLA), based on the Nystr\"om approximation.
翻訳日:2023-02-27 13:56:14 公開日:2023-02-24
# タンパク質表現学習のための検索シーケンス拡張

Retrieved Sequence Augmentation for Protein Representation Learning ( http://arxiv.org/abs/2302.12563v1 )

ライセンス: Link先を確認
Chang Ma, Haiteng Zhao, Lin Zheng, Jiayi Xin, Qintong Li, Lijun Wu, Zhihong Deng, Yang Lu, Qi Liu, Lingpeng Kong(参考訳) タンパク質言語モデルは、構造予測からタンパク質工学まで、様々なタスクで優れている。 しかし、タンパク質は機能や構造に非常に多様であり、AlphaFoldの最新バージョンを含む現在の最先端モデルは進化の知識を養うためにMultiple Sequence Alignments (MSA)に依存している。 その成功にもかかわらず、大量の計算オーバーヘッド、およびde novoタンパク質や孤児タンパク質は、タンパク質表現学習において大きな課題のままである。 本研究は,msaaugmentedモデルが本質的に検索されたメソッドに属することを示す。 本研究の目的は,タンパク質表現学習において,アライメントや前処理を伴わないRetrieved Sequence Augmentation(RSA)を導入することである。 RSAはクエリタンパク質配列を、データベース内の類似した構造や性質を持つ一連の配列にリンクし、これらの配列を組み合わせて下流の予測を行う。 タンパク質言語モデルでは,構造予測と特性予測の両方において検索能力が向上し,msaトランスフォーマーは平均で373倍の速度で5%向上した。 さらに,本モデルが新たなタンパク質ドメインへよりよく移行し,de novoタンパク質予測においてmsaトランスフォーマーよりも優れることを示す。 我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。 コードはhttps://github.com/HKUNLP/RSAで入手できる。

Protein language models have excelled in a variety of tasks, ranging from structure prediction to protein engineering. However, proteins are highly diverse in functions and structures, and current state-of-the-art models including the latest version of AlphaFold rely on Multiple Sequence Alignments (MSA) to feed in the evolutionary knowledge. Despite their success, heavy computational overheads, as well as the de novo and orphan proteins remain great challenges in protein representation learning. In this work, we show that MSAaugmented models inherently belong to retrievalaugmented methods. Motivated by this finding, we introduce Retrieved Sequence Augmentation(RSA) for protein representation learning without additional alignment or pre-processing. RSA links query protein sequences to a set of sequences with similar structures or properties in the database and combines these sequences for downstream prediction. We show that protein language models benefit from the retrieval enhancement on both structure prediction and property prediction tasks, with a 5% improvement on MSA Transformer on average while being 373 times faster. In addition, we show that our model can transfer to new protein domains better and outperforms MSA Transformer on de novo protein prediction. Our study fills a much-encountered gap in protein prediction and brings us a step closer to demystifying the domain knowledge needed to understand protein sequences. Code is available on https://github.com/HKUNLP/RSA.
翻訳日:2023-02-27 13:55:51 公開日:2023-02-24
# トモグラフィー画像におけるメダカ魚のマルチオーガンセグメンテーションのための知識蒸留フレームワーク

A Knowledge Distillation framework for Multi-Organ Segmentation of Medaka Fish in Tomographic Image ( http://arxiv.org/abs/2302.12562v1 )

ライセンス: Link先を確認
Jwalin Bhatt, Yaroslav Zharov, Sungho Suh, Tilo Baumbach, Vincent Heuveline, Paul Lukowicz(参考訳) 形態学的アトラスは生物研究において重要なツールであり、現代の高出力CT(Computed Tomography)施設は、生物の完全な高解像度の容積像を数百枚作成することができる。 しかし、これらのボリュームからアトラスを作成するには正確な臓器分割が必要である。 過去10年間、機械学習のアプローチは画像のセグメンテーションタスクにおいて驚くべき成果を上げてきたが、トレーニングには大量のアノテートデータが必要である。 本稿では, メダカ魚のトモグラフィー画像におけるマルチオーガナイズドセグメンテーションのための自己学習フレームワークを提案する。 教師モデルから得られた疑似ラベルデータを活用し,疑似ラベルデータの改良に品質分類器を採用する。 次に,擬似ラベルデータへのオーバーフィットを防止し,セグメンテーション性能を向上させるため,画素単位の知識蒸留手法を提案する。 実験結果から,本手法は全データセットにおいて平均IoU(Intersection over Union)を5.9%改善し,マークアップを3倍減らしながら品質を維持することができることがわかった。

Morphological atlases are an important tool in organismal studies, and modern high-throughput Computed Tomography (CT) facilities can produce hundreds of full-body high-resolution volumetric images of organisms. However, creating an atlas from these volumes requires accurate organ segmentation. In the last decade, machine learning approaches have achieved incredible results in image segmentation tasks, but they require large amounts of annotated data for training. In this paper, we propose a self-training framework for multi-organ segmentation in tomographic images of Medaka fish. We utilize the pseudo-labeled data from a pretrained Teacher model and adopt a Quality Classifier to refine the pseudo-labeled data. Then, we introduce a pixel-wise knowledge distillation method to prevent overfitting to the pseudo-labeled data and improve the segmentation performance. The experimental results demonstrate that our method improves mean Intersection over Union (IoU) by 5.9% on the full dataset and enables keeping the quality while using three times less markup.
翻訳日:2023-02-27 13:55:27 公開日:2023-02-24
# 雑音の固定点反復から集中学習のためのプライベートADMMへ

From Noisy Fixed-Point Iterations to Private ADMM for Centralized and Federated Learning ( http://arxiv.org/abs/2302.12559v1 )

ライセンス: Link先を確認
Edwige Cyffers, Aurelien Bellet and Debabrota Basu(参考訳) 我々は、このよく研究されたフレームワークからプライバシーとユーティリティー結果を引き出すために、ノイズの多い固定点反復の例として、差分プライベート(DP)機械学習アルゴリズムについて研究する。 本稿では,DP-SGDのようなプライベート勾配に基づく手法を復元し,フレキシブルな方法で新しいプライベート最適化アルゴリズムの設計と解析を行う方法を提案する。 広範に用いられている乗算器の交互方向法(admm)に着目し,本手法の汎用的枠組みを用いて,集中型,フェデレーション型,完全分散型学習のための新しいプライベートadmmアルゴリズムを導出する。 これら3つのアルゴリズムに対して、繰り返しおよびサブサンプリングによるプライバシー増幅を活用する強力なプライバシー保証を確立する。 最後に、雑音の多い固定点反復に対する最近の線形収束結果を利用する統一解析を用いてユーティリティ保証を提供する。

We study differentially private (DP) machine learning algorithms as instances of noisy fixed-point iterations, in order to derive privacy and utility results from this well-studied framework. We show that this new perspective recovers popular private gradient-based methods like DP-SGD and provides a principled way to design and analyze new private optimization algorithms in a flexible manner. Focusing on the widely-used Alternating Directions Method of Multipliers (ADMM) method, we use our general framework to derive novel private ADMM algorithms for centralized, federated and fully decentralized learning. For these three algorithms, we establish strong privacy guarantees leveraging privacy amplification by iteration and by subsampling. Finally, we provide utility guarantees using a unified analysis that exploits a recent linear convergence result for noisy fixed-point iterations.
翻訳日:2023-02-27 13:55:09 公開日:2023-02-24
# 格子ポリトープを用いた積分ReLUニューラルネットワークの深さに関する下界

Lower Bounds on the Depth of Integral ReLU Neural Networks via Lattice Polytopes ( http://arxiv.org/abs/2302.12553v1 )

ライセンス: Link先を確認
Christian Haase, Christoph Hertrich, Georg Loho(参考訳) 整数重みを持つReLUニューラルネットワークで表現可能な関数の集合は、任意の幅を許容しながら、ネットワーク深さとともに厳密に増加する。 より正確には、$\lceil\log_2(n)\rceil$ hidden layer は、既知の上限値に一致する最大$n$ を計算するために必要である。 この結果は、ニューラルネットワークと熱帯幾何学によるニュートンポリトープの双対性に基づいている。 積分性仮定は、これらのニュートンポリトープが格子ポリトープであることを意味する。 すると、そのようなポリトープの顔の正規化体積のパリティ引数から、我々の深度下界が従う。

We prove that the set of functions representable by ReLU neural networks with integer weights strictly increases with the network depth while allowing arbitrary width. More precisely, we show that $\lceil\log_2(n)\rceil$ hidden layers are indeed necessary to compute the maximum of $n$ numbers, matching known upper bounds. Our results are based on the known duality between neural networks and Newton polytopes via tropical geometry. The integrality assumption implies that these Newton polytopes are lattice polytopes. Then, our depth lower bounds follow from a parity argument on the normalized volume of faces of such polytopes.
翻訳日:2023-02-27 13:54:53 公開日:2023-02-24
# ビデオテキスト検索のためのディープラーニング

Deep Learning for Video-Text Retrieval: a Review ( http://arxiv.org/abs/2302.12552v1 )

ライセンス: Link先を確認
Cunjuan Zhu, Qi Jia, Wei Chen, Yanming Guo and Yu Liu(参考訳) Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高い動画を検索することを目的とする。 一般に、この検索タスクは、ビデオとテキストの特徴表現抽出、特徴埋め込みとマッチング、目的関数の4つのステップで構成される。 最後に、データセットから取得したサンプルのリストは、クエリと一致する類似度に基づいてランク付けされる。 近年、深層学習技術によって顕著かつ繁栄した進歩が達成されているが、効率的な時空間ビデオ特徴の学習方法や、モーダル間ギャップを狭める方法など、VTRは依然として困難な課題である。 本稿では,vtrに関する100以上の研究論文のレビューと要約を行い,いくつかのベンチマークデータセットにおける最先端のパフォーマンスを実証するとともに,ビデオテキスト検索分野の研究者への洞察を提供することを期待する。

Video-Text Retrieval (VTR) aims to search for the most relevant video related to the semantics in a given sentence, and vice versa. In general, this retrieval task is composed of four successive steps: video and textual feature representation extraction, feature embedding and matching, and objective functions. In the last, a list of samples retrieved from the dataset is ranked based on their matching similarities to the query. In recent years, significant and flourishing progress has been achieved by deep learning techniques, however, VTR is still a challenging task due to the problems like how to learn an efficient spatial-temporal video feature and how to narrow the cross-modal gap. In this survey, we review and summarize over 100 research papers related to VTR, demonstrate state-of-the-art performance on several commonly benchmarked datasets, and discuss potential challenges and directions, with the expectation to provide some insights for researchers in the field of video-text retrieval.
翻訳日:2023-02-27 13:54:43 公開日:2023-02-24
# トラヒックフロー予測のための時空間的注意融合を伴う動的グラフ畳み込みネットワーク

Dynamic Graph Convolution Network with Spatio-Temporal Attention Fusion for Traffic Flow Prediction ( http://arxiv.org/abs/2302.12598v1 )

ライセンス: Link先を確認
Xunlian Luo, Chunjiang Zhu, Detian Zhang, Qing Li(参考訳) 正確かつリアルタイムな交通状態予測は、都市交通制御とwebマッピングサービス(例えばgoogle maps)にとって、実用上非常に重要である。 大規模データのサポートにより、深層学習手法は、道路ネットワークの複雑な時空間パターンを捕捉する強力な能力を示している。 しかし、既存のアプローチでは、時間と空間の依存関係をモデル化するために独立したコンポーネントを使用し、時間と空間によって異なるトラフィックフローの不均一な特性を無視する。 本稿では,時空間的注意融合を用いた新しい動的グラフ畳み込みネットワークを提案する。 本手法は,時間とともに変化する局所時空間情報だけでなく,時間的・空間的注意の融合機構に基づく長距離・多スケール時空間パターンを包括的にモデル化する。 この設計アイデアは、モデルの時空間知覚を大幅に改善することができる。 4つの実世界のデータセットで広範な実験を行い、22のベースラインモデルと比較して、我々のモデルが最先端のパフォーマンスを達成できることを実証した。

Accurate and real-time traffic state prediction is of great practical importance for urban traffic control and web mapping services (e.g. Google Maps). With the support of massive data, deep learning methods have shown their powerful capability in capturing the complex spatio-temporal patterns of road networks. However, existing approaches use independent components to model temporal and spatial dependencies and thus ignore the heterogeneous characteristics of traffic flow that vary with time and space. In this paper, we propose a novel dynamic graph convolution network with spatio-temporal attention fusion. The method not only captures local spatio-temporal information that changes over time, but also comprehensively models long-distance and multi-scale spatio-temporal patterns based on the fusion mechanism of temporal and spatial attention. This design idea can greatly improve the spatio-temporal perception of the model. We conduct extensive experiments in 4 real-world datasets to demonstrate that our model achieves state-of-the-art performance compared to 22 baseline models.
翻訳日:2023-02-27 13:48:28 公開日:2023-02-24
# 自己監督型マルチアーマバンドを用いた光カーテンのアクティブ速度推定

Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits ( http://arxiv.org/abs/2302.12597v1 )

ライセンス: Link先を確認
Siddharth Ancha, Gaurav Pathak, Ji Zhang, Srinivasa Narasimhan, David Held(参考訳) 安全かつ自律的な環境での移動には、ロボットは障害物の位置と動きを正確に推定する必要がある。 従来の3dセンサーを使わずに、より安価で高速で高解像度な代替品、プログラマブルなライトカーテンの使用を探求しています。 光カーテンは、ユーザーが選択した表面に沿ってのみ感知するコントロール可能な深度センサーである。 粒子フィルタと占有格子に基づく確率的手法を適用し,光カーテンによる部分的測定を用いてシーン内の3d点の位置と速度を明示的に推定する。 中心的な課題は、このタスクを正確に行うために、ライトカーテンをどこに配置するかを決めることである。 情報ゲインを最大化し,予測対象位置の検証を行い,複数のカーテン配置戦略を提案する。 次に,これらの戦略をオンライン学習フレームワークを用いて組み合わせる。 将来的な光カーテン配置を用いて電流速度推定の精度を評価する新しい自己教師付報酬関数を提案する。 私たちは、複数腕のbanditフレームワークを使用して、固定されたポリシーを上回って、リアルタイムに配置ポリシーを切り替えます。 ローカライズ,マッピング,パスプランニング,障害物回避といった下流タスクに,ライトカーテンから位置と速度を推定するフルスタックナビゲーションシステムを開発した。 この作業は、複雑でダイナミックな環境を正確に、効率的に、意図的に知覚し、ナビゲートするための制御可能な光カーテンへの道を開きます。 プロジェクトウェブサイト: https://siddancha.github.io/

To navigate in an environment safely and autonomously, robots must accurately estimate where obstacles are and how they move. Instead of using expensive traditional 3D sensors, we explore the use of a much cheaper, faster, and higher resolution alternative: programmable light curtains. Light curtains are a controllable depth sensor that sense only along a surface that the user selects. We adapt a probabilistic method based on particle filters and occupancy grids to explicitly estimate the position and velocity of 3D points in the scene using partial measurements made by light curtains. The central challenge is to decide where to place the light curtain to accurately perform this task. We propose multiple curtain placement strategies guided by maximizing information gain and verifying predicted object locations. Then, we combine these strategies using an online learning framework. We propose a novel self-supervised reward function that evaluates the accuracy of current velocity estimates using future light curtain placements. We use a multi-armed bandit framework to intelligently switch between placement policies in real time, outperforming fixed policies. We develop a full-stack navigation system that uses position and velocity estimates from light curtains for downstream tasks such as localization, mapping, path-planning, and obstacle avoidance. This work paves the way for controllable light curtains to accurately, efficiently, and purposefully perceive and navigate complex and dynamic environments. Project website: https://siddancha.github.io/
翻訳日:2023-02-27 13:48:10 公開日:2023-02-24
# 組織ルールマイニングのための可視化手法の総合的レビュー:分類学・課題・オープン問題・未来思想

A comprehensive review of visualization methods for association rule mining: Taxonomy, Challenges, Open problems and Future ideas ( http://arxiv.org/abs/2302.12594v1 )

ライセンス: Link先を確認
Iztok Fister Jr. and Iztok Fister and Du\v{s}an Fister and Vili Podgorelec and Sancho Salcedo-Sanz(参考訳) 関連ルールマイニングは、トランザクションデータベースの属性間の関係を検索することを目的としている。 ルール発見の全プロセスは非常に複雑で、視覚化を行う前処理技術、ルールマイニングステップ、後処理を含む。 発見された関連ルールの可視化は、ルールマイニングの結果に対するユーザの理解を高めるために、アソシエーションルールマイニングパイプライン全体の重要なステップである。 過去数十年間、いくつかの協会のルールマイニングと可視化手法が開発されてきた。 本論文は,文献レビューを作成し,査読された文献に掲載される主要な手法を特定し,各手法の主特徴を検証し,分野における主な応用を提示することを目的とする。 この研究領域の将来的なステップを定義することは、このレビュー論文のもう1つの目標である。

Association rule mining is intended for searching for the relationships between attributes in transaction databases. The whole process of rule discovery is very complex, and involves pre-processing techniques, a rule mining step, and post-processing, in which visualization is carried out. Visualization of discovered association rules is an essential step within the whole association rule mining pipeline, to enhance the understanding of users on the results of rule mining. Several association rule mining and visualization methods have been developed during the past decades. This review paper aims to create a literature review, identify the main techniques published in peer-reviewed literature, examine each method's main features, and present the main applications in the field. Defining the future steps of this research area is another goal of this review paper.
翻訳日:2023-02-27 13:47:46 公開日:2023-02-24
# 損失圧縮アルゴリズムが顔画像の画質と認識に及ぼす影響

Effect of Lossy Compression Algorithms on Face Image Quality and Recognition ( http://arxiv.org/abs/2302.12593v1 )

ライセンス: Link先を確認
Torsten Schlett, Sebastian Schachner, Christian Rathgeb, Juan Tapia, Christoph Busch(参考訳) 顔画像圧縮は、顔認識のために画像品質と有用性を劣化させることができる。 本研究では,最先端顔認識モデルと複数顔画像品質評価モデルに対する画像圧縮の影響について検討する。 分析は、特定の画像ターゲットサイズの範囲で行われる。 4つの圧縮タイプ、JPEG、JPEG 2000、縮小されたPNG、特に新しいJPEG XLフォーマットが検討されている。 カラーフェレットデータベースのフロントカラー画像は、関心の領域(ROI)の変種とポートレートの変種で使用された。 jpeg xl は,roi 変種では約 5kb 以下で,特に低いターゲットサイズでは,平均的および最悪の場合の顔認識性能が向上するが,高いターゲットサイズでは圧縮型に致命的な利点はないと考えられる。 現代のモデルによる品質評価は、顔認識性能に対する圧縮効果と全般的に相関する。

Lossy face image compression can degrade the image quality and the utility for the purpose of face recognition. This work investigates the effect of lossy image compression on a state-of-the-art face recognition model, and on multiple face image quality assessment models. The analysis is conducted over a range of specific image target sizes. Four compression types are considered, namely JPEG, JPEG 2000, downscaled PNG, and notably the new JPEG XL format. Frontal color images from the ColorFERET database were used in a Region Of Interest (ROI) variant and a portrait variant. We primarily conclude that JPEG XL allows for superior mean and worst case face recognition performance especially at lower target sizes, below approximately 5kB for the ROI variant, while there appears to be no critical advantage among the compression types at higher target sizes. Quality assessments from modern models correlate well overall with the compression effect on face recognition performance.
翻訳日:2023-02-27 13:47:30 公開日:2023-02-24
# 物理センサデータを用いたiot通信のセキュア化 -- フェデレーションマルチエージェント深層強化学習によるグラフ層セキュリティ

Securing IoT Communication using Physical Sensor Data -- Graph Layer Security with Federated Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2302.12592v1 )

ライセンス: Link先を確認
Liang Wang and Zhuangkun Wei and Weisi Guo(参考訳) Internet-of-Things(IoT)デバイスは、デジタル無線チャネルを介して物理的センサーデータを送信するためにしばしば使用される。 従来の物理層セキュリティ(PLS)ベースの暗号手法は、キー生成のための正確なチャネル推定と情報交換に依存している。 近年,デジタルキーを物理センサの読み取りから導出するグラフ層セキュリティ(gls)という新しい概念が提案されている。 正当なユーザ間のセンサ読み取りは、共通のバックグラウンドインフラストラクチャ環境(例えば、共通の水流ネットワークまたは電気グリッド)を介して関連付けられる。 GLSの課題は、分散キー生成を実現する方法にある。 本稿では,物理力学の共通的な特徴を十分に活用し,正規ユーザ間の秘密鍵を確立するために,fd2k(federated multi-agent deep reinforcement learning-assisted distributed key generation scheme)を提案する。 本稿では,連合学習を伴うglsの最初の実験結果を示し,鍵合意率(kar)と鍵ランダム性の観点から,相当なセキュリティ性能を達成した。

Internet-of-Things (IoT) devices are often used to transmit physical sensor data over digital wireless channels. Traditional Physical Layer Security (PLS)-based cryptography approaches rely on accurate channel estimation and information exchange for key generation, which irrevocably ties key quality with digital channel estimation quality. Recently, we proposed a new concept called Graph Layer Security (GLS), where digital keys are derived from physical sensor readings. The sensor readings between legitimate users are correlated through a common background infrastructure environment (e.g., a common water distribution network or electric grid). The challenge for GLS has been how to achieve distributed key generation. This paper presents a Federated multi-agent Deep reinforcement learning-assisted Distributed Key generation scheme (FD2K), which fully exploits the common features of physical dynamics to establish secret key between legitimate users. We present for the first time initial experimental results of GLS with federated learning, achieving considerable security performance in terms of key agreement rate (KAR), and key randomness.
翻訳日:2023-02-27 13:47:14 公開日:2023-02-24
# 仮想レーザースキャンデータを用いた機械学習モデルを用いた多時間光度点雲からの構造物損傷評価の分類

Classification of structural building damage grades from multi-temporal photogrammetric point clouds using a machine learning model trained on virtual laser scanning data ( http://arxiv.org/abs/2302.12591v1 )

ライセンス: Link先を確認
Vivien Zahs and Katharina Anders and Julia Kohns and Alexander Stark and Bernhard H\"ofle(参考訳) UAV由来の3D点雲に基づく自動損傷評価は,地震後の被害状況を高速に把握することができる。 しかし,被害パターンの多様性や既存手法の他の地域やデータソースへの移動性が限られているため,複数の被害格付けの評価は困難である。 本稿では,仮想レーザー走査(vls)データに基づく機械学習モデルを用いて,実世界の多時点雲からの多層建物損傷を自動的に評価する手法を提案する。 1) オブジェクト固有の変化特徴を識別し,(2) 変更と変更の異なる構成部品,(3) オブジェクト固有の変化特徴に基づいてVLSデータを用いてランダムな森林機械学習モデルを訓練し,(4) 分類器を用いて実世界の点群における被害を,フォトグラム法に基づく高密度画像マッチング(DIM)を用いて評価する。 実地震前後のDIM点群における3つの被害等級(重, 極度, 破壊)を分類するために, 異なる入力データに基づいて訓練した分類器の評価を行った。 我々のアプローチは、モデルのトレーニング(VLS)とアプリケーション(DIM)に使用されるマルチソースの入力ポイントクラウドに対して転送可能である。 さらに、異なる地域にわたって関連するダメージグレードを特徴付ける幾何変化のシミュレーションデータに基づいて、モデルの地理的転送性を向上させる。 このモデルは高いマルチターゲット分類精度(すべての精度: 92.0% - 95.1%)をもたらす。 実世界の地域別トレーニングデータ(全体の精度が3%高い)と実世界の地域別トレーニングデータ(全体の精度が2%高い)を使用することで、そのパフォーマンスはわずかに向上する。 我々は,損傷状況に関するタイムリーな情報が必要であり,実世界のトレーニングデータが不十分なアプリケーションに対して,我々のアプローチを考察する。

Automatic damage assessment based on UAV-derived 3D point clouds can provide fast information on the damage situation after an earthquake. However, the assessment of multiple damage grades is challenging due to the variety in damage patterns and limited transferability of existing methods to other geographic regions or data sources. We present a novel approach to automatically assess multi-class building damage from real-world multi-temporal point clouds using a machine learning model trained on virtual laser scanning (VLS) data. We (1) identify object-specific change features, (2) separate changed and unchanged building parts, (3) train a random forest machine learning model with VLS data based on object-specific change features, and (4) use the classifier to assess building damage in real-world point clouds from photogrammetry-based dense image matching (DIM). We evaluate classifiers trained on different input data with respect to their capacity to classify three damage grades (heavy, extreme, destruction) in pre- and post-event DIM point clouds of a real earthquake event. Our approach is transferable with respect to multi-source input point clouds used for training (VLS) and application (DIM) of the model. We further achieve geographic transferability of the model by training it on simulated data of geometric change which characterises relevant damage grades across different geographic regions. The model yields high multi-target classification accuracies (overall accuracy: 92.0% - 95.1%). Its performance improves only slightly when using real-world region-specific training data (< 3% higher overall accuracies) and when using real-world region-specific training data (< 2% higher overall accuracies). We consider our approach relevant for applications where timely information on the damage situation is required and sufficient real-world training data is not available.
翻訳日:2023-02-27 13:46:53 公開日:2023-02-24
# 超一様乱れた材料における光学ナノキャビティの近接場イメージング

Near-field imaging of optical nano-cavities in Hyperuniform disordered materials ( http://arxiv.org/abs/2302.12590v1 )

ライセンス: Link先を確認
N. Granchi, M. Lodde, K. Stokkereit, R. Spalding, P. J. van Veldhoven, R. Sapienza, A. Fiore, M. Gurioli, M. Florescu, and F. Intonti(参考訳) 超一様散乱フォトニック材料は、最近、大きな完全なフォトニックバンドギャップと等方性光学特性を示しており、光電子応用の多元性候補として現れており、周期的および準周期的な多くの物質と競合している。 本研究では, 半導体スラブを用いて高品位光キャビティを作製し, 走査型近接場光学顕微鏡を用いて実験的に対処した。 誘電体構造の局所的な変更を慎重に設計したことから, 検出するキャビティモードの幅が広い。 超一様乱光子系に関する以前の研究では、比較的高品質の因子を持つpbgエッジにスペクトル的に位置するいくつかのアンダーソン局在状態が以前に特定されていた。 本研究では, キャビティの構造パラメータを工学的に設計することにより, 6000次(アンダーソン状態の1つよりも高い)の実験的品質係数を達成し, 3種類の異なる自然の局所化モードが小領域と無秩序相関系の比較的狭いスペクトル窓において共存することを示す。 一般境界制約との整合性は、フォトニック結晶の軸配向による厳密なレイアウト制約に苦しむ秩序アーキテクチャとは対照的に、乱れた超一様パターンの光学キャビティを平面光学回路のフレキシブルな光絶縁体プラットフォームとする。

Hyperuniform disordered photonic materials have recently been shown to display large, complete photonic band gaps and isotropic optical properties, and are emerging as strong candidates for a plethora of optoelectronic applications, making them competitive with many of their periodic and quasiperiodic counterparts. In this work, high quality factor optical cavities in hyperuniform disordered architectures are fabricated through semiconductor slabs and experimentally addressed by scanning near-field optical microscopy. The wide range of confined cavity modes that we detect arise from carefully designed local modifications of the dielectric structure. Previous works on hyperuniform disordered photonic systems have previously identified several Anderson localized states spectrally located at the PBG edges with relatively high quality factors. In this work, by engineering the structural parameters of the cavity, we achieve an experimental quality factor of order 6000 (higher than the one of the Anderson states) and we demonstrate that three types of localized modes of different nature coexist within a small area and in a relatively narrow spectral window of the disordered correlated system. Their compatibility with general boundary constraints, in contrast with ordered architectures that suffer strict layout constraints imposed by photonic crystals' axes orientation, makes optical cavities in disordered hyperuniform patterns a flexible optical insulator platform for planar optical circuits.
翻訳日:2023-02-27 13:46:22 公開日:2023-02-24
# マルチモーダル歩行者検出におけるモダリティ不均衡の再検討

Revisiting Modality Imbalance In Multimodal Pedestrian Detection ( http://arxiv.org/abs/2302.12589v1 )

ライセンス: Link先を確認
Arindam Das, Sudip Das, Ganesh Sistu, Jonathan Horgan, Ujjwal Bhattacharya, Edward Jones, Martin Glavin, and Ciar\'an Eising(参考訳) 特に歩行者検出のためのマルチモーダル学習は、最近、低照度、夜間、悪天候といったいくつかの重要な自動運転シナリオで等しく機能する能力によって強調されている。 しかし、ほとんどの場合、トレーニング分布は、ネットワークを一つのモダリティに偏らせるような、ある特定の入力の寄与を主に強調する。 したがって、そのようなモデルの一般化は、トレーニング中の非支配的な入力モダリティが推論過程にさらに寄与する可能性がある重要な問題となる。 本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モダリティ間の相違を解消する。 具体的には,不均衡問題除去と呼ばれるマルチモーダル分布を抽出する訓練において,特徴抽出器の双方が同等に重要であることを考慮し,特徴融合法をより堅牢にすることを支援する。 さらに,出力ストリームの分離概念は,空間的センシティブな情報を相互に共有することで検出作業を支援する。 KAISTおよびUTOkyoデータセットにおける提案手法の広汎な実験により,それぞれの最先端性能の改善が示された。

Multimodal learning, particularly for pedestrian detection, has recently received emphasis due to its capability to function equally well in several critical autonomous driving scenarios such as low-light, night-time, and adverse weather conditions. However, in most cases, the training distribution largely emphasizes the contribution of one specific input that makes the network biased towards one modality. Hence, the generalization of such models becomes a significant problem where the non-dominant input modality during training could be contributing more to the course of inference. Here, we introduce a novel training setup with regularizer in the multimodal architecture to resolve the problem of this disparity between the modalities. Specifically, our regularizer term helps to make the feature fusion method more robust by considering both the feature extractors equivalently important during the training to extract the multimodal distribution which is referred to as removing the imbalance problem. Furthermore, our decoupling concept of output stream helps the detection task by sharing the spatial sensitive information mutually. Extensive experiments of the proposed method on KAIST and UTokyo datasets shows improvement of the respective state-of-the-art performance.
翻訳日:2023-02-27 13:45:59 公開日:2023-02-24
# VivesDebate-Speech:モーメント・マイニングのための音声機能を活用した音声処理コーパス

VivesDebate-Speech: A Corpus of Spoken Argumentation to Leverage Audio Features for Argument Mining ( http://arxiv.org/abs/2302.12584v1 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz and Javier Iranzo-S\'anchez(参考訳) 本稿では,音声機能を利用した口頭弁論コーパスであるVivesDebate-Speechについて述べる。 このコーパスの作成は、音声処理と議論のマイニングコミュニティの交点への重要な貢献であり、このトピックにおいて最も完全なパブリックリソースの1つである。 さらに,議論マイニングパイプラインに音声機能を統合する際の改良点を示す,先駆的な実験のセットも実施している。 得られた結果は将来の研究のベースラインとして利用できる。

In this paper, we describe VivesDebate-Speech, a corpus of spoken argumentation created to leverage audio features for argument mining tasks. The creation of this corpus represents an important contribution to the intersection of speech processing and argument mining communities, and one of the most complete publicly available resources in this topic. Moreover, we have performed a set of first-of-their-kind experiments which show an improvement when integrating audio features into the argument mining pipeline. The provided results can be used as a baseline for future research.
翻訳日:2023-02-27 13:45:42 公開日:2023-02-24
# オーバーフィッティング検出による合成データに対する会員推測攻撃

Membership Inference Attacks against Synthetic Data through Overfitting Detection ( http://arxiv.org/abs/2302.12580v1 )

ライセンス: Link先を確認
Boris van Breugel, Hao Sun, Zhaozhi Qian, Mihaela van der Schaar(参考訳) データはほとんどの科学の基礎である。 残念ながら、データの共有はデータのプライバシーを侵害するリスクによって妨げられ、医療などの分野の研究を妨げる。 合成データは潜在的な解決策である。 オリジナルのデータと同じ分布を持つデータを生成することを目的としているが、個人に関する情報は公開していない。 メンバーシップ推論攻撃(mias)は、特定の実サンプルがモデルのトレーニングに使用されたかどうかを攻撃者が判断しようとする、共通のプライバシー攻撃である。 データパブリッシャは、モデルではなく、しばしば合成データのみをリリースするため、データ生成モデルに対するMIAの提案には、パフォーマンスの低い -- データが非常にプライベートであるという誤った印象を与える -- あるいは、内部生成モデルパラメータへのアクセスを仮定する必要がある -- 比較的リスクの低いシナリオである。 本研究では、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。 そこで我々は,分布モデルの局所的過剰フィットを目標として,メンバーシップを推定する密度ベースのmiaモデルであるdomiasを提案する。 実験的に, DOMIASは, 従来よりもMIAにおいて, 特に異常サンプルに対する攻撃において, 顕著に成功を収めていることを示す。 後者は、これらのサンプルが表現不足の群に対応する可能性があるため、不満である。 また,domiasのmiaパフォーマンススコアが,プライバシに関する解釈可能な指標を提供し,データパブリッシャが望むプライバシ利用のトレードオフを達成するための新たなツールを提供することを実証した。

Data is the foundation of most science. Unfortunately, sharing data can be obstructed by the risk of violating data privacy, impeding research in fields like healthcare. Synthetic data is a potential solution. It aims to generate data that has the same distribution as the original data, but that does not disclose information about individuals. Membership Inference Attacks (MIAs) are a common privacy attack, in which the attacker attempts to determine whether a particular real sample was used for training of the model. Previous works that propose MIAs against generative models either display low performance -- giving the false impression that data is highly private -- or need to assume access to internal generative model parameters -- a relatively low-risk scenario, as the data publisher often only releases synthetic data, not the model. In this work we argue for a realistic MIA setting that assumes the attacker has some knowledge of the underlying data distribution. We propose DOMIAS, a density-based MIA model that aims to infer membership by targeting local overfitting of the generative model. Experimentally we show that DOMIAS is significantly more successful at MIA than previous work, especially at attacking uncommon samples. The latter is disconcerting since these samples may correspond to underrepresented groups. We also demonstrate how DOMIAS' MIA performance score provides an interpretable metric for privacy, giving data publishers a new tool for achieving the desired privacy-utility trade-off in their synthetic data.
翻訳日:2023-02-27 13:45:33 公開日:2023-02-24
# T-フェノタイプ:疾患進行における予測的時間パターンのフェノタイプ発見

T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression ( http://arxiv.org/abs/2302.12619v1 )

ライセンス: Link先を確認
Yuchao Qin and Mihaela van der Schaar and Changhee Lee(参考訳) 医療における時系列データのクラスタリングは,患者の疾患進行パターンを理解し,同種患者サブグループに適した治療ガイドラインを設計するために重要である。 リッチなテンポラリダイナミクスは静的相関を超えた潜在的なクラスターの発見を可能にするが、大きな課題は2つ残されている。 i)多変量時系列データにおける多くの潜在的時間相関からの予測パターンの発見と予測 二 個別の時間的パターンと、基礎となる臨床経過を最も特徴付ける目標ラベル分布との関連。 このような課題に対処するため、ラベル付き時系列データから予測時相パターンの表現型を発見するための新しい時間的クラスタリング手法T-Phenotypeを開発した。 周波数領域における効率的な表現学習手法を導入し、可変長不規則な時系列を統一表現空間に符号化し、パスベースの類似性の概念を用いて、ターゲットラベルに潜在的に寄与する様々な時間パターンを同定する。 合成および実世界のデータセットに関する実験を通して、T-フェノタイプが評価された全てのベースラインに対して最高の表現型発見性能を達成することを示す。 さらに,T-Phenotypeの臨床的意義を明らかにすることで,T-Phenotypeの有用性を実証した。

Clustering time-series data in healthcare is crucial for clinical phenotyping to understand patients' disease progression patterns and to design treatment guidelines tailored to homogeneous patient subgroups. While rich temporal dynamics enable the discovery of potential clusters beyond static correlations, two major challenges remain outstanding: i) discovery of predictive patterns from many potential temporal correlations in the multi-variate time-series data and ii) association of individual temporal patterns to the target label distribution that best characterizes the underlying clinical progression. To address such challenges, we develop a novel temporal clustering method, T-Phenotype, to discover phenotypes of predictive temporal patterns from labeled time-series data. We introduce an efficient representation learning approach in frequency domain that can encode variable-length, irregularly-sampled time-series into a unified representation space, which is then applied to identify various temporal patterns that potentially contribute to the target label using a new notion of path-based similarity. Throughout the experiments on synthetic and real-world datasets, we show that T-Phenotype achieves the best phenotype discovery performance over all the evaluated baselines. We further demonstrate the utility of T-Phenotype by uncovering clinically meaningful patient subgroups characterized by unique temporal patterns.
翻訳日:2023-02-27 13:38:53 公開日:2023-02-24
# ロボット領域における計画と高速学習のための跳躍モデルの活用

Leveraging Jumpy Models for Planning and Fast Learning in Robotic Domains ( http://arxiv.org/abs/2302.12617v1 )

ライセンス: Link先を確認
Jingwei Zhang, Jost Tobias Springenberg, Arunkumar Byravan, Leonard Hasenclever, Abbas Abdolmaleki, Dushyant Rao, Nicolas Heess, Martin Riedmiller(参考訳) 本稿では,ラベルなし経験から多段階ダイナミクス予測モデル(jumpy model)を学習する問題と,下流タスクにおける(ハイレベルな)計画の高速推論に有用性について検討する。 特に,ラベルや報酬アノテーションが不要な事前収集された経験から,スキル埋め込みスペースのオフライン化とともに,跳躍モデルを学習することを提案する。 次に,学習したコンポーネントをモデルベースプランニングやモデルフリー強化学習(rl)と組み合わせて,下流タスクの学習を高速化するいくつかの選択肢を検討する。 rgbスタック環境で一連の実験を行い、学習スキルと関連するモデルによる計画により、新しいタスクへのゼロショット一般化が可能になり、強化学習によるポリシーのトレーニングをさらにスピードアップできることを示した。 これらの実験は、時間的抽象化を組み込んだジャンパーモデルが、標準ダイナミクスモデルが失敗する長時間ホリゾンタスクの計画を容易にすることを証明している。

In this paper we study the problem of learning multi-step dynamics prediction models (jumpy models) from unlabeled experience and their utility for fast inference of (high-level) plans in downstream tasks. In particular we propose to learn a jumpy model alongside a skill embedding space offline, from previously collected experience for which no labels or reward annotations are required. We then investigate several options of harnessing those learned components in combination with model-based planning or model-free reinforcement learning (RL) to speed up learning on downstream tasks. We conduct a set of experiments in the RGB-stacking environment, showing that planning with the learned skills and the associated model can enable zero-shot generalization to new tasks, and can further speed up training of policies via reinforcement learning. These experiments demonstrate that jumpy models which incorporate temporal abstraction can facilitate planning in long-horizon tasks in which standard dynamics models fail.
翻訳日:2023-02-27 13:38:32 公開日:2023-02-24
# 環境支援不変性はボルンの量子測定規則を必要としない

Environment-assisted invariance does not necessitate Born's rule for quantum measurement ( http://arxiv.org/abs/2302.12614v1 )

ライセンス: Link先を確認
Lotte Mertens and Jasper van Wezel(参考訳) ボルンの規則を暗示する環境支援不変性(英語版)(envariance)の議論は、量子測定のモデルにおいて広く使われ、それらが正しい統計量、特に線形モデルへの帰結を示唆している。 しかし、最近は線形崩壊モデルがボルンの規則を生じさせることはないことが示されている。 ここでは、この明らかな矛盾に対処し、分散に基づく議論の根底にある仮定の矛盾を指摘する。 我々は,計測機の役割を明示し,不変性の存在がボルンの規則に従ってすべての計測が振る舞うわけではないことを示す構成を用いる。 むしろ、全ての量子状態が測定機械を構築することを許し、特定の状態を測定する際にボルンの規則を下すことを意味する。 これはパラドックスを解き、必ずしも非線形ではない客観的崩壊モデルの最近の結果と一致する。

The argument of environment-assisted invariance (known as envariance) implying Born's rule is widely used in models for quantum measurement to reason that they must yield the correct statistics, specifically for linear models. However, it has recently been shown that linear collapse models can never give rise to Born's rule. Here, we address this apparent contradiction and point out an inconsistency in the assumptions underlying the arguments based on envariance. We use a construction in which the role of the measurement machine is made explicit and show that the presence of envariance does not imply every measurement will behave according to Born's rule. Rather, it implies that every quantum state allows a measurement machine to be constructed, which yields Born's rule when measuring that particular state. This resolves the paradox and is in agreement with the recent result of objective collapse models necessarily being non-linear.
翻訳日:2023-02-27 13:38:16 公開日:2023-02-24
# CARE: 協調型AI支援読書環境

CARE: Collaborative AI-Assisted Reading Environment ( http://arxiv.org/abs/2302.12611v1 )

ライセンス: Link先を確認
Dennis Zyska, Nils Dycke, Jan Buchmann, Ilia Kuznetsov, Iryna Gurevych(参考訳) 近年、AI支援の執筆が目覚ましい進歩を遂げているが、AI支援の読書の開発は不足している。 本稿では,インライン・コメンタリーをAIベースの読書支援の自然な手段として提案し,インライン・コメンタリーと読書研究のための最初のオープン・統合プラットフォームであるCAREについて紹介する。 CAREは、インライン・コラボレーティブな読解環境において、インライン・コメンタリーのためのデータ収集を容易にし、テキスト分類、生成、質問応答などのNLPベースの支援による読解を強化するためのフレームワークを提供する。 拡張可能な振る舞いログにより、読み取りとコメントの動作に関するユニークな洞察が可能になり、フレキシブルなコンフィギュレーションによって、プラットフォームを新たなシナリオにデプロイしやすくなる。 CAREの動作を評価するために,学術的ピアレビュー専用のユーザスタディにこのプラットフォームを適用した。 CAREは、NLPにおけるインラインコメンタリーのデータ収集と研究、NLPアシストの外部評価、およびアプリケーションプロトタイピングを促進する。 私たちはコミュニティにCAREのオープンソース実装を探求し、構築するよう呼びかけます。

Recent years have seen impressive progress in AI-assisted writing, yet the developments in AI-assisted reading are lacking. We propose inline commentary as a natural vehicle for AI-based reading assistance, and present CARE: the first open integrated platform for the study of inline commentary and reading. CARE facilitates data collection for inline commentaries in a commonplace collaborative reading environment, and provides a framework for enhancing reading with NLP-based assistance, such as text classification, generation or question answering. The extensible behavioral logging allows unique insights into the reading and commenting behavior, and flexible configuration makes the platform easy to deploy in new scenarios. To evaluate CARE in action, we apply the platform in a user study dedicated to scholarly peer review. CARE facilitates the data collection and study of inline commentary in NLP, extrinsic evaluation of NLP assistance, and application prototyping. We invite the community to explore and build upon the open source implementation of CARE.
翻訳日:2023-02-27 13:38:01 公開日:2023-02-24
# vine copulasを用いた深層モデルの振り返り不確実性

Retrospective Uncertainties for Deep Models using Vine Copulas ( http://arxiv.org/abs/2302.12606v1 )

ライセンス: Link先を確認
Nata\v{s}a Tagasovska, Firat Ozdemir, Axel Brando(参考訳) 学習機械としての深層モデルの大きな進歩にもかかわらず、不確実性推定は依然として大きな課題である。 既存のソリューションは、修正された損失関数やアーキテクチャの変更に依存している。 本稿では,Vine-Copula Neural Network (VCNN) と呼ばれる総合化合物において,任意のネットワークを遡及的に補うことで,組込み不確実性推定の欠如を補うことを提案する。 合成および実データ実験により、VCNNはタスク(回帰/分類)とアーキテクチャ(繰り返し、完全に接続された)に非依存であり、信頼性と精度の高い不確実性推定を提供する。

Despite the major progress of deep models as learning machines, uncertainty estimation remains a major challenge. Existing solutions rely on modified loss functions or architectural changes. We propose to compensate for the lack of built-in uncertainty estimates by supplementing any network, retrospectively, with a subsequent vine copula model, in an overall compound we call Vine-Copula Neural Network (VCNN). Through synthetic and real-data experiments, we show that VCNNs could be task (regression/classification) and architecture (recurrent, fully connected) agnostic while providing reliable and better-calibrated uncertainty estimates, comparable to state-of-the-art built-in uncertainty solutions.
翻訳日:2023-02-27 13:37:45 公開日:2023-02-24
# 連続時間遅れシステムのニューラルラプラス制御

Neural Laplace Control for Continuous-time Delayed Systems ( http://arxiv.org/abs/2302.12604v1 )

ライセンス: Link先を確認
Samuel Holt, Alihan H\"uy\"uk, Zhaozhi Qian, Hao Sun, Mihaela van der Schaar(参考訳) 実世界のオフライン強化学習(rl)問題の多くは、遅延を伴う連続時間環境を伴う。 第一に、状態 x(t) は不規則な時間間隔で観測され、第二に、現在の動作 a(t) は、未知の遅延 g > 0 を持つ将来の状態 x(t + g) にのみ影響する。 そのような環境の典型的な例は、地球と衛星間の通信リンクが不規則な観測と遅延を引き起こす衛星制御である。 既存のオフラインRLアルゴリズムは、不規則に観測された状態や既知の遅延のある環境で成功している。 しかしながら、不規則な観測時間と未知の遅延の両方を含む環境は、オープンで困難な問題である。 そこで本研究では,ニューラルラプラスダイナミクスモデルとモデル予測制御(mpc)プランナーを組み合わせた,連続時間モデルに基づくオフラインrl手法であるneural laplace controlを提案する。 専門家の政策性能に近い連続的な遅延環境を実験的に示す。

Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed at irregular time intervals, and secondly, the current action a(t) only affects the future state x(t + g) with an unknown delay g > 0. A prime example of such an environment is satellite control where the communication link between earth and a satellite causes irregular observations and delays. Existing offline RL algorithms have achieved success in environments with irregularly observed states in time or known delays. However, environments involving both irregular observations in time and unknown delays remains an open and challenging problem. To this end, we propose Neural Laplace Control, a continuous-time model-based offline RL method that combines a Neural Laplace dynamics model with a model predictive control (MPC) planner--and is able to learn from an offline dataset sampled with irregular time intervals from an environment that has a inherent unknown constant delay. We show experimentally on continuous-time delayed environments it is able to achieve near expert policy performance.
翻訳日:2023-02-27 13:37:31 公開日:2023-02-24
# 一般化固有値問題に対する変分量子アルゴリズムとその有限要素法への応用

A Variational Quantum Algorithm for Generalized Eigenvalue Problems and Its Application to Finite Element Method ( http://arxiv.org/abs/2302.12602v1 )

ライセンス: Link先を確認
Yuki Sato, Hiroshi C. Watanabe, Rudy Raymond, Ruho Kondo, Kaito Wada, Katsuhiro Endo, Michihiko Sugawara, Naoki Yamamoto(参考訳) 一般固有値問題(GEP)は工学や機械学習など様々な分野において重要な役割を果たしている。 特に、これらの分野における多くの問題は、GEPの最小あるいは最大固有値を見つけることに還元することができる。 GEPを扱う上で重要な問題のひとつは、関心のシステムが増加するにつれてメモリ使用量と計算複雑性が爆発的に増加することである。 本稿では,GEPの逐次量子オプティマイザの拡張を目的とする。 逐次量子オプティマイザ(Sequential quantum optimizationr)は、単一量子ビットゲートの解析最適化を座標降下方式で反復的に解くアルゴリズム群である。 本論文の貢献は以下の通りである。 まず、GEPを2つのエルミート予想の分数形式の最小化/最大化問題として定式化する。 そこで, 4 x 4 行列の GEP を解くことにより, 分数目的関数を単一キュービットゲートに対して解析的に最小化あるいは最大化できることを示した。 第2に, 正定値エルミタンを特徴とする線形方程式系(sle)をgepとして定式化し, 提案手法を用いて攻撃できることを示す。 最後に,有限要素法で定式化した重要な工学的問題に対する2つの応用を実証する。 実数値解を持つ問題は、複素数値状態ベクトルを生成する量子ゲートを用いてより効果的に解くことができ、提案手法の有効性を示す。

Generalized eigenvalue problems (GEPs) play an important role in the variety of fields including engineering and machine learning. Especially, many problems in these fields can be reduced to finding the minimum or maximum eigenvalue of GEPs. One of the key problems to handle GEPs is that the memory usage and computational complexity explode as the system of interest grows. This paper aims at extending sequential quantum optimizers for GEPs. Sequential quantum optimizers are a family of algorithms that iteratively solve the analytical optimization of single-qubit gates in a coordinate descent manner. The contribution of this paper is as follows. First, we formulate the GEP as the minimization/maximization problem of the fractional form of the expectations of two Hermitians. We then showed that the fractional objective function can be analytically minimized or maximized with respect to a single-qubit gate by solving a GEP of a 4 x 4 matrix. Second, we show that a system of linear equations (SLE) characterized by a positive-definite Hermitian can be formulated as a GEP and thus be attacked using the proposed method. Finally, we demonstrate two applications to important engineering problems formulated with the finite element method. Through the demonstration, we have the following bonus finding; a problem having a real-valued solution can be solved more effectively using quantum gates generating a complex-valued state vector, which demonstrates the effectiveness of the proposed method.
翻訳日:2023-02-27 13:37:12 公開日:2023-02-24
# ゲーム業界の専門家によるテキスト・画像生成AIの認識・採用・利用

"An Adapt-or-Die Type of Situation": Perception, Adoption, and Use of Text-To-Image-Generation AI by Game Industry Professionals ( http://arxiv.org/abs/2302.12601v1 )

ライセンス: Link先を確認
Veera Vimpari, Annakaisa Kultima, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) テキスト・ツー・イメージ・ジェネレーション(TTIG)モデルは、テキスト記述に基づいて画像を生成することができ、プロのクリエイティブな作品に匹敵し始め、クリエイティブな仕事の未来、仕事の喪失、著作権問題などに関する議論を巻き起こした。 TTIGの持続可能な採用を支援するためには、専門家がTTIGをどのように認識し、採用し、利用しているかについて、豊かで信頼性が高く透明な洞察を提供する必要がある。 しかし、公的な議論は浅く、狭く、透明性が欠如しており、学術的な研究は、一般アーティストの集団におけるTTIGの使用を研究することに集中しているが、特定の業界における専門家の認識や態度は重視していない。 本稿では,フィンランドのビデオゲーム産業におけるTTIGに関する質的,探索的なインタビュー研究に貢献する。 14人のゲーム専門家による半構造化インタビューのテンプレート分析により,専門家の認識,ttigシステムの採用,利用に関する49のサブテーマからなる12のオーバーアーキシングテーマが明らかにされた。 役割や創造的プロセスの変化を経験し、私たちの参加者の(倫理的な)反映は、業界内での議論を知らせ、政策立案者が緊急に必要な法律を通知し、ゲームやHCI、AIの研究者を支援し、持続可能な専門的利用支援ゲームを文化的アーティファクトとしてサポートします。

Text-to-image generation (TTIG) models can generate images based on a text description, and have begun to rival the work of professional creatives, and sparked discussions on the future of creative work, loss of jobs, and copyright issues, amongst others. To support the sustainable adoption of TTIG, we must provide rich, reliable and transparent insights into how professionals perceive, adopt and use TTIG. Crucally though, the public debate is shallow, narrow and lacking transparency, and academic work has focused on studying the use of TTIG in a general artist population, but not the perceptions and attitudes of professionals in a specific industry. In this paper, we contribute a qualitative, exploratory interview study on TTIG in the Finnish videogame industry. Through a Template Analysis on semi-structured interviews with 14 game professionals, we reveal 12 overarching themes, structured into 49 sub-themes on professionals' perception, adoption and use of TTIG systems in games industry practice. Experiencing (yet another) change of roles and creative processes, our participants' (ethical) reflections can inform discussions within the industry, be used by policymakers to inform urgently needed legislation, and support researchers in games, HCI and AI to support sustainable, professional use benefit games as cultural artefacts.
翻訳日:2023-02-27 13:36:50 公開日:2023-02-24
# EvoTorch: Pythonのスケーラブルな進化計算

EvoTorch: Scalable Evolutionary Computation in Python ( http://arxiv.org/abs/2302.12600v1 )

ライセンス: Link先を確認
Nihat Engin Toklu, Timothy Atkinson, Vojt\v{e}ch Micka, Pawe{\l} Liskowski, Rupesh Kumar Srivastava(参考訳) 進化計算は、人工知能研究、強化学習、ロボット工学、産業自動化および/または最適化、エンジニアリング設計など、様々な分野において重要な要素である。 計算要求の増大と現代の最適化問題の次元性を考えると、スケーラブルで再利用可能な、実用的な進化的アルゴリズムの実装の必要性が高まっている。 この要件に対処するために、EvoTorch:GPUサポートと高並列化機能を備えた高次元最適化問題で動作するように設計された進化計算ライブラリを提案する。 EvoTorchはPyTorchライブラリをベースとしてシームレスに動作するため、ユーザはよく知られたAPIを使用して最適化問題を定義することができる。

Evolutionary computation is an important component within various fields such as artificial intelligence research, reinforcement learning, robotics, industrial automation and/or optimization, engineering design, etc. Considering the increasing computational demands and the dimensionalities of modern optimization problems, the requirement for scalable, re-usable, and practical evolutionary algorithm implementations has been growing. To address this requirement, we present EvoTorch: an evolutionary computation library designed to work with high-dimensional optimization problems, with GPU support and with high parallelization capabilities. EvoTorch is based on and seamlessly works with the PyTorch library, and therefore, allows the users to define their optimization problems using a well-known API.
翻訳日:2023-02-27 13:36:24 公開日:2023-02-24
# ソフトウェア要件の階層的分類のための機械学習アプローチ

A Machine Learning Approach for Hierarchical Classification of Software Requirements ( http://arxiv.org/abs/2302.12599v1 )

ライセンス: Link先を確認
Manal Binkhonain, Liping Zhao(参考訳) コンテキスト: ソフトウェア要件をさまざまなカテゴリに分類することは、要件エンジニアリング(RE)において極めて重要なタスクです。 要件分類のための機械学習(ML)アプローチの開発は、2000年代からREコミュニティに大きな関心を集めている。 目的:本稿は,ml アプローチの実世界の応用に挑戦してきた2つの問題,すなわち低サンプルサイズデータ (hdlss) のクラス不均衡と高次元の問題に対処することを目的とする。 これらの問題はML手法の分類性能を大幅に低下させる可能性がある。 方法: 要件のマルチクラス分類のための新しいML手法HC4RCを提案する。 HC4RCは、セマンティックロールに基づく特徴選択、データセットの分解、階層分類によって上記の問題を解決する。 HC4RCの有効性を3つの近縁なアプローチと実験的に比較した。その2つは従来の統計分類モデルに基づいており、一方は高度な深層学習モデルを用いている。 結果: 私たちの実験では 1) クラス不均衡とHDLSS問題は従来のMLアプローチと高度なMLアプローチの両方に課題をもたらす。 2)HC4RC法は, クラス不均衡とHDLSS問題を類似の手法と比較して効果的に扱うことができる。 結論:本論文は,ソフトウェア要件のマルチクラス分類において,クラス不均衡とHDLSS問題に対処するための重要な実践的貢献を行う。

Context: Classification of software requirements into different categories is a critically important task in requirements engineering (RE). Developing machine learning (ML) approaches for requirements classification has attracted great interest in the RE community since the 2000s. Objective: This paper aims to address two related problems that have been challenging real-world applications of ML approaches: the problems of class imbalance and high dimensionality with low sample size data (HDLSS). These problems can greatly degrade the classification performance of ML methods. Method: The paper proposes HC4RC, a novel ML approach for multiclass classification of requirements. HC4RC solves the aforementioned problems through semantic-role-based feature selection, dataset decomposition and hierarchical classification. We experimentally compare the effectiveness of HC4RC with three closely related approaches - two of which are based on a traditional statistical classification model whereas one uses an advanced deep learning model. Results: Our experiment shows: 1) The class imbalance and HDLSS problems present a challenge to both traditional and advanced ML approaches. 2) The HC4RC approach is simple to use and can effectively address the class imbalance and HDLSS problems compared to similar approaches. Conclusion: This paper makes an important practical contribution to addressing the class imbalance and HDLSS problems in multiclass classification of software requirements.
翻訳日:2023-02-27 13:36:12 公開日:2023-02-24
# 臨床icd符号化のための時間文書系列のモデル化

Modelling Temporal Document Sequences for Clinical ICD Coding ( http://arxiv.org/abs/2302.12666v1 )

ライセンス: Link先を確認
Clarence Boon Liang Ng, Diogo Santos, Marek Rei(参考訳) ICD符号化問題に関する過去の研究は、主に放電サマリーに基づく臨床コードの予測に重点を置いていた。 これは各病院滞在中に発生したメモのごく一部に過ぎず、利用可能なすべての臨床ノートを分析して、パフォーマンスを改善する可能性を秘めている。 我々は,icd符号化のために各病院における臨床ノートのシーケンス全体にわたってテキストを用いた階層的トランスフォーマーアーキテクチャを提案し,その位置,時間,メモの種類などのテキストメタデータへの埋め込みを組み込む。 すべての臨床ノートを使用するとデータ量が大幅に増加するが、superconvergenceはトレーニングコストの削減に使用できる。 このモデルをMIMIC-IIIデータセット上で評価する。 本モデルは,排他的要約のみを入力として使用する場合の先行技術を超え,すべての臨床ノートを入力として使用する場合のさらなる性能向上を実現する。

Past studies on the ICD coding problem focus on predicting clinical codes primarily based on the discharge summary. This covers only a small fraction of the notes generated during each hospital stay and leaves potential for improving performance by analysing all the available clinical notes. We propose a hierarchical transformer architecture that uses text across the entire sequence of clinical notes in each hospital stay for ICD coding, and incorporates embeddings for text metadata such as their position, time, and type of note. While using all clinical notes increases the quantity of data substantially, superconvergence can be used to reduce training costs. We evaluate the model on the MIMIC-III dataset. Our model exceeds the prior state-of-the-art when using only discharge summaries as input, and achieves further performance improvements when all clinical notes are used as input.
翻訳日:2023-02-27 13:29:59 公開日:2023-02-24
# FedDBL:組織分類のためのコミュニケーションとデータ効率の良い深層学習

FedDBL: Communication and Data Efficient Federated Deep-Broad Learning for Histopathological Tissue Classification ( http://arxiv.org/abs/2302.12662v1 )

ライセンス: Link先を確認
Tianpeng Deng, Yanqi Huang, Zhenwei Shi, Jiatai Lin, Qi Dou, Ke Zhao, Fang-Fang Liu, Yu-Mian Jia, Jin Wang, Bingchao Zhao, Changhong Liang, Zaiyi Liu, Xiao-jing Guo, Guoqiang Han, Xin Chen, Chu Han(参考訳) 病理組織分類は、計算病理学の基本的な課題である。 ディープラーニングベースのモデルは優れたパフォーマンスを達成したが、データ集中化による集中トレーニングは、プライバシー漏洩の問題に悩まされている。 FL(Federated Learning)は、トレーニングサンプルをローカルに保持することでプライバシを保護することができるが、既存のFLベースのフレームワークでは、多数の注釈付きトレーニングサンプルと、実際の臨床シナリオにおける実践性を妨げる多数の通信ラウンドが必要である。 本稿では,FedDBL(Federated Deep-Broad Learning)という,汎用的で軽量なフェデレーション学習フレームワークを提案する。 事前学習された深層学習特徴抽出器、高速で軽量な広層学習推論システム、および古典的な連合集約アプローチを単純に関連付けることで、FedDBLはデータの依存を劇的に減らし、通信効率を向上させることができる。 5倍のクロスバリデーションにより、FedDBLは1ラウンドの通信と限られたトレーニングサンプルで競合より大幅に優れており、マルチラウンドの通信では同等のパフォーマンスを達成している。 さらに、軽量な設計とワンラウンド通信のため、FedDBLは50ラウンドトレーニングでResNet-50のバックボーンを使用して通信負荷を4.6GBから276.5KBに減らした。 異なるクライアント間でデータやディープモデルを共有することはないため、プライバシ問題は十分に解決され、モデルのセキュリティはモデル反転攻撃リスクなしで保証される。 コードはhttps://github.com/tianpeng-deng/FedDBLで入手できる。

Histopathological tissue classification is a fundamental task in computational pathology. Deep learning-based models have achieved superior performance but centralized training with data centralization suffers from the privacy leakage problem. Federated learning (FL) can safeguard privacy by keeping training samples locally, but existing FL-based frameworks require a large number of well-annotated training samples and numerous rounds of communication which hinder their practicability in the real-world clinical scenario. In this paper, we propose a universal and lightweight federated learning framework, named Federated Deep-Broad Learning (FedDBL), to achieve superior classification performance with limited training samples and only one-round communication. By simply associating a pre-trained deep learning feature extractor, a fast and lightweight broad learning inference system and a classical federated aggregation approach, FedDBL can dramatically reduce data dependency and improve communication efficiency. Five-fold cross-validation demonstrates that FedDBL greatly outperforms the competitors with only one-round communication and limited training samples, while it even achieves comparable performance with the ones under multiple-round communications. Furthermore, due to the lightweight design and one-round communication, FedDBL reduces the communication burden from 4.6GB to only 276.5KB per client using the ResNet-50 backbone at 50-round training. Since no data or deep model sharing across different clients, the privacy issue is well-solved and the model security is guaranteed with no model inversion attack risk. Code is available at https://github.com/tianpeng-deng/FedDBL.
翻訳日:2023-02-27 13:29:44 公開日:2023-02-24
# マイクロ波分光法による量子状態における集団蓄積の最適化

Optimizing Population Accumulation in Quantum States Using Microwave Spectroscopy ( http://arxiv.org/abs/2302.12660v1 )

ライセンス: Link先を確認
Jia-You Liou, Chi-En Wu, Hsuan-Jui Su, and Yi-Hsin Chen(参考訳) 所望のゼーマン状態において、磁気的不感なクロック状態(m_F=0)または量子情報の処理や保存に適した特定の状態において、冷却原子を効率的に生成する全光学的手法を提案する。 単一マイクロ波スペクトルに理論フィッティングモデルを適用することにより、人口分布、マイクロ波偏光率、マイクロ波ラビ周波数を個別に決定できる。 このリアルタイムマイクロ波スペクトルを用いて光ポンピング過程における個体群分布を動的に追跡する。 定常状態では、共振および非共振遷移を考慮した単純化されたモデルは、弱い光ポンピング場の下で純度に上限があることを示す。 光ポンピング場の強度と偏光を最適化した後、所望の量子状態において96(2)%または98(1)%までの集団純度が達成された。 本研究は精度測定と量子計算研究に有用な情報と可能性を提供する。

We present an all-optical method for efficiently preparing cold atoms in a desired Zeeman state, either on the magnetically insensitive clock state (m_F=0) or a particular state suitable for processing or storing quantum information. By applying the theoretical fitting model to a single microwave spectrum, we can individually determine the population distribution, microwave polarization ratio, and microwave Rabi frequency. We can dynamically track the population distribution during the optical pumping process using this real-time microwave spectrum. In a steady-state condition, a simplified model, which considers resonant and off-resonant transitions, indicates that there is an upper limit to the purity under a weak optical pumping field. The population purity up to 96(2)% or 98(1)% on the desired quantum state has been achieved after optimizing the intensity and polarization of the optical pumping field. Our study provides valuable information and potential applications in precision measurement and quantum computation research.
翻訳日:2023-02-27 13:29:13 公開日:2023-02-24
# 3次元セマンティックセグメンテーションのためのCoVERED, CollabOratiVEロボット環境データセット

COVERED, CollabOratiVE Robot Environment Dataset for 3D Semantic segmentation ( http://arxiv.org/abs/2302.12656v1 )

ライセンス: Link先を確認
Charith Munasinghe, Fatemeh Mohammadi Amin, Davide Scaramuzza, Hans Wernher van de Venn(参考訳) safe human-robot collaboration (hrc)は最近、新興業界5.0パラダイムに多くの関心を集めている。 従来のロボットはよりインテリジェントで柔軟な協調ロボット(cobots)に置き換えられている。 cobotと人間の安全かつ効率的なコラボレーションは、cobotの産業環境の動的環境に関する包括的意味理解に大きく依存している。 このようなアプリケーションにおける意味理解の重要性にもかかわらず、協調ロボットワークスペースの3次元意味セグメンテーションには十分な研究と専用のデータセットが欠けている。 不十分なデータセットに起因するパフォーマンス上の制限は、"data hunger"問題と呼ばれる。 この現在の制限を克服するために、この研究は、ロボットセルのポイントワイドの注釈付き点雲を含む"COVERED"と呼ばれるこのユースケース用に特別に設計された新しいデータセットを開発する。 最後に,現在最先端(SOTA)アルゴリズムの性能をデータセット上で評価し,マルチLiDARシステムを用いた協調作業空間のリアルタイムセマンティックセマンティックセグメンテーションを示す。 リアルタイムに動的に変化する状況でトレーニングされたDeep Networksを使用することによる有望な結果は、私たちが正しい軌道にいることを示している。 我々の知覚パイプラインは、8Hzのスループットを維持しながら、予測点精度を$>96\%、$>92\%の平均交叉率(mIOU)で20Hzのスループットを達成する。

Safe human-robot collaboration (HRC) has recently gained a lot of interest with the emerging Industry 5.0 paradigm. Conventional robots are being replaced with more intelligent and flexible collaborative robots (cobots). Safe and efficient collaboration between cobots and humans largely relies on the cobot's comprehensive semantic understanding of the dynamic surrounding of industrial environments. Despite the importance of semantic understanding for such applications, 3D semantic segmentation of collaborative robot workspaces lacks sufficient research and dedicated datasets. The performance limitation caused by insufficient datasets is called 'data hunger' problem. To overcome this current limitation, this work develops a new dataset specifically designed for this use case, named "COVERED", which includes point-wise annotated point clouds of a robotic cell. Lastly, we also provide a benchmark of current state-of-the-art (SOTA) algorithm performance on the dataset and demonstrate a real-time semantic segmentation of a collaborative robot workspace using a multi-LiDAR system. The promising results from using the trained Deep Networks on a real-time dynamically changing situation shows that we are on the right track. Our perception pipeline achieves 20Hz throughput with a prediction point accuracy of $>$96\% and $>$92\% mean intersection over union (mIOU) while maintaining an 8Hz throughput.
翻訳日:2023-02-27 13:28:57 公開日:2023-02-24
# 社会性バイアス対策における単語の深層化

In-Depth Look at Word Filling Societal Bias Measures ( http://arxiv.org/abs/2302.12640v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Pikuliak, Ivana Be\v{n}ov\'a, Viktor Bachrat\'y(参考訳) 近年,言語モデルにおける社会バイアスの尺度が数多く提案されている。 一般的なアプローチは、言語モデルの振る舞いを評価するために単語充填プロンプトのセットを使用することである。 本研究では,StereoSet と CrowS-Pairs の2つの対策の有効性を分析する。 適切な制御群を作成した場合,これらの測定値が予期せぬ,非論理的な結果をもたらすことを示す。 これに基づいて、これらは問題であり、将来的には再検討されるべきであると考えています。 我々は、テストプロトコルを改善する方法を提案する。 最後に,スロバキアにおける新たなジェンダーバイアスデータセットについても紹介する。

Many measures of societal bias in language models have been proposed in recent years. A popular approach is to use a set of word filling prompts to evaluate the behavior of the language models. In this work, we analyze the validity of two such measures -- StereoSet and CrowS-Pairs. We show that these measures produce unexpected and illogical results when appropriate control group samples are constructed. Based on this, we believe that they are problematic and using them in the future should be reconsidered. We propose a way forward with an improved testing protocol. Finally, we also introduce a new gender bias dataset for Slovak.
翻訳日:2023-02-27 13:27:49 公開日:2023-02-24
# 無線通信とセンサネットワークにおけるマルチモーダルデータ融合の合理化

Streamlining Multimodal Data Fusion in Wireless Communication and Sensor Networks ( http://arxiv.org/abs/2302.12636v1 )

ライセンス: Link先を確認
Mohammud J. Bocus, Xiaoyang Wang, Robert. J. Piechocki(参考訳) 本稿では,Vector-Quantized Variational Autoencoder (VQVAE)アーキテクチャに基づくマルチモーダルデータ融合手法を提案する。 提案手法は,MNIST-SVHNペアデータとWiFiスペクトログラムデータに優れた再構成性能を実現するのに有効である。 さらに、マルチモーダルVQVAEモデルは、5G通信シナリオに拡張され、エンド・ツー・エンドのチャネル状態情報(CSI)フィードバックシステムが実装され、基地局(eNodeB)とユーザ機器(UE)間で送信されるデータを、性能を著しく損なうことなく圧縮する。 提案モデルは,各種入力データ(CSI,分光図,自然画像など)の識別圧縮特徴空間を学習し,限られた計算資源を持つアプリケーションに適した解法である。

This paper presents a novel approach for multimodal data fusion based on the Vector-Quantized Variational Autoencoder (VQVAE) architecture. The proposed method is simple yet effective in achieving excellent reconstruction performance on paired MNIST-SVHN data and WiFi spectrogram data. Additionally, the multimodal VQVAE model is extended to the 5G communication scenario, where an end-to-end Channel State Information (CSI) feedback system is implemented to compress data transmitted between the base-station (eNodeB) and User Equipment (UE), without significant loss of performance. The proposed model learns a discriminative compressed feature space for various types of input data (CSI, spectrograms, natural images, etc), making it a suitable solution for applications with limited computational resources.
翻訳日:2023-02-27 13:27:41 公開日:2023-02-24
# TUTORING: 言語学習者のための指導型会話エージェント

TUTORING: Instruction-Grounded Conversational Agent for Language Learners ( http://arxiv.org/abs/2302.12623v1 )

ライセンス: Link先を確認
Hyungjoo Chae, Minjin Kim, Chaehyeong Kim, Wonseok Jeong, Hyejoong Kim, Junmyung Lee, Jinyoung Yeo(参考訳) 本稿では,英語学習のための教師と学生の会話を大規模に学習した生成型チャットボットTutoringbotを提案する。 言語教育における人間の家庭教師の行動を模倣するために、家庭教師ボットは、家庭教師応答生成のための追加の入力コンテキストとして、各指導に対する多様な教育的指示と根拠を利用する。 1つの命令は、学生に十分な話しの練習を与えるために、通常、複数の対話旋回を含むため、教師ボットは、現在の命令を保持または次の命令に切り替える際に、監視とキャプチャをする必要がある。 そのため、教師ボットは、応答を生成するだけでなく、その指導行動と現在の会話の進行をマルチタスク学習方式で同時に推測する。 当社のTutoringbotは、https://tutoringai.com.comで非商用利用ライセンスの下でデプロイされています。

In this paper, we propose Tutoring bot, a generative chatbot trained on a large scale of tutor-student conversations for English-language learning. To mimic a human tutor's behavior in language education, the tutor bot leverages diverse educational instructions and grounds to each instruction as additional input context for the tutor response generation. As a single instruction generally involves multiple dialogue turns to give the student sufficient speaking practice, the tutor bot is required to monitor and capture when the current instruction should be kept or switched to the next instruction. For that, the tutor bot is learned to not only generate responses but also infer its teaching action and progress on the current conversation simultaneously by a multi-task learning scheme. Our Tutoring bot is deployed under a non-commercial use license at https://tutoringai.com.
翻訳日:2023-02-27 13:27:23 公開日:2023-02-24
# スピンフォーム中の幾何遷移

Geometry Transition in Spinfoams ( http://arxiv.org/abs/2302.12622v1 )

ライセンス: Link先を確認
Marios Christodoulou, Fabio D'Ambrosio, Charalampos Theofilis(参考訳) 本稿では,eprlモデルの固定スピン漸近性を用いて,内部面のない固定2複素体上で定義されるスピン発泡振幅のスピンサムを,マクロ領域の離散的単純幾何上にピークを成すコヒーレントスピンネットワーク状態とどう結合するかを示す。 私たちはrefで与えられる表現で働きます。 1. われわれはまず、後者を目的に合わせて異なる方法で再設計する。 次に、この表現を境界を持つ2-複素体に拡張し、コヒーレント状態表現との関係を導出する。 我々は、ツイスト幾何学パラメトリゼーションにおけるティーマン状態の恒等性の解を与える測度を与える。 以上により、文献中の他の結果と全てを合わせることができ、スピン和がここでの関心の体制に対して分析的に実行可能であることを示すことができる。 これらの結果は、ブラックホールのホワイトホール幾何学への移行に関する分析研究に関係している。 特に、この研究は、Refに現れる黒と白のバウンスを推定する基礎となる詳細なテクニックを与えている。 2) これらの結果は,'大きなバウンス'の可能性を調べるためのスピンフォムの応用にも関係している可能性がある。

We show how the fixed-spin asymptotics of the EPRL model can be used to perform the spin-sum for spin foam amplitudes defined on fixed two-complexes without interior faces and contracted with coherent spin-network states peaked on a discrete simplicial geometry with macroscopic areas. We work in the representation given in Ref. 1. We first rederive the latter in a different way suitable for our purposes. We then extend this representation to 2-complexes with a boundary and derive its relation to the coherent state representation. We give the measure providing the resolution of the identity for Thiemann's state in the twisted geometry parametrization. The above then permit us to put everything together with other results in the literature and show how the spin sum can be performed analytically for the regime of interest here. These results are relevant to analytic investigations regarding the transition of a black hole to a white hole geometry. In particular, this work gives detailed technique that was the basis of estimate for the black to white bounce appeared in Ref. 2. These results may also be relevant for applications of spinfoams to investigate the possibility of a 'big bounce'.
翻訳日:2023-02-27 13:27:09 公開日:2023-02-24
# フェデレーション学習におけるローカルディファレンシャルプライバシー下でのアクティブメンバーシップ推論攻撃

Active Membership Inference Attack under Local Differential Privacy in Federated Learning ( http://arxiv.org/abs/2302.12685v1 )

ライセンス: Link先を確認
Truc Nguyen, Phung Lai, Khang Tran, NhatHai Phan, My T. Thai(参考訳) フェデレーション学習(fl)はもともと、コーディネートサーバを介してデータプライバシ保護を備えたクライアント間の協調学習のフレームワークとして考えられていた。 本稿では,flにおける不正サーバによる新たなアクティブメンバシップ推論(ami)攻撃を提案する。 AMI攻撃では、サーバが悪意のあるパラメータをグローバルモデルに組み込んで、ターゲットデータサンプルがクライアントのプライベートトレーニングデータに含まれるかどうかを効果的に推測する。 非線形決定境界を通じてデータ特徴間の相関を利用して、AMI攻撃は、厳密な局所的差分プライバシー(LDP)保護の下で極めて高い成功率を達成することができるため、クライアントのトレーニングデータを重大なプライバシーリスクに晒すことができる。 いくつかのベンチマークデータセットの理論的および実験的結果は、攻撃を防ぐために十分なプライバシ保護ノイズを加えると、FLのモデルの有用性を著しく損なうことを示している。

Federated learning (FL) was originally regarded as a framework for collaborative learning among clients with data privacy protection through a coordinating server. In this paper, we propose a new active membership inference (AMI) attack carried out by a dishonest server in FL. In AMI attacks, the server crafts and embeds malicious parameters into global models to effectively infer whether a target data sample is included in a client's private training data or not. By exploiting the correlation among data features through a non-linear decision boundary, AMI attacks with a certified guarantee of success can achieve severely high success rates under rigorous local differential privacy (LDP) protection; thereby exposing clients' training data to significant privacy risk. Theoretical and experimental results on several benchmark datasets show that adding sufficient privacy-preserving noise to prevent our attack would significantly damage FL's model utility.
翻訳日:2023-02-27 13:21:29 公開日:2023-02-24
# 交叉的公平性:フラクタルアプローチ

Intersectional Fairness: A Fractal Approach ( http://arxiv.org/abs/2302.12683v1 )

ライセンス: Link先を確認
Giulio Filippi, Sara Zannone, Adriano Koshiyama(参考訳) 近年,AIにおける公平性の問題に注目が集まっている。 この問題は、異なる保護属性(例えば、民族、性別など)を独立して見ることで解決できるが、個々の保護属性に対する公平さは、交差する公平さを暗示しない。 本研究では,交叉的公平性の問題を幾何学的設定の中で枠組する。 データをハイパーキューブに投影し、フェアネスの分析をレベル別に分割し、各レベルが交差する保護属性の数をエンコードします。 数学的には、公平さはレベルを"ダウン"するわけではないが、レベルを"アップ"する。 これは、最も低い交点レベルのすべてのサブグループ(黒人女性、白人女性、黒人男性、白人男性など)の公平性を保証することは、保護された属性(民族や性別など)をそれぞれ独立に取ることを含む、上記のすべてのレベルに対して公平性をもたらすことを意味する。 また、各レベルにおける推定成功率のセットのばらつきを、完全公正性の仮定で記述した公式も導出する。 この理論的な発見をベンチマークとして、全体の交叉バイアスを捉える指標の族を定義する。 最後に,公平性は「フラクタルな」問題と見なすことができることを示唆する。 フラクタルでは、最小スケールのパターンがより大きなスケールで繰り返される。 この例から、ボトムアップ的な方法で可能な限り低いレベルで問題に取り組むことは、公正なAIの自然な出現につながります。 信頼性は必然的にaiシステムの創発的でフラクタルでリレーショナルな性質であることが示唆される。

The issue of fairness in AI has received an increasing amount of attention in recent years. The problem can be approached by looking at different protected attributes (e.g., ethnicity, gender, etc) independently, but fairness for individual protected attributes does not imply intersectional fairness. In this work, we frame the problem of intersectional fairness within a geometrical setting. We project our data onto a hypercube, and split the analysis of fairness by levels, where each level encodes the number of protected attributes we are intersecting over. We prove mathematically that, while fairness does not propagate "down" the levels, it does propagate "up" the levels. This means that ensuring fairness for all subgroups at the lowest intersectional level (e.g., black women, white women, black men and white men), will necessarily result in fairness for all the above levels, including each of the protected attributes (e.g., ethnicity and gender) taken independently. We also derive a formula describing the variance of the set of estimated success rates on each level, under the assumption of perfect fairness. Using this theoretical finding as a benchmark, we define a family of metrics which capture overall intersectional bias. Finally, we propose that fairness can be metaphorically thought of as a "fractal" problem. In fractals, patterns at the smallest scale repeat at a larger scale. We see from this example that tackling the problem at the lowest possible level, in a bottom-up manner, leads to the natural emergence of fair AI. We suggest that trustworthiness is necessarily an emergent, fractal and relational property of the AI system.
翻訳日:2023-02-27 13:21:12 公開日:2023-02-24
# 還元次数モデリングにおける残差学習のためのDeepONet多元性アプローチ

A DeepONet Multi-Fidelity Approach for Residual Learning in Reduced Order Modeling ( http://arxiv.org/abs/2302.12682v1 )

ライセンス: Link先を確認
Nicola Demo and Marco Tezzele and Gianluigi Rozza(参考訳) 本稿では,多元的視点とdeeponetsを活用し,減少順序モデルの精度を向上させる新しい手法を提案する。 縮小モデルは、元のモデルを単純化することで、リアルタイムな数値近似を提供する。 このような演算によって引き起こされる誤差は通常、高速な計算に到達するために無視され、犠牲にされる。 そこで本研究では,ニューラルネットワークによって上記の誤差を学習し,新たな予測を推定できるように,機械学習残差学習にモデル還元を組み合わせることを提案する。 このフレームワークは高忠実度情報の活用を最大化し、それを縮小順序モデルの構築と残差学習に利用することを強調している。 本研究では,センサデータに対する正規直交分解(POD)とギャップピーPODの統合について,最近のDeepONetアーキテクチャを用いて検討する。 パラメトリックベンチマーク関数と非線形パラメトリックナビエ-ストークス問題に関する数値的研究を行った。

In the present work, we introduce a novel approach to enhance the precision of reduced order models by exploiting a multi-fidelity perspective and DeepONets. Reduced models provide a real-time numerical approximation by simplifying the original model. The error introduced by such operation is usually neglected and sacrificed in order to reach a fast computation. We propose to couple the model reduction to a machine learning residual learning, such that the above-mentioned error can be learnt by a neural network and inferred for new predictions. We emphasize that the framework maximizes the exploitation of the high-fidelity information, using it for building the reduced order model and for learning the residual. In this work we explore the integration of proper orthogonal decomposition (POD), and gappy POD for sensors data, with the recent DeepONet architecture. Numerical investigations for a parametric benchmark function and a nonlinear parametric Navier-Stokes problem are presented.
翻訳日:2023-02-27 13:20:28 公開日:2023-02-24
# 分散部分観測型MDPにおける計算効率の良い責任帰属を目指して

Towards Computationally Efficient Responsibility Attribution in Decentralized Partially Observable MDPs ( http://arxiv.org/abs/2302.12676v1 )

ライセンス: Link先を確認
Stelios Triantafyllou, Goran Radanovic(参考訳) 責任帰属は、説明責任のあるマルチエージェント意思決定の重要な概念である。 一連の行動が与えられると、責任帰属機構は、各参加者の最終的な結果に対する影響を定量化する。 そのような一般的なメカニズムの1つは、実際の因果関係に基づいており、考慮された結果にとって重要な行動に基づいて(因果的な)責任を割り当てる。 しかし、実際の原因を特定して正確な責任割り当てを決定するという本質的な問題は、計算的に難解であることが示されている。 本稿では,計算予算下での責任帰属問題に対する実用的なアルゴリズム的解決策を提案する。 まず,特定の構造因果モデル(scms)によって拡張された部分可観測マルコフ決定過程(dec-pomdps)の枠組みにおいて問題を定式化する。 本フレームワークでは,エージェントの責任度を効率的に近似するモンテカルロ木探索(MCTS)方式を提案する。 本手法は,新規な探索木の構造と,責任帰属の問題に合わせた刈り込み技術を利用する。 我々の方法の他の新しい構成要素は (a)線形スカラー化に基づく子選抜政策とそれに基づく子選抜政策 (b)実際の因果関係を定義するのに一般的に用いられる最小限の条件を説明するバックプロパゲーション手順。 3つのチームベースのカードゲームを含むシミュレーションベースのテストベッドを用いて,アルゴリズムの有効性を実験的に評価した。

Responsibility attribution is a key concept of accountable multi-agent decision making. Given a sequence of actions, responsibility attribution mechanisms quantify the impact of each participating agent to the final outcome. One such popular mechanism is based on actual causality, and it assigns (causal) responsibility based on the actions that were found to be pivotal for the considered outcome. However, the inherent problem of pinpointing actual causes and consequently determining the exact responsibility assignment has shown to be computationally intractable. In this paper, we aim to provide a practical algorithmic solution to the problem of responsibility attribution under a computational budget. We first formalize the problem in the framework of Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) augmented by a specific class of Structural Causal Models (SCMs). Under this framework, we introduce a Monte Carlo Tree Search (MCTS) type of method which efficiently approximates the agents' degrees of responsibility. This method utilizes the structure of a novel search tree and a pruning technique, both tailored to the problem of responsibility attribution. Other novel components of our method are (a) a child selection policy based on linear scalarization and (b) a backpropagation procedure that accounts for a minimality condition that is typically used to define actual causality. We experimentally evaluate the efficacy of our algorithm through a simulation-based test-bed, which includes three team-based card games.
翻訳日:2023-02-27 13:20:03 公開日:2023-02-24
# 星-三角関係からの可積分量子回路

Integrable Quantum Circuits from the Star-Triangle Relation ( http://arxiv.org/abs/2302.12675v1 )

ライセンス: Link先を確認
Yuan Miao, Eric Vernier(参考訳) 恒星-三角関係は、古典的な2次元統計力学モデルに対して正確な結果を提供する、正確に解けるモデルの領域において重要な役割を果たす。 本稿では、星-三角関係を用いた可積分量子回路を構築する。 この構成は、星-三角関係によって解かれた統計力学モデルに対して相互に可換な2パラメータ転移行列の族に依存しており、yang-baxter可積分頂点モデルに基づく既知構成とは異なる。 スペクトルパラメータの特別な値において、転送行列は積分可能な量子回路にマッピングされ、そこでは局所保存電荷の無限の族が導出される。 我々は、最近ロトコフらによって予想された積分性を持つ$Q$状態ポッツ回路と、我々の知識に新しい$\mathbb{Z}_Q$回路という、$Q$状態ポッツ回路の連鎖に作用する回路の2つの例を示す。 最初の例では、$Q=3$ を Zamolodchikov-Fateev 19-頂点モデルに接続する。

The star-triangle relation plays an important role in the realm of exactly solvable models, offering exact results for classical two-dimensional statistical mechanical models. In this article, we construct integrable quantum circuits using the star-triangle relation. Our construction relies on families of mutually commuting two-parameter transfer matrices for statistical mechanical models solved by the star-triangle relation, and differs from previously known constructions based on Yang-Baxter integrable vertex models. At special value of the spectral parameter, the transfer matrices are mapped into integrable quantum circuits, for which infinite families of local conserved charges can be derived. We demonstrate the construction by giving two examples of circuits acting on a chain of $Q-$state qudits: $Q$-state Potts circuits, whose integrability has been conjectured recently by Lotkov et al., and $\mathbb{Z}_Q$ circuits, which are novel to our knowledge. In the first example, we present for $Q=3$ a connection to the Zamolodchikov-Fateev 19-vertex model.
翻訳日:2023-02-27 13:19:36 公開日:2023-02-24
# 再構成可能な複雑な量子環境の光シミュレータ

Experimental optical simulator of reconfigurable and complex quantum environment ( http://arxiv.org/abs/2302.12674v1 )

ライセンス: Link先を確認
Paul Renault, Johannes Nokkala, Gana\"el Roeland, Nicolas Joly, Roberta Zambrini, Sabrina Maniscalco, Jyrki Piilo, Nicolas Treps, Valentina Parigi(参考訳) 量子系はその環境から完全に分離できない。 ほとんどの場合、興味のシステムと外部の自由度の間の相互作用は、オープン量子システム理論で説明されているように、そのダイナミクスを深く変化させる。 それでも、エンジニアリングされた環境は、いくつかの量子情報タスクに有益な効果をもたらすことができる。 本稿では、量子相互作用系の複雑なネットワークとして構築された任意の再構成可能な環境と結合した量子システムの光学シミュレータを示す。 スペクトル密度や量子非マルコフ性などの開量子系力学の典型的特徴を,連続変数の光学プラットフォームにおけるスクイーズと絡み合い相関を利用して実験的に検索する。 これにより、量子情報、量子熱力学、量子輸送、量子同期などに関連する再構成可能な環境におけるオープン量子システムの実験的テストへの道を開くことができる。

No quantum system can be considered totally isolated from its environment. In most cases the interaction between the system of interest and the external degrees of freedom deeply changes its dynamics, as described by open quantum system theory. Nevertheless, engineered environment can be turned into beneficial effects for some quantum information tasks. Here we demonstrate an optical simulator of a quantum system coupled to an arbitrary and reconfigurable environment built as a complex network of quantum interacting systems. We experimentally retrieve typical features of open quantum system dynamics like the spectral density and quantum non-Markovianity, by exploiting squeezing and entanglement correlation of a continuous variables optical platform. This opens the way to the experimental tests of open quantum systems in reconfigurable environments that are relevant in, among others, quantum information, quantum thermodynamics, quantum transport and quantum synchronization.
翻訳日:2023-02-27 13:19:16 公開日:2023-02-24
# 位置依存有効質量を持つ半圧高調波振動子モデルのウィグナー関数

The Wigner function of a semiconfined harmonic oscillator model with a position-dependent effective mass ( http://arxiv.org/abs/2302.12673v1 )

ライセンス: Link先を確認
S.M. Nagiyev, A.M. Jafarova and E.I. Jafarov(参考訳) 位置依存有効質量を持つ半収束調和振動子モデルの位相空間表現は、ウィグナー分布関数を用いて構成される。 本研究では, 振動子モデルの定常状態に対するこの関数の解析式を, 適用外等質場を用いない場合にも検討した。 これは第一種のベッセル函数とラゲール多項式を通して表される。 特殊ケースや制限についても論じられている。

The phase space representation for a semiconfined harmonic oscillator model with a position-dependent effective mass is constructed in terms of the Wigner distribution function. We have found an analytical expression of this function for the stationary states of the oscillator model under consideration for both cases without and with the applied external homogeneous field. It is expressed through the Bessel function of the first kind and Laguerre polynomials. Some of the special cases and limits are also discussed.
翻訳日:2023-02-27 13:19:04 公開日:2023-02-24
# 無効な機器変数を用いたパーソナライズ価格:識別・推定・政策学習

Personalized Pricing with Invalid Instrumental Variables: Identification, Estimation, and Policy Learning ( http://arxiv.org/abs/2302.12670v1 )

ライセンス: Link先を確認
Rui Miao, Zhengling Qi, Cong Shi, Lin Lin(参考訳) 個々の顧客特性に基づく価格は、販売者の収益を最大化するために広く利用されている。 本研究は,機器変数を用いた内在性に基づくオフラインパーソナライズド価格に関する研究である。 因果推論/計量学における標準の機器変数法は、個別の処理空間に焦点をあてるか、または機器の排他的制限が結果に直接影響することを要求する。 本稿では,Invalid iNsTrumental variables (PRINT) を用いたパーソナライズド・プライシングのための新しいポリシー学習手法を提案する。 具体的には、収益と価格の構造モデルに基づき、不正な機器変数の助けを借りて、内在性の下で最適な価格戦略の特定可能性条件を確立する。 一般化された残余関数による条件付きモーメント制約を解消する新たな同定法に基づき,逆数min-max推定器を構築し,最適価格戦略を学習する。 さらに,最適価格戦略を見出すための漸近的な後悔を確立する。 最後に,提案手法の有効性を,米国オンライン自動車ローン会社による実データアプリケーションとともに,広範なシミュレーション研究を通じて実証する。

Pricing based on individual customer characteristics is widely used to maximize sellers' revenues. This work studies offline personalized pricing under endogeneity using an instrumental variable approach. Standard instrumental variable methods in causal inference/econometrics either focus on a discrete treatment space or require the exclusion restriction of instruments from having a direct effect on the outcome, which limits their applicability in personalized pricing. In this paper, we propose a new policy learning method for Personalized pRicing using Invalid iNsTrumental variables (PRINT) for continuous treatment that allow direct effects on the outcome. Specifically, relying on the structural models of revenue and price, we establish the identifiability condition of an optimal pricing strategy under endogeneity with the help of invalid instrumental variables. Based on this new identification, which leads to solving conditional moment restrictions with generalized residual functions, we construct an adversarial min-max estimator and learn an optimal pricing strategy. Furthermore, we establish an asymptotic regret bound to find an optimal pricing strategy. Finally, we demonstrate the effectiveness of the proposed method via extensive simulation studies as well as a real data application from an US online auto loan company.
翻訳日:2023-02-27 13:18:58 公開日:2023-02-24
# 勾配支援と群集探索による多目的品質多様性のデータ効率向上

Improving the Data Efficiency of Multi-Objective Quality-Diversity through Gradient Assistance and Crowding Exploration ( http://arxiv.org/abs/2302.12668v1 )

ライセンス: Link先を確認
Hannah Janmohamed, Thomas Pierrot, Antoine Cully(参考訳) 近年,QDアルゴリズムは,局所最適解の回避と,広範かつ高性能な解を生成する能力により,最適化手法として注目を集めている。 近年,MOME(Multi-Objective MAP-Elites)は,マップエリートグリッドの各セルにParetoフロントを保持することにより,QDパラダイムを多目的設定に拡張した。 MOME は NSGA-II と SPEA2 と競合し、MOEA (Multi-Objective Evolutionary Algorithms) と競合し、様々なソリューションのレパートリーを獲得した。 しかし、MOMEは高次元探索空間で苦労する非間接的な遺伝子探索機構によって制限されている。 本研究では,多目的MAP-Elites with Policy-Gradient Assistance and Crowding-based Exploration (MOME-PGX)を提案する。 MOME-PGXは勾配に基づく最適化を使用して、より高性能なソリューションを効率的に駆動する。 また、群衆ベースのメカニズムを導入し、改良された探索戦略を作成し、パレートフロント全体の統一を促進する。 我々は,MOME-PGXを4つのロボット動作タスクで評価し,他のすべてのベースラインよりも高速に収束し,高い性能を示す。 MOME-PGXはMOMEの4.3倍から42倍のデータ効率が高く,挑戦環境におけるMOME,NSGA-II,SPEA2の性能は2倍である。

Quality-Diversity (QD) algorithms have recently gained traction as optimisation methods due to their effectiveness at escaping local optima and capability of generating wide-ranging and high-performing solutions. Recently, Multi-Objective MAP-Elites (MOME) extended the QD paradigm to the multi-objective setting by maintaining a Pareto front in each cell of a map-elites grid. MOME achieved a global performance that competed with NSGA-II and SPEA2, two well-established Multi-Objective Evolutionary Algorithms (MOEA), while also acquiring a diverse repertoire of solutions. However, MOME is limited by non-directed genetic search mechanisms which struggle in high-dimensional search spaces. In this work, we present Multi-Objective MAP-Elites with Policy-Gradient Assistance and Crowding-based Exploration (MOME-PGX): a new QD algorithm that extends MOME to improve its data efficiency and performance. MOME-PGX uses gradient-based optimisation to efficiently drive solutions towards higher performance. It also introduces crowding-based mechanisms to create an improved exploration strategy and to encourage uniformity across Pareto fronts. We evaluate MOME-PGX in four simulated robot locomotion tasks and demonstrate that it converges faster and to a higher performance than all other baselines. We show that MOME-PGX is between 4.3 and 42 times more data-efficient than MOME and doubles the performance of MOME, NSGA-II and SPEA2 in challenging environments.
翻訳日:2023-02-27 13:18:39 公開日:2023-02-24
# 非線形システム同定のための深層能動学習

Deep active learning for nonlinear system identification ( http://arxiv.org/abs/2302.12667v1 )

ライセンス: Link先を確認
Erlend Torje Berg Lundby, Adil Rasheed, Ivar Johan Halvorsen, Dirk Reinhardt, Sebastien Gros, Jan Tommy Gravdahl(参考訳) 非線形力学系のモデリングにおけるニューラルネットワークに対する爆発的な研究関心は、データから直接複雑な入出力関係をモデル化するネットワークの能力によって主に説明される。 しかし、一般的には、良い用途に投入できる前に、膨大なトレーニングデータが必要です。 動的システムのデータ生成プロセスは、時間とリソースの両面で、高価な取り組みとなり得る。 アクティブラーニングは、最も情報性の高いデータを取得することで、この欠点に対処する。 現在の作業がユニークなのは、deep active learningフレームワークを非線形システム識別に統合することです。 非線形システム同定のための静的深層学習獲得問題を定式化する。 これは、入力空間の異なる領域でローカルにシステムダイナミクスを探索し、広い入力空間をカバーするシミュレーションデータセットを得ることによって実現される。 このシミュレーションデータセットは、グローバル探索と呼ばれる静的な深層能動学習獲得スキームで使用できる。 グローバル探索は、バッチ取得関数に従って、最も情報性の高い状態-行動軌跡に対応する一連の初期状態を取得する。 局所的な探索は最適な制御問題を解き、情報の測度を最大化する制御軌道を見つける。 情報的初期状態のバッチが取得された後、バッチ内の初期状態からの新たな局所探索を行い、システムダイナミクスに適用され、システムからデータを取得するための対応する制御トラジェクトリのセットを得る。 取得方式で使用される情報測度は、ニューラルネットワークのアンサンブルの予測分散から導かれる。 非線形力学系のシステム同定に使用される標準データ取得手法を,シミュレーションデータを用いた場合の手法と比較した。

The exploding research interest for neural networks in modeling nonlinear dynamical systems is largely explained by the networks' capacity to model complex input-output relations directly from data. However, they typically need vast training data before they can be put to any good use. The data generation process for dynamical systems can be an expensive endeavor both in terms of time and resources. Active learning addresses this shortcoming by acquiring the most informative data, thereby reducing the need to collect enormous datasets. What makes the current work unique is integrating the deep active learning framework into nonlinear system identification. We formulate a general static deep active learning acquisition problem for nonlinear system identification. This is enabled by exploring system dynamics locally in different regions of the input space to obtain a simulated dataset covering the broader input space. This simulated dataset can be used in a static deep active learning acquisition scheme referred to as global explorations. The global exploration acquires a batch of initial states corresponding to the most informative state-action trajectories according to a batch acquisition function. The local exploration solves an optimal control problem, finding the control trajectory that maximizes some measure of information. After a batch of informative initial states is acquired, a new round of local explorations from the initial states in the batch is conducted to obtain a set of corresponding control trajectories that are to be applied on the system dynamics to get data from the system. Information measures used in the acquisition scheme are derived from the predictive variance of an ensemble of neural networks. The novel method outperforms standard data acquisition methods used for system identification of nonlinear dynamical systems in the case study performed on simulated data.
翻訳日:2023-02-27 13:18:12 公開日:2023-02-24
# データを隠すことが助けになる: スパースコーディングのためのマスキングの利点

Hiding Data Helps: On the Benefits of Masking for Sparse Coding ( http://arxiv.org/abs/2302.12715v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Chenwei Wu, Yu Cheng, Rong Ge(参考訳) スパース符号化(sparse coding)とは、学習辞書の要素のスパース線形結合として信号のモデル化を指す。 スパースコーディングは、信号処理、コンピュータビジョン、医療画像など、多くのアプリケーションで成功し、解釈可能なアプローチであることが証明されている。 この成功は、証明可能な保証でスパースコーディングに多くの取り組みを駆り立てているが、基礎的真理に関して学習された辞書がより大きい(あるいは、 \textit{over-realized})という設定での作業は比較的新鮮である。 過実現状態における既存の理論結果は、ノイズのないデータの場合に限られる。 本稿では,ノイズの存在下での過度に実現されたスパース符号化において,標準辞書学習目標の最小化は,データ生成過程における信号の規模に関わらず,基底構造辞書の復元に失敗することを示す。 さらに, 自己教師あり学習の研究成果から, 新たなマスキング目標を提案し, この新しい目的を最小化することで, 基礎辞書を回復できることを実証する。 提案手法は,複数のパラメータをまたがる実験で理論的結果と一致し,提案手法が標準的な再構成目標よりも優れた経験的性能を享受できることを示した。

Sparse coding refers to modeling a signal as sparse linear combinations of the elements of a learned dictionary. Sparse coding has proven to be a successful and interpretable approach in many applications, such as signal processing, computer vision, and medical imaging. While this success has spurred much work on sparse coding with provable guarantees, work on the setting where the learned dictionary is larger (or \textit{over-realized}) with respect to the ground truth is comparatively nascent. Existing theoretical results in the over-realized regime are limited to the case of noise-less data. In this paper, we show that for over-realized sparse coding in the presence of noise, minimizing the standard dictionary learning objective can fail to recover the ground-truth dictionary, regardless of the magnitude of the signal in the data-generating process. Furthermore, drawing from the growing body of work on self-supervised learning, we propose a novel masking objective and we prove that minimizing this new objective can recover the ground-truth dictionary. We corroborate our theoretical results with experiments across several parameter regimes, showing that our proposed objective enjoys better empirical performance than the standard reconstruction objective.
翻訳日:2023-02-27 13:11:17 公開日:2023-02-24
# 対比自己スーパービジョンのための補正不変学習

Amortised Invariance Learning for Contrastive Self-Supervision ( http://arxiv.org/abs/2302.12712v1 )

ライセンス: Link先を確認
Ruchika Chavhan, Henry Gouk, Jan Stuehmer, Calum Heggan, Mehrdad Yaghoobi, Timothy Hospedales(参考訳) 対照的な自己教師付き学習法は、異なるデータ拡張に対する不変性を学習することで、高品質な転送可能表現を作り出すことで有名である。 事前学習中に確立された不変性は強い帰納バイアスと解釈できる。 しかし、下流タスクの不変性要件に適合するかどうかによっては、これらは役に立たないかもしれない。 このことは、事前訓練中にタスク固有の不変性を学習するいくつかの試みにつながっているが、これらの手法は高度に計算集約され、訓練に手間がかかる。 対照的自己管理のための無形不分散学習の概念を導入する。 事前学習の段階では,特徴抽出器のパラメータ化を,表現によって符号化された不変量を制御する可変不変超パラメータで行う。 そして、ダウンストリームタスクに対して、線形読み出しとタスク固有の不変条件の両方を、勾配差により効率よく、効果的に学習することができる。 ResNets や Vision Transformers などの一般的なアーキテクチャを用いた SimCLR と MoCo-v2 と,ResNet-18 を用いた SimCLR という2つの異なる手法を用いて, 視覚と音声の2つの異なる相違点を比較検討した。 我々は、一つの機能を使用し、タスク固有の事前学習を避けながら、異なる不変条件で多様な下流タスクを学習する信頼性の高い方法を提供することを示す。 これは、汎用表現学習の分野での新しい地平を開くエキサイティングな視点を提供する。

Contrastive self-supervised learning methods famously produce high quality transferable representations by learning invariances to different data augmentations. Invariances established during pre-training can be interpreted as strong inductive biases. However these may or may not be helpful, depending on if they match the invariance requirements of downstream tasks or not. This has led to several attempts to learn task-specific invariances during pre-training, however, these methods are highly compute intensive and tedious to train. We introduce the notion of amortised invariance learning for contrastive self supervision. In the pre-training stage, we parameterize the feature extractor by differentiable invariance hyper-parameters that control the invariances encoded by the representation. Then, for any downstream task, both linear readout and task-specific invariance requirements can be efficiently and effectively learned by gradient-descent. We evaluate the notion of amortised invariances for contrastive learning over two different modalities: vision and audio, on two widely-used contrastive learning methods in vision: SimCLR and MoCo-v2 with popular architectures like ResNets and Vision Transformers, and SimCLR with ResNet-18 for audio. We show that our amortised features provide a reliable way to learn diverse downstream tasks with different invariance requirements, while using a single feature and avoiding task-specific pre-training. This provides an exciting perspective that opens up new horizons in the field of general purpose representation learning.
翻訳日:2023-02-27 13:10:55 公開日:2023-02-24
# 思慮深い友情に関する友好思想

Friendly thoughts on thoughtful friendliness ( http://arxiv.org/abs/2302.12707v1 )

ライセンス: Link先を確認
Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge and Perimeter Institute for Theoretical Physics, Canada)(参考訳) wiseman, cavalcanti および rieffel の local friendliness no-go theorem と彼らがローカルfriendliness inequality をテストする実験プログラムについて論じる。 この定理を証明するためには、仮定は実験の異なる段階に存在する思慮的エージェントの変数数の可能性を排除するために強化する必要があると論じる。 さらに、量子論の一世界のバージョンでさえ、この可能性は自然に起こるかもしれないと論じる。 また,「意識」や「意識的思考」によって「思考」を置き換える必要があることを示唆し,その正当性は「思考」を「意識」や「意識的思考」に置き換える必要があることを示唆する。

We discuss Wiseman, Cavalcanti and Rieffel's "thoughtful" local friendliness no-go theorem and the experimental programme they propose to test local friendliness inequalities. We argue that, to prove the theorem, the assumptions need to be strengthened to exclude the possibility of variable numbers of thoughtful agents existing in different phases of the experiment. We argue further that this possibility may arise naturally, even in one-world versions of quantum theory. We also query whether the motivations they give for their assumptions hold up well under their definition of "thoughtfulness" as displaying human-level cognitive ability, and suggest that their justification requires replacing "thoughtfulness" by "consciousness" or "conscious thoughtfulness".
翻訳日:2023-02-27 13:10:09 公開日:2023-02-24
# 認知処理複雑性の言語間伝達

Cross-Lingual Transfer of Cognitive Processing Complexity ( http://arxiv.org/abs/2302.12695v1 )

ライセンス: Link先を確認
Charlotte Pouw, Nora Hollenstein, Lisa Beinborn(参考訳) 人間がテキストを読むと、その目の動きは入力文の構造的複雑さに影響される。 この認知現象は言語をまたいだものであり、近年の研究は言語間の構造的類似性を利用して言語間移動を促進することを示唆している。 文レベルの目追跡パターンを構造的複雑さの認知指標として使用し,多言語モデル XLM-RoBERTa が,英語データのみに微調整されているにもかかわらず,13言語で様々なパターンを予測できることを示す。 モデルの構造的複雑性に対する感度を定量化し,様々な複雑性特性を識別する。 本モデルは文長に対して有意なバイアスを生じさせるが,言語間差異も統合することを示す。 ランダムな単語順序で制御実験を行い、さらに複雑な構造情報を取得するように思われる。

When humans read a text, their eye movements are influenced by the structural complexity of the input sentences. This cognitive phenomenon holds across languages and recent studies indicate that multilingual language models utilize structural similarities between languages to facilitate cross-lingual transfer. We use sentence-level eye-tracking patterns as a cognitive indicator for structural complexity and show that the multilingual model XLM-RoBERTa can successfully predict varied patterns for 13 typologically diverse languages, despite being fine-tuned only on English data. We quantify the sensitivity of the model to structural complexity and distinguish a range of complexity characteristics. Our results indicate that the model develops a meaningful bias towards sentence length but also integrates cross-lingual differences. We conduct a control experiment with randomized word order and find that the model seems to additionally capture more complex structural information.
翻訳日:2023-02-27 13:09:53 公開日:2023-02-24
# 非ガウス信号のwasserstein射影追跡

Wasserstein Projection Pursuit of Non-Gaussian Signals ( http://arxiv.org/abs/2302.12693v1 )

ライセンス: Link先を確認
Satyaki Mukherjee, Soumendu Sundar Mukherjee, Debarghya Ghoshdastidar(参考訳) 高次元データクラウド(k$-dimensional non-gaussian subspace of interesting features)における一般次元縮小問題を考える。 我々は、標準ガウスからこれらの方向に沿ったデータ射影の実験的分布の2-ワッサーシュタイン距離を最大化する、相互直交単位方向を求める射影探索手法を用いる。 基礎となる(知られていない)低次元の非ガウス部分空間が存在する生成モデルの下では、この未知の部分空間を射影追跡アプローチによって得られた方向によって近似する精度に関する厳密な統計的保証が証明される。 本研究は,データ次元がサンプルサイズに匹敵する状態にあり,データ次元がサンプルサイズよりもはるかに大きい相補的な状態において,投射追尾による興味深い方向の配置が不可能である最近の文献を補完するものである。

We consider the general dimensionality reduction problem of locating in a high-dimensional data cloud, a $k$-dimensional non-Gaussian subspace of interesting features. We use a projection pursuit approach -- we search for mutually orthogonal unit directions which maximise the 2-Wasserstein distance of the empirical distribution of data-projections along these directions from a standard Gaussian. Under a generative model, where there is a underlying (unknown) low-dimensional non-Gaussian subspace, we prove rigorous statistical guarantees on the accuracy of approximating this unknown subspace by the directions found by our projection pursuit approach. Our results operate in the regime where the data dimensionality is comparable to the sample size, and thus supplement the recent literature on the non-feasibility of locating interesting directions via projection pursuit in the complementary regime where the data dimensionality is much larger than the sample size.
翻訳日:2023-02-27 13:09:37 公開日:2023-02-24
# 免疫療法における臨床予測のためのトランスフォーマーと言語モデル

Boosting Transformers and Language Models for Clinical Prediction in Immunotherapy ( http://arxiv.org/abs/2302.12692v1 )

ライセンス: Link先を確認
Zekai Chen and Mariann Micsinai Balan and Kevin Brown(参考訳) 臨床予測は医療業界で不可欠な課題である。 しかし、大規模な言語モデルが構築された最近のトランスフォーマーの成功は、この領域に拡張されていない。 本研究では,実際の患者の臨床データと分子プロファイルを用いた免疫療法の予後予測におけるトランスフォーマーと言語モデルの利用について検討する。 本稿では,従来の機械学習手法と比較して,トランスフォーマーによる臨床予測の改善の可能性について検討し,まれな疾患領域の予測における数発学習の課題に対処する。 この研究は、複数のがんタイプにわたる予後予測におけるベースラインと言語モデルの有効性をベンチマークし、数ショット体制下で異なる事前訓練された言語モデルの影響を調査する。 その結果,NLPの精度は有意に向上し,臨床研究におけるNLPの早期発見と異なる疾患に対する介入の改善の可能性を強調した。 匿名コードは \url{https://anonymous.4open.science/r/table2text-88ED} で入手できる。

Clinical prediction is an essential task in the healthcare industry. However, the recent success of transformers, on which large language models are built, has not been extended to this domain. In this research, we explore the use of transformers and language models in prognostic prediction for immunotherapy using real-world patients' clinical data and molecular profiles. This paper investigates the potential of transformers to improve clinical prediction compared to conventional machine learning approaches and addresses the challenge of few-shot learning in predicting rare disease areas. The study benchmarks the efficacy of baselines and language models on prognostic prediction across multiple cancer types and investigates the impact of different pretrained language models under few-shot regimes. The results demonstrate significant improvements in accuracy and highlight the potential of NLP in clinical research to improve early detection and intervention for different diseases. Anonymous codes are available at \url{https://anonymous.4open.science/r/table2text-88ED}.
翻訳日:2023-02-27 13:09:19 公開日:2023-02-24
# 機械学習の再現性:用語・勧告・オープン・イシュー

Reproducibility of Machine Learning: Terminology, Recommendations and Open Issues ( http://arxiv.org/abs/2302.12691v1 )

ライセンス: Link先を確認
Riccardo Albertoni and Sara Colantonio and Piotr Skrzypczy\'nski and Jerzy Stefanowski(参考訳) 再現性は、信頼できる人工知能を提供するためのコアディメンジョンの1つです。 広義には、再現性は、同一または類似の実験または方法の再現の可能性として定義することができ、その結果、元の科学者と同一または類似の結果を得られる。 これは科学的手法の重要な要素であり、関連する主張の信頼を得るのに不可欠である。 再現性危機は最近科学者によって認識され、最近の成功の核心にあるモデルの複雑さのために、さらに人工知能と機械学習に影響を与えているように見える。 人工知能の再現性に関する最近の議論にもかかわらず、その実践的実装はまだ不十分である。 本調査では,このトピックに関する現在の文献を批判的にレビューし,オープンイシューを強調する。 私たちの貢献は3倍です。 本稿では,その用語の簡潔な用語学的考察を提案する。 我々は、再現性を達成するための既存の推奨事項を収集し、体系化し、それに従う手段を定めます。 現代の機械学習でよく見過ごされる重要な要素を特定し、それらの新しい推奨事項を提供します。 さらに,これらを生物医学分野と物理分野の2つの重要な応用分野に特化している。

Reproducibility is one of the core dimensions that concur to deliver Trustworthy Artificial Intelligence. Broadly speaking, reproducibility can be defined as the possibility to reproduce the same or a similar experiment or method, thereby obtaining the same or similar results as the original scientists. It is an essential ingredient of the scientific method and crucial for gaining trust in relevant claims. A reproducibility crisis has been recently acknowledged by scientists and this seems to affect even more Artificial Intelligence and Machine Learning, due to the complexity of the models at the core of their recent successes. Notwithstanding the recent debate on Artificial Intelligence reproducibility, its practical implementation is still insufficient, also because many technical issues are overlooked. In this survey, we critically review the current literature on the topic and highlight the open issues. Our contribution is three-fold. We propose a concise terminological review of the terms coming into play. We collect and systematize existing recommendations for achieving reproducibility, putting forth the means to comply with them. We identify key elements often overlooked in modern Machine Learning and provide novel recommendations for them. We further specialize these for two critical application domains, namely the biomedical and physical artificial intelligence fields.
翻訳日:2023-02-27 13:09:05 公開日:2023-02-24
# ganterfactual-rl:視覚相反説明による強化学習エージェントの戦略理解

GANterfactual-RL: Understanding Reinforcement Learning Agents' Strategies through Visual Counterfactual Explanations ( http://arxiv.org/abs/2302.12689v1 )

ライセンス: Link先を確認
Tobias Huber, Maximilian Demmler, Silvan Mertes, Matthew L. Olson, Elisabeth Andr\'e(参考訳) 対物的説明は人工知能モデルを説明する一般的なツールである。 強化学習(rl)エージェントは、エージェントが別のアクションを選択するように、状態への最小限の変更が必要なのかを図示することで、"why not?" や "what if" に答える。 視覚的入力を伴うRLエージェントの対実的説明の生成は、その大きな状態空間と、その決定が長期的な意思決定を含む包括的な政策の一部であるため、特に困難である。 しかし、特に視覚的入力を持つRLエージェントに対する反事実的説明に焦点を当てた研究は乏しく、欠陥のあるエージェントを特定できない。 異なるエージェントの学習戦略の分析や、特定のタスクに適合するエージェントの選択など、カウンターファクトな説明がより複雑なタスクに役立つかどうかは不明だ。 提案手法は,stargan のような逆学習手法を応用可能なドメイン転送問題として問題を定式化することにより,rl エージェントの反事実的説明を生成する手法である。 提案手法は完全にモデルに依存しない手法であり, 計算量測定において, 従来の手法より優れていることを示す。 さらに,異なるエージェントが追求する戦略を分析する際に,本手法が最適であることを示す。

Counterfactual explanations are a common tool to explain artificial intelligence models. For Reinforcement Learning (RL) agents, they answer "Why not?" or "What if?" questions by illustrating what minimal change to a state is needed such that an agent chooses a different action. Generating counterfactual explanations for RL agents with visual input is especially challenging because of their large state spaces and because their decisions are part of an overarching policy, which includes long-term decision-making. However, research focusing on counterfactual explanations, specifically for RL agents with visual input, is scarce and does not go beyond identifying defective agents. It is unclear whether counterfactual explanations are still helpful for more complex tasks like analyzing the learned strategies of different agents or choosing a fitting agent for a specific task. We propose a novel but simple method to generate counterfactual explanations for RL agents by formulating the problem as a domain transfer problem which allows the use of adversarial learning techniques like StarGAN. Our method is fully model-agnostic and we demonstrate that it outperforms the only previous method in several computational metrics. Furthermore, we show in a user study that our method performs best when analyzing which strategies different agents pursue.
翻訳日:2023-02-27 13:08:47 公開日:2023-02-24
# Video4MRI:CNNを用いた脳磁気共鳴画像解析の実証的研究

Video4MRI: An Empirical Study on Brain Magnetic Resonance Image Analytics with CNN-based Video Classification Frameworks ( http://arxiv.org/abs/2302.12688v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Qingzhong Wang, Jiang Bian, Yi Liu, Yanwu Xu, Dejing Dou, Haoyi Xiong(参考訳) 医用画像認識の問題に対処するために、畳み込みニューラルネットワーク(cnn)のようなコンピュータビジョン技術が頻繁に用いられる。 近年,3次元CNNモデルが磁気共鳴画像解析(MRI)の分野を支配している。 1)MRI分類にビデオ認識モデルを直接利用できるか、(2)MRI分類にどのモデルが適しているか、(3)画像認識におけるデータ拡張のような一般的なトリックは、MRI分類にまだ有用か、といった疑問に答えるために、MRI分類のためのビデオ認識技術に関する広範な実証的研究を行っている。 我々の研究は、高度なビデオ技術がMRIの分類に役立つことを示唆している。 本稿では,アルツハイマー病とパーキンソン病の認知に関する4つのデータセットを,ビデオタスクに頻繁に適用される3つの代替ビデオ認識モデルとデータ拡張技術とともに,実験で活用する。 効率の面では、ビデオフレームワークが3d-cnnモデルよりも5%高いパフォーマンスを示し、50%から66%のトレーニング可能なパラメータで11%向上した。 本報告は3次元医用画像と映像理解研究の融合を推し進めるものである。

To address the problem of medical image recognition, computer vision techniques like convolutional neural networks (CNN) are frequently used. Recently, 3D CNN-based models dominate the field of magnetic resonance image (MRI) analytics. Due to the high similarity between MRI data and videos, we conduct extensive empirical studies on video recognition techniques for MRI classification to answer the questions: (1) can we directly use video recognition models for MRI classification, (2) which model is more appropriate for MRI, (3) are the common tricks like data augmentation in video recognition still useful for MRI classification? Our work suggests that advanced video techniques benefit MRI classification. In this paper, four datasets of Alzheimer's and Parkinson's disease recognition are utilized in experiments, together with three alternative video recognition models and data augmentation techniques that are frequently applied to video tasks. In terms of efficiency, the results reveal that the video framework performs better than 3D-CNN models by 5% - 11% with 50% - 66% less trainable parameters. This report pushes forward the potential fusion of 3D medical imaging and video understanding research.
翻訳日:2023-02-27 13:08:25 公開日:2023-02-24
# SPADアレイに統合された固体スピンに基づく高速広視野量子センサ

Fast wide-field quantum sensor based on solid-state spins integrated with a SPAD array ( http://arxiv.org/abs/2302.12743v1 )

ライセンス: Link先を確認
Guoqing Wang, Francesca Madonini, Boning Li, Changhao Li, Jinggang Xiang, Federica Villa, Paola Cappellaro(参考訳) 多数の量子粒子を高速かつ敏感かつ並列に測定することは、センシング、計算、シミュレーション、通信といった様々な量子情報処理アプリケーションのための大規模量子プラットフォームを構築する上で重要な課題である。 CMOSセンサーとCCDカメラに基づく実験原子物理学および光学物理学における現在の量子プラットフォームは、低感度または遅い操作速度によって制限されている。 ここでは、単一光子アバランシェダイオードのアレイとダイヤモンドの固体スピン欠陥を統合し、高速な広視野量子センサを構築し、最大100〜kHzのフレームレートを達成する。 本稿では,量子システムの空間分解イメージングを行う実験装置の設計について述べる。 nvアンサンブルダイヤモンド試料を用いて,直流及び交流磁界の感知,温度,ひずみ,局所スピン密度,電荷ダイナミクスなど,いくつかの応用例が実験的に実証されている。 開発した光子検出アレイは、光学トワイザーに閉じ込められた原子アレイ、光学格子、シリコンのドナー、固体中の希土類イオンなど、他のプラットフォームにも広く適用できる。

Achieving fast, sensitive, and parallel measurement of a large number of quantum particles is an essential task in building large-scale quantum platforms for different quantum information processing applications such as sensing, computation, simulation, and communication. Current quantum platforms in experimental atomic and optical physics based on CMOS sensors and CCD cameras are limited by either low sensitivity or slow operational speed. Here we integrate an array of single-photon avalanche diodes with solid-state spin defects in diamond to build a fast wide-field quantum sensor, achieving a frame rate up to 100~kHz. We present the design of the experimental setup to perform spatially resolved imaging of quantum systems. A few exemplary applications, including sensing DC and AC magnetic fields, temperature, strain, local spin density, and charge dynamics, are experimentally demonstrated using an NV ensemble diamond sample. The developed photon detection array is broadly applicable to other platforms such as atom arrays trapped in optical tweezers, optical lattices, donors in silicon, and rare earth ions in solids.
翻訳日:2023-02-27 13:02:32 公開日:2023-02-24
# 電荷輸送による固体スピン濃度の操作

Manipulating solid-state spin concentration through charge transport ( http://arxiv.org/abs/2302.12742v1 )

ライセンス: Link先を確認
Guoqing Wang, Changhao Li, Hao Tang, Boning Li, Francesca Madonini, Faisal F Alsallom, Won Kyu Calvin Sun, Pai Peng, Federica Villa, Ju Li, Paola Cappellaro(参考訳) 固体スピン欠陥は量子センサーやシミュレータの開発にとって魅力的な候補である。 大きな欠陥アンサンブルにおけるスピンと電荷の自由度は、複雑な多体力学と量子流体力学の出現を探求する有望なプラットフォームである。 しかし、多くの興味深い性質は欠陥の密度の変化によってのみ明らかとなり、通常は物質系で固定される。 より密集した欠陥アンサンブルを作成することで相互作用強度を高めることで、デコヒーレンスも向上する。 理想的には、固定されたデコヒーレンス効果を維持しながら、自発的にスピン濃度を制御したい。 ここでは電荷輸送を利用することにより、電荷輸送と欠陥による捕獲を特徴付けると同時に、この方向への第一歩を踏み出すことができることを示す。 ダイヤモンド中のNV中心のイオン化と再結合の循環過程を利用して、価電子バンドから伝導バンドに電子を励起する。 これらの電荷は物質欠陥の電荷状態を変化させてスピン濃度を変調するために輸送される。 高速単一光子検出器アレイを組み込んだ広視野撮像装置の開発により,マイクロメートルの空間分解能でスピン浴の全スペクトルを計測し,電荷再分配過程の直接的かつ効率的なキャラクタリゼーションを実現する。 我々は、NV中心のT_2$を維持しながら、支配的スピン欠陥の2倍の濃度増加を示すとともに、超微粒子相互作用によるスピンフリップフロップの抑制の潜在的実験的実証も提供する。 我々の研究は、ハイブリッド電荷スピン系における時間的および空間的に調節可能な相互作用強度を用いた多体力学の研究の道を開いた。

Solid-state spin defects are attractive candidates for developing quantum sensors and simulators. The spin and charge degrees of freedom in large defect ensembles are a promising platform to explore complex many-body dynamics and the emergence of quantum hydrodynamics. However, many interesting properties can be revealed only upon changes in the density of defects, which instead is usually fixed in material systems. Increasing the interaction strength by creating denser defect ensembles also brings more decoherence. Ideally one would like to control the spin concentration at will, while keeping fixed decoherence effects. Here we show that by exploiting charge transport, we can take some first steps in this direction, while at the same time characterizing charge transport and its capture by defects. By exploiting the cycling process of ionization and recombination of NV centers in diamonds, we pump electrons from the valence band to the conduction band. These charges are then transported to modulate the spin concentration by changing the charge state of material defects. By developing a wide-field imaging setup integrated with a fast single photon detector array, we achieve a direct and efficient characterization of the charge redistribution process by measuring the complete spectrum of the spin bath with micrometer-scale spatial resolution. We demonstrate the concentration increase of the dominant spin defects by a factor of 2 while keeping the $T_2$ of the NV center, which also provides a potential experimental demonstration of the suppression of spin flip-flops via hyperfine interactions. Our work paves the way to studying many-body dynamics with temporally and spatially tunable interaction strengths in hybrid charge-spin systems.
翻訳日:2023-02-27 13:02:15 公開日:2023-02-24
# パーソナライズ価格のバランス付きオフポリティ評価

Balanced Off-Policy Evaluation for Personalized Pricing ( http://arxiv.org/abs/2302.12736v1 )

ライセンス: Link先を確認
Adam N. Elmachtoub, Vishal Gupta and Yunfan Zhao(参考訳) 我々は,特徴情報,過去の価格決定,二元化需要などからなるデータを有するパーソナライズされた価格問題を考える。 目標は、機能と価格をマッピングするパーソナライズされた価格ポリシーの、外部評価を行うことだ。 逆傾向重み付けに基づく手法(二重ロバストな手法を含む)は、ログポリシーがほとんど探索されていない場合や決定論的でない場合、性能が悪く、価格設定アプリケーションでは一般的である。 Kallus (2018) のバランスの取れた政策評価フレームワークを基盤として、価格アプリケーションに適した新しいアプローチを提案する。 鍵となる考え方は、最悪のケースの平均二乗誤差を最小にするか、または最悪のケースで政策パフォーマンスを最大にするような見積もりを計算することである。 理論的収束保証を確立し、実世界の価格データセットを用いて、我々のアプローチの利点を実証的に実証する。

We consider a personalized pricing problem in which we have data consisting of feature information, historical pricing decisions, and binary realized demand. The goal is to perform off-policy evaluation for a new personalized pricing policy that maps features to prices. Methods based on inverse propensity weighting (including doubly robust methods) for off-policy evaluation may perform poorly when the logging policy has little exploration or is deterministic, which is common in pricing applications. Building on the balanced policy evaluation framework of Kallus (2018), we propose a new approach tailored to pricing applications. The key idea is to compute an estimate that minimizes the worst-case mean squared error or maximizes a worst-case lower bound on policy performance, where in both cases the worst-case is taken with respect to a set of possible revenue functions. We establish theoretical convergence guarantees and empirically demonstrate the advantage of our approach using a real-world pricing dataset.
翻訳日:2023-02-27 13:01:48 公開日:2023-02-24
# 検証不要なフェデレーション学習におけるクライアントの騒音付加制御

Regulating Clients' Noise Adding in Federated Learning without Verification ( http://arxiv.org/abs/2302.12735v1 )

ライセンス: Link先を確認
Shu Hong, Lingjie Duan(参考訳) フェデレーション学習(fl)では、クライアントは生のデータや勾配やパラメータを明かさずにグローバルモデルを協調的に訓練するが、ローカル情報はパラメータサーバに送信されたローカル出力から開示することができる。 このようなプライバシ上の懸念により、クライアントは、グローバルモデルのトレーニングを損なうために、ローカルアップデートに人工的なノイズを過度に追加する可能性がある。 本稿では,サーバが付加ノイズを十分に把握していると仮定する既存のプライバシメカニズムとは異なり,パラメータ更新を検証することなく,プライバシに敏感なクライアントを規制する新たな価格設定機構を提案する。 クライアントの更新パラメータと全クライアントの平均パラメータの差に応じて,グローバルトレーニングエラーとプライバシ損失のバランスを最善とするために,本機構は社会的に最適なものとなる。 また,サーバのアグリゲーションルールを改良し,異なるクライアントのノイズ分散を考慮したFL収束を改善する。 さらに,ユーザのプライバシ感受性に関する不完全な情報に適合するように価格体系を拡張し,真正なタイプ報告とシステム以前の予算バランスを確保する。 シミュレーションにより,クライアントが多様なプライバシ感を持つ場合,価格体系がシステム性能を大幅に向上することが示された。

In federated learning (FL), clients cooperatively train a global model without revealing their raw data but gradients or parameters, while the local information can still be disclosed from local outputs transmitted to the parameter server. With such privacy concerns, a client may overly add artificial noise to his local updates to compromise the global model training, and we prove the selfish noise adding leads to an infinite price of anarchy (PoA). This paper proposes a novel pricing mechanism to regulate privacy-sensitive clients without verifying their parameter updates, unlike existing privacy mechanisms that assume the server's full knowledge of added noise. Without knowing the ground truth, our mechanism reaches the social optimum to best balance the global training error and privacy loss, according to the difference between a client's updated parameter and all clients' average parameter. We also improve the FL convergence bound by refining the aggregation rule at the server to account for different clients' noise variances. Moreover, we extend our pricing scheme to fit incomplete information of clients' privacy sensitivities, ensuring their truthful type reporting and the system's ex-ante budget balance. Simulations show that our pricing scheme greatly improves the system performance especially when clients have diverse privacy sensitivities.
翻訳日:2023-02-27 13:01:29 公開日:2023-02-24
# 貯留層に基づく単原子ツイーザアレイの定性負荷

Reservoir-based deterministic loading of single-atom tweezer arrays ( http://arxiv.org/abs/2302.12730v1 )

ライセンス: Link先を確認
Lars Pause, Tilman Preuschoff, Dominik Sch\"affer, Malte Schlosser, and Gerhard Birkl(参考訳) 現在最先端の個々のトウィーザープラットフォームは、トウィーザーレジスタを事前に生成した冷たい原子の雲で空間的に重畳するロードスキームに依存している。 差し迫った原子損失とともに、磁気光学トラップとレーザー冷却の時間消費位相がアプリケーションシーケンスと入れ替わる必要があるため、データレートが劇的に制限される。 本稿では,追加の冷原子貯留層と,量子登録操作から冷原子蓄積と単一原子供給を効果的に分離するバッファトラップを用いたモジュール方式を提案する。 この目的のために,マイクロレンズを用いたtweezerアレイと,補助大焦点双極子トラップに保持されるレーザー冷却原子の雲を,専用単一原子供給のための原子輸送とバッファトラップを用いて接続する。 本研究では,貯水池トラップのみ由来の原子を含むヘキサゴナルターゲット構造の決定論的負荷を示す。 その結果、データレートの向上と量子科学における個々の原子ツイーザーアレイの連続的な操作への道の開きが、並列かつ空間的に分離された独立した機能モジュールを用いて行われる。

State-of-the-art individual-atom tweezer platforms so far rely on loading schemes based on spatially superimposing the tweezer register with a cloud of cold atoms created beforehand. Together with imminent atom loss, this dramatically limits the data rate as time-consuming phases of magneto-optical trapping and laser cooling have to be alternated with the application sequence. We introduce a modular scheme built on an additional cold-atom reservoir and an array of buffer traps effectively decoupling the cold-atom accumulation and single-atom supply from the quantum-register operation. For this purpose, we connect a microlens-based tweezer array to a cloud of laser-cooled atoms held in an auxiliary large-focus dipole trap by utilizing atom transport and buffer traps for dedicated single-atom supply. We demonstrate deterministic loading of a hexagonal target structure with atoms solely originating from the reservoir trap. The results facilitate increased data rates and unlock a path to continuous operation of individual-atom tweezer arrays in quantum science making use of discrete functional modules, operated in parallel and spatially separated.
翻訳日:2023-02-27 13:01:06 公開日:2023-02-24
# 近接量子デバイスにおけるWigner状態とプロセストモグラフィ

Wigner State and Process Tomography on Near-Term Quantum Devices ( http://arxiv.org/abs/2302.12725v1 )

ライセンス: Link先を確認
Amit Devra, Niklas J. Glaser, Dennis Huber, Steffen J. Glaser(参考訳) 短期量子デバイスに対する走査型トモグラフィーの実験的アプローチを提案する。 量子状態と演算子のウィグナー型表現に基づいている。 これらの表現は、球面高調波の線形結合から組み立てられた形状を用いて量子作用素のリッチな可視化を提供する。 これらの形状(後述の滴と呼ばれる)は回転軸テンソル作用素の期待値を測定することで実験的にトモグラフィすることができる。 本研究では、任意の状態のウィグナートモグラフィ理論と、汎用純粋状態量子コンピュータの場合の既知のユニタリ過程のウィグナートモグラフィーを再構成する。 本稿では,回路ベースの量子コンピュータのための走査型トモグラフィー技術の実装のための実験フレームワークについて述べる。 また,実験的なトモグラフ付きウィグナー関数(ドロップレット)から密度とプロセス行列を推定する手法を提案する。 このトモグラフィーアプローチはpythonベースのソフトウェアパッケージである$\texttt{dropstomo}$を使って直接実装できる。

We present an experimental scanning-based tomography approach for near-term quantum devices. It is based on a Wigner-type representation of quantum states and operators. These representations provide a rich visualization of quantum operators using shapes assembled from a linear combination of spherical harmonics. These shapes (called droplets in the following) can be experimentally tomographed by measuring the expectation values of rotated axial tensor operators. This study provides a reformulation of the theory of Wigner tomography of arbitrary states and Wigner tomography of known unitary processes for the case of a general-purpose pure-state quantum computer. We present an experimental framework for implementing the scanning-based tomography technique for circuit-based quantum computers and showcase results from IBM quantum experience. We also present a method for estimating the density and process matrices from experimentally tomographed Wigner functions (droplets). This tomography approach can be directly implemented using the Python-based software package $\texttt{DROPStomo}$.
翻訳日:2023-02-27 13:00:44 公開日:2023-02-24
# LightTS: 適応型アンサンブル蒸留による軽量時系列分類 - 拡張バージョン

LightTS: Lightweight Time Series Classification with Adaptive Ensemble Distillation -- Extended Version ( http://arxiv.org/abs/2302.12721v1 )

ライセンス: Link先を確認
David Campos, Miao Zhang, Bin Yang, Tung Kieu, Chenjuan Guo, Christian S. Jensen(参考訳) プロセスの徹底的なデジタル化により、膨大な時系列データが作成されている。 このような時系列の正確な分類は、複数の領域における意思決定を促進する。 最先端の分類精度は、複数のベースモデルから結果を合成するアンサンブル学習によって達成されることが多い。 この特徴は、アンサンブル学習が相当な計算資源を必要とし、エッジデバイスのようなリソース制限された環境での使用を防ぐことを意味する。 アンサンブル学習の適用性を高めるため,競争精度を確保しつつ,大規模なアンサンブルを軽量モデルに圧縮するLightTSフレームワークを提案する。 まず,異なるベースモデルに適応重みを割り当てる適応型アンサンブル蒸留法を提案する。 次に,パレート最適設定w.r.t.モデル精度とモデルサイズを識別する手法を提案する。 我々は,LightTSの設計における重要な決定を正当化する128の実世界の時系列セットと,異なるタイプのベースモデルを用いた実験について報告し,LightTSが競合より優れていることを示す。

Due to the sweeping digitalization of processes, increasingly vast amounts of time series data are being produced. Accurate classification of such time series facilitates decision making in multiple domains. State-of-the-art classification accuracy is often achieved by ensemble learning where results are synthesized from multiple base models. This characteristic implies that ensemble learning needs substantial computing resources, preventing their use in resource-limited environments, such as in edge devices. To extend the applicability of ensemble learning, we propose the LightTS framework that compresses large ensembles into lightweight models while ensuring competitive accuracy. First, we propose adaptive ensemble distillation that assigns adaptive weights to different base models such that their varying classification capabilities contribute purposefully to the training of the lightweight model. Second, we propose means of identifying Pareto optimal settings w.r.t. model accuracy and model size, thus enabling users with a space budget to select the most accurate lightweight model. We report on experiments using 128 real-world time series sets and different types of base models that justify key decisions in the design of LightTS and provide evidence that LightTS is able to outperform competitors.
翻訳日:2023-02-27 13:00:29 公開日:2023-02-24
# $\phi$-mixingデータに基づく確率勾配法による統計的推測

Statistical Inference with Stochastic Gradient Methods under $\phi$-mixing Data ( http://arxiv.org/abs/2302.12717v1 )

ライセンス: Link先を確認
Ruiqi Liu, Xi Chen, Zuofeng Shang(参考訳) 確率勾配降下(sgd)は大規模データセットとストリームデータに対するスケーラブルでメモリ効率のよい最適化アルゴリズムであり、多くの注目と人気を集めている。 間隔推定などの統計的推測へのSGDに基づく推定法の応用も大きな成功を収めた。 しかし、関連する研究の多くは、i.d.観測やマルコフ連鎖に基づいている。 観測が混合時系列から来るとき、妥当な統計推論の方法はまだ未定である。 実のところ、観測間の一般的な相関は、間隔推定に課題を課している。 既存の手法はこの相関を無視し、不確実な信頼区間につながる。 本稿では,データが$\phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。 信頼区間は、関連するミニバッチブートストラップSGD手順を用いて構成される。 そこで, \cite{yu1994rates} の `independent block'' トリックを用いて,提案する推定器は漸近的に正規であり,その制限分布はブートストラップ法によって効果的に近似できることを示す。 提案手法はメモリ効率が高く,実装が容易である。 合成データに関するシミュレーション研究と実世界のデータセットへの応用により,この理論が裏付けられる。

Stochastic gradient descent (SGD) is a scalable and memory-efficient optimization algorithm for large datasets and stream data, which has drawn a great deal of attention and popularity. The applications of SGD-based estimators to statistical inference such as interval estimation have also achieved great success. However, most of the related works are based on i.i.d. observations or Markov chains. When the observations come from a mixing time series, how to conduct valid statistical inference remains unexplored. As a matter of fact, the general correlation among observations imposes a challenge on interval estimation. Most existing methods may ignore this correlation and lead to invalid confidence intervals. In this paper, we propose a mini-batch SGD estimator for statistical inference when the data is $\phi$-mixing. The confidence intervals are constructed using an associated mini-batch bootstrap SGD procedure. Using ``independent block'' trick from \cite{yu1994rates}, we show that the proposed estimator is asymptotically normal, and its limiting distribution can be effectively approximated by the bootstrap procedure. The proposed method is memory-efficient and easy to implement in practice. Simulation studies on synthetic data and an application to a real-world dataset confirm our theory.
翻訳日:2023-02-27 12:59:51 公開日:2023-02-24
# 話者ダイアリゼーションのためのグラフニューラルネットワークを用いた階層クラスタリング

Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization ( http://arxiv.org/abs/2302.12716v1 )

ライセンス: Link先を確認
Prachi Singh, Amrit Kaul, Sriram Ganapathy(参考訳) 従来の話者ダイアリゼーション手法では、オーディオファイルを短いセグメントにウィンドウ化して話者埋め込みを抽出し、次いで教師なしのクラスタリングを行う。 この多段階アプローチは各セグメントの話者割当を生成する。 本稿では,教師付きクラスタリングを行うために,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。 モデルが表現を更新し、クラスタリングのパフォーマンスを直接改善することで、ダイアリゼーションのための単一ステップのアプローチが可能になる。 提案手法では,入力セグメントの埋め込みを,ノード間の類似点に対応するエッジ重み付きグラフのノードとして扱う。 また,埋め込み抽出器とGNNモデルを併用してエンドツーエンド話者ダイアリゼーション(E2E-SHARC)を行う手法を提案する。 推論中、ノード密度とエッジ存在確率を用いて階層的クラスタリングを行い、収束するまでセグメントをマージする。 ダイアリゼーション実験では,提案手法がamiやvoxconverseといったベンチマークデータセットのベースラインシステムに対して,それぞれ53%と44%の相対的な改善を達成していることを示す。

Conventional methods for speaker diarization involve windowing an audio file into short segments to extract speaker embeddings, followed by an unsupervised clustering of the embeddings. This multi-step approach generates speaker assignments for each segment. In this paper, we propose a novel Supervised HierArchical gRaph Clustering algorithm (SHARC) for speaker diarization where we introduce a hierarchical structure using Graph Neural Network (GNN) to perform supervised clustering. The supervision allows the model to update the representations and directly improve the clustering performance, thus enabling a single-step approach for diarization. In the proposed work, the input segment embeddings are treated as nodes of a graph with the edge weights corresponding to the similarity scores between the nodes. We also propose an approach to jointly update the embedding extractor and the GNN model to perform end-to-end speaker diarization (E2E-SHARC). During inference, the hierarchical clustering is performed using node densities and edge existence probabilities to merge the segments until convergence. In the diarization experiments, we illustrate that the proposed E2E-SHARC approach achieves 53% and 44% relative improvements over the baseline systems on benchmark datasets like AMI and Voxconverse, respectively.
翻訳日:2023-02-27 12:59:35 公開日:2023-02-24
# マルチモーダル画像合成のための事前学習拡散モデル

Modulating Pretrained Diffusion Models for Multimodal Image Synthesis ( http://arxiv.org/abs/2302.12764v1 )

ライセンス: Link先を確認
Cusuh Ham, James Hays, Jingwan Lu, Krishna Kumar Singh, Zhifei Zhang, Tobias Hinz(参考訳) 事前学習した拡散モデルを用いて条件付き画像合成を可能にするマルチモーダルコンディショニングモジュール(MCM)を提案する。 これまでのマルチモーダル合成作業は、スクラッチや微調整済みネットワークからのトレーニングネットワークに依存しており、どちらも大規模で最先端の拡散モデルでは計算コストがかかる。 本手法は事前訓練ネットワークを用いるが,拡散ネットワークのパラメータの更新は不要である。 MCMは、拡散モデルのオリジナルの訓練中に見つからなかった2Dモーダル(セマンティックセグメンテーションマップ、スケッチなど)を用いて、サンプリング中に拡散ネットワークの予測を変調する訓練を受けた小さなモジュールである。 その結果,mcmは画像の空間配置をユーザが制御でき,画像生成プロセスの制御性が向上することがわかった。 mcmのトレーニングは、元の拡散ネットからの勾配を必要としないため安価であり、ベース拡散モデルのパラメータの数のわずか$\sim$$$%$であり、限られた数のトレーニング例のみを使用してトレーニングされる。 本手法は,無条件およびテキスト条件モデルに関する評価を行い,生成画像の制御と条件付け入力に対するアライメントの改善を実証する。

We present multimodal conditioning modules (MCM) for enabling conditional image synthesis using pretrained diffusion models. Previous multimodal synthesis works rely on training networks from scratch or fine-tuning pretrained networks, both of which are computationally expensive for large, state-of-the-art diffusion models. Our method uses pretrained networks but does not require any updates to the diffusion network's parameters. MCM is a small module trained to modulate the diffusion network's predictions during sampling using 2D modalities (e.g., semantic segmentation maps, sketches) that were unseen during the original training of the diffusion model. We show that MCM enables user control over the spatial layout of the image and leads to increased control over the image generation process. Training MCM is cheap as it does not require gradients from the original diffusion net, consists of only $\sim$1$\%$ of the number of parameters of the base diffusion model, and is trained using only a limited number of training examples. We evaluate our method on unconditional and text-conditional models to demonstrate the improved control over the generated images and their alignment with respect to the conditioning inputs.
翻訳日:2023-02-27 12:52:42 公開日:2023-02-24
# 動的ソーシャルネットワークにおけるコミュニティ追跡のためのモジュラリティに基づくアプローチ

Modularity-based approach for tracking communities in dynamic social networks ( http://arxiv.org/abs/2302.12759v1 )

ライセンス: Link先を確認
Michele Mazza, Guglielmo Cola, Maurizio Tesconi(参考訳) コミュニティ検出は、ソーシャルネットワーク分析における基本的なタスクである。 オンラインソーシャルネットワークは、ユーザ間のインタラクションのボリュームとスピードを劇的に増加させ、これらのダイナミクスの高度な分析を可能にした。 現実世界のソーシャルネットワークにおけるユーザグループの進化を追跡することへの関心が高まっているが、ほとんどのコミュニティ検出は静的ネットワーク内のコミュニティに焦点を当てている。 本稿では,コミュニティ毎に一連の重要なイベントを識別する動的ネットワークにおける,コミュニティの経時的追跡のためのフレームワークについて述べる。 この目的のために,動的コミュニティを効果的に検出し追跡するためのモジュラリティベースの戦略が提案されている。 組込みイベントを含む合成ネットワークの広範な実験により,本フレームワークの可能性を示す。 その結果、私たちのフレームワークは他の最先端のメソッドよりも優れています。 さらに、提案手法が、2020年を通じて500万以上のツイートを投稿した6万人以上のユーザからなるtwitterネットワーク内の動的コミュニティを、どのように特定できるかを簡単に検討する。 提案フレームワークは,異なるソーシャルネットワークに適用可能であり,動的ソーシャルネットワークにおけるコミュニティの進化を理解する貴重なツールを提供する。

Community detection is a fundamental task in social network analysis. Online social networks have dramatically increased the volume and speed of interactions among users, enabling advanced analysis of these dynamics. Despite a growing interest in tracking the evolution of groups of users in real-world social networks, most community detection efforts focus on communities within static networks. Here, we describe a framework for tracking communities over time in a dynamic network, where a series of significant events is identified for each community. To this end, a modularity-based strategy is proposed to effectively detect and track dynamic communities. The potential of our framework is shown by conducting extensive experiments on synthetic networks containing embedded events. Results indicate that our framework outperforms other state-of-the-art methods. In addition, we briefly explore how the proposed approach can identify dynamic communities in a Twitter network composed of more than 60,000 users, which posted over 5 million tweets throughout 2020. The proposed framework can be applied to different social network and provides a valuable tool to understand the evolution of communities in dynamic social networks.
翻訳日:2023-02-27 12:52:22 公開日:2023-02-24
# 層別特徴解析によるバックドア攻撃に対する防御

Defending Against Backdoor Attacks by Layer-wise Feature Analysis ( http://arxiv.org/abs/2302.12758v1 )

ライセンス: Link先を確認
Najeeb Moharram Jebreel, Josep Domingo-Ferrer, Yiming Li(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは通常、大量のトレーニングデータと計算リソースを必要とする。 これを提供する余裕のないユーザは、サードパーティにトレーニングをアウトソースするか、あるいは一般公開済みの事前トレーニングモデルに頼ることを好む。 残念ながら、これはDNNに対する新たな訓練時間攻撃(バックドア攻撃)を促進する。 この攻撃は、敵特定トリガーパターンを含む入力サンプルの誤分類を誘導することを目的としている。 本稿では,まずターゲットクラスから採取した有毒・良性試料の層別特徴解析を行う。 良性試料と有毒試料の特徴差は臨界層で最大となる傾向にあり、これは必ずしも既存の防衛、すなわち完全に接続された層よりも前の層で使用されるものではない。 また,良性試料の挙動に基づいて,この臨界層を同定する方法を示す。 次に, 臨界層における不審試料と良性試料の特徴差を解析し, 簡易かつ効果的に汚染試料を濾過する方法を提案する。 2つのベンチマークデータセットで広範な実験を行い、防衛の有効性を確認した。

Training deep neural networks (DNNs) usually requires massive training data and computational resources. Users who cannot afford this may prefer to outsource training to a third party or resort to publicly available pre-trained models. Unfortunately, doing so facilitates a new training-time attack (i.e., backdoor attack) against DNNs. This attack aims to induce misclassification of input samples containing adversary-specified trigger patterns. In this paper, we first conduct a layer-wise feature analysis of poisoned and benign samples from the target class. We find out that the feature difference between benign and poisoned samples tends to be maximum at a critical layer, which is not always the one typically used in existing defenses, namely the layer before fully-connected layers. We also demonstrate how to locate this critical layer based on the behaviors of benign samples. We then propose a simple yet effective method to filter poisoned samples by analyzing the feature differences between suspicious and benign samples at the critical layer. We conduct extensive experiments on two benchmark datasets, which confirm the effectiveness of our defense.
翻訳日:2023-02-27 12:52:06 公開日:2023-02-24
# 自己教師付き音声モデルのアンサンブル知識蒸留

Ensemble knowledge distillation of self-supervised speech models ( http://arxiv.org/abs/2302.12757v1 )

ライセンス: Link先を確認
Kuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen, Wei-Cheng Tseng, Kai-Wei Chang, Hung-yi Lee(参考訳) 近年,蒸留自己監督モデルが競争性と効率性を示している。 しかし,複数の自己教師型音声モデルを共同蒸留する経験は乏しい。 本研究では,HuBERT,RobustHuBERT,WavLMなどの自己教師型音声モデルを用いて,EKD(Ensemble Knowledge Distillation)を行った。 我々は,教師モデルの表現に対して,階層平均と階層平均の2つの異なる集約手法を試みた。 その上で,複数の教師モデルの異なる層出力を同時に予測する,生徒モデルに対する多重予測ヘッド法を提案する。 実験の結果,SUPERBベンチマークの隠れたトラックにおいて,音素認識,話者識別,感情認識,自動音声認識の4つの下流音声処理タスクにおける蒸留モデルの性能が向上することが示された。

Distilled self-supervised models have shown competitive performance and efficiency in recent years. However, there is a lack of experience in jointly distilling multiple self-supervised speech models. In our work, we performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech models such as HuBERT, RobustHuBERT, and WavLM. We tried two different aggregation techniques, layerwise-average and layerwise-concatenation, to the representations of different teacher models and found that the former was more effective. On top of that, we proposed a multiple prediction head method for student models to predict different layer outputs of multiple teacher models simultaneously. The experimental results show that our method improves the performance of the distilled models on four downstream speech processing tasks, Phoneme Recognition, Speaker Identification, Emotion Recognition, and Automatic Speech Recognition in the hidden-set track of the SUPERB benchmark.
翻訳日:2023-02-27 12:51:50 公開日:2023-02-24
# ダイヤモンド中の窒素空孔中心による暗黒物質探索

Light Dark Matter Search with Nitrogen-Vacancy Centers in Diamonds ( http://arxiv.org/abs/2302.12756v1 )

ライセンス: Link先を確認
So Chigusa, Masashi Hazumi, Ernst David Herbschleb, Norikazu Mizuochi, Kazunori Nakayama(参考訳) 本研究では, ダイヤモンド中の窒素空孔中心を持つ磁気計を用いて, アクシオンやダーク光子などの暗黒物質を直接探索する手法を提案する。 ダークマターが電子スピンに結合すると、スピン三重項状態からなるブロッホベクトルの進化に影響を及ぼし、いくつかの磁気計測技術によって検出される。 ダークマター結合に対する感度を推定するために, dc と ac 磁気量計を用いていくつかの具体例を示す。

We propose new ideas to directly search for light dark matter, such as the axion or the dark photon, by using magnetometry with nitrogen-vacancy centers in diamonds. If the dark matter couples to the electron spin, it affects the evolution of the Bloch vectors consisting of the spin triplet states, which may be detected through several magnetometry techniques. We give several concrete examples with the use of dc and ac magnetometry and estimate the sensitivity on dark matter couplings.
翻訳日:2023-02-27 12:51:37 公開日:2023-02-24
# 仮想量子プロセッサに基づく一様量子コンピューティングモデル

A Uniform Quantum Computing Model Based on Virtual Quantum Processors ( http://arxiv.org/abs/2302.12750v1 )

ライセンス: Link先を確認
George Gesek(参考訳) 量子コンピュータは、完全に実現され、コンピューティングパワーの指数関数的な増加を表すことができる。 しかし、現在の量子コンピュータの計算能力は、NISQ(Noisy Internediate Scale Quantum)と呼ばれ、環境と固有のノイズ、および量子ビット間の接続性が総量に比べて非常に低いため、著しく制限されている。 本稿では,量子コンピューティングハードウェアの論理バージョンとして機能する汎用ハイブリッド量子マシンをエミュレートする仮想量子プロセッサを提案する。 このハイブリッド古典量子マシンは、将来のネイティブ量子プロセッサで置換可能な量子論理計算を利用する。

Quantum Computers, one fully realized, can represent an exponential boost in computing power. However, the computational power of the current quantum computers, referred to as Noisy Internediate Scale Quantum, or NISQ, is severely limited because of environmental and intrinsic noise, as well as the very low connectivity between qubits compared to their total amount. We propose a virtual quantum processor that emulates a generic hybrid quantum machine which can serve as a logical version of quantum computing hardware. This hybrid classical quantum machine powers quantum-logical computations which are substitutable by future native quantum processors.
翻訳日:2023-02-27 12:51:27 公開日:2023-02-24
# survivalgan:サバイバル分析のためのイベント時間データ生成

SurvivalGAN: Generating Time-to-Event Data for Survival Analysis ( http://arxiv.org/abs/2302.12749v1 )

ライセンス: Link先を確認
Alexander Norcliffe, Bogdan Cebere, Fergus Imrie, Pietro Lio, Mihaela van der Schaar(参考訳) 合成データはますます有望な技術になりつつあり、成功しているアプリケーションは、プライバシー、公正性、データの民主化を改善することができる。 合成表データを生成する方法は数多く存在するが、特定のシナリオではタスクは自明で未調査のままである。 そのようなシナリオのひとつが生存データである。 いくつかの例では、私たちはイベントの時間や、1つが発生したかどうかを意識していません。 検閲と時間軸の不均衡は、生成モデルがサバイバル解析に特有の3つの新しい障害モードを経験させる:(1) リスクメンバーが少なすぎる、(2) リスクメンバーが多すぎる、(3) 検閲が早すぎる、の3つである。 これらの障害モードを形式化し、3つの新しい生成指標を提供して定量化します。 次に,SurvivalGANを提案する。SurvivalGANは,まず,検閲やイベントの地平線における不均衡に対処し,次に,時間対イベント/検閲を近似するための専用メカニズムを用いて生存データを処理する。 本手法は医療データセットの広範な実験を通じて評価する。 SurvivalGANは、サバイバルデータの生成において複数のベースラインを上回り、特に新しいメトリクスによって測定された障害モードに対処すると同時に、合成データに基づいてトレーニングされたサバイバルモデルの下流性能を改善する。

Synthetic data is becoming an increasingly promising technology, and successful applications can improve privacy, fairness, and data democratization. While there are many methods for generating synthetic tabular data, the task remains non-trivial and unexplored for specific scenarios. One such scenario is survival data. Here, the key difficulty is censoring: for some instances, we are not aware of the time of event, or if one even occurred. Imbalances in censoring and time horizons cause generative models to experience three new failure modes specific to survival analysis: (1) generating too few at-risk members; (2) generating too many at-risk members; and (3) censoring too early. We formalize these failure modes and provide three new generative metrics to quantify them. Following this, we propose SurvivalGAN, a generative model that handles survival data firstly by addressing the imbalance in the censoring and event horizons, and secondly by using a dedicated mechanism for approximating time-to-event/censoring. We evaluate this method via extensive experiments on medical datasets. SurvivalGAN outperforms multiple baselines at generating survival data, and in particular addresses the failure modes as measured by the new metrics, in addition to improving downstream performance of survival models trained on the synthetic data.
翻訳日:2023-02-27 12:51:16 公開日:2023-02-24
# 部分識別可能な光子間の幾何位相を用いた非局所性の生成

Creating nonlocality using geometric phases between partially distinguishable photons ( http://arxiv.org/abs/2302.12748v1 )

ライセンス: Link先を確認
Valentin Gebhart(参考訳) 幾何学的(ベリー・パンチャラトナム)相は、量子状態の空間の内在幾何学に由来するもので、量子系の循環進化のような異なる状況で観測することができる。 ここでは、部分的に識別可能な光子の集合に付随する幾何学的位相を用いて、環状干渉計に干渉する独立した光子源から非局所相関を生成する。 重要なことに、干渉計は固定されており、内部位相シフトやその後の測定設定がない。 代わりに、異なるパーティの測定選択は、幾何学的位相を介して観測された相関に影響を与える入力光子の内部状態に対応し、非局所性の生成に対する全く新しいアプローチを構成する。 さらに、独立な単光子入力を持つ任意の固定干渉計において、内部光子状態間の非自明な幾何因子が非局所相関を生成する必要があることを示した。 幾何学的位相と多光子干渉の可視性との間のトレードオフを観察し、非局所性の発生を妨げる。 しかし、動的量子ゼノ効果を用いることで、12ドル(またはそれ以上)の独立光子を用いて固定環状干渉計で非局所性が生成できることが示される。

The geometric (Berry-Pancharatnam) phase originates from the intrinsic geometry of the space of quantum states and can be observed in different situations, such as a cyclic evolution of a quantum system. Here, we utilize the geometric phase that is associated with a collection of partially distinguishable photons, to create nonlocal correlations from independent photon sources that interfere in a cyclic interferometer. Crucially, the interferometer is fixed, i.e., it has no variable internal phase shifts or subsequent measurement settings. Instead, the measurement choices of the different parties correspond to the internal states of the input photons which influence the observed correlations via the geometric phase, constituting a completely new approach to the generation of nonlocality. Further, we show that in any fixed interferometer with independent single-photon inputs, nontrivial geometric factors between the internal photon states are necessary to create nonlocal correlations. We observe a trade-off between the geometric phases and the visibility of the many-photon interference, impeding the generation of nonlocality. However, by making use of the dynamical quantum Zeno effect, we show that nonlocality can be created in the fixed cyclic interferometer using $12$ (or more) independent photons.
翻訳日:2023-02-27 12:50:54 公開日:2023-02-24
# スペイン語構築 Factual Freectianary (スペイン語-BFF):最初のIA生成自由辞書

Spanish Built Factual Freectianary (Spanish-BFF): the first IA-generated free dictionary ( http://arxiv.org/abs/2302.12746v1 )

ライセンス: Link先を確認
\'Oscar Garc\'ia Sierra, Miguel Ortega-Mart\'in, Alfonso Ardoiz, Juan Carlos Armenteros, Jorge \'Alvarez and Adri\'an Alonso(参考訳) 辞書は最も古く、最も使われている言語資源の1つである。 それらを構築することは、私たちの知る限りでは、生成的大規模言語モデル(LLM)ではまだ検討されていない複雑なタスクです。 スペインでは、最初のIA生成辞書として「スペイン構築Factual Freectianary」(スペイン語-BFF)を導入している。 この最初のフリー辞書はGPT-3を使用している。 また、さらなる言語など、この分野へのこの最初のコミットメントを改善するために、これから続くステップを定義します。

Dictionaries are one of the oldest and most used linguistic resources. Building them is a complex task that, to the best of our knowledge, has yet to be explored with generative Large Language Models (LLMs). We introduce the "Spanish Built Factual Freectianary" (Spanish-BFF) as the first Spanish IA-generated dictionary. This first-of-its-kind free dictionary uses GPT-3. We also define future steps we aim to follow to improve this initial commitment to the field, such as more additional languages.
翻訳日:2023-02-27 12:50:31 公開日:2023-02-24
# 予測されたトロポミno2検索からの逸脱による異常出船の検出

Detection of anomalously emitting ships through deviations from predicted TROPOMI NO2 retrievals ( http://arxiv.org/abs/2302.12744v1 )

ライセンス: Link先を確認
Solomiia Kurchaba, Jasper van Vliet, Fons J. Verbeek, Cor J. Veenman(参考訳) 2021年からは、北海およびバルト海の船舶に対してより要求の高い$\text{NO}_\text{x}$の排出制限が導入されている。 船舶コンプライアンス監視に現在使われているすべての手法は、財政的・時間的に要求されているため、非コンプライアンスの可能性が高い船舶の検査を優先することが重要である。 大規模船舶に対する現在の最先端のアプローチである$\text{NO}_\text{2}$ Estimationは、ROPOMI画像上の船のプルームの教師付き機械学習に基づくセグメンテーションである。 しかしながら、バリデーションに使用されるデータアノテーションと不十分な複雑な船舶排出プロキシは、船舶コンプライアンス監視モデルの適用性を制限する。 本研究では,TROPOMI/S5P衛星データに基づく機械学習モデルを組み合わせて,非準拠船の自動選択手法を提案する。 これは、与えられた大気条件で動作する特定の特性を持つ船によって生成されると期待される$\text{no}_\text{2}$の量を予測する回帰モデルに基づいている。 モデルは手動ラベリングを必要とせず、直接ROPOMIデータで検証される。 生成された$\text{no}_\text{2}$の予測値と実際の値の差は、同じ船の異なる観測結果と時間的に統合され、船の検査価値の尺度として使用される。 結果のロバスト性を保証するために,得られた結果をセグメント化に基づく結果と比較する。 セグメンテーション法に従って高度に逸脱している船には、さらなる注意が必要である。 TROPOMIデータをチェックすることで他の説明が見つからない場合、各船は検査の候補となるよう助言される。

Starting from 2021, more demanding $\text{NO}_\text{x}$ emission restrictions were introduced for ships operating in the North and Baltic Sea waters. Since all methods currently used for ship compliance monitoring are financially and time demanding, it is important to prioritize the inspection of ships that have high chances of being non-compliant. The current state-of-the-art approach for a large-scale ship $\text{NO}_\text{2}$ estimation is a supervised machine learning-based segmentation of ship plumes on TROPOMI images. However, challenging data annotation and insufficiently complex ship emission proxy used for the validation limit the applicability of the model for ship compliance monitoring. In this study, we present a method for the automated selection of potentially non-compliant ships using a combination of machine learning models on TROPOMI/S5P satellite data. It is based on a proposed regression model predicting the amount of $\text{NO}_\text{2}$ that is expected to be produced by a ship with certain properties operating in the given atmospheric conditions. The model does not require manual labeling and is validated with TROPOMI data directly. The differences between the predicted and actual amount of produced $\text{NO}_\text{2}$ are integrated over different observations of the same ship in time and are used as a measure of the inspection worthiness of a ship. To assure the robustness of the results, we compare the obtained results with the results of the previously developed segmentation-based method. Ships that are also highly deviating in accordance with the segmentation method require further attention. If no other explanations can be found by checking the TROPOMI data, the respective ships are advised to be the candidates for inspection.
翻訳日:2023-02-27 12:50:23 公開日:2023-02-24
# 事実を確認してもう一度試す - 外部知識と自動フィードバックによる大規模言語モデルの改善

Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback ( http://arxiv.org/abs/2302.12813v1 )

ライセンス: Link先を確認
Baolin Peng and Michel Galley and Pengcheng He and Hao Cheng and Yujia Xie and Yu Hu and Qiuyuan Huang and Lars Liden and Zhou Yu and Weizhu Chen and Jianfeng Gao(参考訳) ChatGPTのような大規模言語モデル(LLM)は、タスク指向のダイアログや質問応答など、多くの下流タスクに対して、人間のような流動的な応答を生成することができる。 しかし,LLMを実世界のミッションクリティカルな応用に適用することは,主に幻覚を発生させる傾向と外部知識を利用できないために困難であり,プラグイン・アンド・プレイモジュールのセットでブラックボックスLLMを増強するLLM-Augmenterシステムを提案する。 本システムでは,タスク固有のデータベースに格納された外部知識に基づく応答をllmが生成する。 また、LCMが生成した応答の事実性スコアなどのユーティリティ関数によって生成されるフィードバックを用いて、LCMプロンプトを反復的に改善する。 LLM-Augmenterの有効性は、2種類のミッションクリティカルなシナリオ、タスク指向対話とオープンドメイン質問応答で実証的に検証されている。 LLM-AugmenterはChatGPTの幻覚を、その周波数と応答の伝達性を犠牲にすることなく著しく減少させる。 ソースコードとモデルを公開しています。

Large language models (LLMs), such as ChatGPT, are able to generate human-like, fluent responses for many downstream tasks, e.g., task-oriented dialog and question answering. However, applying LLMs to real-world, mission-critical applications remains challenging mainly due to their tendency to generate hallucinations and inability to use external knowledge.This paper proposes a LLM-Augmenter system, which augments a black-box LLM with a set of plug-and-play modules. Our system makes the LLM generate responses grounded in consolidated external knowledge, e.g., stored in task-specific databases. It also iteratively revises LLM prompts to improve model responses using feedback generated by utility functions, e.g., the factuality score of a LLM-generated response. The effectiveness of LLM-Augmenter is empirically validated on two types of mission-critical scenarios, task-oriented dialog and open-domain question answering. LLM-Augmenter significantly reduces ChatGPT's hallucinations without sacrificing the fluency and informativeness of its responses. We make the source code and models publicly available.
翻訳日:2023-02-27 12:44:29 公開日:2023-02-24
# 完全合成最適化のための線形化アルゴリズム

Linearization Algorithms for Fully Composite Optimization ( http://arxiv.org/abs/2302.12808v1 )

ライセンス: Link先を確認
Maria-Luiza Vladarean, Nikita Doikov, Martin Jaggi, Nicolas Flammarion(参考訳) 本稿では,有界集合上の完全合成最適化問題を解くための一階アルゴリズムについて検討する。 目的の微分可能および非微分可能部分を別々に扱い、滑らかな成分のみを線形化する。 これにより、古典的および加速的フランク・ウルフ法の新しい一般化が可能となり、目的の構造にアクセスするときいつでも微分不能な問題に適用できる。 いくつかの設定で最適であるアルゴリズムのグローバルな複雑性境界を証明します。

In this paper, we study first-order algorithms for solving fully composite optimization problems over bounded sets. We treat the differentiable and non-differentiable parts of the objective separately, linearizing only the smooth components. This provides us with new generalizations of the classical and accelerated Frank-Wolfe methods, that are applicable to non-differentiable problems whenever we can access the structure of the objective. We prove global complexity bounds for our algorithms that are optimal in several settings.
翻訳日:2023-02-27 12:44:09 公開日:2023-02-24
# 可積分モデルの弱可積分性破断摂動

Weak integrability breaking perturbations of integrable models ( http://arxiv.org/abs/2302.12804v1 )

ライセンス: Link先を確認
Federica Maria Surace, Olexei Motrunich(参考訳) 積分性からわずかに遠ざかる量子可積分系は通常、次数$\tau\sim \lambda^{-2}$の時間スケールで熱化すると予想される。 ここでは、このスケーリングに違反する摂動のクラスを研究し、$\tau\sim \lambda^{-2\ell}$ ここで$\ell>1$は整数である。 このような「弱可積分性破壊」摂動を持つ系は、位数$\lambda^\ell$の補正まで摂動ハミルトニアンと通勤する準保存量が非常に多い。 任意の$\ell$に対して、一般化可積分モデルのそのような弱い摂動の族を得る体系的な構成を示す。 次に、ハイゼンベルク、XXZ、XYZ鎖、ハバードモデル、スピンレス自由フェルミオンのモデル、量子イジング鎖など様々なモデルに適用する。 解析的枠組みでは,特定の摂動下でのハイゼンベルク鎖とxxz鎖の弱可積分性の破れの証拠を説明する。

A quantum integrable system slightly perturbed away from integrability is typically expected to thermalize on timescales of order $\tau\sim \lambda^{-2}$, where $\lambda$ is the perturbation strength. We here study classes of perturbations that violate this scaling, and exhibit much longer thermalization times $\tau\sim \lambda^{-2\ell}$ where $\ell>1$ is an integer. Systems with these "weak integrability breaking" perturbations have an extensive number of quasi-conserved quantities that commute with the perturbed Hamiltonian up to corrections of order $\lambda^\ell$. We demonstrate a systematic construction to obtain families of such weak perturbations of a generic integrable model for arbitrary $\ell$. We then apply the construction to various models, including the Heisenberg, XXZ, and XYZ chains, the Hubbard model, models of spinless free fermions, and the quantum Ising chain. Our analytical framework explains the previously observed evidence of weak integrability breaking in the Heisenberg and XXZ chains under certain perturbations.
翻訳日:2023-02-27 12:44:03 公開日:2023-02-24
# 局所固有投影による3次元生成モデル潜時歪み

3D Generative Model Latent Disentanglement via Local Eigenprojection ( http://arxiv.org/abs/2302.12798v1 )

ライセンス: Link先を確認
Simone Foti, Bongjin Koo, Danail Stoyanov, Matthew J. Clarkson(参考訳) リアルなデジタル人間のデザインは非常に複雑です。 多くのデータ駆動生成モデルは、基礎となる幾何学的形状の生成を単純化するために使われ、局所的な形状特性の生成を制御できない。 本稿では,スペクトル幾何学に基づく新たな損失関数を導入し,ニューラルネットワークに基づく3次元頭部・ボディメッシュ生成モデルに適用することで,この限界を克服する。 メッシュ変分オートエンコーダ(vaes)やgans(generative adversarial network)の潜在変数にアイデンティティ属性の局所固有プロジェクションに従うように促し、潜在性不連続を改善し、属性生成を適切に分離する。 実験結果から,我々の局所固有射影不整合(LED)モデルは,最先端技術に対する不整合性を向上するだけでなく,モデルのバニラ実装に匹敵する訓練時間で優れた生成能力を維持できることが示された。

Designing realistic digital humans is extremely complex. Most data-driven generative models used to simplify the creation of their underlying geometric shape do not offer control over the generation of local shape attributes. In this paper, we overcome this limitation by introducing a novel loss function grounded in spectral geometry and applicable to different neural-network-based generative models of 3D head and body meshes. Encouraging the latent variables of mesh variational autoencoders (VAEs) or generative adversarial networks (GANs) to follow the local eigenprojections of identity attributes, we improve latent disentanglement and properly decouple the attribute creation. Experimental results show that our local eigenprojection disentangled (LED) models not only offer improved disentanglement with respect to the state-of-the-art, but also maintain good generation capabilities with training times comparable to the vanilla implementations of the models.
翻訳日:2023-02-27 12:43:42 公開日:2023-02-24
# SemEval-2023 Task 9:Multilingual Tweet Intimacy Analysisに適用した事前学習型変換器のデータ拡張

HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis ( http://arxiv.org/abs/2302.12794v1 )

ライセンス: Link先を確認
Isabel Segura-Bedmar(参考訳) 本稿では,SemEval-2023 Task 9, Intimacy Analysis of Multilingual Tweetsについて述べる。 トレーニングデータセットと、異なるデータ拡張技術によって生成された合成データにより、最も人気のあるトランスフォーマーモデルを微調整する。 開発段階では, xlm-t を用いて最良の結果を得た。 データ拡張技術は、その結果をわずかに改善します。 当システムは参加45システム中27位にランクインした。 その結果, ポルトガル語, 英語, オランダ語などの言語で有望な結果が得られた。 すべてのコードは、リポジトリの \url{https://github.com/isegura/hulat_intimacy}で利用可能です。

This paper describes our participation in SemEval-2023 Task 9, Intimacy Analysis of Multilingual Tweets. We fine-tune some of the most popular transformer models with the training dataset and synthetic data generated by different data augmentation techniques. During the development phase, our best results were obtained by using XLM-T. Data augmentation techniques provide a very slight improvement in the results. Our system ranked in the 27th position out of the 45 participating systems. Despite its modest results, our system shows promising results in languages such as Portuguese, English, and Dutch. All our code is available in the repository \url{https://github.com/isegura/hulat_intimacy}.
翻訳日:2023-02-27 12:43:24 公開日:2023-02-24
# 導波路結合クビットアレイにおける共振動カシミール効果

Resonant Dynamical Casimir Effect in Waveguide-coupled Qubit Arrays ( http://arxiv.org/abs/2302.12792v1 )

ライセンス: Link先を確認
Egor S. Vyatkin, Alexander V. Poshakinskiy and Alexander N. Poddubny(参考訳) 我々は、時間変調共鳴周波数を持つ量子ビットの配列に結合した導波路におけるパラメトリック光子生成の理論を開発した。 そのような生成は動的カシミール効果と解釈できる。 放射方向と光子-光子相関が変調の位相によってどのように制御できるかを数値的および解析的に示す。 放射スペクトルは、クォービット不調和パラメータに強く依存していることが示されている。 単一励起状態と二重励起状態共鳴は発光スペクトルで同定されている。

We have developed a theory of parametric photon generation in the waveguides coupled to arrays of qubits with temporally modulated resonance frequencies. Such generation can be interpreted as a dynamical Casimir effect. We demonstrate numerically and analytically how the emission directionality and photon-photon correlations can be controlled by the phases of the modulation. The emission spectrum is shown to be strongly dependent on the qubit anharmonicity parameter. Single- and double-excited state resonances have been identified in the emission spectrum.
翻訳日:2023-02-27 12:43:14 公開日:2023-02-24
# STA: テキスト分類改善のための自己制御型テキスト拡張

STA: Self-controlled Text Augmentation for Improving Text Classifications ( http://arxiv.org/abs/2302.12784v1 )

ライセンス: Link先を確認
Congcong Wang and Gonzalo Fiz Pontiveros and Steven Derby and Tri Kurniawan Wijaya(参考訳) 最近の機械学習の進歩にもかかわらず、多くのタスクは、自然言語の問題を解くのを難しくする低データ体制で作業する。 近年,NLP(Natural Language Processing)の分野では,新たな例でトレーニングデータを豊かにすることができるテキスト拡張技術が数多く出現している。 例えば、単純なルールベースのヒューリスティックな手法は有効であるが、意味的内容のばらつきや元のテキストに対する構文構造が欠如している。 一方で、より複雑なディープラーニングアプローチは、テキストの本質的な意味を極端にシフトさせ、トレーニングデータに不要なノイズをもたらす可能性がある。 拡張例の品質をより確実に制御するために,自己制御テキスト拡張(sta)のための最先端手法を提案する。 本手法は,生成例が原文の意味的内容を保持することを保証する自己検査手順を導入することで,生成過程を厳格に制御する。 複数のベンチマークデータセットでの実験的結果は、staが既存の最先端技術を大きく上回っていることを示し、質的分析により生成された例が語彙的に多様で意味的に信頼性が高いことが示されている。

Despite recent advancements in Machine Learning, many tasks still involve working in low-data regimes which can make solving natural language problems difficult. Recently, a number of text augmentation techniques have emerged in the field of Natural Language Processing (NLP) which can enrich the training data with new examples, though they are not without their caveats. For instance, simple rule-based heuristic methods are effective, but lack variation in semantic content and syntactic structure with respect to the original text. On the other hand, more complex deep learning approaches can cause extreme shifts in the intrinsic meaning of the text and introduce unwanted noise into the training data. To more reliably control the quality of the augmented examples, we introduce a state-of-the-art approach for Self-Controlled Text Augmentation (STA). Our approach tightly controls the generation process by introducing a self-checking procedure to ensure that generated examples retain the semantic content of the original text. Experimental results on multiple benchmarking datasets demonstrate that STA substantially outperforms existing state-of-the-art techniques, whilst qualitative analysis reveals that the generated examples are both lexically diverse and semantically reliable.
翻訳日:2023-02-27 12:43:08 公開日:2023-02-24
# 摂動報酬による効率的な神経オフライン強化学習

Provably Efficient Neural Offline Reinforcement Learning via Perturbed Rewards ( http://arxiv.org/abs/2302.12780v1 )

ライセンス: Link先を確認
Thanh Nguyen-Tang, Raman Arora(参考訳) 本研究では,ランダム化値関数のアイデアとペシミズム原理を融合した,新しいオフライン強化学習(rl)アルゴリズム,すなわち摂動報酬付き値反復(viper)を提案する。 現在のオフラインRLアルゴリズムは、低信頼境界(LCB)を介して悲観性を得るために、統計的信頼領域を明示的に構成するが、ニューラルネットワークが値関数を推定するために使用される複雑な問題に容易にスケールできない。 代わりに、VIPeRは暗黙的に暗黙的に、慎重に設計されたガウスノイズでオフラインデータを何度も摂動させ、推定された状態-作用値のアンサンブルを学習し、アンサンブルの最小値に優しく振る舞うことで悲観的を得る。 推定状態-作用値は、勾配降下を用いた摂動データセットにパラメトリックモデル(例えばニューラルネットワーク)を適用することで得られる。 結果として、VIPeRはアクション選択に$\mathcal{O}(1)$の時間複雑さしか必要とせず、LCBベースのアルゴリズムは少なくとも$\Omega(K^2)$を必要としている。 また,学習境界における潜在的に大きなログ被覆数を取り除くための新しいデータ分割手法を提案する。 我々は、VIPeRが超パラメータ化されたニューラルネットワークで証明可能な不確実性定量化器を生成し、$\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2} \tilde{d} }{\sqrt{K}} \right)$ sub-optimality where $\tilde{d}$ is the effective dimension, $H$ is the horizon length and $\kappa$ measures the distributional shift。 我々は,viperの統計および計算効率を,多種多様な合成および実世界のデータセットにおける経験的評価と照合する。 我々の知る限り、VIPeRは、ニューラルネットワーク関数近似による一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である最初のオフラインRLアルゴリズムである。

We propose a novel offline reinforcement learning (RL) algorithm, namely Value Iteration with Perturbed Rewards (VIPeR) which amalgamates the randomized value function idea with the pessimism principle. Most current offline RL algorithms explicitly construct statistical confidence regions to obtain pessimism via lower confidence bounds (LCB), which cannot easily scale to complex problems where a neural network is used to estimate the value functions. Instead, VIPeR implicitly obtains pessimism by simply perturbing the offline data multiple times with carefully-designed i.i.d Gaussian noises to learn an ensemble of estimated state-action values and acting greedily to the minimum of the ensemble. The estimated state-action values are obtained by fitting a parametric model (e.g. neural networks) to the perturbed datasets using gradient descent. As a result, VIPeR only needs $\mathcal{O}(1)$ time complexity for action selection while LCB-based algorithms require at least $\Omega(K^2)$, where $K$ is the total number of trajectories in the offline data. We also propose a novel data splitting technique that helps remove the potentially large log covering number in the learning bound. We prove that VIPeR yields a provable uncertainty quantifier with overparameterized neural networks and achieves an $\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2} \tilde{d} }{\sqrt{K}} \right)$ sub-optimality where $\tilde{d}$ is the effective dimension, $H$ is the horizon length and $\kappa$ measures the distributional shift. We corroborate the statistical and computational efficiency of VIPeR with an empirical evaluation in a wide set of synthetic and real-world datasets. To the best of our knowledge, VIPeR is the first offline RL algorithm that is both provably and computationally efficient in general Markov decision processes (MDPs) with neural network function approximation.
翻訳日:2023-02-27 12:42:47 公開日:2023-02-24
# FLSea:水中のビジュアル慣性およびステレオビジョンフォワードデータセット

FLSea: Underwater Visual-Inertial and Stereo-Vision Forward-Looking Datasets ( http://arxiv.org/abs/2302.12772v1 )

ライセンス: Link先を確認
Yelena Randall and Tali Treibitz(参考訳) 水中での視認性は困難であり、被写体とカメラの距離が大きくなるにつれて劣化し、前方方向の視覚タスクがより困難になる。 地中海および紅海における水中前方視像および視覚慣性画像の収集を行った。 我々の知る限り、このカメラ・センサー・オリエンテーションによって得られた水中環境には、他の公共データセットは存在しない。 これらのデータセットは、障害物回避、視覚計測、3D追跡、同時局所化とマッピング(SLAM)、深度推定など、水中アプリケーションの開発に不可欠である。 ステレオデータセットには、既知の大きさのオブジェクトと動的水中環境における同期ステレオ画像が含まれる。 視覚慣性データセットには単眼画像とimu測定が含まれており、ミリ秒の解像度のタイムスタンプと、そのシーンに置かれた既知の大きさのオブジェクトが並んでいる。 どちらのセンサー構成もスケール推定が可能で、ステレオ設定の校正ベースラインと視覚慣性設定のIMUがある。 ground truth depthマップは、フォトグラメトリーを使用して、両方のデータセットタイプに対してオフラインで作成されました。 地上の真理は、画像環境全体にわたって複数の既知の測定値によって検証される。 5つのステレオデータセットと8つの視覚慣性データセットがあり、それぞれに数千のイメージがあり、さまざまな水中視認性と環境光条件、自然と人工の構造、動的カメラの動きがある。 カメラを前方に向けることで、これらのデータセットは水中障害物回避アルゴリズムのテストや、動的環境の海底付近でのナビゲーションにユニークで理想的なものになる。 データセットによって、動的および/または浅い水環境における水中車両の自律機能の発展を奨励したいと考えています。

Visibility underwater is challenging, and degrades as the distance between the subject and camera increases, making vision tasks in the forward-looking direction more difficult. We have collected underwater forward-looking stereo-vision and visual-inertial image sets in the Mediterranean and Red Sea. To our knowledge there are no other public datasets in the underwater environment acquired with this camera-sensor orientation published with ground-truth. These datasets are critical for the development of several underwater applications, including obstacle avoidance, visual odometry, 3D tracking, Simultaneous Localization and Mapping (SLAM) and depth estimation. The stereo datasets include synchronized stereo images in dynamic underwater environments with objects of known-size. The visual-inertial datasets contain monocular images and IMU measurements, aligned with millisecond resolution timestamps and objects of known size which were placed in the scene. Both sensor configurations allow for scale estimation, with the calibrated baseline in the stereo setup and the IMU in the visual-inertial setup. Ground truth depth maps were created offline for both dataset types using photogrammetry. The ground truth is validated with multiple known measurements placed throughout the imaged environment. There are 5 stereo and 8 visual-inertial datasets in total, each containing thousands of images, with a range of different underwater visibility and ambient light conditions, natural and man-made structures and dynamic camera motions. The forward-looking orientation of the camera makes these datasets unique and ideal for testing underwater obstacle-avoidance algorithms and for navigation close to the seafloor in dynamic environments. With our datasets, we hope to encourage the advancement of autonomous functionality for underwater vehicles in dynamic and/or shallow water environments.
翻訳日:2023-02-27 12:41:59 公開日:2023-02-24
# ロボットのための言語駆動表現学習

Language-Driven Representation Learning for Robotics ( http://arxiv.org/abs/2302.12766v1 )

ライセンス: Link先を確認
Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar, Chelsea Finn, Dorsa Sadigh, Percy Liang(参考訳) ロボティクスのためのビジュアル表現学習の最近の研究は、日々のタスクを行う人間の大規模なビデオデータセットから学習する可能性を示している。 マスク付きオートエンコーディングやコントラスト学習などの手法を用いることで、これらの表現はビジュモータ制御のためのポリシー学習への強い移行を示す。 しかし、ロボット学習には、把握能力予測、言語条件付き模倣学習、人間とロボットのコラボレーションのための意図スコアなど、コントロールを超えたさまざまな問題が含まれている。 マスク付き自己エンコーディング手法は、高レベルの意味論を犠牲にして低レベルの空間的特徴を拾い上げ、対照的な学習手法は逆を捉えている。 次に、人間のビデオと関連するキャプションから言語駆動表現を学習するためのフレームワークであるvoltronを紹介する。 Voltronは、低レベルな視覚パターンを学ぶために、言語条件の視覚的再構成と、高レベルなセマンティクスをエンコードする視覚的な言語生成を交換する。 また,ロボット工学の視覚表現を総合的に評価するための統合プラットフォームとして,5つの異なるロボット学習問題にまたがる評価スイートを新たに構築した。 5つの問題すべてにわたる包括的な制御された実験を通して、Voltronの言語駆動表現は、特に高レベルな機能を必要とするターゲット問題において、最先端技術よりも優れていることが判明した。

Recent work in visual representation learning for robotics demonstrates the viability of learning from large video datasets of humans performing everyday tasks. Leveraging methods such as masked autoencoding and contrastive learning, these representations exhibit strong transfer to policy learning for visuomotor control. But, robot learning encompasses a diverse set of problems beyond control including grasp affordance prediction, language-conditioned imitation learning, and intent scoring for human-robot collaboration, amongst others. First, we demonstrate that existing representations yield inconsistent results across these tasks: masked autoencoding approaches pick up on low-level spatial features at the cost of high-level semantics, while contrastive learning approaches capture the opposite. We then introduce Voltron, a framework for language-driven representation learning from human videos and associated captions. Voltron trades off language-conditioned visual reconstruction to learn low-level visual patterns, and visually-grounded language generation to encode high-level semantics. We also construct a new evaluation suite spanning five distinct robot learning problems $\unicode{x2013}$ a unified platform for holistically evaluating visual representations for robotics. Through comprehensive, controlled experiments across all five problems, we find that Voltron's language-driven representations outperform the prior state-of-the-art, especially on targeted problems requiring higher-level features.
翻訳日:2023-02-27 12:41:33 公開日:2023-02-24
# ctc補助目的による多言語asrの改善

Improving Massively Multilingual ASR With Auxiliary CTC Objectives ( http://arxiv.org/abs/2302.12829v1 )

ライセンス: Link先を確認
William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe(参考訳) ASR(Multilingual Automatic Speech Recognition)モデルは、音声技術の幅広い言語への使い勝手を拡大した。 しかし、これらのモデルが処理しなければならない言語がいくつあるかによって、異なる言語間で不均衡なパフォーマンスを理解する鍵は、モデルが実際にどの言語を転写すべきかを知ることである。 本稿では,言語アイデンティティ (lid) 上のモデル全体を条件付けして,オープンasrの102言語ベンチマークであるfleursの性能向上に関する研究について紹介する。 近年のコネクショニスト時間分類(CTC)研究から着想を得た手法について検討し,補助課題のLID予測を条件に,多数の言語を扱うモデルを提案する。 提案手法が標準CTC/Attention-based hybrid mod-elに対して有効であることを示す。 さらに、コンフォーマーアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは、相対28.4%CERによるFLEURSの先行研究よりも改善されている。 トレーニングされたモデルは再現可能なレシピで、https://github.com/ espnet/espnet/tree/master/egs2/fleurs/asr1で入手できる。

Multilingual Automatic Speech Recognition (ASR) models have extended the usability of speech technologies to a wide variety of languages. With how many languages these models have to handle, however, a key to understanding their imbalanced performance across different languages is to examine if the model actually knows which language it should transcribe. In this paper, we introduce our work on improving performance on FLEURS, a 102-language open ASR benchmark, by conditioning the entire model on language identity (LID). We investigate techniques inspired from recent Connectionist Temporal Classification (CTC) studies to help the model handle the large number of languages, conditioning on the LID predictions of auxiliary tasks. Our experimental results demonstrate the effectiveness of our technique over standard CTC/Attention-based hybrid mod- els. Furthermore, our state-of-the-art systems using self-supervised models with the Conformer architecture improve over the results of prior work on FLEURS by a relative 28.4% CER. Trained models are reproducible recipes are available at https://github.com/ espnet/espnet/tree/master/egs2/fleurs/asr1.
翻訳日:2023-02-27 12:35:52 公開日:2023-02-24
# SplineCam: ディープネットワーク形状と決定境界の正確な可視化とキャラクタリゼーション

SplineCam: Exact Visualization and Characterization of Deep Network Geometry and Decision Boundaries ( http://arxiv.org/abs/2302.12828v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Guha Balakrishnan, Richard Baraniuk(参考訳) 現在のディープネットワーク(dn)の可視化と解釈の方法は、データのどの次元が関連する予測を担当しているかをスコア付けしたり、所定のdn単位や表現に最も適した新しいデータ特徴やサンプルを生成するなど、データ空間の可視化に大きく依存している。 本稿では、データ空間の特定領域における決定境界を含む、dnマッピングの幾何学を計算するための最初の証明可能な正確な方法を開発することにより、さらに一歩前進する。 連続ピース・ワイズ線形(CPWL)スプラインDNの理論を活用することで、サンプリングやアーキテクチャの単純化といった近似に頼ることなく、正確にDNs幾何を計算する。 SplineCamは(leaky-)ReLU、絶対値、最大値、最大プーリングを含むCPWL非線形性に基づく任意のDNアーキテクチャに適用でき、暗黙の神経表現のような回帰DNにも適用できる。 決定境界の可視化とキャラクタリゼーションを超えて、splinecamはアーキテクチャの比較、一般化可能性の測定、多様体上の決定境界からのサンプルを可能にする。 プロジェクトウェブサイト: bit.ly/splinecam

Current Deep Network (DN) visualization and interpretability methods rely heavily on data space visualizations such as scoring which dimensions of the data are responsible for their associated prediction or generating new data features or samples that best match a given DN unit or representation. In this paper, we go one step further by developing the first provably exact method for computing the geometry of a DN's mapping - including its decision boundary - over a specified region of the data space. By leveraging the theory of Continuous Piece-Wise Linear (CPWL) spline DNs, SplineCam exactly computes a DNs geometry without resorting to approximations such as sampling or architecture simplification. SplineCam applies to any DN architecture based on CPWL nonlinearities, including (leaky-)ReLU, absolute value, maxout, and max-pooling and can also be applied to regression DNs such as implicit neural representations. Beyond decision boundary visualization and characterization, SplineCam enables one to compare architectures, measure generalizability and sample from the decision boundary on or off the manifold. Project Website: bit.ly/splinecam.
翻訳日:2023-02-27 12:35:34 公開日:2023-02-24
# 野生の動画から人間とカメラの動きを分離する

Decoupling Human and Camera Motion from Videos in the Wild ( http://arxiv.org/abs/2302.12827v1 )

ライセンス: Link先を確認
Vickie Ye, Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa(参考訳) 野生の映像から全人類の軌跡を再構築する方法を提案する。 私たちの最適化方法は、カメラと人間の動作を分離するので、同じ世界の座標フレームに人を配置することができます。 既存の手法のほとんどはカメラの動きをモデル化していないが、3d人間の動きを推定するために背景ピクセルに依存する手法は通常、フルシーンの再構成を必要とする。 しかし、既存のSLAMシステムが正確なシーン再構成を回復できない場合でも、背景画素の動きはカメラの動きを制限するのに十分な信号を与える。 相対カメラ推定とデータ駆動型人間の動きの先行推定は、シーンスケールのあいまいさを解消し、地球規模の人間の軌道を復元できることを示す。 提案手法は,posatrackなどの実写ビデオにおいて,人々のグローバルな3dトラジェクタをロバストに復元する。 3次元データセットEgobodyの既存手法に対する改善点を定量化する。 さらに、回収したカメラスケールによって、共有座標フレーム内の複数の人の動きを推論できることを実証し、PoseTrackにおける下流追跡の性能を向上させる。 コードとビデオの結果はhttps://vye16.github.io/slahmrで確認できる。

We propose a method to reconstruct global human trajectories from videos in the wild. Our optimization method decouples the camera and human motion, which allows us to place people in the same world coordinate frame. Most existing methods do not model the camera motion; methods that rely on the background pixels to infer 3D human motion usually require a full scene reconstruction, which is often not possible for in-the-wild videos. However, even when existing SLAM systems cannot recover accurate scene reconstructions, the background pixel motion still provides enough signal to constrain the camera motion. We show that relative camera estimates along with data-driven human motion priors can resolve the scene scale ambiguity and recover global human trajectories. Our method robustly recovers the global 3D trajectories of people in challenging in-the-wild videos, such as PoseTrack. We quantify our improvement over existing methods on 3D human dataset Egobody. We further demonstrate that our recovered camera scale allows us to reason about motion of multiple people in a shared coordinate frame, which improves performance of downstream tracking in PoseTrack. Code and video results can be found at https://vye16.github.io/slahmr.
翻訳日:2023-02-27 12:35:12 公開日:2023-02-24
# マルチエージェント学習のための固定サイズ埋め込み付き置換不変集合オートエンコーダ

Permutation-Invariant Set Autoencoders with Fixed-Size Embeddings for Multi-Agent Learning ( http://arxiv.org/abs/2302.12826v1 )

ライセンス: Link先を確認
Ryan Kortvelesy, Steven Morad, Amanda Prorok(参考訳) グラフニューラルネットワーク(GNN)におけるアグリゲーション機能の教師なしトレーニング、グラフ上のニューラルセルオートマトン、複数のオブジェクトを持つシーンの予測など、潜在的な応用が考えられる。 しかし、非置換不変性、固定長出力、反復法への依存、非決定論的出力、計算コストのかかる損失関数、再構成精度の低下など、既存の手法では多くの問題が存在する。 本稿では、これらの問題に対処し、既存のベースラインよりも大幅に低い再構成誤差で符号化を生成するPermutation-Invariant Set Autoencoder (PISA)を提案する。 PISAはまた、類似性を保存する潜在空間、エンコーディングから要素を挿入または削除する機能など、他の望ましい特性も提供している。 PISAをベースライン法に対して評価した後、マルチエージェントアプリケーションにおいてその有用性を示す。 PISAをサブコンポーネントとして用いることで,汎用的な通信方式として機能する新しいGNNアーキテクチャを導入し,エージェントが通信を利用してシステムの完全な可観測性を得ることを可能にする。

The problem of permutation-invariant learning over set representations is particularly relevant in the field of multi-agent systems -- a few potential applications include unsupervised training of aggregation functions in graph neural networks (GNNs), neural cellular automata on graphs, and prediction of scenes with multiple objects. Yet existing approaches to set encoding and decoding tasks present a host of issues, including non-permutation-invariance, fixed-length outputs, reliance on iterative methods, non-deterministic outputs, computationally expensive loss functions, and poor reconstruction accuracy. In this paper we introduce a Permutation-Invariant Set Autoencoder (PISA), which tackles these problems and produces encodings with significantly lower reconstruction error than existing baselines. PISA also provides other desirable properties, including a similarity-preserving latent space, and the ability to insert or remove elements from the encoding. After evaluating PISA against baseline methods, we demonstrate its usefulness in a multi-agent application. Using PISA as a subcomponent, we introduce a novel GNN architecture which serves as a generalised communication scheme, allowing agents to use communication to gain full observability of a system.
翻訳日:2023-02-27 12:34:53 公開日:2023-02-24
# 巨大物体の生成モデル

Generative Models of Huge Objects ( http://arxiv.org/abs/2302.12823v1 )

ライセンス: Link先を確認
Lunjia Hu, Inbal Livni-Navon, Omer Reingold(参考訳) この研究は、単一の指数サイズの組合せ対象と区別できない明示的な分布の体系的研究を開始する。 この中で、goldreich、goldwasser、nussboim(sicomp 2010)の仕事を拡張し、一様分布と区別できない巨大なオブジェクトの実装に焦点を当て、いくつかのグローバルな特性(真理性)を満たした。 単一対象との区別不能性は、学習理論における生成モデルとグラフ理論における正規性補題の研究によって動機付けられる。 擬似ランダム性の設定においてよく理解されている問題は重要な課題であり、巨大な物体の生成モデルを考えると時には不可能である。 本研究は,グラフ内の関数やエッジの個数に真理性を必要とする密関数とグラフ,いくつかの大域的性質を満足するスパースグラフに対する弱正規性補題のバージョンなど,いくつかの自然環境における巨大な識別不能な物体に対する学習アルゴリズムを提供することにより,その汎用性を示す。 これらの結果は、アルゴリズム的公正性に導入された概念と同様に、基本的な擬似ランダムオブジェクトを一般化する。 結果は、学習理論、複雑性理論、暗号、ゲーム理論など、さまざまな分野の概念と技法に依存している。

This work initiates the systematic study of explicit distributions that are indistinguishable from a single exponential-size combinatorial object. In this we extend the work of Goldreich, Goldwasser and Nussboim (SICOMP 2010) that focused on the implementation of huge objects that are indistinguishable from the uniform distribution, satisfying some global properties (which they coined truthfulness). Indistinguishability from a single object is motivated by the study of generative models in learning theory and regularity lemmas in graph theory. Problems that are well understood in the setting of pseudorandomness present significant challenges and at times are impossible when considering generative models of huge objects. We demonstrate the versatility of this study by providing a learning algorithm for huge indistinguishable objects in several natural settings including: dense functions and graphs with a truthfulness requirement on the number of ones in the function or edges in the graphs, and a version of the weak regularity lemma for sparse graphs that satisfy some global properties. These and other results generalize basic pseudorandom objects as well as notions introduced in algorithmic fairness. The results rely on notions and techniques from a variety of areas including learning theory, complexity theory, cryptography, and game theory.
翻訳日:2023-02-27 12:34:31 公開日:2023-02-24
# ラベル付きデータからのチェーン・オブ・サートによる自動プロンプト増大と選択

Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data ( http://arxiv.org/abs/2302.12822v1 )

ライセンス: Link先を確認
KaShun Shum, Shizhe Diao, Tong Zhang(参考訳) CoT(Chain-of- Thought prompting)は、大規模言語モデル(LLM)の推論能力を高め、算術、常識、シンボリック推論タスクにおいて優れたパフォーマンスを達成する。 しかし、ほとんどのCoT研究は、言語モデルを促進するために慎重に設計された有理連鎖に依存しており、有理連鎖なしでラベル付きトレーニングデータが利用できる現実世界のアプリケーションに課題をもたらす。 これにより、これらの一般的なタスクに刺激するCoTの応用に対する障壁が生じる。 本稿では,CoTの人為的エンジニアリングを回避し,ラベル付きデータセットから有理連鎖を自動的に拡張し,低品質な連鎖を抽出して,ラベルに基づく機械生成有理連鎖の候補プールを構築する,Automate-CoT(Automatic Prompt Augmentation and Selection with Chain-of-Thought)を提案する。 最後に、分散還元政策勾配戦略を用いて、COTのためのプールから複数の有理連鎖の最適組み合わせを選択し、ブラックボックス言語モデルにおける各例の意義を推定する。 Automate-CoTは、CoTテクニックをさまざまなタスクに迅速に適応できる。 実験結果から,算術的推論(+2.7\%),コモンセンス推論(+3.4\%),記号的推論(+3.2\%),非推論タスク(+2.5\%)が得られた。 私たちのコードはhttps://github.com/shizhediao/automate-cotで利用可能です。

Chain-of-thought prompting (CoT) advances the reasoning abilities of large language models (LLMs) and achieves superior performance in arithmetic, commonsense, and symbolic reasoning tasks. However, most CoT studies rely on carefully designed human-annotated rational chains to prompt the language model, which poses challenges for real-world applications where labeled training data is available without human-annotated rational chains. This creates barriers to applications of CoT prompting to these general tasks. This paper proposes a new strategy, Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought), that can bypass human engineering of CoTs by automatically augmenting rational chains from a small labeled dataset, and then pruning low-quality chains to construct a candidate pool of machine-generated rationale chains based on the labels. Finally, it selects the optimal combination of several rationale chains from the pool for CoT prompting by employing a variance-reduced policy gradient strategy to estimate the significance of each example in a black-box language model. Automate-CoT enables a quick adaptation of the CoT technique to different tasks. Experimental results demonstrate the effectiveness of our method, where state-of-the-art results are achieved on arithmetic reasoning (+2.7\%), commonsense reasoning (+3.4\%), symbolic reasoning (+3.2\%), and non-reasoning tasks (+2.5\%). Our code will be available at https://github.com/shizhediao/automate-cot.
翻訳日:2023-02-27 12:34:06 公開日:2023-02-24
# 古典的一方向関数からの量子トラップドア関数

Quantum trapdoor functions from classical one-way functions ( http://arxiv.org/abs/2302.12821v1 )

ライセンス: Link先を確認
Andrea Coladangelo(参考訳) 量子トラップドア関数の概念を導入する。 これは「公」量子状態と古典的な文字列$x$を入力として、量子状態を出力する効率的な計算可能なユニタリである。 この地図はそのようなものです (i)出力状態(および公開状態の多くのコピー)が与えられた場合、x$を回収することが困難であるという意味で、反転することは困難である。 (ii)効率的な逆転を可能にする古典的なトラップドアがある。 量子トラップドア関数は任意の量子セキュアな一方向関数から構築できることを示す。 この結果の直接的な結果として、量子セキュアな片方向函数の存在を仮定すると、 (i)量子公開鍵を用いた公開鍵暗号方式 (ii) 量子認証チャネルの適切な概念を前提として、2メッセージの鍵交換プロトコル。

We introduce the notion of a quantum trapdoor function. This is an efficiently computable unitary that takes as input a "public" quantum state and a classical string $x$, and outputs a quantum state. This map is such that (i) it is hard to invert, in the sense that it is hard to recover $x$ given the output state (and many copies of the public state), and (ii) there is a classical trapdoor that allows efficient inversion. We show that a quantum trapdoor function can be constructed from any quantum-secure one-way function. A direct consequence of this result is that, assuming just the existence of quantum-secure one-way functions, there exist: (i) a public-key encryption scheme with a quantum public key, and (ii) a two-message key-exchange protocol, assuming an appropriate notion of a quantum authenticated channel.
翻訳日:2023-02-27 12:33:34 公開日:2023-02-24
# 自由フェルミオンのモニタリング力学に対する非線形シグマモデル

Nonlinear sigma models for monitored dynamics of free fermions ( http://arxiv.org/abs/2302.12820v1 )

ライセンス: Link先を確認
Michele Fava, Lorenzo Piroli, Tobias Swann, Denis Bernard, Adam Nahum(参考訳) 自由フェルミオン系における計測誘起相転移の場理論記述を導出する。 我々は,局所フェルミオンパリティ作用素の連続的監視により,ハミルトニアン進化を行うマルチフレーバーマヨラナ連鎖に注目した。 レプリカ・トリックを用いて、実効スピンチェーンの想像上の時間発展にダイナミクスをマッピングし、実効場理論の制御された導出のための大きなパラメータとしてフレーバーの数を用いる。 これは直交$N\times N$行列に対する非線形シグマモデルであり、レプリカ極限$N\to 1$である。 (位相図の境界上では、より対称性の高い別のシグマモデルを適用する。) 再正規化群ベータ関数の既知の結果と共に、この導出は、物理的に関係のあるレプリカ制限 $n\to 1$ において、それぞれ非自明な絡み合いと絡み合いを持つ安定相の存在を確立する。 非自明なフェーズでは、漸近的に厳密な計算により、サイズが$l$のシステムに対する二成分の絡み合いエントロピーは、前述したモデルの発見とは対照的に$(\log l)^2$となる。 ハミルトンの進化と観測の相対的な強さや、二元化パラメーターを変化させると、モデルの位相図は、シグマモデルの渦非結合遷移と測定のみの軸上の別々の臨界点にマップされる非自明な位相からの遷移を示す。 我々は、混乱したシステムにおけるアンダーソン遷移に対するレプリカアプローチとの違いだけでなく、類似点も強調する。

We derive field theory descriptions for measurement-induced phase transitions in free fermion systems. We focus on a multi-flavor Majorana chain, undergoing Hamiltonian evolution with continuous monitoring of local fermion parity operators. Using the replica trick, we map the dynamics to the imaginary time evolution of an effective spin chain, and use the number of flavors as a large parameter for a controlled derivation of the effective field theory. This is a nonlinear sigma model for an orthogonal $N\times N$ matrix, in the replica limit $N\to 1$. (On a boundary of the phase diagram, another sigma model with higher symmetry applies.) Together with known results for the renormalization-group beta function, this derivation establishes the existence of stable phases -- nontrivially entangled and disentangled respectively -- in the physically-relevant replica limit $N\to 1$. In the nontrivial phase, an asymptotically exact calculation shows that the bipartite entanglement entropy for a system of size $L$ scales as $(\log L)^2$, in contrast to findings in previously-studied models. Varying the relative strength of Hamiltonian evolution and monitoring, as well as a dimerization parameter, the model's phase diagram shows transitions out of the nontrivial phase, which we map to vortex-unbinding transitions in the sigma model, and separate critical points on the measurement-only axis. We highlight the close analogies as well as the differences with the replica approach to Anderson transitions in disordered systems.
翻訳日:2023-02-27 12:33:22 公開日:2023-02-24
# 周波数衝突のフロッケ解析

Floquet Analysis of Frequency Collisions ( http://arxiv.org/abs/2302.12816v1 )

ライセンス: Link先を確認
Kentaro Heya, Moein Malekakhlagh, Seth Merkel, Naoki Kanazawa, Emily Pritchett(参考訳) 集積量子ビットシステムにおける高忠実ゲート演算の実装は、フォールトトレラント量子計算において極めて重要である。 ビット周波数割り当ては、制御忠実性を改善するために不可欠である。 量子ビットの周波数割当のためのメトリックである周波数衝突は、モノモダルマイクロ波駆動で駆動される数キュービットの単純なシステムで提案されている。 しかし、量子誤差補正のようなより高度な目的のために量子プロセッサの周波数割り当ては、さらなる調査が必要である。 本研究では,周波数衝突のFloquet解析を提案する。 提案手法の鍵は、周波数衝突をフロッケ状態の意図しない退化として再解釈することであり、マルチモーダルマイクロ波駆動によって駆動される多くの量子ビットを持つより複雑な系の衝突解析を可能にする。 フロケ状態は無限次元ヒルベルト空間で定義されるが、演算摂動理論に基づくアルゴリズムを開発し、ヒルベルト空間を最適計算複雑性に切り詰める。 特に、スパース量子ビット格子の衝突解析の計算複雑性は、量子ビット数に線形であることが示されている。 最後に,提案手法である相互共鳴に基づく実験プロトコルについて述べる。 分離された3量子ビット系でクロス共振ゲートを最初に研究し, 従来法との比較により本手法の有効性を検証した。 次に,重ヘキサゴンコードにおけるシンドローム抽出のより複雑な問題を考える。 提案手法は,量子プロセッサの量子制御の理解を深め,その設計と制御の改善に寄与する。

Implementation of high-fidelity gate operations on integrated-qubit systems is of vital importance for fault-tolerant quantum computation. Qubit frequency allocation is an essential part of improving control fidelity. A metric for qubit frequency allocation, frequency collision, has been proposed on simple systems of only a few qubits driven by a mono-modal microwave drive. However, frequency allocation for quantum processors for more advanced purposes, such as quantum error correction, needs further investigation. In this study, we propose a Floquet analysis of frequency collisions. The key to our proposed method is a reinterpretation of frequency collisions as an unintended degeneracy of Floquet states, which allows a collision analysis on more complex systems with many qubits driven by multi-modal microwave drives. Although the Floquet state is defined in an infinite-dimensional Hilbert space, we develop algorithms, based on operation perturbation theory, to truncate the Hilbert space down to the optimal computational complexity. In particular, we show that the computational complexity of the collision analysis for a sparse qubit lattice is linear with the number of qubits. Finally, we demonstrate our proposed method on Cross-Resonance based experimental protocols. We first study the Cross-Resonance gate in an isolated three-qubit system, where the effectiveness of our method is verified by comparing it with previous studies. We next consider the more complex problem of syndrome extraction in the heavy-hexagon code. Our proposed method advances our understanding of quantum control for quantum processors and contributes to their improved design and control.
翻訳日:2023-02-27 12:32:53 公開日:2023-02-24
# GraphSR:不均衡ノード分類のためのデータ拡張アルゴリズム

GraphSR: A Data Augmentation Algorithm for Imbalanced Node Classification ( http://arxiv.org/abs/2302.12814v1 )

ライセンス: Link先を確認
Mengting Zhou and Zhiguo Gong(参考訳) グラフニューラルネットワーク(gnns)は、ノード分類タスクで大きな成功を収めた。 しかし、既存のGNNは当然、ラベル付きデータが多い多数派クラスに偏り、ラベル付きデータが少ない少数派クラスを無視している。 伝統的な手法はしばしば過剰なサンプリング手法を用いるが、オーバーフィットの原因となる可能性がある。 最近では、ラベル付きノードからマイノリティクラスのためのノードを追加する提案もあるが、これらの生成されたノードが実際に対応するマイノリティクラスを表すかどうかの保証はない。 実際、不適切に合成されたノードはアルゴリズムの一般化が不十分になる可能性がある。 この問題を解決するため,本稿では,グラフの非ラベルノードからマイノリティクラスを自動的に拡張する手法を提案する。 具体的には,類似性に基づく選択モジュールと強化学習(rl)選択モジュールに基づく,ラベルなしノードの大幅な多様性を持つマイノリティクラスを増強する,新しい自己学習戦略である \textit{graphsr} を提案する。 第1のモジュールはラベル付きマイノリティノードと最もよく似ている未ラベルノードのサブセットを見つけ、第2のモジュールはRL技術を介してサブセットから代表ノードと信頼性ノードを更に決定する。 さらに、RLベースのモジュールは、現在のトレーニングデータに従ってサンプリングスケールを適応的に決定することができる。 この戦略は一般的であり、異なるGNNモデルと簡単に組み合わせることができる。 提案手法は,様々なクラス不均衡データセットにおける最先端のベースラインよりも優れていることを示す。

Graph neural networks (GNNs) have achieved great success in node classification tasks. However, existing GNNs naturally bias towards the majority classes with more labelled data and ignore those minority classes with relatively few labelled ones. The traditional techniques often resort over-sampling methods, but they may cause overfitting problem. More recently, some works propose to synthesize additional nodes for minority classes from the labelled nodes, however, there is no any guarantee if those generated nodes really stand for the corresponding minority classes. In fact, improperly synthesized nodes may result in insufficient generalization of the algorithm. To resolve the problem, in this paper we seek to automatically augment the minority classes from the massive unlabelled nodes of the graph. Specifically, we propose \textit{GraphSR}, a novel self-training strategy to augment the minority classes with significant diversity of unlabelled nodes, which is based on a Similarity-based selection module and a Reinforcement Learning(RL) selection module. The first module finds a subset of unlabelled nodes which are most similar to those labelled minority nodes, and the second one further determines the representative and reliable nodes from the subset via RL technique. Furthermore, the RL-based module can adaptively determine the sampling scale according to current training data. This strategy is general and can be easily combined with different GNNs models. Our experiments demonstrate the proposed approach outperforms the state-of-the-art baselines on various class-imbalanced datasets.
翻訳日:2023-02-27 12:32:31 公開日:2023-02-24