このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230302となっている論文です。

PDF登録状況(公開日: 20230302)

TitleAuthorsAbstract論文公表日・翻訳日
# 乱れた相互作用量子多体系のレベル統計のモデル

Model of level statistics for disordered interacting quantum many-body systems ( http://arxiv.org/abs/1907.10336v3 )

ライセンス: Link先を確認
Piotr Sierant, Jakub Zakrzewski(参考訳) 量子多体系の乱れのレベル統計を数値的に研究する。 固有値間の相互作用のレベル反発指数$\beta$と範囲$h$を制御する2パラメータプラズマモデルは、エルゴードから多体ローカライズ位相への遷移におけるレベル統計の正確な特徴を再現する。 高次間隔比の解析は、考慮される$\beta$-$h$モデルが長距離のスペクトル相関に対しても責任を負うことを示し、遷移全体におけるレベル統計の流れの明確な図を得ることができる。 エルゴディック-MBLクロスオーバーにおけるシステムと$\beta$-$h$モデルのスペクトル形状係数を比較すると、eigenvalues $h$間の効果的な相互作用の範囲は、システムの量子カオス的振る舞いの開始を示すThouless Timeと関連していることが分かる。 カオス的および局所的な位相をホストするランダム量子回路のレベル統計の解析は、$\beta$-$h$モデルがエルゴード相と多体局所化相の遷移におけるレベル統計の普遍的特徴を把握しているという主張を支持している。

We numerically study level statistics of disordered interacting quantum many-body systems. A two-parameter plasma model which controls level repulsion exponent $\beta$ and range $h$ of interactions between eigenvalues is shown to reproduce accurately features of level statistics across the transition from ergodic to many-body localized phase. Analysis of higher order spacing ratios indicates that the considered $\beta$-$h$ model accounts even for long range spectral correlations and allows to obtain a clear picture of the flow of level statistics across the transition. Comparing spectral form factors of $\beta$-$h$ model and of a system in the ergodic-MBL crossover, we show that the range of effective interactions between eigenvalues $h$ is related to the Thouless time which marks the onset of quantum chaotic behavior of the system. Analysis of level statistics of random quantum circuit which hosts chaotic and localized phases supports the claim that $\beta$-$h$ model grasps universal features of level statistics in transition between ergodic and many-body localized phases also for systems breaking time-reversal invariance.
翻訳日:2023-03-25 04:22:16 公開日:2023-03-02
# 2辺ランダムネスによるデバイス非依存ランダムネス拡大率の改善

Improved device-independent randomness expansion rates using two sided randomness ( http://arxiv.org/abs/2103.07504v3 )

ライセンス: Link先を確認
Rutvij Bhavsar and Sammy Ragy and Roger Colbeck(参考訳) デバイス非依存のランダム性拡張プロトコルは、初期ランダム文字列を取得してより長い文字列を生成することを目的としており、プロトコルのセキュリティは、それを実行するデバイスの内部動作を知ることに依存しない。 そのためプロトコルは、デバイスがベルの不等式に違反していることをテストし、観察された違反の観点で抽出可能なランダムネスの量を制限する必要がある。 エントロピー累積定理は、観測されたスコアを達成する任意の戦略の単一ラウンドのフォン・ノイマンエントロピーの観点から、多くのラウンドでプロトコルの抽出可能なランダム性を下げる。 フォン・ノイマンエントロピー上のタイト境界は、クレーター=ホルン=シモニー=ホルト(英語版)(CHSH)ゲームを使用する場合、一方的なランダム性(すなわち、一方からのランダム性のみを使用する場合)で知られている。 ここでは,両面ランダム性を用いて得られる改善の可能性を検討する。 このランダム性の上界は、最適な盗聴戦略を見つけ、解析式を2つのケースで提供することで生成する。 また、従来よりも優れた低い境界を計算し、(より多くの計算時間を犠牲にして)任意にきつくすることができる。 これらの境界は上界に近く、したがって上界は密接であると推測する。 また, 入力ランダム性を再利用する修正プロトコルについても検討する。 この修正されたプロトコルは、最近の実験パラメータに基づく数桁のレートゲインの可能性を示し、デバイス非依存のランダム性拡張をはるかに実用的にする。 また、通常のスポットチェックプロトコルではできないようにランダム性を広げながら、ローカリティホールを閉じることもできる。

A device-independent randomness expansion protocol aims to take an initial random string and generate a longer one, where the security of the protocol does not rely on knowing the inner workings of the devices used to run it. In order to do so, the protocol tests that the devices violate a Bell inequality and one then needs to bound the amount of extractable randomness in terms of the observed violation. The entropy accumulation theorem lower bounds the extractable randomness of a protocol with many rounds in terms of the single-round von Neumann entropy of any strategy achieving the observed score. Tight bounds on the von Neumann entropy are known for the one-sided randomness (i.e., where the randomness from only one party is used) when using the Clauser-Horne-Shimony-Holt (CHSH) game. Here we investigate the possible improvement that could be gained using the two-sided randomness. We generate upper bounds on this randomness by attempting to find the optimal eavesdropping strategy, providing analytic formulae in two cases. We additionally compute lower bounds that outperform previous ones and can be made arbitrarily tight (at the expense of more computation time). These bounds get close to our upper bounds, and hence we conjecture that our upper bounds are tight. We also consider a modified protocol in which the input randomness is recycled. This modified protocol shows the possibility of rate gains of several orders of magnitude based on recent experimental parameters, making device-independent randomness expansion significantly more practical. It also enables the locality loophole to be closed while expanding randomness in a way that typical spot-checking protocols do not.
翻訳日:2023-03-25 03:54:34 公開日:2023-03-02
# 分散学習と6G: コミュニケーションとコンピューティングの展望

Distributed Learning Meets 6G: A Communication and Computing Perspective ( http://arxiv.org/abs/2303.12802v1 )

ライセンス: Link先を確認
Shashank Jere, Yifei Song, Yang Yi and Lingjia Liu(参考訳) モバイル機器のコンピュータ能力とストレージ能力が進化する通信ネットワークのパラダイムに則り、次世代/6Gセルネットワークで期待される厳密なキーパフォーマンス指標(KPI)を実現するために分散学習(DL)フレームワークを探求する研究が急増している。 Edge Computingと連動して、Federated Learning (FL) は、著名な無線アプリケーションで選択されるDLアーキテクチャとして登場した。 本稿では、一般のDLとFLベースの戦略が6Gビジョンの一部の実現にどのように貢献し、通信とコンピューティングの制約のバランスをとるかの概要を述べる。 実例として、FLフレームワークにマルチエージェント強化学習(MARL)を適用し、動的スペクトルアクセス(DSA)問題に適用し、予備評価結果を示す。 6GネットワークにDLアプローチを適用する際の最新の課題も強調されている。

With the ever-improving computing capabilities and storage capacities of mobile devices in line with evolving telecommunication network paradigms, there has been an explosion of research interest towards exploring Distributed Learning (DL) frameworks to realize stringent key performance indicators (KPIs) that are expected in next-generation/6G cellular networks. In conjunction with Edge Computing, Federated Learning (FL) has emerged as the DL architecture of choice in prominent wireless applications. This article lays an outline of how DL in general and FL-based strategies specifically can contribute towards realizing a part of the 6G vision and strike a balance between communication and computing constraints. As a practical use case, we apply Multi-Agent Reinforcement Learning (MARL) within the FL framework to the Dynamic Spectrum Access (DSA) problem and present preliminary evaluation results. Top contemporary challenges in applying DL approaches to 6G networks are also highlighted.
翻訳日:2023-03-25 02:41:02 公開日:2023-03-02
# 小標本における肺結節の検出・分類のためのデータ拡張法と埋め込み機構

A Data Augmentation Method and the Embedding Mechanism for Detection and Classification of Pulmonary Nodules on Small Samples ( http://arxiv.org/abs/2303.12801v1 )

ライセンス: Link先を確認
Yang Liu, Yue-Jie Hou, Chen-Xin Qin, Xin-Hui Li, Si-Jing Li, Bin Wang, Chi-Chun Zhou(参考訳) ctによる肺結節の検出は早期に肺癌の検診に用いられ、深層学習法に基づくomputer assisted diagnostic (cad) はct画像中の肺結節の疑い領域を同定し、ct診断の精度と効率を向上させる。 ディープラーニングモデルの正確性と堅牢性。 方法:本論文では,(1)生成モデルに基づくデータ拡張法,(2)埋め込み機構に基づくモデル構造改善法について検討する。 本研究では,新しいデータ拡張法と埋め込み機構という2つの戦略を導入した。 拡張法では, 3次元ピクセルレベル統計アルゴリズムを用いて肺結節を生成し, 偽の肺結節と健康な肺を混合することにより, 新しい肺結節を作製する。 埋め込み機構は、隠れ変数を導入することにより、肺結節サンプルの画素の意味をよりよく理解するように設計されている。 Result: The result of the 3DVNET model with the augmentation method for pulmonary nodule detection shows that the proposed data augmentation method outperforms the method based on generative adversarial network (GAN) framework, training accuracy improved by 1.5%, and with embedding mechanism for pulmonary nodules classification shows that the embedding mechanism improves the accuracy and robustness for the classification of pulmonary nodules obviously, the model training accuracy is close to 1 and the model testing F1-score is 0.90.Conclusion:he proposed data augmentation method and embedding mechanism are beneficial to improve the accuracy and robustness of the model, and can be further applied in other common diagnostic imaging tasks.

Detection of pulmonary nodules by CT is used for screening lung cancer in early stages.omputer aided diagnosis (CAD) based on deep-learning method can identify the suspected areas of pulmonary nodules in CT images, thus improving the accuracy and efficiency of CT diagnosis. The accuracy and robustness of deep learning models. Method:In this paper, we explore (1) the data augmentation method based on the generation model and (2) the model structure improvement method based on the embedding mechanism. Two strategies have been introduced in this study: a new data augmentation method and a embedding mechanism. In the augmentation method, a 3D pixel-level statistics algorithm is proposed to generate pulmonary nodule and by combing the faked pulmonary nodule and healthy lung, we generate new pulmonary nodule samples. The embedding mechanism are designed to better understand the meaning of pixels of the pulmonary nodule samples by introducing hidden variables. Result: The result of the 3DVNET model with the augmentation method for pulmonary nodule detection shows that the proposed data augmentation method outperforms the method based on generative adversarial network (GAN) framework, training accuracy improved by 1.5%, and with embedding mechanism for pulmonary nodules classification shows that the embedding mechanism improves the accuracy and robustness for the classification of pulmonary nodules obviously, the model training accuracy is close to 1 and the model testing F1-score is 0.90.Conclusion:he proposed data augmentation method and embedding mechanism are beneficial to improve the accuracy and robustness of the model, and can be further applied in other common diagnostic imaging tasks.
翻訳日:2023-03-25 02:40:46 公開日:2023-03-02
# ディープラーニングを用いたネットワーク通信分析に基づくIoTデバイス識別

IoT Device Identification Based on Network Communication Analysis Using Deep Learning ( http://arxiv.org/abs/2303.12800v1 )

ライセンス: Link先を確認
Jaidip Kotak and Yuval Elovici(参考訳) セキュリティの低いIoTデバイスの使用の増加により、敵の攻撃ベクトルは組織内で増加している。 組織ネットワークに対する攻撃のリスクも、従業員がIoTデバイスをオンプレミスに持ち込み、組織のネットワークにアタッチできる、独自のデバイス(BYOD)ポリシによって増大している。 この脅威に対処し、ネットワークを保護するために、組織は通常、ホワイトリストのIoTデバイスのみを組織のネットワーク上で許可するセキュリティポリシを実装します。 このようなポリシーの遵守を監視するために、組織のネットワーク内で許可されているIoTデバイスと、非ホワイトリスト(未知)のIoTデバイスを区別することが不可欠になっている。 本研究では、ネットワーク上で許可されたIoTデバイスの自動識別のためのネットワーク通信にディープラーニングを適用した。 既存の手法とは対照的に,提案手法では,IoTデバイスの"通信動作"は,デバイスのネットワーク通信ペイロードから生成される小さなイメージとして表現されるため,ネットワーク通信の複雑な機能工学を必要としない。 提案されたアプローチは、通信に使用されるプロトコルに関係なく、任意のIoTデバイスに適用できる。 我々のアプローチはネットワーク通信ペイロードに依存しているため、NAT(Network address translation)対応ルータの背後にあるIoTデバイスにも適用可能です。 本研究では,未知のIoTデバイスを識別するなど,さまざまなシナリオにおけるIoTデバイスを特定するために,公開データセット上でさまざまな分類器をトレーニングし,全体の平均検出精度を99%以上達成した。

Attack vectors for adversaries have increased in organizations because of the growing use of less secure IoT devices. The risk of attacks on an organization's network has also increased due to the bring your own device (BYOD) policy which permits employees to bring IoT devices onto the premises and attach them to the organization's network. To tackle this threat and protect their networks, organizations generally implement security policies in which only white listed IoT devices are allowed on the organization's network. To monitor compliance with such policies, it has become essential to distinguish IoT devices permitted within an organization's network from non white listed (unknown) IoT devices. In this research, deep learning is applied to network communication for the automated identification of IoT devices permitted on the network. In contrast to existing methods, the proposed approach does not require complex feature engineering of the network communication, because the 'communication behavior' of IoT devices is represented as small images which are generated from the device's network communication payload. The proposed approach is applicable for any IoT device, regardless of the protocol used for communication. As our approach relies on the network communication payload, it is also applicable for the IoT devices behind a network address translation (NAT) enabled router. In this study, we trained various classifiers on a publicly accessible dataset to identify IoT devices in different scenarios, including the identification of known and unknown IoT devices, achieving over 99% overall average detection accuracy.
翻訳日:2023-03-25 02:40:20 公開日:2023-03-02
# EdgeServe: 分散予測のための実行層

EdgeServe: An Execution Layer for Decentralized Prediction ( http://arxiv.org/abs/2303.08028v1 )

ライセンス: Link先を確認
Ted Shaowang, Sanjay Krishnan(参考訳) 機械学習タスクの関連する機能は、ネットワーク内の異なるノードで収集されたデータソースから集約することができる。 この問題は分散予測と呼ばれ、データルーティングの管理、計算の配置、時間同期といった多くの興味深いシステム課題を生み出します。 本稿では,分散予測が可能な機械学習システムであるEdgeServeを提案する。 EdgeServeは低レイテンシのメッセージブローカを使用して、予測を処理可能なノードにデータをルーティングする。 EdgeServeは、計算、通信、精度をトレードオフできる一連の新しい最適化に依存している。 1)マルチカメラオブジェクト追跡,(2)ネットワーク侵入検出,(3)人間の活動認識の3つの分散予測タスクについて,EdgeServeの評価を行った。

The relevant features for a machine learning task may be aggregated from data sources collected on different nodes in a network. This problem, which we call decentralized prediction, creates a number of interesting systems challenges in managing data routing, placing computation, and time-synchronization. This paper presents EdgeServe, a machine learning system that can serve decentralized predictions. EdgeServe relies on a low-latency message broker to route data through a network to nodes that can serve predictions. EdgeServe relies on a series of novel optimizations that can tradeoff computation, communication, and accuracy. We evaluate EdgeServe on three decentralized prediction tasks: (1) multi-camera object tracking, (2) network intrusion detection, and (3) human activity recognition.
翻訳日:2023-03-19 11:49:25 公開日:2023-03-02
# 一様悲観的リスクと最適ポートフォリオ

Uniform Pessimistic Risk and Optimal Portfolio ( http://arxiv.org/abs/2303.07158v1 )

ライセンス: Link先を確認
Sungchul Hong and Jong-June Jeon(参考訳) 資産配分の最適性はリスク対策の理論分析と広く議論されてきた。 ペシミズムは、従来の最適ポートフォリオモデルを超えた最も魅力的なアプローチの1つであり、$\alpha$-riskは悲観的最適ポートフォリオの幅広いクラスを導出する上で重要な役割を果たす。 しかし、利用可能な推定モデルと計算アルゴリズムがないため、悲観的リスクによって評価される最適ポートフォリオの推定は依然として困難である。 本研究では,一様悲観的リスクと呼ばれる$\alpha$-riskの統合バージョンと,そのリスクに基づいて最適なポートフォリオを得るための計算アルゴリズムを提案する。 さらに,提案するリスクの理論的性質を,多変量回帰,適切なスコアリングルール,分布的ロバストな最適化という3つのアプローチから検討した。 また、韓国株式市場の悲観的最適ポートフォリオモデルを推定し、実データ分析の結果を比較するために一様悲観的リスクが適用される。 株式市場が不安定な場合、提案された悲観的ポートフォリオが他のポートフォリオよりも堅牢なパフォーマンスを示すことが実証的に確認されている。

The optimality of allocating assets has been widely discussed with the theoretical analysis of risk measures. Pessimism is one of the most attractive approaches beyond the conventional optimal portfolio model, and the $\alpha$-risk plays a crucial role in deriving a broad class of pessimistic optimal portfolios. However, estimating an optimal portfolio assessed by a pessimistic risk is still challenging due to the absence of an available estimation model and a computational algorithm. In this study, we propose a version of integrated $\alpha$-risk called the uniform pessimistic risk and the computational algorithm to obtain an optimal portfolio based on the risk. Further, we investigate the theoretical properties of the proposed risk in view of three different approaches: multiple quantile regression, the proper scoring rule, and distributionally robust optimization. Also, the uniform pessimistic risk is applied to estimate the pessimistic optimal portfolio models for the Korean stock market and compare the result of the real data analysis. It is empirically confirmed that the proposed pessimistic portfolio presents a more robust performance than others when the stock market is unstable.
翻訳日:2023-03-19 11:47:13 公開日:2023-03-02
# cosyn:コンテキスト同期双曲ネットワークを用いたオンライン会話における暗黙的ヘイトスピーチの検出

CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network ( http://arxiv.org/abs/2303.03387v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Manan Suri and Purva Chiniya and Utkarsh Tyagi and Sonal Kumar and Dinesh Manocha(参考訳) オンライン会話で対話するソーシャルメディアユーザーの巨大な成長は、ヘイトスピーチの大幅な成長にも繋がった。 先行研究のほとんどが、暗黙のヘイトスピーチの検出や間接言語やコード化された言語によるヘイトスピーチの検出に重点を置いて、ヘイトフルなフレーズを活用している、明示的なヘイトスピーチの検出に重点を置いている。 本稿では,オンライン会話ツリーにおける暗黙のヘイトスピーチを検出するための,ユーザと会話の合成ネットワークであるCoSynを提案する。 CoSynは、新しい双曲的フーリエアテンション機構と双曲的グラフ畳み込みネットワークを用いて、ユーザーの個人的歴史的・社会的文脈をモデル化する。 次に、双曲空間における新たなコンテキストインタラクション機構を用いて、ユーザの個人的コンテキストと会話的コンテキストを協調的にモデル化し、両者の相互作用を明確に捉え、両方のコンテキストから取得すべき情報量について独立的に評価する。 cosynは、ソーシャルメディアのスケールフリーなダイナミクスを考慮するために、双曲空間で全ての操作を行う。 我々はCoSynの有効性を、Twitterの会話を伴うオープンソースのヘイトスピーチデータセット上で定性的かつ定量的に示すとともに、CoSynが8.15%から19.50%の範囲で絶対的な改善を施した暗黙のヘイトスピーチの検出において、すべてのベースラインを上回っていることを示す。

The tremendous growth of social media users interacting in online conversations has also led to significant growth in hate speech. Most of the prior works focus on detecting explicit hate speech, which is overt and leverages hateful phrases, with very little work focusing on detecting hate speech that is implicit or denotes hatred through indirect or coded language. In this paper, we present CoSyn, a user- and conversational-context synergized network for detecting implicit hate speech in online conversation trees. CoSyn first models the user's personal historical and social context using a novel hyperbolic Fourier attention mechanism and hyperbolic graph convolution network. Next, we jointly model the user's personal context and the conversational context using a novel context interaction mechanism in the hyperbolic space that clearly captures the interplay between the two and makes independent assessments on the amounts of information to be retrieved from both contexts. CoSyn performs all operations in the hyperbolic space to account for the scale-free dynamics of social media. We demonstrate the effectiveness of CoSyn both qualitatively and quantitatively on an open-source hate speech dataset with Twitter conversations and show that CoSyn outperforms all our baselines in detecting implicit hate speech with absolute improvements in the range of 8.15% - 19.50%.
翻訳日:2023-03-12 03:50:30 公開日:2023-03-02
# アッパーマージオントロジーの型付き一階形式への変換

Converting the Suggested Upper Merged Ontology to Typed First-order Form ( http://arxiv.org/abs/2303.04148v1 )

ライセンス: Link先を確認
Adam Pease(参考訳) 提案するuper merged ontology (sumo) からtyped first-order form (tff) へのレベル0多型への翻訳について述べる。 E と Vampire の定理プローバーで使われる SUMO の TPTP FOF 翻訳を作成するための先行研究に基づいて、明示的に型付けされた論理を扱うのに必要な変換を詳述し、目的とする意味論と TFF で許容される3つの数値クラスに整合して数に対する SUMO の型階層を表現する。 本稿では,オープンソースコードの記述と,その結果の理論的根拠をヴァンパイアで例証する。

We describe the translation of the Suggested Upper Merged Ontology (SUMO) to Typed First-order Form (TFF) with level 0 polymorphism. Building on our prior work to create a TPTP FOF translation of SUMO for use in the E and Vampire theorem provers, we detail the transformations required to handle an explicitly typed logic, and express SUMO's type hierarchy for numbers in a manner consistent with its intended semantics and the three numerical classes allowed in TFF. We provide description of the open source code and an example proof in Vampire on the resulting theory.
翻訳日:2023-03-12 03:41:34 公開日:2023-03-02
# 逆学習した連続雑音によるロバスト半監督異常検出

Robust Semi-Supervised Anomaly Detection via Adversarially Learned Continuous Noise Corruption ( http://arxiv.org/abs/2303.03925v1 )

ライセンス: Link先を確認
Jack W Barker, Neelanjan Bhowmik, Yona Falinie A Gaus and Toby P Breckon(参考訳) 異常検出は、確立された正規性から著しく逸脱する新しいサンプルを認識するタスクである。 トレーニング中に異常なクラスは存在しないため、モデルが通常のクラスデータサンプルに対してのみ効果的な再送を学ばなければならない。 ディープオートエンコーダ(AE)は、異常検出タスクとして広く使用されているが、ヌルID関数への過度な適合に悩まされている。 この問題に対処するために,逆学習型連続雑音(alcn)を生成する効率的な手法を導入するデノイジングオートエンコーダ(dae)に対して,デノイジングに先立つ入力を最大にグローバルに破壊するトレーニング手法を実装した。 従来の手法では、DAEのロバスト性を高めるために、逆行訓練の同様のアプローチが適用されていたが、現実の応用可能性の低下や一般化難読化などの制限がある。 トレーニング中の正規化のALCN法は,古典的・例外的新奇性検出タスクと変分9(正規)vを併用しながら,推論時のAUC性能を向上することを示す。 mnist - aucavg: 0.890 & 0.989, cifar-10 - aucavg: 0.670& 0.742 実世界の異常検出タスク: 産業検査 (mvtec-ad -aucavg: 0.780) および植物病検出 (plant village - auc: 0.770) 以前のアプローチと比較すると、実世界の異常検出タスクは困難である。

Anomaly detection is the task of recognising novel samples which deviate significantly from pre-establishednormality. Abnormal classes are not present during training meaning that models must learn effective rep-resentations solely across normal class data samples. Deep Autoencoders (AE) have been widely used foranomaly detection tasks, but suffer from overfitting to a null identity function. To address this problem, weimplement a training scheme applied to a Denoising Autoencoder (DAE) which introduces an efficient methodof producing Adversarially Learned Continuous Noise (ALCN) to maximally globally corrupt the input priorto denoising. Prior methods have applied similar approaches of adversarial training to increase the robustnessof DAE, however they exhibit limitations such as slow inference speed reducing their real-world applicabilityor producing generalised obfuscation which is more trivial to denoise. We show through rigorous evaluationthat our ALCN method of regularisation during training improves AUC performance during inference whileremaining efficient over both classical, leave-one-out novelty detection tasks with the variations-: 9 (normal)vs. 1 (abnormal) & 1 (normal) vs. 9 (abnormal); MNIST - AUCavg: 0.890 & 0.989, CIFAR-10 - AUCavg: 0.670& 0.742, in addition to challenging real-world anomaly detection tasks: industrial inspection (MVTEC-AD -AUCavg: 0.780) and plant disease detection (Plant Village - AUC: 0.770) when compared to prior approaches.
翻訳日:2023-03-12 03:40:53 公開日:2023-03-02
# AI/ML医療診断装置の臨床的妥当性に関する統計的考察

Practical Statistical Considerations for the Clinical Validation of AI/ML-enabled Medical Diagnostic Devices ( http://arxiv.org/abs/2303.05399v1 )

ライセンス: Link先を確認
Feiming Chen, Hong Laura Lu, Arianna Simonetti(参考訳) 人工知能(AI)や機械学習(ML)モデルは、医療機器ソフトウェアなどの医療製品にますます使われている。 本稿では,AI/ML対応医療診断装置の評価における統計的側面について概説する。 また,AI/ML対応医療機器の臨床検証において,意図した使用の文脈において,様々な統計的課題に対処する上で,関連する学術的基準と注意が必要である。

Artificial Intelligence (AI) and Machine-Learning (ML) models have been increasingly used in medical products, such as medical device software. General considerations on the statistical aspects for the evaluation of AI/ML-enabled medical diagnostic devices are discussed in this paper. We also provide relevant academic references and note good practices in addressing various statistical challenges in the clinical validation of AI/ML-enabled medical devices in the context of their intended use.
翻訳日:2023-03-12 03:32:07 公開日:2023-03-02
# プレセプション免疫療法におけるT細胞受容体最適化と強化学習と変異抑制

T-Cell Receptor Optimization with Reinforcement Learning and Mutation Policies for Precesion Immunotherapy ( http://arxiv.org/abs/2303.02162v1 )

ライセンス: Link先を確認
Ziqi Chen, Martin Renqiang Min, Hongyu Guo, Chao Cheng, Trevor Clancy, Xia Ning(参考訳) t細胞は表面に表示されている異物ペプチドを同定することで細胞の健康状態を監視する。 T細胞受容体(TCR)は、T細胞の表面にあるタンパク質複合体であり、これらのペプチドに結合することができる。 このプロセスはTCR認識と呼ばれ、免疫応答の重要なステップを構成する。 TCR認識のためのTCR配列の最適化は、がん細胞やウイルス感染細胞を殺傷する免疫反応を誘発するパーソナライズされた治療を開発するための基本的なステップである。 本稿では,これら最適化されたTCRの探索を強化学習(RL)問題として定式化し,近位ポリシー最適化を用いた突然変異ポリシー付きフレームワークTCRPPOを提案する。 TCRPPOはTCRを特定のペプチドを認識する効果的なものに変異させる。 TCRPPOは、ディープオートエンコーダに基づく新しいスコアリング関数によって測定される有効なTCRである変異配列の確率と、ペプチド-TCR相互作用予測器からペプチドを認識する変異配列の確率を組み合わせた報酬関数を利用する。 我々は,TCRPPOを複数のベースライン法と比較し,TRPPOが正の結合と有効なTCRを生成するために,すべてのベースライン法を著しく上回っていることを示した。 以上の結果から,TCRPPOの精度免疫療法およびペプチド認識型TCRモチーフ発見への応用が示唆された。

T cells monitor the health status of cells by identifying foreign peptides displayed on their surface. T-cell receptors (TCRs), which are protein complexes found on the surface of T cells, are able to bind to these peptides. This process is known as TCR recognition and constitutes a key step for immune response. Optimizing TCR sequences for TCR recognition represents a fundamental step towards the development of personalized treatments to trigger immune responses killing cancerous or virus-infected cells. In this paper, we formulated the search for these optimized TCRs as a reinforcement learning (RL) problem, and presented a framework TCRPPO with a mutation policy using proximal policy optimization. TCRPPO mutates TCRs into effective ones that can recognize given peptides. TCRPPO leverages a reward function that combines the likelihoods of mutated sequences being valid TCRs measured by a new scoring function based on deep autoencoders, with the probabilities of mutated sequences recognizing peptides from a peptide-TCR interaction predictor. We compared TCRPPO with multiple baseline methods and demonstrated that TCRPPO significantly outperforms all the baseline methods to generate positive binding and valid TCRs. These results demonstrate the potential of TCRPPO for both precision immunotherapy and peptide-recognizing TCR motif discovery.
翻訳日:2023-03-07 21:18:56 公開日:2023-03-02
# Navigates Like Me: ビデオゲームで人間のようなAIを評価する方法を理解する

Navigates Like Me: Understanding How People Evaluate Human-Like AI in Video Games ( http://arxiv.org/abs/2303.02160v1 )

ライセンス: Link先を確認
Stephanie Milani, Arthur Juliani, Ida Momennejad, Raluca Georgescu, Jaroslaw Rzpecki, Alison Shaw, Gavin Costello, Fei Fang, Sam Devlin, Katja Hofmann(参考訳) 本研究の目的は、人間とAIエージェントが生み出すナビゲーションにおける人間の類似性を評価する方法を理解することである。 そこで我々は,より人間的な行動を生み出すことを目的とした,新しいAIエージェントを提案する。 エージェントとベースラインAIエージェントが生成するナビゲーション行動と人為的行動とを比較した,クラウドソースによる数百のアセスメントを収集する。 提案するエージェントはチューリングテストに合格するが,ベースラインエージェントは合格しない。 チューリングテストに合格することで、人間の裁判官は、人のビデオとナビゲートするAIエージェントを定量的に区別できないことを意味します。 人間のようなナビゲーションを構成すると考えるものを理解するため、これらの評価の正当性を広範囲に分析する。 この研究は、AIエージェントとのヒューマンインタラクションをさらに改善するための重要なステップである、ゴール指向のビデオゲームナビゲーションの文脈において、人間が人間のように考える特性に関する洞察を提供する。

We aim to understand how people assess human likeness in navigation produced by people and artificially intelligent (AI) agents in a video game. To this end, we propose a novel AI agent with the goal of generating more human-like behavior. We collect hundreds of crowd-sourced assessments comparing the human-likeness of navigation behavior generated by our agent and baseline AI agents with human-generated behavior. Our proposed agent passes a Turing Test, while the baseline agents do not. By passing a Turing Test, we mean that human judges could not quantitatively distinguish between videos of a person and an AI agent navigating. To understand what people believe constitutes human-like navigation, we extensively analyze the justifications of these assessments. This work provides insights into the characteristics that people consider human-like in the context of goal-directed video game navigation, which is a key step for further improving human interactions with AI agents.
翻訳日:2023-03-07 21:18:34 公開日:2023-03-02
# BioImageLoader: 機械学習のためのバイオイメージデータセットの取り扱いを容易にする

BioImageLoader: Easy Handling of Bioimage Datasets for Machine Learning ( http://arxiv.org/abs/2303.02158v1 )

ライセンス: Link先を確認
Seongbin Lim, Xingjian Zhang, Emmanuel Beaurepaire and Anatole Chessel(参考訳) BioImageLoader(BIL)は、機械学習アプリケーションのためのバイオイメージデータセットを処理し、シンプルなワークフローを緩和し、複雑なものを可能にするピソンライブラリである。 BILは、多数の多様なバイオイメージングデータセットを統一インターフェースでラップし、容易に結合し、画像拡張を実行し、バッチロードしようとする。 実験データセット単位のレベルで動作することにより、高いレベルのカスタマイズと実験間の比較が可能になる。 ここではライブラリを提示し、発行されたディープラーニングアーキテクチャの再トレーニングや、その汎用性の評価など、利用可能ないくつかのアプリケーションを示す。

BioImageLoader (BIL) is a python library that handles bioimage datasets for machine learning applications, easing simple workflows and enabling complex ones. BIL attempts to wrap the numerous and varied bioimages datasets in unified interfaces, to easily concatenate, perform image augmentation, and batch-load them. By acting at a per experimental dataset level, it enables both a high level of customization and a comparison across experiments. Here we present the library and show some application it enables, including retraining published deep learning architectures and evaluating their versatility in a leave-one-dataset-out fashion.
翻訳日:2023-03-07 21:18:21 公開日:2023-03-02
# マルチエージェント強化学習のベンチマークとしての繰り返し岩盤の集団評価

Population-based Evaluation in Repeated Rock-Paper-Scissors as a Benchmark for Multiagent Reinforcement Learning ( http://arxiv.org/abs/2303.03196v1 )

ライセンス: Link先を確認
Marc Lanctot, John Schultz, Neil Burch, Max Olan Smith, Daniel Hennes, Thomas Anthony, Julien Perolat(参考訳) 機械学習と敵対的計画の分野の進歩は、チェッカーや古典的なUCIデータセットからGoと外交まで、ベンチマークドメインから大きな恩恵を受けている。 シーケンシャルな意思決定において、エージェント評価は専門家との相互作用がほとんどなく、望ましいレベルのパフォーマンス(例えば、人間のプロ選手を打つなど)を達成することを目的としている。 本稿では,単純なゲームロック,紙,ハサミの繰り返しプレイと,43名のトーナメント出場者によるマルチエージェント学習のためのベンチマークを提案する。 平均リターンとエクスプロイラビリティの両方に基づいてエージェントの品質を測定するメトリクスについて述べる。 そして、いくつかのRL、オンライン学習、言語モデルアプローチが優れた反ストラテジーを学習し、うまく一般化できることを示し、最終的にはトップパフォーマンスのボットに敗れ、マルチエージェント学習の研究機会を生み出します。

Progress in fields of machine learning and adversarial planning has benefited significantly from benchmark domains, from checkers and the classic UCI data sets to Go and Diplomacy. In sequential decision-making, agent evaluation has largely been restricted to few interactions against experts, with the aim to reach some desired level of performance (e.g. beating a human professional player). We propose a benchmark for multiagent learning based on repeated play of the simple game Rock, Paper, Scissors along with a population of forty-three tournament entries, some of which are intentionally sub-optimal. We describe metrics to measure the quality of agents based both on average returns and exploitability. We then show that several RL, online learning, and language model approaches can learn good counter-strategies and generalize well, but ultimately lose to the top-performing bots, creating an opportunity for research in multiagent learning.
翻訳日:2023-03-07 15:40:03 公開日:2023-03-02
# 音声理解のためのSUREベンチマークに基づくパラメータ効率の良い伝達学習手法の評価

Evaluating Parameter-Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding ( http://arxiv.org/abs/2303.03267v1 )

ライセンス: Link先を確認
Yingting Li, Ambuj Mehrish, Shuai Zhao, Rishabh Bhardwaj, Amir Zadeh, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。 しかし、パラメータ非効率性は、転送学習の間、大きな事前訓練されたモデルのパラメータが下流の個々のタスクのために更新される必要があるときに生じる。 パラメータの数が増えるにつれて、微調整は過度に適合し、破滅的な忘れがちである。 さらに、モデルが多くのタスクに使用される場合、完全な微調整は禁止的に高価になる可能性がある。 この問題を軽減するために,BERT や HuBERT などの大規模事前学習言語モデルにプラグイン可能な,いくつかのトレーニング可能なパラメータを導入する手段として,アダプタやプレフィックスチューニングなどのパラメータ効率のよい転送学習アルゴリズムが提案されている。 本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。 さらに、1D畳み込みに基づく新しいアダプタであるConvAdapterを導入する。 我々は、SUREのタスクの一部でトレーニング可能なパラメータのわずか0.94%でプレフィックスチューニングとLoRAと同等のパフォーマンスを示しながら、ConvAdapterが標準アダプタよりも優れていることを示す。 さらに,text-to-speech (tts) などの音声合成タスクにおけるパラメータ効率の高い転送学習の有効性について検討する。

Fine-tuning is widely used as the default algorithm for transfer learning from pre-trained models. Parameter inefficiency can however arise when, during transfer learning, all the parameters of a large pre-trained model need to be updated for individual downstream tasks. As the number of parameters grows, fine-tuning is prone to overfitting and catastrophic forgetting. In addition, full fine-tuning can become prohibitively expensive when the model is used for many tasks. To mitigate this issue, parameter-efficient transfer learning algorithms, such as adapters and prefix tuning, have been proposed as a way to introduce a few trainable parameters that can be plugged into large pre-trained language models such as BERT, and HuBERT. In this paper, we introduce the Speech UndeRstanding Evaluation (SURE) benchmark for parameter-efficient learning for various speech-processing tasks. Additionally, we introduce a new adapter, ConvAdapter, based on 1D convolution. We show that ConvAdapter outperforms the standard adapters while showing comparable performance against prefix tuning and LoRA with only 0.94% of trainable parameters on some of the task in SURE. We further explore the effectiveness of parameter efficient transfer learning for speech synthesis task such as Text-to-Speech (TTS).
翻訳日:2023-03-07 15:31:14 公開日:2023-03-02
# AIとFCI:ChatGPTは導入物理を理解することができるか?

AI and the FCI: Can ChatGPT Project an Understanding of Introductory Physics? ( http://arxiv.org/abs/2303.01067v1 )

ライセンス: Link先を確認
Colin G. West(参考訳) ChatGPTは、大規模な言語モデル上に構築されたAIインターフェースで、人間の会話をエミュレートする巨大なテキストコーパスに基づいてトレーニングされている。 ブリーズをもっともらしい方法で撮影する能力以外にも、バーの試験やMBAのコースワークからの質問に答える能力や、コンピュータコードを書く上で有用な補助を提供する能力が注目されている。 これらの明らかな能力は、ChatGPTを高等教育の完全性への脅威であり、逆に強力な教育ツールであるとの議論を引き起こしている。 本研究では, 第一学期におけるChatGPTが, 主にFCI(Force Concept Inventory)を用いて, 運動学やニュートン力学に関する概念物理学的な問題に対して, 正しい応答を与えることができるかを評価する。 ある尺度では、chatgptは大学物理学の1学期を修了した大学生の中央値のパフォーマンスと一致または超えられるが、そのパフォーマンスは顕著に不均一であり、その結果はニュアンス化されている。 ChatGPTのパフォーマンスは、FCIのような概念的アセスメントツールの性質について何を教えてくれますか? 学生のリソースとしてのChatGPTの活用は可能か? ChatGPTは物理教育の授業ツールとして利用できるか? そしてそれは、物理教育に携わる人たちの教室外支援として使えるのか?

ChatGPT is a groundbreaking ``chatbot"--an AI interface built on a large language model that was trained on an enormous corpus of human text to emulate human conversation. Beyond its ability to shoot the breeze in a plausible way, it has attracted attention for its ability to competently answer questions from the bar exam and from MBA coursework, and to provide useful assistance in writing computer code. These apparent abilities have prompted discussion of ChatGPT as both a threat to the integrity of higher education and conversely as a powerful teaching tool. In this work we present a preliminary analysis of how ChatGPT fares in the field of first-semester university physics, using primarily the Force Concept Inventory (FCI) to assess whether it can give correct responses to conceptual physics questions about kinematics and Newtonian dynamics. We demonstrate that, by some measures, ChatGPT can match or exceed the median performance of a university student who has completed one semester of college physics, though its performance is notably uneven and the results are nuanced. We conclude with a discussion of these results in light of four questions that motivated this work: what does ChatGPT's performance tell us about the nature of conceptual assessment tools like the FCI? How might the availability of ChatGPT as a resource for students? Can ChatGPT be used as an in-class teaching tool for physics instruction? And can it be used as an out-of-classroom aid to those engaged in physics pedagogy?
翻訳日:2023-03-06 17:35:20 公開日:2023-03-02
# レジェンダプロトタイプを用いたパラメトリック増幅器マッチング

Parametric Amplifier Matching Using Legendre Prototypes ( http://arxiv.org/abs/2303.00184v2 )

ライセンス: Link先を確認
Ryan Kaufman and Ofer Naaman(参考訳) 本稿では、ルジャンドル多項式に基づくジョセフソンパラメトリック増幅器(JPA)マッチングネットワークについて述べる。 これらのネットワークは通常、同様のパラメータを持つチェビシェフネットワークよりも低いリップルと緩やかなロールオフを示し、バターワースとチェビシェフのギャップを埋めると見なすことができる。 我々は,ゲインパラメータとリップルパラメータの値とネットワーク順序の値の値を持つレジャンドル多項式に基づくパラメトリック増幅器のプロトタイプ係数を集計する。 また、この機会を利用して、以前の研究から得られた手法に基づいてこれらのネットワークの合成を更に説明し、500MHzの帯域幅で中心周波数5GHzで20dBゲインのプロトタイプJPAを合成する。

In this note we describe Josephson parametric amplifier (JPA) matching networks based on Legendre polynomials. These networks typically exhibit lower ripple and gentler roll-off than Chebyshev networks with similar parameters, and can be viewed as bridging the gap between Butterworth and Chebyshev ones. We tabulate prototype coefficients for parametric amplifiers based on Legendre polynomials with a range of gain and ripple parameters, and for a range of network orders. We also use this opportunity to further illustrate the synthesis of these networks based on methods from previous work, and synthesize a prototype JPA with 20dB gain at a center frequency of 5GHz with a bandwidth of 500MHz.
翻訳日:2023-03-06 17:34:34 公開日:2023-03-02
# 位相推定のための適応ベイズ量子アルゴリズム

An adaptive Bayesian quantum algorithm for phase estimation ( http://arxiv.org/abs/2303.01517v1 )

ライセンス: Link先を確認
Joseph G. Smith, Crispin H. W. Barnes, David R. M. Arvidsson-Shukur(参考訳) 量子位相推定アルゴリズムは、量子コンピュータや量子メトロジープロトコルの多くの応用において重要なサブルーチンである。 これらのアルゴリズムはユニタリ進化の未知の強さを推定する。 コヒーレンスや絡み合いを使って単位の$N_{\mathrm{tot}}$ timesをサンプリングすることで、見積もりのばらつきは$O(1/{N^2_{\mathrm{tot}}})$と、$O(1/{N_{\mathrm{tot}}})$の最良の ‘古典'戦略と比較すると、$O(1/{N_{\mathrm{tot}}})$とスケールすることができる。 量子位相推定のアルゴリズムは、大規模な絡み合ったプローブとフォールトトレラント量子コンピューティングを必要とするため、短期ハードウェアでは実装できない。 そのため、コヒーレンスと統計的推論に依存する代替アルゴリズムが導入された。 これらのアルゴリズムは、プローブ間の絡み合いなしに量子ブースト位相推定を生成する。 この位相推定アルゴリズム群は、これまで、最適なスケーリング $o(1/{n^2_{\mathrm{tot}}})$ を達成する可能性を示さなかった。 さらに、これらのアルゴリズムに対するノイズの影響も考慮されていない。 本稿では、平均絶対誤差と平均二乗誤差の最適2次スケーリングを実現するコヒーレンスに基づく位相推定アルゴリズムを提案する。 ノイズの存在下で、我々のアルゴリズムは理論的下界に近づく誤差を生成する。 それぞれのステップは、前回のステップの結果を分析するベイズプロトコルを用いて、反復的に決定されます。

Quantum-phase-estimation algorithms are critical subroutines in many applications for quantum computers and in quantum-metrology protocols. These algorithms estimate the unknown strength of a unitary evolution. By using coherence or entanglement to sample the unitary $N_{\mathrm{tot}}$ times, the variance of the estimates can scale as $O(1/{N^2_{\mathrm{tot}}})$, compared to the best ``classical'' strategy with $O(1/{N_{\mathrm{tot}}})$. The original algorithm for quantum phase estimation cannot be implemented on near-term hardware as it requires large-scale entangled probes and fault-tolerant quantum computing. Therefore, alternative algorithms have been introduced that rely on coherence and statistical inference. These algorithms produce quantum-boosted phase estimates without inter-probe entanglement. This family of phase-estimation algorithms have, until now, never exhibited the possibility of achieving optimal scaling $O(1/{N^2_{\mathrm{tot}}})$. Moreover, previous works have not considered the effect of noise on these algorithms. Here, we present a coherence-based phase-estimation algorithm which can achieve the optimal quadratic scaling in the mean absolute error and the mean squared error. In the presence of noise, our algorithm produces errors that approach the theoretical lower bound. The optimality of our algorithm stems from its adaptive nature: Each step is determined, iteratively, using a Bayesian protocol that analyses the results of previous steps.
翻訳日:2023-03-06 17:25:32 公開日:2023-03-02
# 磁気共鳴画像再構成・合成のための最適化に基づく深層学習法

Optimization-Based Deep learning methods for Magnetic Resonance Imaging Reconstruction and Synthesis ( http://arxiv.org/abs/2303.01515v1 )

ライセンス: Link先を確認
Wanyu Bian(参考訳) この論文は(磁気共鳴画像)mri再構成の高度な非凸非スムース変分モデル、効率的な学習可能な画像再構成アルゴリズム、および圧縮センシングmri再構成と合成のための最適化に基づくディープラーニング法の正確性と堅牢性を向上させるパラメータトレーニングアルゴリズムを提供することに尽力している。 第1部では、変動モデルを解くための近位勾配降下にインスパイアされた、新しい最適化ベースのディープニューラルネットワークを紹介する。 第2部は、離散時間最適制御フレームワークにおける校正不要高速pMRI再構成問題を解くことにより、第1部における予備作業の実質的な拡張である。 第3部は、メタラーニングフレームワークにおけるmri(generalizable magnetic resonance imaging)再構成法の開発を目標としている。 最後の部分は、最先端のマルチモーダル合成に使用される完全にスキャンされたデータの代わりに、ソースモーダルから部分的にスキャンされたk空間データを用いて、MRIのターゲットモダリティを合成することを目的としている。

This dissertation is devoted to provide advanced nonconvex nonsmooth variational models of (Magnetic Resonance Image) MRI reconstruction, efficient learnable image reconstruction algorithms and parameter training algorithms that improve the accuracy and robustness of the optimization-based deep learning methods for compressed sensing MRI reconstruction and synthesis. The first part introduces a novel optimization based deep neural network whose architecture is inspired by proximal gradient descent for solving a variational model. The second part is a substantial extension of the preliminary work in the first part by solving the calibration-free fast pMRI reconstruction problem in a discrete-time optimal control framework. The third part aims at developing a generalizable Magnetic Resonance Imaging (MRI) reconstruction method in the meta-learning framework. The last part aims to synthesize target modality of MRI by using partially scanned k-space data from source modalities instead of fully scanned data that is used in the state-of-the-art multimodal synthesis.
翻訳日:2023-03-06 17:25:03 公開日:2023-03-02
# 健康とそれ以上の学習機械

Learning machines for health and beyond ( http://arxiv.org/abs/2303.01513v1 )

ライセンス: Link先を確認
Mahed Abroshan, Oscar Giles, Sam Greenbury, Jack Roberts, Mihaela van der Schaar, Jannetta S Steyn, Alan Wilson, May Yong(参考訳) 機械学習技術は、大きなデータセットのパターンを特定するのに長けているため、予測モデルを構築するのに効果的である。 複雑な実生活問題のためのモデルの開発は、しばしば出版、概念実証、またはある展開モードを通じてアクセス可能になったときに停止する。 しかし、医療領域のモデルは患者の人口構成が変化するとすぐに時代遅れになるリスクがある。 公開後の予測モデルの保守と監視は、安全かつ効果的な長期使用を保証するために不可欠である。 機械学習のテクニックは、利用可能なデータセットのパターンを探すように効果的に訓練されているため、複雑な現実の問題に対するモデルのパフォーマンスはピークではなく、公開時点やデプロイ時点でも固定される。 むしろ、データは時間とともに変化し、新しいデモグラフィーで使用される新しい場所にモデルが転送されるときにも変化します。

Machine learning techniques are effective for building predictive models because they are good at identifying patterns in large datasets. Development of a model for complex real life problems often stops at the point of publication, proof of concept or when made accessible through some mode of deployment. However, a model in the medical domain risks becoming obsolete as soon as patient demographic changes. The maintenance and monitoring of predictive models post-publication is crucial to guarantee their safe and effective long term use. As machine learning techniques are effectively trained to look for patterns in available datasets, the performance of a model for complex real life problems will not peak and remain fixed at the point of publication or even point of deployment. Rather, data changes over time, and they also changed when models are transported to new places to be used by new demography.
翻訳日:2023-03-06 17:24:45 公開日:2023-03-02
# 積分確率指標を用いたベイズ後部摂動解析

Bayesian Posterior Perturbation Analysis with Integral Probability Metrics ( http://arxiv.org/abs/2303.01512v1 )

ライセンス: Link先を確認
Alfredo Garbuno-Inigo, Tapio Helin, Franca Hoffmann, Bamdad Hosseini(参考訳) 近年,科学,工学,機械学習の大規模逆問題におけるベイズ推論が注目されている。 本稿では, ベイズ的手法のロバスト性について検討し, ポテンシャルの摂動と事前測度との関係で後方測度の安定性を解析した。 最適輸送において発生する2つの問題に類似した積分確率測定値(発散)の族を用いて,新しい安定性結果を示す。 本研究は,(1)問題に適応した積分確率測度の新しい族を構築すること,(2)その新しい測度は,確率と先行摂動の両方を便利な方法で研究すること,(3)局所的なリプシッツしか持たないポテンシャルを考慮し,幅広い非線形逆問題に適用すること,の3つの点で,これまでの研究結果から際立ったものである。 我々の理論的な知見は、様々な種類の摂動に対して後方測度を近似する特定の例や新しい例によってさらに強化され、最近応用された機械学習手法の収束解析への道のりとして、データ駆動型先行処理やニューラルネットワークサロゲートのようなベイズ的逆問題がある。

In recent years, Bayesian inference in large-scale inverse problems found in science, engineering and machine learning has gained significant attention. This paper examines the robustness of the Bayesian approach by analyzing the stability of posterior measures in relation to perturbations in the likelihood potential and the prior measure. We present new stability results using a family of integral probability metrics (divergences) akin to dual problems that arise in optimal transport. Our results stand out from previous works in three directions: (1) We construct new families of integral probability metrics that are adapted to the problem at hand; (2) These new metrics allow us to study both likelihood and prior perturbations in a convenient way; and (3) our analysis accommodates likelihood potentials that are only locally Lipschitz, making them applicable to a wide range of nonlinear inverse problems. Our theoretical findings are further reinforced through specific and novel examples where the approximation rates of posterior measures are obtained for different types of perturbations and provide a path towards the convergence analysis of recently adapted machine learning techniques for Bayesian inverse problems such as data-driven priors and neural network surrogates.
翻訳日:2023-03-06 17:24:31 公開日:2023-03-02
# INO at Factify 2: Structure Coherence based Multi-Modal Fact Verification

INO at Factify 2: Structure Coherence based Multi-Modal Fact Verification ( http://arxiv.org/abs/2303.01510v1 )

ライセンス: Link先を確認
Yinuo Zhang, Zhulin Tao, Xi Wang, Tongyue Wang(参考訳) 本稿では,AAAI2023におけるマルチモーダル事実検証(FACTIFY)へのアプローチについて述べる。 近年、ソーシャルメディアの普及に伴い、偽ニュースは急速に拡散し、社会保障に悪影響を及ぼす可能性がある。 自動クレーム検証は、フェイクニュースと戦うためにますます重要になる。 事実、複数のモーダルデータを含む検証では、クレームとドキュメントの間に構造的一貫性があるべきである。 そこで我々は,偽ニュースを分類する構造コヒーレンスに基づくマルチモーダル事実検証手法を提案する。 構造コヒーレンスには, 文長, 語彙的類似性, 意味的類似性, 画像的類似性という4つの側面がある。 具体的には、CLIPとSentence BERTを組み合わせてテキストの特徴を抽出し、ResNet50を使って画像の特徴を抽出する。 また,テキストの長さや語彙の類似性も抽出した。 そして、それらの特徴を連結し、ランダムな森林分類器を通した。 最後に、我々の重み付き平均F1スコアは0.8079に達し、FACTIFY2で2位となった。

This paper describes our approach to the multi-modal fact verification (FACTIFY) challenge at AAAI2023. In recent years, with the widespread use of social media, fake news can spread rapidly and negatively impact social security. Automatic claim verification becomes more and more crucial to combat fake news. In fact verification involving multiple modal data, there should be a structural coherence between claim and document. Therefore, we proposed a structure coherence-based multi-modal fact verification scheme to classify fake news. Our structure coherence includes the following four aspects: sentence length, vocabulary similarity, semantic similarity, and image similarity. Specifically, CLIP and Sentence BERT are combined to extract text features, and ResNet50 is used to extract image features. In addition, we also extract the length of the text as well as the lexical similarity. Then the features were concatenated and passed through the random forest classifier. Finally, our weighted average F1 score has reached 0.8079, achieving 2nd place in FACTIFY2.
翻訳日:2023-03-06 17:24:10 公開日:2023-03-02
# EPAM:モバイルAIの予測エネルギーモデル

EPAM: A Predictive Energy Model for Mobile AI ( http://arxiv.org/abs/2303.01509v1 )

ライセンス: Link先を確認
Anik Mallik, Haoxin Wang, Jiang Xie, Dawei Chen, and Kyungtae Han(参考訳) 人工知能(AI)は、スマートアプリケーションの新しいパラダイムを可能にしました。 これらのAI対応アプリケーションの多くは、特にモバイルデバイス(スマートフォン、ウェアラブルデバイス、車両など)のアプリケーションにおいて、非常に厳しいレイテンシ要件を持っている。 したがって、モバイルデバイス向けに小型で量子化されたディープニューラルネットワーク(DNN)モデルが開発され、モバイルAIアプリケーションに対してより高速でエネルギー効率の高い計算を提供する。 しかし、AIモデルがモバイルデバイスでどのようにエネルギーを消費するかはまだ解明されていない。 これらのモデルのエネルギー消費を予測するには、視覚や非視覚などの異なる応用とともに、様々な処理源を用いてそれらの挙動を徹底的に調査する必要がある。 本稿では,異なるDNNモデルと処理源を考慮したモバイルAIアプリケーションについて,計算資源利用,遅延,エネルギー消費に着目した総合的研究を紹介する。 大規模な実験により,4つの処理源を用いた全モデルのレイテンシ,エネルギー消費,メモリ使用量を測定した。 このような調査の課題と克服の方法について説明する。 我々の研究は、CPU、GPU、NNAPIを使用して、異なるアプリケーション(ビジョンとノンビジョン)でモバイルAIがどのように振る舞うかといった重要な洞察を強調している。 最後に, DNN構造, 計算資源, プロセッサに基づくガウスプロセス回帰に基づく新しい一般予測エネルギーモデルを提案する。 この研究は、モバイルAIアプリケーションにエネルギー効率をもたらすため、AI研究コミュニティに重要な事実とエネルギー予測メカニズムを提供する。

Artificial intelligence (AI) has enabled a new paradigm of smart applications -- changing our way of living entirely. Many of these AI-enabled applications have very stringent latency requirements, especially for applications on mobile devices (e.g., smartphones, wearable devices, and vehicles). Hence, smaller and quantized deep neural network (DNN) models are developed for mobile devices, which provide faster and more energy-efficient computation for mobile AI applications. However, how AI models consume energy in a mobile device is still unexplored. Predicting the energy consumption of these models, along with their different applications, such as vision and non-vision, requires a thorough investigation of their behavior using various processing sources. In this paper, we introduce a comprehensive study of mobile AI applications considering different DNN models and processing sources, focusing on computational resource utilization, delay, and energy consumption. We measure the latency, energy consumption, and memory usage of all the models using four processing sources through extensive experiments. We explain the challenges in such investigations and how we propose to overcome them. Our study highlights important insights, such as how mobile AI behaves in different applications (vision and non-vision) using CPU, GPU, and NNAPI. Finally, we propose a novel Gaussian process regression-based general predictive energy model based on DNN structures, computation resources, and processors, which can predict the energy for each complete application cycle irrespective of device configuration and application. This study provides crucial facts and an energy prediction mechanism to the AI research community to help bring energy efficiency to mobile AI applications.
翻訳日:2023-03-06 17:23:54 公開日:2023-03-02
# テキスト音声のきめ細かい感情制御:クラス内感情強度のランク付けを学習する

Fine-grained Emotional Control of Text-To-Speech: Learning To Rank Inter- And Intra-Class Emotion Intensities ( http://arxiv.org/abs/2303.01508v1 )

ライセンス: Link先を確認
Shijun Wang, J\'on Gu{\dh}nason, Damian Borth(参考訳) State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。 しかし、生成された発話は通常感情的な表現では中立であり、言葉や音素のきめ細かい感情的な制御を求めることが多い。 まだ難しいが、感情の強さを手動で割り当てることで音声を制御できる最初のTSモデルが最近提案されている。 残念ながら、クラス内距離が無視されているため、強度の違いはしばしば認識できない。 本稿では,クラス内距離とクラス内距離の両方を考慮し,認識可能な強度差で音声を合成できる,きめ細かい制御可能な感情的TSを提案する。 主観的および客観的実験により、我々のモデルは制御性、感情表現性、自然性の2つの最先端制御可能なTSモデルを超えることを示した。

State-of-the-art Text-To-Speech (TTS) models are capable of producing high-quality speech. The generated speech, however, is usually neutral in emotional expression, whereas very often one would want fine-grained emotional control of words or phonemes. Although still challenging, the first TTS models have been recently proposed that are able to control voice by manually assigning emotion intensity. Unfortunately, due to the neglect of intra-class distance, the intensity differences are often unrecognizable. In this paper, we propose a fine-grained controllable emotional TTS, that considers both inter- and intra-class distances and be able to synthesize speech with recognizable intensity difference. Our subjective and objective experiments demonstrate that our model exceeds two state-of-the-art controllable TTS models for controllability, emotion expressiveness and naturalness.
翻訳日:2023-03-06 17:23:32 公開日:2023-03-02
# 拡散モデルによる対立音声に対する防御

Defending against Adversarial Audio via Diffusion Model ( http://arxiv.org/abs/2303.01507v1 )

ライセンス: Link先を確認
Shutong Wu, Jiongxiao Wang, Wei Ping, Weili Nie and Chaowei Xiao(参考訳) 近年,商業音響システムにおいて深層学習モデルが広く用いられている。 しかし、逆向きの音声サンプルは、人間の知覚が困難である一方で、これらの音響システムの異常な振る舞いを引き起こす可能性がある。 対人攻撃から音響システムを保護するために, 変換型防御や対人訓練などの様々な手法が提案されているが, 適応攻撃に対して効果は低い。 さらに,この手法を画像領域から直接適用すると,音声データの特異な特性のため,最適以下の結果が得られる。 本稿では,市販の拡散モデルを用いた音響システムのための,対向的浄化に基づく防御パイプラインであるaudiopureを提案する。 拡散モデルの強力な生成能力を利用して、audiopureはまず、敵オーディオに少量のノイズを追加し、その後、逆サンプリングステップを実行してノイズを浄化し、クリーンオーディオを回復する。 audiopureはプラグ・アンド・プレイ方式で、事前学習された分類器に直接適用できる。 音声のロバスト性を評価するために,音声コマンド認識タスクを広範囲に実験した。 本手法は,多様な攻撃(例えば $\mathcal{L}_2$ や $\mathcal{L}_\infty$-norm など)に対して有効である。 これは、$\mathcal{l}_2$または$\mathcal{l}_\infty$-norm(ロバストな精度では最大+20\%)で境界付けられた、強力な適応ホワイトボックスとブラックボックス攻撃の両方の下で既存のメソッドを上回る。 さらに,ランダム化平滑化により,$\mathcal{l}_2$-norm で有界な摂動に対するロバスト性も評価した。 私たちのパイプラインは、ベースラインよりも高い認証精度を達成します。

Deep learning models have been widely used in commercial acoustic systems in recent years. However, adversarial audio examples can cause abnormal behaviors for those acoustic systems, while being hard for humans to perceive. Various methods, such as transformation-based defenses and adversarial training, have been proposed to protect acoustic systems from adversarial attacks, but they are less effective against adaptive attacks. Furthermore, directly applying the methods from the image domain can lead to suboptimal results because of the unique properties of audio data. In this paper, we propose an adversarial purification-based defense pipeline, AudioPure, for acoustic systems via off-the-shelf diffusion models. Taking advantage of the strong generation ability of diffusion models, AudioPure first adds a small amount of noise to the adversarial audio and then runs the reverse sampling step to purify the noisy audio and recover clean audio. AudioPure is a plug-and-play method that can be directly applied to any pretrained classifier without any fine-tuning or re-training. We conduct extensive experiments on speech command recognition task to evaluate the robustness of AudioPure. Our method is effective against diverse adversarial attacks (e.g. $\mathcal{L}_2$ or $\mathcal{L}_\infty$-norm). It outperforms the existing methods under both strong adaptive white-box and black-box attacks bounded by $\mathcal{L}_2$ or $\mathcal{L}_\infty$-norm (up to +20\% in robust accuracy). Besides, we also evaluate the certified robustness for perturbations bounded by $\mathcal{L}_2$-norm via randomized smoothing. Our pipeline achieves a higher certified accuracy than baselines.
翻訳日:2023-03-06 17:23:19 公開日:2023-03-02
# テイラー相互作用を用いた14の帰属方法の理解と統一

Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions ( http://arxiv.org/abs/2303.01506v1 )

ライセンス: Link先を確認
Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang(参考訳) 各入力変数の属性/重要/貢献スコアを最終出力に推定することにより、ディープニューラルネットワーク(DNN)を説明する様々な属性法を開発した。 しかし、既存の帰属法はしばしば異なるヒューリスティックに基づいている。 これらの方法がなぜ効果的で、どのように関連しているかについての統一的な理論的理解がいまだに欠けている。 この目的のために、我々は初めて、異なるヒューリスティックに基づいて設計された14個の帰属法のコアメカニズムを、同じ数学的システム、すなわちテイラー相互作用の系に定式化した。 具体的には,14個の帰属法で推定される帰属スコアを,各入力変数の独立効果と入力変数間の相互作用効果という2種類の効果の重み付け和として再構成できることを実証する。 14の帰属法における本質的な違いは、主に異なる効果を割り当てる重みである。 本研究は,14の帰属方法の忠実度を評価するために,効果の公平な配分のための3つの原則を提案する。

Various attribution methods have been developed to explain deep neural networks (DNNs) by inferring the attribution/importance/contribution score of each input variable to the final output. However, existing attribution methods are often built upon different heuristics. There remains a lack of a unified theoretical understanding of why these methods are effective and how they are related. To this end, for the first time, we formulate core mechanisms of fourteen attribution methods, which were designed on different heuristics, into the same mathematical system, i.e., the system of Taylor interactions. Specifically, we prove that attribution scores estimated by fourteen attribution methods can all be reformulated as the weighted sum of two types of effects, i.e., independent effects of each individual input variable and interaction effects between input variables. The essential difference among the fourteen attribution methods mainly lies in the weights of allocating different effects. Based on the above findings, we propose three principles for a fair allocation of effects to evaluate the faithfulness of the fourteen attribution methods.
翻訳日:2023-03-06 17:22:52 公開日:2023-03-02
# 三元量子化:調査

Ternary Quantization: A Survey ( http://arxiv.org/abs/2303.01505v1 )

ライセンス: Link先を確認
Dan Liu, Xue Liu(参考訳) 深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。 ニューラルネットワークモデルをより高速な推論と高い精度で圧縮する研究が数多く行われている。 刈り取りと量子化はこの目的の主流である。 モデル量子化において、層重みの個々のフロート値を低精度に変換することで、計算オーバーヘッドを大幅に削減し、推論速度を向上させることができる。 ベクトル量子化、低ビット量子化、二進量子化など、多くの量子化法が研究されている。 本調査は3次量子化に焦点を当てる。 3次量子化の進化を概観し、射影関数と最適化法の観点から既存の3次量子化法との関係を考察する。

Inference time, model size, and accuracy are critical for deploying deep neural network models. Numerous research efforts have been made to compress neural network models with faster inference and higher accuracy. Pruning and quantization are mainstream methods to this end. During model quantization, converting individual float values of layer weights to low-precision ones can substantially reduce the computational overhead and improve the inference speed. Many quantization methods have been studied, for example, vector quantization, low-bit quantization, and binary/ternary quantization. This survey focuses on ternary quantization. We review the evolution of ternary quantization and investigate the relationships among existing ternary quantization methods from the perspective of projection function and optimization methods.
翻訳日:2023-03-06 17:22:34 公開日:2023-03-02
# 熱画像を用いた手のジェスチャー・手振り・キーポイントの同時予測

Simultaneous prediction of hand gestures, handedness, and hand keypoints using thermal images ( http://arxiv.org/abs/2303.01547v1 )

ライセンス: Link先を確認
Sichao Li, Sean Banerjee, Natasha Kholgade Banerjee, Soumyabrata Dey(参考訳) ハンドジェスチャ検出(英: hand gesture detection)は、様々な形態の人間とコンピュータの相互作用に応用されるコンピュータビジョンの分野である。 本研究では,赤外線カメラで撮影された熱データを用いて,手指ジェスチャー分類,手指検出,手指キーポイント位置推定を同時に行う手法を提案する。 提案手法では,共有エンコーダデコーダ層を含む新しい深層マルチタスク学習アーキテクチャと,各タスク専用の3つのブランチを用いる。 24ユーザデータからなる社内データセット上で,本モデルの広範な実験的検証を行った。 その結果, ジェスチャー分類, 手指先位置検出, 指先定位では98%以上, 手指先定位では99%以上の精度が得られた。

Hand gesture detection is a well-explored area in computer vision with applications in various forms of Human-Computer Interactions. In this work, we propose a technique for simultaneous hand gesture classification, handedness detection, and hand keypoints localization using thermal data captured by an infrared camera. Our method uses a novel deep multi-task learning architecture that includes shared encoderdecoder layers followed by three branches dedicated for each mentioned task. We performed extensive experimental validation of our model on an in-house dataset consisting of 24 users data. The results confirm higher than 98 percent accuracy for gesture classification, handedness detection, and fingertips localization, and more than 91 percent accuracy for wrist points localization.
翻訳日:2023-03-06 17:16:59 公開日:2023-03-02
# MiShape: 顕微鏡によるミトコンドリアの3次元形状モデリング

MiShape: 3D Shape Modelling of Mitochondria in Microscopy ( http://arxiv.org/abs/2303.01546v1 )

ライセンス: Link先を確認
Abhinanda R. Punnakkal, Suyog S Jadhav, Alexander Horsch, Krishna Agarwal, Dilip K. Prasad(参考訳) 蛍光顕微鏡は、細胞を観察し、生命維持過程の基礎となるメカニズムを理解するための重要なツールである。 蛍光顕微鏡画像からミトコンドリアの3次元形状を抽出する問題は、ミトコンドリアが発現する複雑で多様な形状とこれらの顕微鏡の分解能の乏しいため解決されていない。 本研究では,高分解能電子顕微鏡データを用いてミトコンドリアに先立つ形状を学習することにより,このギャップを橋渡しする手法を提案する。 MiShapeはミトコンドリア形状の暗黙的な表現を用いて学習された生成モデルである。 無限に現実的なミトコンドリア形を生成するために使用できる形状分布を提供する。 2次元蛍光画像または2次元スライスの小さな3次元スタックが与えられた3次元形状再構成におけるMiShapeの表現力とその有用性を示す。 また,2次元セグメンテーションと顕微鏡-顕微鏡変換の問題に対して,現実的な3次元基底真理を持つ蛍光顕微鏡データセットを導出することにより,本手法の適用例を示す。

Fluorescence microscopy is a quintessential tool for observing cells and understanding the underlying mechanisms of life-sustaining processes of all living organisms. The problem of extracting 3D shape of mitochondria from fluorescence microscopy images remains unsolved due to the complex and varied shapes expressed by mitochondria and the poor resolving capacity of these microscopes. We propose an approach to bridge this gap by learning a shape prior for mitochondria termed as MiShape, by leveraging high-resolution electron microscopy data. MiShape is a generative model learned using implicit representations of mitochondrial shapes. It provides a shape distribution that can be used to generate infinite realistic mitochondrial shapes. We demonstrate the representation power of MiShape and its utility for 3D shape reconstruction given a single 2D fluorescence image or a small 3D stack of 2D slices. We also showcase applications of our method by deriving simulated fluorescence microscope datasets that have realistic 3D ground truths for the problem of 2D segmentation and microscope-to-microscope transformation.
翻訳日:2023-03-06 17:16:47 公開日:2023-03-02
# コンパイルされた非局所ゲームの量子値のバウンディング:chshからbqp検証へ

Bounding the quantum value of compiled nonlocal games: from CHSH to BQP verification ( http://arxiv.org/abs/2303.01545v1 )

ライセンス: Link先を確認
Anand Natarajan and Tina Zhang(参考訳) 本稿では, 量子完全性と音響性を保ちつつ, プローバ間の分離をシミュレートする暗号を用いて, 絡み合った非ローカルゲームを単一プローサの対話プロトコルに変換する, 汎用的な暗号「コンパイル」手順を作成するためのステップを提案する。 A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. アプリケーションとして、BQPに対して単一プロプライエタリな古典的検証プロトコルを提供し、CHSH剛性解析を用いてその健全性を証明する。 本プロトコルは,Mahadevプロトコルの機能 (FOCS '18) を再現するが,(1) プロトコルは概念的に直感的であり,構成成分が少ないこと,2) 音質解析は非局所的ケースの解析を直接的に行うこと,(2) 音質解析はTFや適応ハードコアビットの仮定を明示的に用いておらず,QFHEをブラックボックスとしてのみ必要である(ただし,現在知られているQFHEの構成はTCFsのみである)。 また、一般ゲームに対しては、量子値が 1 未満の任意の射影ゲームに対して、コンパイルの値も 1 未満であることの証明を含む部分的な結果を与えるが、これはコンパイルされたゲームの量子値は、ncSoS 階層の低レベルのような効率的な緩和によって取得できないことを意味する。

We present a step towards the goal of producing a general cryptographic 'compilation' procedure which can translate any entangled nonlocal game into a single-prover interactive protocol while preserving quantum completeness and soundness, using cryptography to simulate the separation between the provers. A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. As an application, we give a single-prover cryptographically sound classical verification protocol for BQP, and we prove its soundness using our CHSH rigidity analysis. Our protocol replicates the functionality of Mahadev's protocol (FOCS '18) but with two advantages: (1) the protocol is conceptually intuitive and requires fewer bespoke ingredients, and the soundness analysis is simpler and directly follows the analysis of the nonlocal case, and (2) the soundness analysis does not explicitly use the assumption of a TCF or an adaptive hardcore bit, and only requires QFHE as a black box (though currently the only known constructions of QFHE use TCFs). We also give partial results for general games, including a proof that for any projection game with quantum value less than 1, the value of the compilation is also less than 1; this implies that the quantum value of compiled games cannot be captured by efficient relaxations such as low levels of the ncSoS hierarchy.
翻訳日:2023-03-06 17:16:30 公開日:2023-03-02
# 車両ルーティング問題に対する可変部分モジュラ最大化による決定指向学習

Decision-Oriented Learning with Differentiable Submodular Maximization for Vehicle Routing Problem ( http://arxiv.org/abs/2303.01543v1 )

ライセンス: Link先を確認
Guangyao Shi, Pratap Tokekar(参考訳) 本研究では,文脈観測(インプット)をサブモジュール関数(アウトプット)のパラメータにマッピングする関数の学習問題について検討する。 我々のモチベーションケーススタディは、無人地上車両(UGV)のチームが、永続的な監視タスクを実行する無人地上車両(UAV)のチームを充電するための移動充電ステーションとして機能する、特定の種類の車両ルーティング問題である。 我々は,UAVタスク経路と風速の観測から,UAVの着陸位置の分布を記述するサブモジュラー目的関数のパラメータへのマッピングを学習したい。 従来,このような学習問題は,下流タスク最適化フェーズを考慮せずに,予測フェーズとして独立に解決される。 しかしながら、予測に使用される損失関数は、最終目標、すなわちよいルーティング決定とミスマッチする可能性がある。 分離された予測フェーズでの優れたパフォーマンスは、必ずしも下流のルーティングタスクにおいて良い決定を導くとは限らない。 本稿では,予測フェーズにおいてタスク最適化を微分可能な層として組み込むフレームワークを提案する。 本フレームワークは,予測性能のみを目標とした中間損失処理を使わずに,予測モデルのエンドツーエンドトレーニングを可能にする。 提案手法では,確率的摂動を決定論的アルゴリズム(確率的平滑化)に導入することにより,タスク最適化(部分モジュラー最大化)を微分可能とした。 提案手法の有効性を合成データを用いて実証する。 移動体充電ステーションルーティング問題の実験結果から,提案手法は,予測最適化別アプローチと比較して,UAVの充電回数の平均増加率など,より優れたルーティング決定をもたらすことが示された。

We study the problem of learning a function that maps context observations (input) to parameters of a submodular function (output). Our motivating case study is a specific type of vehicle routing problem, in which a team of Unmanned Ground Vehicles (UGVs) can serve as mobile charging stations to recharge a team of Unmanned Ground Vehicles (UAVs) that execute persistent monitoring tasks. {We want to learn the mapping from observations of UAV task routes and wind field to the parameters of a submodular objective function, which describes the distribution of landing positions of the UAVs .} Traditionally, such a learning problem is solved independently as a prediction phase without considering the downstream task optimization phase. However, the loss function used in prediction may be misaligned with our final goal, i.e., a good routing decision. Good performance in the isolated prediction phase does not necessarily lead to good decisions in the downstream routing task. In this paper, we propose a framework that incorporates task optimization as a differentiable layer in the prediction phase. Our framework allows end-to-end training of the prediction model without using engineered intermediate loss that is targeted only at the prediction performance. In the proposed framework, task optimization (submodular maximization) is made differentiable by introducing stochastic perturbations into deterministic algorithms (i.e., stochastic smoothing). We demonstrate the efficacy of the proposed framework using synthetic data. Experimental results of the mobile charging station routing problem show that the proposed framework can result in better routing decisions, e.g. the average number of UAVs recharged increases, compared to the prediction-optimization separate approach.
翻訳日:2023-03-06 17:15:55 公開日:2023-03-02
# 視覚トランスフォーマーにおける自己着脱は注意ではなく知覚的グループ化を行う

Self-attention in Vision Transformers Performs Perceptual Grouping, Not Attention ( http://arxiv.org/abs/2303.01542v1 )

ライセンス: Link先を確認
Paria Mehrani and John K. Tsotsos(参考訳) 近年、コンピュータビジョンにおけるかなりの数の研究は、ビジョントランスフォーマーと呼ばれる深層神経アーキテクチャを含んでいる。 これらのモデルにおける視覚処理は、注意のメカニズムを実装すると主張する計算モデルを取り込んでいる。 視覚トランスフォーマーにおける注意メカニズムの役割を理解しようとする作業が増えているが、その効果はほとんど分かっていない。 ここでは、視覚変換器の注意機構が人間の視覚的注意と同様の効果を示すかどうかを問う。 この疑問に答えるために、我々はこれらのモデルにおける注意の定式化を再考し、その名前にもかかわらず、計算上、これらのモデルが類似性グルーピング効果を持つ緩和ラベルの特別なクラスを実行することを発見した。 さらに、現代の実験では、人間の視覚的注意がフィードフォワードとフィードバックのメカニズムの両方に関係していることが示されているが、視覚トランスフォーマーの純粋にフィードフォワードアーキテクチャは、これらのモデルにおける注意がヒトで知られているものと同じ効果を持たないことを示唆している。 これらの観察を定量化するために,視覚トランスフォーマの群化性能を評価した。 その結果,色などの視覚的特徴の類似性から,自己注意モジュール群が刺激に現れることが示唆された。 また,サリエンシ検出の例としてシングルトン検出実験において,これらのモデルが人間の視覚的注意に利用されるフィードフォワード視覚的サリエンス機構と同様の効果を示すかどうかを検討した。 一般に、トランスフォーマーベースのアテンションモジュールは、イントラクタまたはグラウンドに対してよりサリエンスを割り当てる。 そこで本研究では,視覚トランスフォーマーの注意機構が類似性グループ化を行い,注意を払わないことを示唆する。

Recently, a considerable number of studies in computer vision involves deep neural architectures called vision transformers. Visual processing in these models incorporates computational models that are claimed to implement attention mechanisms. Despite an increasing body of work that attempts to understand the role of attention mechanisms in vision transformers, their effect is largely unknown. Here, we asked if the attention mechanisms in vision transformers exhibit similar effects as those known in human visual attention. To answer this question, we revisited the attention formulation in these models and found that despite the name, computationally, these models perform a special class of relaxation labeling with similarity grouping effects. Additionally, whereas modern experimental findings reveal that human visual attention involves both feed-forward and feedback mechanisms, the purely feed-forward architecture of vision transformers suggests that attention in these models will not have the same effects as those known in humans. To quantify these observations, we evaluated grouping performance in a family of vision transformers. Our results suggest that self-attention modules group figures in the stimuli based on similarity in visual features such as color. Also, in a singleton detection experiment as an instance of saliency detection, we studied if these models exhibit similar effects as those of feed-forward visual salience mechanisms utilized in human visual attention. We found that generally, the transformer-based attention modules assign more salience either to distractors or the ground. Together, our study suggests that the attention mechanisms in vision transformers perform similarity grouping and not attention.
翻訳日:2023-03-06 17:15:27 公開日:2023-03-02
# ベイズニューラルネットワークの確率的バックプロパゲーションによる変動EP

Variational EP with Probabilistic Backpropagation for Bayesian Neural Networks ( http://arxiv.org/abs/2303.01540v1 )

ライセンス: Link先を確認
Kehinde Olobatuyi(参考訳) 本稿では,ネットワーク重みを階層的に表した2層ニューラルネットワークモデル構造を用いた非線形ロジスティック回帰手法を提案する。 本稿では,重みの後方分布,プリエントとゼータの階層的スケールパラメータを近似的に積分するために,変分期待伝播法 (vep) と呼ばれる期待伝播のハイブリッドを提案する。 因数分解後近似を用いて計算効率の良いアルゴリズムを導いており、その複雑性は独立なスパースロジスティックモデルの集合と同様にスケールする。 この手法は、標準的なアクティベーション関数やNNモデル構造を超えて、複数のスパース線形モデルから柔軟な非線形バイナリ予測器を形成することができる。 重みとハイパーパラメータと呼ばれるパラメータ上のロジスティック回帰確率とガウス事前分布を持つ階層ベイズモデルを考える。 私は、計算された後段を用いて近似後段とパラメータを更新するためのeステップとmステップの観点で作業します。

I propose a novel approach for nonlinear Logistic regression using a two-layer neural network (NN) model structure with hierarchical priors on the network weights. I present a hybrid of expectation propagation called Variational Expectation Propagation approach (VEP) for approximate integration over the posterior distribution of the weights, the hierarchical scale parameters of the priors and zeta. Using a factorized posterior approximation I derive a computationally efficient algorithm, whose complexity scales similarly to an ensemble of independent sparse logistic models. The approach can be extended beyond standard activation functions and NN model structures to form flexible nonlinear binary predictors from multiple sparse linear models. I consider a hierarchical Bayesian model with logistic regression likelihood and a Gaussian prior distribution over the parameters called weights and hyperparameters. I work in the perspective of E step and M step for computing the approximating posterior and updating the parameters using the computed posterior respectively.
翻訳日:2023-03-06 17:14:59 公開日:2023-03-02
# 重要度推定器の信頼性評価のための特徴摂動増強

Feature Perturbation Augmentation for Reliable Evaluation of Importance Estimators ( http://arxiv.org/abs/2303.01538v1 )

ライセンス: Link先を確認
Lennart Brocki and Neo Christopher Chung(参考訳) ポストホックな説明手法は、ディープニューラルネットワークの内部動作をより解釈しやすくする。 しかし、基礎的な真理が一般に欠けているため、入力特徴に重要得点を割り当てる局所的なポストホック解釈可能性手法は、評価が困難である。 最も一般的な評価フレームワークの1つは、解釈可能性法による重要な特徴の摂動と予測精度の変化を測定することである。 直感的には、予測精度の大幅な低下は、説明が予測結果(例えばロジット)に対する特徴の重要性を正しく定量化したことを示している。 しかしながら、テストデータセット内の摂動サンプルは、トレーニングデータセットと比較して分散(ood)外であり、予期せぬ方法でモデルを妨げる可能性があるため、予測結果の変化は摂動アーティファクトに起因する可能性がある。 この課題を克服するために、モデルトレーニング中に摂動画像を生成し、付加する機能摂動増強(FPA)を提案する。 広範な計算実験を通じて,fpaが深層ニューラルネットワーク(dnn)を摂動に対してより強固にすることを示す。 さらに、FPAを用いたDNNのトレーニングでは、重要なスコアのサインが、以前想定されていたよりも有意義にモデルを説明する可能性がある。 全体として、FPAは、ポストホック解釈可能性の評価を改善する直感的なデータ拡張技術である。

Post-hoc explanation methods attempt to make the inner workings of deep neural networks more interpretable. However, since a ground truth is in general lacking, local post-hoc interpretability methods, which assign importance scores to input features, are challenging to evaluate. One of the most popular evaluation frameworks is to perturb features deemed important by an interpretability method and to measure the change in prediction accuracy. Intuitively, a large decrease in prediction accuracy would indicate that the explanation has correctly quantified the importance of features with respect to the prediction outcome (e.g., logits). However, the change in the prediction outcome may stem from perturbation artifacts, since perturbed samples in the test dataset are out of distribution (OOD) compared to the training dataset and can therefore potentially disturb the model in an unexpected manner. To overcome this challenge, we propose feature perturbation augmentation (FPA) which creates and adds perturbed images during the model training. Through extensive computational experiments, we demonstrate that FPA makes deep neural networks (DNNs) more robust against perturbations. Furthermore, training DNNs with FPA demonstrate that the sign of importance scores may explain the model more meaningfully than has previously been assumed. Overall, FPA is an intuitive data augmentation technique that improves the evaluation of post-hoc interpretability methods.
翻訳日:2023-03-06 17:14:43 公開日:2023-03-02
# 計量誘起フロッケ富化位相秩序

Measurement-induced Floquet enriched topological order ( http://arxiv.org/abs/2303.01533v1 )

ライセンス: Link先を確認
DinhDuy Vu, Ali Lavasani, Jong Yeon Lee, Matthew P. A. Fisher(参考訳) フロケ符号は2量子ビットの周期列を用いて位相順序を実現する。 各測定ラウンドの後、瞬時安定化群をハニカムトーリック符号にマッピングすることができ、位相的特徴を説明することができる。 コードはまた、静止したものと異なる時間的順序を持つ - サイクル毎に$e-m$の変換を行う。 本研究では,Floquet符号とトーリック符号を補間する連続経路を構築し,時間-結晶相と非時間-結晶相の遷移に着目した。 この変遷は, 発散する長さスケールによって特徴づけられる。 また、単一量子ビット摂動をモデルに追加し、フロッケ符号のよりリッチな2次元パラメトリック位相図を得、フロッケ位相秩序の安定性を証明した。

The Floquet code utilizes a periodic sequence of two-qubit measurements to realize the topological order. After each measurement round, the instantaneous stabilizer group can be mapped to a honeycomb toric code, thus explaining the topological feature. The code also possesses a time-crystal order distinct from the stationary counterpart - the $e-m$ transmutation after every cycle. In this work, we construct a continuous path interpolating between the Floquet and toric codes, focusing on the transition between the time-crystal and non-time-crystal phases. We show that this transition is characterized by a diverging length scale. We also add single qubit perturbations to the model and obtain a richer two-dimensional parametric phase diagram of the Floquet code, proving the stability of the Floquet topological order.
翻訳日:2023-03-06 17:14:20 公開日:2023-03-02
# ノイズ系の共鳴蛍光

Resonance fluorescence of noisy systems ( http://arxiv.org/abs/2303.01531v1 )

ライセンス: Link先を確認
Rafa{\l} A. Bogaczewicz, Pawe{\l} Machnikowski(参考訳) 共鳴蛍光と呼ばれる共鳴またはほぼ共鳴励起系の光散乱は、物質の量子状態を研究するための汎用的なツールとして重要視されている。 本研究では、遷移エネルギーが2つの重要なノイズ過程(位相拡散につながる白色雑音ゆらぎと有限状態の任意の定常マルコフ雑音過程)のノイズを受ける系の低励起限界における共鳴蛍光の一般理論を考案する。 後者の場合、ランダムな電信ノイズと任意の数のランダムな電信ノイズの寄与の合計に適用する。 ノイズの異なるクラスが特性的にRFスペクトルに影響を与えることを示す。 したがって、RFスペクトルは物理系に存在する雑音の特性に関する情報を伝達する。

Light scattering from resonantly or nearly resonantly excited systems, known as resonance fluorescence, has been gaining importance as a versatile tool for investigating quantum states of matter, recently including also the inherently noisy solid state systems. In this work we develop a general theory of resonance fluorescence in the low excitation limit on systems in which the transition energy is subject to noise for two important classes of noise processes: white noise fluctuations that lead to phase diffusion and an arbitrary stationary Markovian noise process on a finite set of states. We apply the latter to the case of random telegraph noise and a sum of an arbitrary number of random telegraph noise contributions. We show that different classes of noise influence the RF spectrum in a characteristic way. Hence, the RF spectrum carries information on the characteristics of noise present in the physical system.
翻訳日:2023-03-06 17:14:07 公開日:2023-03-02
# 動的シーン分解のための意味的注意流場

Semantic Attention Flow Fields for Dynamic Scene Decomposition ( http://arxiv.org/abs/2303.01526v1 )

ライセンス: Link先を確認
Yiqing Liang, Eliot Laidlaw, Alexander Meyerowitz, Srinath Sridhar, James Tompkin(参考訳) 本稿では,時間変化色,密度,シーンフロー,意味論,注意情報からなる,カジュアルな単眼映像の動的神経容積再構成について述べる。 セマンティクスと注意により、任意の時空ビューで背景から有意な前景オブジェクトを識別できる。 セマンティックおよびアテンション情報を表すために2つのネットワークヘッドを追加します。 最適化のために、画像全体のコンテキストで詳細を交換するdino-vit出力から意味的注意ピラミッドを設計する。 最適化後、シーンを分解するサリエンシ対応クラスタリングを行う。 実世界の動的シーン分解を時空で評価するために,NVIDIA Dynamic Scene Datasetのオブジェクトマスクに注釈を付ける。 我々は,SAFFがRGBや深さ再構成の品質に影響を与えずに動的シーンを分解できること,ボリューム積分SAFFが2次元ベースラインより優れていること,SAFFが最近の静的/動的分割法よりも前景/背景セグメンテーションを改善することを実証した。 プロジェクトWebページ: https://visual.cs.brown.edu/saff

We present SAFF: a dynamic neural volume reconstruction of a casual monocular video that consists of time-varying color, density, scene flow, semantics, and attention information. The semantics and attention let us identify salient foreground objects separately from the background in arbitrary spacetime views. We add two network heads to represent the semantic and attention information. For optimization, we design semantic attention pyramids from DINO-ViT outputs that trade detail with whole-image context. After optimization, we perform a saliency-aware clustering to decompose the scene. For evaluation on real-world dynamic scene decomposition across spacetime, we annotate object masks in the NVIDIA Dynamic Scene Dataset. We demonstrate that SAFF can decompose dynamic scenes without affecting RGB or depth reconstruction quality, that volume-integrated SAFF outperforms 2D baselines, and that SAFF improves foreground/background segmentation over recent static/dynamic split methods. Project Webpage: https://visual.cs.brown.edu/saff
翻訳日:2023-03-06 17:13:53 公開日:2023-03-02
# 粗粒タンパク質の化学移動性生成バックマッピング

Chemically Transferable Generative Backmapping of Coarse-Grained Proteins ( http://arxiv.org/abs/2303.01569v1 )

ライセンス: Link先を確認
Soojung Yang and Rafael G\'omez-Bombarelli(参考訳) 粗粒化(CG)は、原子の集合を特異なビーズとしてシミュレートすることでタンパク質力学の分子シミュレーションを加速する。 バックマッピングは、失われた原子論の詳細をCG表現から取り戻すという逆の操作である。 機械学習(ML)はタンパク質の正確かつ効率的なCGシミュレーションを生み出しているが、高速で信頼性の高いバックマッピングは依然として課題である。 規則に基づく手法は、追加のシミュレーションを通じて計算コストのかかる精練を必要とする、貧弱な全原子幾何を生成する。 最近提案されたMLアプローチは、従来のベースラインよりも優れているが、タンパク質間での移動は不可能であり、立体衝突と不定形ねじれ角を持つ非物理的原子配置を生じることがある。 この研究は、CGタンパク質表現のための高速で転送可能で信頼性の高い生成バックマッピングツールを構築するために、両方の問題に対処する。 内部座標に基づく表現,同変エンコーダ/プライオータ,局所構造,大域的構造,物理的制約の確保を支援するカスタムロス関数,およびトレーニングのための高品質な非平衡タンパク質データのエキスパートキュレーションによって,一般化と信頼性を実現する。 得られた結果は、任意のタンパク質の粗粒度シミュレーションのアウト・オブ・ボックスバックマッピングの道を開いた。

Coarse-graining (CG) accelerates molecular simulations of protein dynamics by simulating sets of atoms as singular beads. Backmapping is the opposite operation of bringing lost atomistic details back from the CG representation. While machine learning (ML) has produced accurate and efficient CG simulations of proteins, fast and reliable backmapping remains a challenge. Rule-based methods produce poor all-atom geometries, needing computationally costly refinement through additional simulations. Recently proposed ML approaches outperform traditional baselines but are not transferable between proteins and sometimes generate unphysical atom placements with steric clashes and implausible torsion angles. This work addresses both issues to build a fast, transferable, and reliable generative backmapping tool for CG protein representations. We achieve generalization and reliability through a combined set of innovations: representation based on internal coordinates; an equivariant encoder/prior; a custom loss function that helps ensure local structure, global structure, and physical constraints; and expert curation of high-quality out-of-equilibrium protein data for training. Our results pave the way for out-of-the-box backmapping of coarse-grained simulations for arbitrary proteins.
翻訳日:2023-03-06 17:07:33 公開日:2023-03-02
# 効率のよい不変性を有するディープニューラルネットワーク

Deep Neural Networks with Efficient Guaranteed Invariances ( http://arxiv.org/abs/2303.01567v1 )

ライセンス: Link先を確認
Matthias Rath, Alexandru Paul Condurache(参考訳) 我々は、データから学習するのではなく、対称性変換に対する不変性を強制し保証することで、ディープニューラルネットワークの性能、特にサンプルの複雑さを改善する問題に対処する。 群同変畳み込みは同変表現を得るための一般的なアプローチである。 所望の不変性は、プーリング演算によって課される。 回転の場合、プールではなく不変積分を用いることでサンプルの複雑さがさらに向上することが示されている。 この貢献により、まず回転からフリップ、スケール変換への不変積分を拡大する。 次に、複数の所望の不変性を単一ネットワークに組み込む問題に対処する。 そこで本研究では,各ストリームが異なる変換に不変であり,ネットワークが同時に複数の不変性から恩恵を受けることができるマルチストリームアーキテクチャを提案する。 提案手法は,Scaled-MNIST,SVHN,CIFAR-10,STL-10について実験を行った。

We address the problem of improving the performance and in particular the sample complexity of deep neural networks by enforcing and guaranteeing invariances to symmetry transformations rather than learning them from data. Group-equivariant convolutions are a popular approach to obtain equivariant representations. The desired corresponding invariance is then imposed using pooling operations. For rotations, it has been shown that using invariant integration instead of pooling further improves the sample complexity. In this contribution, we first expand invariant integration beyond rotations to flips and scale transformations. We then address the problem of incorporating multiple desired invariances into a single network. For this purpose, we propose a multi-stream architecture, where each stream is invariant to a different transformation such that the network can simultaneously benefit from multiple invariances. We demonstrate our approach with successful experiments on Scaled-MNIST, SVHN, CIFAR-10 and STL-10.
翻訳日:2023-03-06 17:07:12 公開日:2023-03-02
# 教師なし事前訓練の証明可能な利点について

On the Provable Advantage of Unsupervised Pretraining ( http://arxiv.org/abs/2303.01566v1 )

ライセンス: Link先を確認
Jiawei Ge, Shange Tang, Jianqing Fan, Chi Jin(参考訳) 下流タスクの学習を容易にするために大量のラベルのないデータを使って有用な表現を学習する教師なし事前学習は、現代の大規模機械学習システムの重要なコンポーネントである。 その壮大な経験的成功にもかかわらず、教師なし事前訓練が一般的に役立つ理由に関する厳密な理論的理解は、かなり限定的であり、既存の結果の多くは、特別な構造的仮定で教師なし事前訓練を行うための特定の方法やアプローチに限られている。 本稿では,教師なし表現学習タスクを潜在変数モデルの抽象クラス$\phi$で指定し,下流タスクを$\psi$の予測関数のクラスで指定する汎用フレームワークについて述べる。 我々は、教師なし事前学習と経験的リスク最小化(ERM)のために、MLE(Maximum Likelihood Estimation)を用いる自然なアプローチを検討する。 軽度の 'informative' 条件の下で、我々のアルゴリズムは、下流タスクに対して $\tilde{\mathcal{O}}(\sqrt{\mathcal{C}_\Phi/m} + \sqrt{\mathcal{C}_\Psi/n})$ を余剰リスクとし、ここでは $\mathcal{C}_\Phi, \mathcal{C}_\Psi$ は、関数クラスの複雑性度 $\Phi, \Psi$, $m, n$ はそれぞれラベル付きおよびラベル付きデータの数であることを示す。 ラベル付きデータのみを使用して教師あり学習を行うことによって達成される$\tilde{\mathcal{O}}(\sqrt{\mathcal{C}_{\Phi \circ \Psi}/n})のベースラインと比較すると, $m \gg n$ と $\mathcal{C}_{\Phi\circ \Psi} > \mathcal{C}_\Psi$ のとき,教師なし事前学習のメリットを厳格に示すことができる。 さらに,本フレームワークは,因子モデル,ガウス混合モデル,コントラスト学習など,教師なし事前学習のための幅広いアプローチをカバーすることを示した。

Unsupervised pretraining, which learns a useful representation using a large amount of unlabeled data to facilitate the learning of downstream tasks, is a critical component of modern large-scale machine learning systems. Despite its tremendous empirical success, the rigorous theoretical understanding of why unsupervised pretraining generally helps remains rather limited -- most existing results are restricted to particular methods or approaches for unsupervised pretraining with specialized structural assumptions. This paper studies a generic framework, where the unsupervised representation learning task is specified by an abstract class of latent variable models $\Phi$ and the downstream task is specified by a class of prediction functions $\Psi$. We consider a natural approach of using Maximum Likelihood Estimation (MLE) for unsupervised pretraining and Empirical Risk Minimization (ERM) for learning downstream tasks. We prove that, under a mild ''informative'' condition, our algorithm achieves an excess risk of $\tilde{\mathcal{O}}(\sqrt{\mathcal{C}_\Phi/m} + \sqrt{\mathcal{C}_\Psi/n})$ for downstream tasks, where $\mathcal{C}_\Phi, \mathcal{C}_\Psi$ are complexity measures of function classes $\Phi, \Psi$, and $m, n$ are the number of unlabeled and labeled data respectively. Comparing to the baseline of $\tilde{\mathcal{O}}(\sqrt{\mathcal{C}_{\Phi \circ \Psi}/n})$ achieved by performing supervised learning using only the labeled data, our result rigorously shows the benefit of unsupervised pretraining when $m \gg n$ and $\mathcal{C}_{\Phi\circ \Psi} > \mathcal{C}_\Psi$. This paper further shows that our generic framework covers a wide range of approaches for unsupervised pretraining, including factor models, Gaussian mixture models, and contrastive learning.
翻訳日:2023-03-06 17:06:59 公開日:2023-03-02
# データ効率、説明可能、そして安全なペイロード操作:モデル予測制御における物理プライオリティの利点の例

Data-efficient, Explainable and Safe Payload Manipulation: An Illustration of the Advantages of Physical Priors in Model-Predictive Control ( http://arxiv.org/abs/2303.01563v1 )

ライセンス: Link先を確認
Achkan Salehi, Stephane Doncieux(参考訳) 強化学習(Reinforcement Learning, RL)文学などの機械学習手法は、ロボット制御問題にますます応用されている。 しかし、そのような制御手法は、学習環境力学(例えば、モデルベースRL/制御など)がデータ非効率のままである場合であっても、しばしば存在する。 さらに、学習方針による決定や学習された動的モデルによる推定は、手作業で設計されたものとは異なり、説明可能なAI技術を使わずに人間のユーザによって容易に解釈できない。 これには、デバッグとセーフティクリティカルなシステムの統合の難しさの増加など、いくつかの欠点がある。 一方、多くのロボットシステムでは、環境運動学や力学の事前知識は少なくとも部分的に利用可能である(例えば古典力学)。 環境モデルや意思決定プロセスにそのような優先順位を組み込むことは、上記の問題に対処するのに役立ちます。 本稿の目的は,この視点を説明し,支持することである。 実際のロボットシステムに基づいてペイロード操作問題をモデル化し,環境のダイナミクスに関する事前知識を活用すれば,より少ないデータで一般化特性を満足できるため,説明可能性の向上と安全性とデータ効率の向上が期待できることを示した。

Machine Learning methods, such as those from the Reinforcement Learning (RL) literature, have increasingly been applied to robot control problems. However, such control methods, even when learning environment dynamics (e.g. as in Model-Based RL/control) often remain data-inefficient. Furthermore, the decisions made by learned policies or the estimations made by learned dynamic models, unlike those made by their hand-designed counterparts, are not readily interpretable by a human user without the use of Explainable AI techniques. This has several disadvantages, such as increased difficulty both in debugging and integration in safety-critical systems. On the other hand, in many robotic systems, prior knowledge of environment kinematics and dynamics is at least partially available (e.g. from classical mechanics). Arguably, incorporating such priors to the environment model or decision process can help address the aforementioned problems: it reduces problem complexity and the needs in terms of exploration, while also facilitating the expression of the decisions taken by the agent in terms of physically meaningful entities. Our aim with this paper is to illustrate and support this point of view. We model a payload manipulation problem based on a real robotic system, and show that leveraging prior knowledge about the dynamics of the environment can lead to improved explainability and an increase in both safety and data-efficiency,leading to satisfying generalization properties with less data.
翻訳日:2023-03-06 17:06:11 公開日:2023-03-02
# 行列積状態を用いた正規分布の量子状態合成

Quantum State Preparation of Normal Distributions using Matrix Product States ( http://arxiv.org/abs/2303.01562v1 )

ライセンス: Link先を確認
Jason Iaconis, Sonika Johri, Elton Yechao Zhu(参考訳) 状態準備は多くの量子アルゴリズムの必須成分であり、特にモンテカルロ法の量子スピードアップに必要とされるようなサンプリングルーチンにおいて基礎的である。 本研究では,行列積状態を用いた滑らかな微分可能確率分布の効率的な表現法と,量子状態から近似行列積状態への初期化手法を組み合わせる。 これを用いて, 20 量子ビットの閉じ込められたイオン量子コンピュータにおいて, 正規確率分布のクラスを符号化する量子状態を生成する。 本稿では,この状態形成過程の全体的忠実性に寄与する異なる誤差源の奥行き解析を行う。 我々の研究は、スケーラブルな分散ローディングのための量子ハードウェアの最初の研究であり、量子優位性を提供する幅広いアルゴリズムの基礎となっている。

State preparation is a necessary component of many quantum algorithms, and in particular is fundamental in sampling routines such as those needed for quantum speedup of Monte Carlo methods. In this work, we combine a method for efficiently representing smooth differentiable probability distributions using matrix product states with newly discovered techniques for initializing quantum states to approximate matrix product states. Using this, we generate quantum states encoding a class of normal probability distributions in a trapped ion quantum computer for up to 20 qubits. We provide an in depth analysis of the different sources of error which contribute to the overall fidelity of this state preparation procedure. Our work provides the first study in quantum hardware for scalable distribution loading, which is the basis of a wide range of algorithms that provide quantum advantage.
翻訳日:2023-03-06 17:05:49 公開日:2023-03-02
# アクティブラーニングとベイズ最適化:ゴールで学ぶための統一的な視点

Active Learning and Bayesian Optimization: a Unified Perspective to Learn with a Goal ( http://arxiv.org/abs/2303.01560v1 )

ライセンス: Link先を確認
Francesco Di Fiore, Michela Nardelli and Laura Mainini(参考訳) ベイズ最適化とアクティブラーニングは、特定の学習目標を達成するための適応的なサンプリングスキームを実現する。 しかし、この2つの分野は過去10年間に急速に人気が高まってきたが、その双対性は比較的注目されていない。 本稿では,サンプリングポリシを駆動する原理間の相乗効果に基づくベイズ最適化とアクティブラーニングの統一的な視点を論じる。 この共生関係は、ベイズ最適化のインフィル基準とアクティブラーニングにおける学習基準の実質的な類似性を通じて証明され、単一の情報ソースの場合や、異なるレベルの忠実度で複数のソースが利用できる場合に形式化される。 我々は,実世界の応用を特徴付ける数学的性質の利点と限界を強調するために,各インフィル基準の能力について,様々な解析ベンチマーク問題に対して個別および組み合わせで検討する。

Both Bayesian optimization and active learning realize an adaptive sampling scheme to achieve a specific learning goal. However, while the two fields have seen an exponential growth in popularity in the past decade, their dualism has received relatively little attention. In this position paper, we argue for an original unified perspective of Bayesian optimization and active learning based on the synergy between the principles driving the sampling policies. This symbiotic relationship is demonstrated through the substantial analogy between the infill criteria of Bayesian optimization and the learning criteria in active learning, and is formalized for the case of single information source and when multiple sources at different levels of fidelity are available. We further investigate the capabilities of each infill criteria both individually and in combination on a variety of analytical benchmark problems, to highlight benefits and limitations over mathematical properties that characterize real-world applications.
翻訳日:2023-03-06 17:05:37 公開日:2023-03-02
# 特徴空間収縮によるGAN訓練の改善

Improving GAN Training via Feature Space Shrinkage ( http://arxiv.org/abs/2303.01559v1 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Bing Li, Haoqian Wu, Nanjun He, Yawen Huang, Yuexiang Li, Bernard Ghanem, Yefeng Zheng(参考訳) データ生成の優れた能力のため、GAN(Generative Adversarial Networks)は教師なし学習において大きな注目を集めている。 しかし, 判別器のトレーニング分布は動的であり, 不安定な画像表現につながるため, GANの学習は困難である。 本稿では,新しい視点からGANを訓練する際の問題点,すなわち,頑健な画像分類の問題に対処する。 我々は,ロバストな画像表現の研究に動機づけられ,識別器の画像表現空間におけるトレーニングデータの領域を縮小する,単純かつ効果的なgans用モジュール,adaptivemixを提案する。 直接有界な特徴空間を考慮し, ハードサンプルを構築し, ハードサンプルと簡単なサンプル間の特徴距離を狭めることを提案する。 ハードサンプルは、一対のトレーニングイメージを混合して構成される。 我々は、広く使われている最先端のGANアーキテクチャを用いたAdaptiveMixの有効性を評価する。 評価の結果,aadaptivemixはganのトレーニングを容易にし,生成したサンプルの画質を効果的に向上できることがわかった。 また、我々のAdaptiveMixは画像分類やOOD(Out-Of-Distribution)検出タスクにも適用可能であることを示す。 7つの公開データセットに関する広範な実験により、本手法がベースラインのパフォーマンスを効果的に向上させることが示された。 コードはhttps://github.com/WentianZhang-ML/AdaptiveMixで公開されている。

Due to the outstanding capability for data generation, Generative Adversarial Networks (GANs) have attracted considerable attention in unsupervised learning. However, training GANs is difficult, since the training distribution is dynamic for the discriminator, leading to unstable image representation. In this paper, we address the problem of training GANs from a novel perspective, \emph{i.e.,} robust image classification. Motivated by studies on robust image representation, we propose a simple yet effective module, namely AdaptiveMix, for GANs, which shrinks the regions of training data in the image representation space of the discriminator. Considering it is intractable to directly bound feature space, we propose to construct hard samples and narrow down the feature distance between hard and easy samples. The hard samples are constructed by mixing a pair of training images. We evaluate the effectiveness of our AdaptiveMix with widely-used and state-of-the-art GAN architectures. The evaluation results demonstrate that our AdaptiveMix can facilitate the training of GANs and effectively improve the image quality of generated samples. We also show that our AdaptiveMix can be further applied to image classification and Out-Of-Distribution (OOD) detection tasks, by equipping it with state-of-the-art methods. Extensive experiments on seven publicly available datasets show that our method effectively boosts the performance of baselines. The code is publicly available at https://github.com/WentianZhang-ML/AdaptiveMix.
翻訳日:2023-03-06 17:05:24 公開日:2023-03-02
# BenchDirect: コンパイラベンチマークのための指向言語モデル

BenchDirect: A Directed Language Model for Compiler Benchmarks ( http://arxiv.org/abs/2303.01557v1 )

ライセンス: Link先を確認
Foivos Tsimpourlas, Pavlos Petoumenos, Min Xu, Chris Cummins, Kim Hazelwood, Ajitha Rajan, Hugh Leather(参考訳) ハードウェアとソフトウェアの複雑さが指数関数的に増加するため、コンパイラエンジニアが手動で適切な最適化ヒューリスティックを見つけることは不可能になった。 予測モデルは、人間の努力の少ない最適なヒューリスティックに近いことが示されているが、トレーニングする多様なベンチマークの不足によって制限されている。 ジェネレーティブAIは、既存のデータセットにベンチマークを合成するために研究者によって使用されている。 しかし、合成プログラムは短く、非常にシンプルであり、特徴に多様性がない。 ソースコードの特徴表現内で指向できる最初のMLコンパイラベンチマークジェネレータであるBenchPressを開発した。 benchpressは、プログラムの左右のコンテキストの条件を満たすコードをインフィルすることで実行可能な機能を合成する。 benchpressはアクティブラーニングを使用して、groveなどのデータセットに未公開の機能を備えた新しいベンチマークを導入する。 CPU対GPUヒューリスティックで、取得したパフォーマンスを50%向上させた。 BenchPressは、他のシンセサイザーが到達できない機能をターゲットにしている。 3つの特徴空間では、Rodiniaベンチマークの機能をターゲットにして、GitHub、CLgen、CLSmith、SRCIROR mutatorからの人書きコードよりも優れています。 特徴に依存しない言語モデル上でのビームサーチによるBenchPressステア生成。 我々は、ソースコードコンテキストとターゲットとするコンパイラ機能を共同で観察することで、プログラムを埋め込む有向LMを利用するBenchDirectでこれを改善した。 BenchDirectは、Rodiniaベンチマークの機能をターゲットにする上で、最大で36%の精度を実現している。 どちらのモデルも、人間が書いたコードと区別するのが難しいコードを生成します。 私たちはチューリングテストを実施し、モデルの合成ベンチマークが、しばしばgithubのヒューマンライティングコードと同様に'ヒューマンライティング'とラベル付けされていることを示します。

The exponential increase of hardware-software complexity has made it impossible for compiler engineers to find the right optimization heuristics manually. Predictive models have been shown to find near optimal heuristics with little human effort but they are limited by a severe lack of diverse benchmarks to train on. Generative AI has been used by researchers to synthesize benchmarks into existing datasets. However, the synthetic programs are short, exceedingly simple and lacking diversity in their features. We develop BenchPress, the first ML compiler benchmark generator that can be directed within source code feature representations. BenchPress synthesizes executable functions by infilling code that conditions on the program's left and right context. BenchPress uses active learning to introduce new benchmarks with unseen features into the dataset of Grewe's et al. CPU vs GPU heuristic, improving its acquired performance by 50%. BenchPress targets features that has been impossible for other synthesizers to reach. In 3 feature spaces, we outperform human-written code from GitHub, CLgen, CLSmith and the SRCIROR mutator in targeting the features of Rodinia benchmarks. BenchPress steers generation with beam search over a feature-agnostic language model. We improve this with BenchDirect which utilizes a directed LM that infills programs by jointly observing source code context and the compiler features that are targeted. BenchDirect achieves up to 36% better accuracy in targeting the features of Rodinia benchmarks, it is 1.8x more likely to give an exact match and it speeds up execution time by up to 72% compared to BenchPress. Both our models produce code that is difficult to distinguish from human-written code. We conduct a Turing test which shows our models' synthetic benchmarks are labelled as 'human-written' as often as human-written code from GitHub.
翻訳日:2023-03-06 17:05:01 公開日:2023-03-02
# 生成評価のための偽造編集

Counterfactual Edits for Generative Evaluation ( http://arxiv.org/abs/2303.01555v1 )

ライセンス: Link先を確認
Maria Lymperaiou, Giorgos Filandrianos, Konstantinos Thomas, Giorgos Stamou(参考訳) 生成的モデルの評価は、生成的アーキテクチャの急増にもかかわらず、不十分な分野である。 最近のモデルは、構成性や合成の論理といった視覚的品質のより多くの側面を評価できない一方で、堅牢性の問題に悩まされるかなり古いメトリクスに基づいて評価されている。 同時に、生成モデルの説明可能性は、生成モデルの内部機能へのアクセスを必要とするいくつかの現在の試みによる、重要な研究方向として制限されている。 先行文献とは対照的に,生成モデルはブラックボックスであり,画素ではなく概念に基づく合成結果の評価と説明のための枠組みを提案する。 本フレームワークでは,どのオブジェクトや属性を挿入するか,削除するか,あるいは生成した画像から置き換えるべきかという,知識に基づく偽物編集を活用して,真理条件にアプローチする。 さらに、局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。 ストーリーの可視化とシーンシンセシスの困難なタスクのために設計された様々なモデルに対する我々のフレームワークの適用は、モデルに依存しない設定における我々のアプローチの力を検証します。

Evaluation of generative models has been an underrepresented field despite the surge of generative architectures. Most recent models are evaluated upon rather obsolete metrics which suffer from robustness issues, while being unable to assess more aspects of visual quality, such as compositionality and logic of synthesis. At the same time, the explainability of generative models remains a limited, though important, research direction with several current attempts requiring access to the inner functionalities of generative models. Contrary to prior literature, we view generative models as a black box, and we propose a framework for the evaluation and explanation of synthesized results based on concepts instead of pixels. Our framework exploits knowledge-based counterfactual edits that underline which objects or attributes should be inserted, removed, or replaced from generated images to approach their ground truth conditioning. Moreover, global explanations produced by accumulating local edits can also reveal what concepts a model cannot generate in total. The application of our framework on various models designed for the challenging tasks of Story Visualization and Scene Synthesis verifies the power of our approach in the model-agnostic setting.
翻訳日:2023-03-06 17:04:38 公開日:2023-03-02
# 再構成可能なバイパラメトリック電子プラットフォームを用いた変形ディッケモデルの相転移の実験的観察

Experimental observation of phase transitions of a deformed Dicke model using a reconfigurable, biparametric electronic platform ( http://arxiv.org/abs/2303.01553v1 )

ライセンス: Link先を確認
Mario A. Quiroz-Juarez, \'Angel L. Corps, Rafael A. Molina, Armando Rela\~no, Jos\'e L. Arag\'on, Roberto de J. Le\'on-Montiel, Jorge G. Hirsch(参考訳) 量子光学系のディッケモデルの無限大限界を, システムと外部ボソニック貯水池を結合する等速変形強度で実験的に検討した。 このような対称性の破れによる力学結果に焦点をあて、古典位相空間は非等価エネルギー井戸と非対称となる。 本稿では,最先端のバイパラメトリック電子プラットフォームを用いたデフォルメディッケモデルの古典版を実験的に実装する。 本プラットフォームは,電気回路における変形ディッケモデルの代表現象を外部制御パラメータと初期条件を用いて解析する場である。 特に,共振の場合の結合強度$\gamma$と変形強度$\alpha$の関数として,基底状態のダイナミクス,様々な相転移,エネルギー井戸の非対称性について検討する。 さらに, 種々の挙動構造を特徴付けるために, 2次元位相図を2つの固有系パラメータの関数として提示する。 カオスの発生も実験的に解析される。 本研究は,2パラメータ電子装置の有用性を実証し,理論予測と実験観測との明確な関連性を示した。

We experimentally study the infinite-size limit of the Dicke model of quantum optics with a parity-breaking deformation strength that couples the system to an external bosonic reservoir. We focus on the dynamical consequences of such symmetry-breaking, which makes the classical phase space asymmetric with non-equivalent energy wells. We present an experimental implementation of the classical version of the deformed Dicke model using a state-of-the-art bi-parametric electronic platform. Our platform constitutes a playground for studying representative phenomena of the deformed Dicke model in electrical circuits with the possibility of externally controlling parameters and initial conditions. In particular, we investigate the dynamics of the ground state, various phase transitions, and the asymmetry of the energy wells as a function of the coupling strength $\gamma$ and the deformation strength $\alpha$ in the resonant case. Additionally, to characterize the various behavior regimes, we present a two-dimensional phase diagram as a function of the two intrinsic system parameters. The onset of chaos is also analyzed experimentally. Our findings provide a clear connection between theoretical predictions and experimental observations, demonstrating the usefulness of our bi-parametric electronic setup.
翻訳日:2023-03-06 17:04:21 公開日:2023-03-02
# 半教師あり学習による幾何と関数の合同皮質登録

Joint cortical registration of geometry and function using semi-supervised learning ( http://arxiv.org/abs/2303.01592v1 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Bruce Fischl, Adrian V. Dalca(参考訳) 脳表面に基づく画像登録は、脳画像解析の重要な構成要素であり、皮質表面間の空間的対応を確立する。 既存の反復的および学習に基づくアプローチは、大脳皮質の折り畳みパターンの正確な登録に焦点を当てており、幾何が機能を予測すると仮定しているため、機能領域も適切に整列する。 しかし, 解剖学的対応領域の構造・機能的多様性は, 広く報告されている。 本研究では,最適なアトラスを学習しながら,折り畳みパターンと関数マップを協調的に整列する学習ベースの皮質登録フレームワークJOSAを紹介する。 JOSAは既存手法よりも解剖学的・機能的ドメインの登録性能を大幅に向上させることができることを示す。 半教師付きトレーニング戦略を採用することで、提案フレームワークは推論中に機能的データの必要性を軽減し、機能的データが観察できない広い神経科学領域での使用を可能にする。

Brain surface-based image registration, an important component of brain image analysis, establishes spatial correspondence between cortical surfaces. Existing iterative and learning-based approaches focus on accurate registration of folding patterns of the cerebral cortex, and assume that geometry predicts function and thus functional areas will also be well aligned. However, structure/functional variability of anatomically corresponding areas across subjects has been widely reported. In this work, we introduce a learning-based cortical registration framework, JOSA, which jointly aligns folding patterns and functional maps while simultaneously learning an optimal atlas. We demonstrate that JOSA can substantially improve registration performance in both anatomical and functional domains over existing methods. By employing a semi-supervised training strategy, the proposed framework obviates the need for functional data during inference, enabling its use in broad neuroscientific domains where functional data may not be observed.
翻訳日:2023-03-06 16:57:54 公開日:2023-03-02
# テクニカルレポート:グラフニューラルネットワークは文法的になる

Technical report: Graph Neural Networks go Grammatical ( http://arxiv.org/abs/2303.01590v1 )

ライセンス: Link先を確認
Jason Piquenot, Aldo Moscatelli, Maxime B\'erar, Pierre H\'eroux, Jean-Yves Ramel, Romain raveaux, S\'ebastien Adam(参考訳) 本稿では,新しいGNN設計戦略を提案する。 この戦略は、マトリックス言語MATLANGを生成する文脈自由文法(CFG)に依存している。 これにより、WL表現力、サブ構造カウント能力、スペクトル特性の両立が図られる。 提案手法を応用し,帯域通過フィルタに到達可能な3wlのgnnである^2$^2$^2$の文法グラフニューラルネットワークの設計を行った。 これらの性質をカバーした多くの実験は、提示された理論的結果を裏付ける。

This paper proposes a new GNN design strategy. This strategy relies on Context-Free Grammars (CFG) generating the matrix language MATLANG. It enables us to ensure both WL-expressive power, substructure counting abilities and spectral properties. Applying our strategy, we design Grammatical Graph Neural Network G$ ^2$N$^2$, a provably 3-WL GNN able to count at edge-level cycles of length up to 6 and able to reach band-pass filters. A large number of experiments covering these properties corroborate the presented theoretical results.
翻訳日:2023-03-06 16:57:39 公開日:2023-03-02
# AZTR:オートズームとテンポラル推論による空中ビデオ行動認識

AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning ( http://arxiv.org/abs/2303.01589v1 )

ライセンス: Link先を確認
Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M. Nogar, Aniket Bera, Dinesh Manocha(参考訳) 本稿では,空中映像の行動認識のための新しい手法を提案する。 本手法は,uavで撮影したビデオに対して,エッジやモバイルデバイス上で動作させる。 本稿では,自動ズームをカスタマイズして目標を自動識別し,適切にスケールする学習ベースの手法を提案する。 これにより、重要な機能を抽出し、計算オーバーヘッドを減らすことができる。 また,制御可能な計算コスト内で,時間領域および時間領域に沿って行動情報をキャプチャする効率的な時間推論アルゴリズムを提案する。 我々のアプローチは、ハイエンドgpuを搭載したデスクトップと、ロボットやドローンのための低電力ロボティクスrb5プラットフォームの両方で実装され、評価されています。 実際には、RoCoG-v2データセットでSOTAよりも6.1-7.4%、UAV-Humanデータセットで8.3-10.4%、Drone Actionデータセットで3.2%改善している。

We propose a novel approach for aerial video action recognition. Our method is designed for videos captured using UAVs and can run on edge or mobile devices. We present a learning-based approach that uses customized auto zoom to automatically identify the human target and scale it appropriately. This makes it easier to extract the key features and reduces the computational overhead. We also present an efficient temporal reasoning algorithm to capture the action information along the spatial and temporal domains within a controllable computational cost. Our approach has been implemented and evaluated both on the desktop with high-end GPUs and on the low power Robotics RB5 Platform for robots and drones. In practice, we achieve 6.1-7.4% improvement over SOTA in Top-1 accuracy on the RoCoG-v2 dataset, 8.3-10.4% improvement on the UAV-Human dataset and 3.2% improvement on the Drone Action dataset.
翻訳日:2023-03-06 16:57:29 公開日:2023-03-02
# Alexa Arena - 体操AIのためのユーザ中心のインタラクティブプラットフォーム

Alexa Arena: A User-Centric Interactive Platform for Embodied AI ( http://arxiv.org/abs/2303.01586v1 )

ライセンス: Link先を確認
Qiaozi Gao, Govind Thattai, Xiaofeng Gao, Suhaila Shakiah, Shreyas Pansare, Vasu Sharma, Gaurav Sukhatme, Hangjie Shi, Bofei Yang, Desheng Zheng, Lucy Hu, Karthika Arumugam, Shui Hu, Matthew Wen, Dinakar Guthy, Cadence Chung, Rohan Khanna, Osman Ipek, Leslie Ball, Kate Bland, Heather Rocker, Yadunandana Rao, Michael Johnston, Reza Ghanadan, Arindam Mandal, Dilek Hakkani Tur, Prem Natarajan(参考訳) Embodied AI(EAI)研究のための,ユーザ中心のシミュレーションプラットフォームであるAlexa Arenaを紹介する。 Alexa Arenaは、ヒューマンロボットインタラクション(HRI)ミッションの作成のために、さまざまなマルチルームレイアウトと対話可能なオブジェクトを提供する。 ユーザフレンドリなグラフィックスとコントロールメカニズムにより、Alexa Arenaは、一般ユーザにとってアクセスしやすいゲーム化されたロボットタスクの開発をサポートし、高性能なHRIデータ収集とEAIシステム評価のための新たな場所を開く。 プラットフォームとともに、ダイアログ対応命令追跡ベンチマークを導入し、ベースライン結果を提供する。 Alexa Arenaを公開して、汎用的で補助的なエンボディエージェントの構築の研究を容易にします。

We introduce Alexa Arena, a user-centric simulation platform for Embodied AI (EAI) research. Alexa Arena provides a variety of multi-room layouts and interactable objects, for the creation of human-robot interaction (HRI) missions. With user-friendly graphics and control mechanisms, Alexa Arena supports the development of gamified robotic tasks readily accessible to general human users, thus opening a new venue for high-efficiency HRI data collection and EAI system evaluation. Along with the platform, we introduce a dialog-enabled instruction-following benchmark and provide baseline results for it. We make Alexa Arena publicly available to facilitate research in building generalizable and assistive embodied agents.
翻訳日:2023-03-06 16:57:12 公開日:2023-03-02
# 自己教師付き学習のための進化的強化政策最適化

Evolutionary Augmentation Policy Optimization for Self-supervised Learning ( http://arxiv.org/abs/2303.01584v1 )

ライセンス: Link先を確認
Noah Barrett, Zahra Sadeghi, Stan Matwin(参考訳) 自己教師付き学習(SSL)は、手動でラベル付けされたデータを必要としないディープニューラルネットワーク(DNN)の事前トレーニングのための機械学習アルゴリズムである。 この学習技術の中心的な考え方は、ラベル付きデータをデータ拡張を通じて自動生成し、DNNの事前訓練に活用する補助的な段階であるakaプレテキストタスクに基づいている。 しかし、各文章課題の効果については、文献ではあまり研究されていない。 本稿では,制約条件下での自己教師付き学習アルゴリズムの性能に対する拡張演算子の寄与について検討する。 本稿では,複数のSOTA SSLアルゴリズムにおいて,データ拡張パイプラインのプリテキストタスクにおける最適化と拡張演算子の影響を測定するための進化的探索手法を提案する。 染色体内の拡張演算子の異なる組み合わせをエンコードすることにより、進化的最適化機構を通じて最適な増強ポリシーを求める。 さらに、最適化されたSSLアルゴリズムの性能を分析し説明する手法についても紹介する。 提案手法は,拡張ポリシーの選択がSSLアルゴリズム全体の性能に与える影響を検証し,SSLアルゴリズムの分類精度を向上する。 また,進化的検索機構によって得られた最適SSLソリューションを比較し,プリテキストタスクにおけるバッチサイズが2つのビジュアルデータセットに与える影響を示す。

Self-supervised learning (SSL) is a Machine Learning algorithm for pretraining Deep Neural Networks (DNNs) without requiring manually labeled data. The central idea of this learning technique is based on an auxiliary stage aka pretext task in which labeled data are created automatically through data augmentation and exploited for pretraining the DNN. However, the effect of each pretext task is not well studied or compared in the literature. In this paper, we study the contribution of augmentation operators on the performance of self supervised learning algorithms in a constrained settings. We propose an evolutionary search method for optimization of data augmentation pipeline in pretext tasks and measure the impact of augmentation operators in several SOTA SSL algorithms. By encoding different combination of augmentation operators in chromosomes we seek the optimal augmentation policies through an evolutionary optimization mechanism. We further introduce methods for analyzing and explaining the performance of optimized SSL algorithms. Our results indicate that our proposed method can find solutions that outperform the accuracy of classification of SSL algorithms which confirms the influence of augmentation policy choice on the overall performance of SSL algorithms. We also compare optimal SSL solutions found by our evolutionary search mechanism and show the effect of batch size in the pretext task on two visual datasets.
翻訳日:2023-03-06 16:57:00 公開日:2023-03-02
# クラックセグメンテーションのための数ショット連続残差U-Net

A Few-Shot Attention Recurrent Residual U-Net for Crack Segmentation ( http://arxiv.org/abs/2303.01582v1 )

ライセンス: Link先を確認
Iason Katsamenis, Eftychios Protopapadakis, Nikolaos Bakalos, Anastasios Doulamis, Nikolaos Doulamis, Athanasios Voulodimos(参考訳) 近年の研究では,道路インフラの視覚的自動検査において,ディープラーニングが重要な役割を担っていることが示されている。 しかし、現在の学習方式は静的であり、ユーザのフィードバックに動的に適応するものではない。 この欠点に対処するために,再帰的残差・注意モジュール(R2AU-Net)を持つU-Netアーキテクチャをベースとした,道路亀裂の自動分割のための数発の学習パラダイムを提案する。 再トレーニング戦略は、いくつかの新しい整流サンプルが分類器に供給されているため、u-netの重みを動的に微調整する。 大規模な実験によると、提案されたR2AU-Netフレームワークは、DiceとIoUメトリクスの観点から、新しいデータセットであるCrackMapで、他の最先端ネットワークよりも優れており、https://github.com/ikatsamenis/CrackMapで公開されている。

Recent studies indicate that deep learning plays a crucial role in the automated visual inspection of road infrastructures. However, current learning schemes are static, implying no dynamic adaptation to users' feedback. To address this drawback, we present a few-shot learning paradigm for the automated segmentation of road cracks, which is based on a U-Net architecture with recurrent residual and attention modules (R2AU-Net). The retraining strategy dynamically fine-tunes the weights of the U-Net as a few new rectified samples are being fed into the classifier. Extensive experiments show that the proposed few-shot R2AU-Net framework outperforms other state-of-the-art networks in terms of Dice and IoU metrics, on a new dataset, named CrackMap, which is made publicly available at https://github.com/ikatsamenis/CrackMap.
翻訳日:2023-03-06 16:56:42 公開日:2023-03-02
# 制御可能なデータ生成のためのソフトプロンプトの混合

Mixture of Soft Prompts for Controllable Data Generation ( http://arxiv.org/abs/2303.01580v1 )

ライセンス: Link先を確認
Derek Chen, Celine Lee, Yunan Lu, Domenic Rosati, Zhou Yu(参考訳) 大規模言語モデル(llm)は、対象の出力が自然言語パターンに従うと、効果的にフルーレントテキストを生成する。 しかし、構造化予測タスクは出力形式を限定的なオントロジーに限定し、そのような制約を念頭に置いて訓練されなかったため、非常に大きなモデルでさえ苦労した。 直接予測にLLMを使うことの難しさは、ドメインシフトとリソース制限によって一般的に生じる、数ショットの学習シナリオで悪化する。 直接予測ではなく,データ拡張ツールとしてLLMを活用することで,この問題を克服する。 提案するMixture of Soft Prompts (MSP) は,制御された方法でデータを生成するパラメータ効率の高い手法である。 さらにデノナイジング機構を適用して、合成データの品質を向上させる。 自動メトリクスは,ラベルのセマンティクスを保ちながら,多様で自然なテキストを生成可能であることを示す。 さらに、MSPは、強いベースラインと比較した場合、3つのベンチマークで最先端の結果を得る。 本手法は,複雑な予測タスクにllmを適用するための代替データ中心アプローチを提供する。

Large language models (LLMs) effectively generate fluent text when the target output follows natural language patterns. However, structured prediction tasks confine the output format to a limited ontology, causing even very large models to struggle since they were never trained with such restrictions in mind. The difficulty of using LLMs for direct prediction is exacerbated in few-shot learning scenarios, which commonly arise due to domain shift and resource limitations. We flip the problem on its head by leveraging the LLM as a tool for data augmentation rather than direct prediction. Our proposed Mixture of Soft Prompts (MSP) serves as a parameter-efficient procedure for generating data in a controlled manner. Denoising mechanisms are further applied to improve the quality of synthesized data. Automatic metrics show our method is capable of producing diverse and natural text, while preserving label semantics. Moreover, MSP achieves state-of-the-art results on three benchmarks when compared against strong baselines. Our method offers an alternate data-centric approach for applying LLMs to complex prediction tasks.
翻訳日:2023-03-06 16:56:24 公開日:2023-03-02
# deeplens: nlpモデルにおけるインタラクティブな分散データ検出

DeepLens: Interactive Out-of-distribution Data Detection in NLP Models ( http://arxiv.org/abs/2303.01577v1 )

ライセンス: Link先を確認
Da Song, Zhijie Wang, Yuheng Huang, Lei Ma, Tianyi Zhang(参考訳) 機械学習(ML)は自然言語処理(NLP)アプリケーションで広く使われている。 MLの基本的な前提は、トレーニングデータと実世界のデータは、同様の分布に従うべきであるということだ。 しかしながら、デプロイされたmlモデルは、実世界のデータの分散シフトによって、分散(ood)の問題に苦しむ可能性がある。 テキストコーパスからOODデータを検出するアルゴリズムは多数提案されているが、ML開発者にはまだインタラクティブなツールサポートがない。 本研究では,大規模テキストコーパスにおけるOOD問題の検出と探索を支援する対話型システムであるDeepLensを提案する。 ユーザはテキストクラスタリングの助けを借りて、DeepLensのさまざまなOODタイプを効率的に探索できる。 ユーザは、ニューロンの活性化分析によって強調された敬語を検査することで、特定のテキストを掘り下げることもできる。 参加者24名を対象にした調査では、DeepLensを使用する参加者は、インタラクションや視覚化のサポートを持たないDeepLensの亜種に比べて、正確に22%のOOD問題を見つけられた。

Machine Learning (ML) has been widely used in Natural Language Processing (NLP) applications. A fundamental assumption in ML is that training data and real-world data should follow a similar distribution. However, a deployed ML model may suffer from out-of-distribution (OOD) issues due to distribution shifts in the real-world data. Though many algorithms have been proposed to detect OOD data from text corpora, there is still a lack of interactive tool support for ML developers. In this work, we propose DeepLens, an interactive system that helps users detect and explore OOD issues in massive text corpora. Users can efficiently explore different OOD types in DeepLens with the help of a text clustering method. Users can also dig into a specific text by inspecting salient words highlighted through neuron activation analysis. In a within-subjects user study with 24 participants, participants using DeepLens were able to find nearly twice more types of OOD issues accurately with 22% more confidence compared with a variant of DeepLens that has no interaction or visualization support.
翻訳日:2023-03-06 16:56:10 公開日:2023-03-02
# DeepSeer: インタラクティブなRNN説明と状態抽象化によるデバッグ

DeepSeer: Interactive RNN Explanation and Debugging via State Abstraction ( http://arxiv.org/abs/2303.01576v1 )

ライセンス: Link先を確認
Zhijie Wang, Yuheng Huang, Da Song, Lei Ma, Tianyi Zhang(参考訳) リカレントニューラルネットワーク (Recurrent Neural Networks, RNN) は、逐次データ処理において優れた性能を持つ自然言語処理 (NLP) タスクで広く利用されている。 しかし、RNNの複雑さと透明性の欠如のため、RNNの解釈とデバッグは困難である。 RNNには多くの説明可能なAI(XAI)技術が提案されているが、その多くはグローバルな説明ではなく、ローカルな説明のみをサポートしている。 本稿では,対話型システムDeepSeerについて述べる。モデル理解とデバッギングのための複数の密集したビューにおいて,RNNの挙動をグローバルかつ局所的に説明する。 DeepSeerのコアは、RNNモデルに意味的に類似した隠された状態をバンドルし、モデルを有限状態マシンとして抽象化する状態抽象化メソッドである。 ユーザは、各状態と状態間の遷移に関連するテキストパターンを検査することで、グローバルモデルの振る舞いを調べることができる。 ユーザは、与えられた入力の状態トレースと中間予測結果を検査することで、個々の予測を掘り下げることもできる。 28人の被験者による調査の結果、人気のあるXAI技術であるLIMEと比較して、DeepSeerを用いた参加者は、RNNモデルの振る舞いをより深く、より包括的な評価を行い、誤った予測の根本原因をより正確に特定し、モデル性能を改善するための実行可能な計画を立てた。

Recurrent Neural Networks (RNNs) have been widely used in Natural Language Processing (NLP) tasks given its superior performance on processing sequential data. However, it is challenging to interpret and debug RNNs due to the inherent complexity and the lack of transparency of RNNs. While many explainable AI (XAI) techniques have been proposed for RNNs, most of them only support local explanations rather than global explanations. In this paper, we present DeepSeer, an interactive system that provides both global and local explanations of RNN behavior in multiple tightly-coordinated views for model understanding and debugging. The core of DeepSeer is a state abstraction method that bundles semantically similar hidden states in an RNN model and abstracts the model as a finite state machine. Users can explore the global model behavior by inspecting text patterns associated with each state and the transitions between states. Users can also dive into individual predictions by inspecting the state trace and intermediate prediction results of a given input. A between-subjects user study with 28 participants shows that, compared with a popular XAI technique, LIME, participants using DeepSeer made a deeper and more comprehensive assessment of RNN model behavior, identified the root causes of incorrect predictions more accurately, and came up with more actionable plans to improve the model performance.
翻訳日:2023-03-06 16:55:55 公開日:2023-03-02
# DejaVu: ディエンス予測を促進する条件付き再生学習

DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction ( http://arxiv.org/abs/2303.01573v1 )

ライセンス: Link先を確認
Shubhankar Borse, Debasmit Das, Hyojin Park, Hong Cai, Risheek Garrepalli, Fatih Porikli(参考訳) DejaVuは、条件付き画像再生をトレーニング中に追加の監視として活用し、セグメンテーション、深度推定、表面正規予測などの密集予測タスクのためのディープネットワークを改善する新しいフレームワークである。 まず,入力画像に冗長性を適用し,サンプリングや選択的周波数除去によって特定の構造情報を除去した。 次に,再現された画像と高密度予測を入力とし,欠落した構造情報を埋めて元の画像を再構成する条件付再生器を用いる。 修正画像では、境界のような構造的属性が壊れ、セマンティックコンテキストは大部分が保存される。 再生を可能にするために、条件生成器は他の入力源、すなわち密度の高い予測からの構造情報を必要とする。 このように、トレーニング中にこの条件付き再生目標を含めることで、DejaVuはその密集した予測に正確なシーン構造を埋め込むことを学ぶことを促す。 これにより、より明確な境界とより良い空間整合性を持つより正確な予測が導かれる。 追加計算を活用可能であれば、集中予測ネットワークに注意に基づく再生モジュールを組み込むように拡張して、精度をさらに向上させることができる。 Cityscapes、COCO、ADE20K、NYUD-v2、KITTIといった複数の密集予測ベンチマークに関する広範な実験を通じて、トレーニング中にDejaVuを用いることの有効性を実証する。

We present DejaVu, a novel framework which leverages conditional image regeneration as additional supervision during training to improve deep networks for dense prediction tasks such as segmentation, depth estimation, and surface normal prediction. First, we apply redaction to the input image, which removes certain structural information by sparse sampling or selective frequency removal. Next, we use a conditional regenerator, which takes the redacted image and the dense predictions as inputs, and reconstructs the original image by filling in the missing structural information. In the redacted image, structural attributes like boundaries are broken while semantic context is largely preserved. In order to make the regeneration feasible, the conditional generator will then require the structure information from the other input source, i.e., the dense predictions. As such, by including this conditional regeneration objective during training, DejaVu encourages the base network to learn to embed accurate scene structure in its dense prediction. This leads to more accurate predictions with clearer boundaries and better spatial consistency. When it is feasible to leverage additional computation, DejaVu can be extended to incorporate an attention-based regeneration module within the dense prediction network, which further improves accuracy. Through extensive experiments on multiple dense prediction benchmarks such as Cityscapes, COCO, ADE20K, NYUD-v2, and KITTI, we demonstrate the efficacy of employing DejaVu during training, as it outperforms SOTA methods at no added computation cost.
翻訳日:2023-03-06 16:55:32 公開日:2023-03-02
# 深部活動推論の分解

Deconstructing deep active inference ( http://arxiv.org/abs/2303.01618v1 )

ライセンス: Link先を確認
Th\'eophile Champion and Marek Grze\'s and Lisa Bonheme and Howard Bowman(参考訳) アクティブ推論(英: Active Inference)とは、神経科学、ロボット工学、機械学習に応用できる知覚、学習、意思決定の理論である。 近年,モンテカルロ木探索とディープラーニングを用いて,このフレームワークのスケールアップが試みられている。 このアクティビティの目標は、より複雑なタスクを、深いアクティブ推論を使って解決することである。 まず,既存の文献を概観し,より積極的な推論エージェントを構築した。 2つのエージェントに対して,期待自由エネルギーの5つの定義と3つの異なるアクション選択戦略を実験した。 我々の実験によると、dsprites環境を解決できるモデルは報酬を最大化するものである。 最後に,カーネルアライメントを用いた種々のエージェントの層によって学習された表現の類似性を比較する。 重要なことに、報酬を最大化するエージェントと、期待自由エネルギーを最小化するエージェントは、批判ネットワークの最終層(学習目的の違いを反映する)と、遷移およびエンコーダネットワークの分散層を除いて、非常に類似した表現を学習する。 報酬最大化剤は期待される自由エネルギーを最小化する剤よりもはるかに確実であることがわかった。 これは、期待される自由エネルギーを最小限に抑えるエージェントが常にアクションを分解し、他のアクションに十分なデータを集めることができないためである。 対照的に、報酬を最大化するエージェントは、左右のアクションを選択し続け、そのタスクをうまく解決できるようにする。 これら2つのエージェントの唯一の違いは、トランジッションとエンコーダネットワークの出力を可能な限り近づけることを目的とした認識値である。 これにより、期待自由エネルギーを最小化するエージェントは、単一のアクションを選択(ダウン)し、このアクションを選択する際に将来を予測する専門家となる。 これにより、遷移の出力とエンコーダネットワークの間のKLのばらつきが小さくなる。

Active inference is a theory of perception, learning and decision making, which can be applied to neuroscience, robotics, and machine learning. Recently, reasearch has been taking place to scale up this framework using Monte-Carlo tree search and deep learning. The goal of this activity is to solve more complicated tasks using deep active inference. First, we review the existing literature, then, we progresively build a deep active inference agent. For two agents, we have experimented with five definitions of the expected free energy and three different action selection strategies. According to our experiments, the models able to solve the dSprites environment are the ones that maximise rewards. Finally, we compare the similarity of the representation learned by the layers of various agents using centered kernel alignment. Importantly, the agent maximising reward and the agent minimising expected free energy learn very similar representations except for the last layer of the critic network (reflecting the difference in learning objective), and the variance layers of the transition and encoder networks. We found that the reward maximising agent is a lot more certain than the agent minimising expected free energy. This is because the agent minimising expected free energy always picks the action down, and does not gather enough data for the other actions. In contrast, the agent maximising reward, keeps on selecting the actions left and right, enabling it to successfully solve the task. The only difference between those two agents is the epistemic value, which aims to make the outputs of the transition and encoder networks as close as possible. Thus, the agent minimising expected free energy picks a single action (down), and becomes an expert at predicting the future when selecting this action. This makes the KL divergence between the output of the transition and encoder networks small.
翻訳日:2023-03-06 16:49:43 公開日:2023-03-02
# context net: 気胸のセグメンテーションのためのマルチモーダル視覚言語モデル

ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax ( http://arxiv.org/abs/2303.01615v1 )

ライセンス: Link先を確認
Zachary Huemann, Junjie Hu, Tyler Bradshaw(参考訳) 臨床画像データベースには医療画像だけでなく、医師が生成したテキストレポートも含まれている。 これらの物語は、しばしば病気の位置、大きさ、形状を記述しているが、医学的画像分析を導くための記述的テキストを用いて検討されている。 視覚言語モデルは、画像生成、画像キャプション、視覚的質問応答といったマルチモーダルなタスクにますます使われていますが、医療画像にはほとんど使われていません。 本研究では,気胸分離作業のための視覚言語モデルを開発した。 本モデルであるConTEXTual Netは, 胸部X線写真から気胸を検知し, 分画する。 ConTEXTual Net は Dice スコア 0.72$\pm$ 0.02 を達成し、これは主医師の注釈と他の医師の注釈との合意のレベル (0.71$\pm$ 0.04) に似ていた。 ConTEXTual NetもU-Netを上回った。 記述型言語は性能向上のためのセグメンテーションモデルに組み込むことができることを示す。 アブレーション研究を通じて,性能向上に責任を持つのはテキスト情報であることを示す。 さらに,画像テキストの一致を断ち切ることで,ConTEXTual Netのセグメンテーション性能が悪化することを示す。 我々は,この一致を維持し,セグメンテーション訓練を改善する一連の拡張を提案する。

Clinical imaging databases contain not only medical images but also text reports generated by physicians. These narrative reports often describe the location, size, and shape of the disease, but using descriptive text to guide medical image analysis has been understudied. Vision-language models are increasingly used for multimodal tasks like image generation, image captioning, and visual question answering but have been scarcely used in medical imaging. In this work, we develop a vision-language model for the task of pneumothorax segmentation. Our model, ConTEXTual Net, detects and segments pneumothorax in chest radiographs guided by free-form radiology reports. ConTEXTual Net achieved a Dice score of 0.72 $\pm$ 0.02, which was similar to the level of agreement between the primary physician annotator and the other physician annotators (0.71 $\pm$ 0.04). ConTEXTual Net also outperformed a U-Net. We demonstrate that descriptive language can be incorporated into a segmentation model for improved performance. Through an ablative study, we show that it is the text information that is responsible for the performance gains. Additionally, we show that certain augmentation methods worsen ConTEXTual Net's segmentation performance by breaking the image-text concordance. We propose a set of augmentations that maintain this concordance and improve segmentation training.
翻訳日:2023-03-06 16:49:13 公開日:2023-03-02
# チャープパルスを用いたマルチ周波数ラマン生成の解析スペクトル

Analytic spectrum of multi-frequency Raman generation with chirped pulses ( http://arxiv.org/abs/2303.01612v1 )

ライセンス: Link先を確認
Joscelyn van der Veen(参考訳) 多周波ラマン発生は、高強度および可視波長の超短パルスを製造するための有望な方法である。 多周波ラマン生成の実験的な実現において、ラマン位数は現在の理論では説明できないいくつかの挙動を示す。 複数のガウスレーザーパルスによって励起されるラマン媒質によって放射されるスペクトルの解析的・摂動的表現を導出し,実験結果と定性的に一致することを示す。

Multi-frequency Raman generation is a promising method of producing ultrashort laser pulses with high intensities and visible wavelength frequencies. In experimental realizations of multi-frequency Raman generation the Raman order peaks display several behaviours that are not explained by the current theory. We derive an analytic and perturbative expression for the spectrum radiated by a Raman medium excited by multiple Gaussian laser pulses and show that it qualitatively agrees with experimental observations.
翻訳日:2023-03-06 16:48:52 公開日:2023-03-02
# 連続変動測定デバイス非依存量子鍵分布を用いた実世界データ暗号化

Real-world data encryption with continuous-variable measurement device-independent quantum key distribution ( http://arxiv.org/abs/2303.01611v1 )

ライセンス: Link先を確認
Adnan A.E. Hajomer, Ulrik L Andersen and Tobias Gehring(参考訳) 量子鍵分布(QKD)は、物理の基本法則を利用して、情報理論のセキュアな暗号鍵の分配を容易にする。 しかしながら、実際にはqkdシステムのセキュリティは、サイドチャネルとしても知られる実装上の欠陥によって損なわれる可能性がある。 測定デバイス非依存(MDI)QKDは、検出器の脆弱性を排除し、この種の攻撃に対する解決策を提供する。 MDI-QKDの様々なフレーバーの中で、コヒーレントな状態に基づく連続変数(CV) MDI-QKDは、既存の通信インフラに統合するための有望な候補である。 この概念とCV MDI-QKDによるセキュアな通信の可能性を実証したものの、実際のデータ暗号化のためのシステムの実装はまだ実現されていない。 本稿では,従来の通信チャネルと共存可能なCV MDI-QKDシステムの設計について紹介する。 これは、新しいリレー構造、リアルタイム周波数・位相同期システム、よく設計されたデジタル信号処理パイプラインを用いて実現される。 本設計では, CV MDI-QKDシステムにおいて, 20MBaudのシンボルレートで動作し, 有限サイズ, 漸近型ともに集団攻撃に対する鍵を生成する。 これにより、高性能CV MDI-QKDの通信ネットワークへの実装と統合に向けた重要なマイルストーンとなる。

Quantum key distribution (QKD) facilitates the distribution of information-theoretic secure encryption keys by utilizing the fundamental laws of physics. However, the security of QKD systems in practice can be undermined due to implementation flaws, also known as side channels. Measurement-device-independent (MDI) QKD offers a solution to these type of attacks by eliminating the vulnerability of the detector. Among different flavors of MDI-QKD, continuous variable (CV) MDI-QKD based on coherent states is a promising candidate for integration into existing telecom infrastructure. Despite previous demonstrations of the concept and the potential for secure communication offered by CV MDI-QKD, a practical implementation of the system for real-world data encryption has yet to be achieved. Here, we introduce a simple and practical CV MDI-QKD system design that can coexist with classical telecommunications channels. This is achieved through the use of a new relay structure, a real-time frequency and phase locking system and a well-designed digital signal-processing pipeline. Our design demonstrates the first practical CV MDI-QKD system, operating at a symbol rate of 20 MBaud and generating keys that are secure against collective attacks in both the finite-size and asymptotic regimes. This sets an important milestone towards in-field implementation and integration of high-performance CV MDI-QKD into telecom networks.
翻訳日:2023-03-06 16:48:43 公開日:2023-03-02
# 新しいドロップアウトとしてのスパースMoE:スケーリングディッセンスとセルフスリムなトランス

Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers ( http://arxiv.org/abs/2303.01610v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Ajay Jaiswal, Shiwei Liu, Zhangyang Wang(参考訳) 卓越した業績にもかかわらず、巨大なトランスフォーマーは、訓練中にエクサビタント計算やメモリフットプリント、そして高いパラメータ冗長性によって証明された深刻な崩壊など、重大な欠点に直面する。 SMOE(Sparsely-activated Mixture-of-Experts)は、トレーニング効率の問題を緩和する公約を示しているが、(1)表現的崩壊による冗長な専門家、(2)推論と下流の微調整のための未熟な専門家のスケーラビリティは、主に学習されたルーティングポリシーをトレーニング中にアクティブな専門家の数に過度に適合させるためである。 最近の研究は、専門家の専門化を促進するためにルーティングポリシーの改善に重点を置いているため、この研究は、SMoEの見過ごされたスケーラビリティボトルネックを探求し、それを高密度トランスフォーマーを効果的にスケールするために活用することに焦点を当てている。 そこで,本稿では,トランスフォーマーのスケール精度を向上させるための新しいプラグイン・アンド・プレイ訓練フレームワークであるsmoe-dropoutを提案する。 具体的には、smoe-dropoutはランダムに初期化され固定されたルータネットワークで構成され、専門家を活性化し、トレーニングが経つにつれて徐々に専門家番号を増加させる。 SMoE-Dropoutによって訓練されたトランスフォーマーは、自然にリソースの可用性を考慮し、スムーズで一貫したパフォーマンス向上を提供する。 実験では,等価パラメータ数を持つ集中トレーニングベースラインと比較して,smoe-dropoutの優れた性能と実質的な計算節約を実証した。 特に、トレーニングされたBERTは、難解推論タスク {ASDiv-A, MAWPS, SVAMP} に対して、{1.03%, 0.78%, 1.09%} の一貫性のある改善を伴って、密にトレーニングされている。

Despite their remarkable achievement, gigantic transformers encounter significant drawbacks, including exorbitant computational and memory footprints during training, as well as severe collapse evidenced by a high degree of parameter redundancy. Sparsely-activated Mixture-of-Experts (SMoEs) have shown promise to mitigate the issue of training efficiency, yet they are prone to (1) redundant experts due to representational collapse; and (2) poor expert scalability for inference and downstream fine-tuning, primarily due to overfitting of the learned routing policy to the number of activated experts during training. As recent research efforts are predominantly focused on improving routing policies to encourage expert specializations, this work focuses on exploring the overlooked scalability bottleneck of SMoEs and leveraging it to effectively scale dense transformers. To this end, we propose a new plug-and-play training framework, SMoE-Dropout, to enable scaling transformers to better accuracy in their full capacity without collapse. Specifically, SMoE-Dropout consists of a randomly initialized and fixed router network to activate experts and gradually increases the activated expert number as training progresses over time. Transformers trained by SMoE-Dropout naturally exhibit a self-slimmable property subject to resource availability, offering smooth and consistent performance boosts with an increase in activated experts during inference or fine-tuning. Our extensive experiments demonstrate the superior performance and substantial computation savings of SMoE-Dropout, compared to dense training baselines with equivalent parameter counts. In particular, our trained BERT outperforms its densely trained counterpart with consistent improvements of {1.03%, 0.78%, 1.09%} on challenging reasoning tasks {ASDiv-A, MAWPS, SVAMP}, respectively.
翻訳日:2023-03-06 16:48:25 公開日:2023-03-02
# 長距離相関による離散時間量子ウォーク分散制御

Discrete-time quantum walk dispersion control through long-range correlations ( http://arxiv.org/abs/2303.01608v1 )

ライセンス: Link先を確認
A. R. C. Buarque, F. S. Passos, W. S. Dias, and E. P. Raposo(参考訳) 空間と時間の両方で長距離相関を示す不均一離散時間1次元量子ウォークの進化ダイナミクスについて検討する。 関連する量子コイン演算子は、時間発展プロトコルに埋め込まれた長距離相関のランダムな不均一性分布を示すために、パワーローの振る舞いに従えばスペクトルを持つ分数ブラウン運動、$s(k)\sim 1/k^{\nu}$ によって構築される。 量子コインの位相に符号化されたパワー-ロー相関障害は、相関度を駆動するパラメータの相対強度に応じて、局所化から部分拡散、拡散、超拡散的な(弾道的を含む)振る舞いまで、量子ビット状態の幅広い拡散パターンを引き起こすことが示されている。 分散制御は、不均一な量子コイン演算子に割り当てられた長距離相関特性を適切に調整することで、1次元の離散時間量子ウォークで可能である。

We investigate the evolution dynamics of inhomogeneous discrete-time one-dimensional quantum walks displaying long-range correlations in both space and time. The associated quantum coin operators are built to exhibit a random inhomogeneity distribution of long-range correlations embedded in the time evolution protocol through a fractional Brownian motion with spectrum following a power-law behavior, $S(k)\sim 1/k^{\nu}$. The power-law correlated disorder encoded in the phases of the quantum coin is shown to give rise to a wide variety of spreading patterns of the qubit states, from localized to subdiffusive, diffusive, and superdiffusive (including ballistic) behavior, depending on the relative strength of the parameters driving the correlation degree. Dispersion control is then possible in one-dimensional discrete-time quantum walks by suitably tunning the long-range correlation properties assigned to the inhomogeneous quantum coin operator.
翻訳日:2023-03-06 16:47:45 公開日:2023-03-02
# 階層的識別学習は生体顕微鏡の視覚的表現を改善する

Hierarchical discriminative learning improves visual representations of biomedical microscopy ( http://arxiv.org/abs/2303.01605v1 )

ライセンス: Link先を確認
Cheng Jiang, Xinhai Hou, Akhil Kondepudi, Asadur Chowdury, Christian W. Freudiger, Daniel A. Orringer, Honglak Lee, Todd C. Hollon(参考訳) バイオメディカル顕微鏡および臨床医学におけるコンピュータビジョンの役割を促進するためには,高品質で自己監督型視覚表現の学習が不可欠である。 従来の研究は、自己教師付き表現学習(SSL)手法に重点を置いており、がん診断に使用されるギガピクセル全体スライド画像(WSI)から採取した画像パッチやフィールド・オブ・ビューに直接適用している。 しかし,(1)同一患者からのパッチが独立したものと仮定し,(2)臨床バイオメディカル顕微鏡の患者・スライド・パッチ階層を無視し,(3)下流性能を低下させる強力なデータ拡張を必要とするため,この戦略は限定されている。 重要なことに、患者の腫瘍のwsisから採取されたパッチは、がん診断の基盤となる様々な画像の例である。 このモチベーションは、臨床バイオメディカル顕微鏡の患者・スライド・パッチ階層を生かして、基礎となる診断の特徴を暗黙的に学習する階層的識別学習タスクを定義するデータ駆動型手法である。 HiDiscは、データ階層の共通祖先に基づいて正のパッチペアを定義する自己教師付きコントラスト学習フレームワークを使用し、ビジュアルSSLには統一パッチ、スライド、患者識別学習の目的が使用される。 2つのバイオメディカル顕微鏡データセットを用いて2つの視覚課題に対するハイディスク表現をベンチマークし,(1)ハイディスクプリトレーニングが癌診断と遺伝子変異予測のための最先端の自己教師ありプリトレーニング法を上回っており,(2)ハイディスクは強いデータ拡張を伴わずに自然パッチ多様性を用いた高品質なビジュアル表現を学習できることを実証した。

Learning high-quality, self-supervised, visual representations is essential to advance the role of computer vision in biomedical microscopy and clinical medicine. Previous work has focused on self-supervised representation learning (SSL) methods developed for instance discrimination and applied them directly to image patches, or fields-of-view, sampled from gigapixel whole-slide images (WSIs) used for cancer diagnosis. However, this strategy is limited because it (1) assumes patches from the same patient are independent, (2) neglects the patient-slide-patch hierarchy of clinical biomedical microscopy, and (3) requires strong data augmentations that can degrade downstream performance. Importantly, sampled patches from WSIs of a patient's tumor are a diverse set of image examples that capture the same underlying cancer diagnosis. This motivated HiDisc, a data-driven method that leverages the inherent patient-slide-patch hierarchy of clinical biomedical microscopy to define a hierarchical discriminative learning task that implicitly learns features of the underlying diagnosis. HiDisc uses a self-supervised contrastive learning framework in which positive patch pairs are defined based on a common ancestry in the data hierarchy, and a unified patch, slide, and patient discriminative learning objective is used for visual SSL. We benchmark HiDisc visual representations on two vision tasks using two biomedical microscopy datasets, and demonstrate that (1) HiDisc pretraining outperforms current state-of-the-art self-supervised pretraining methods for cancer diagnosis and genetic mutation prediction, and (2) HiDisc learns high-quality visual representations using natural patch diversity without strong data augmentations.
翻訳日:2023-03-06 16:47:28 公開日:2023-03-02
# メタ学習による性能とデータ要求の予測

A Meta-Learning Approach to Predicting Performance and Data Requirements ( http://arxiv.org/abs/2303.01598v1 )

ライセンス: Link先を確認
Achin Jain, Gurumurthy Swaminathan, Paolo Favaro, Hao Yang, Avinash Ravichandran, Hrayr Harutyunyan, Alessandro Achille, Onkar Dabeer, Bernt Schiele, Ashwin Swaminathan, Stefano Soatto(参考訳) 本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。 モデル性能を推定するデファクト原理であるパワー法則は、外挿のために小さなデータセット(例:クラス毎に5つのサンプル)を使用する場合、大きな誤差をもたらす。 これは、ログデータセットサイズに対するログパフォーマンスエラーが、マイナショットレジームにおける非線形進行と、ハイショットレジームでの線形進行に続くためである。 本稿では,2つのデータ構造を異なる方法で処理するPPL法を提案する。 PPL のパラメータを推定するために,分類/検出タスク,ResNet/ViT ベースのアーキテクチャ,ランダム/事前学習初期化を対象とする,メタラーニングにより訓練されたランダムフォレスト回帰器を導入する。 PPLは、電力法と比較して、16の分類で平均37%、10の検出データセットで平均33%の性能評価を改善している。 さらに,pplの拡張により信頼度が向上し,分類で76%,検出データセットで91%の過大評価を減少させる予測地平線を制限する。

We propose an approach to estimate the number of samples required for a model to reach a target performance. We find that the power law, the de facto principle to estimate model performance, leads to large error when using a small dataset (e.g., 5 samples per class) for extrapolation. This is because the log-performance error against the log-dataset size follows a nonlinear progression in the few-shot regime followed by a linear progression in the high-shot regime. We introduce a novel piecewise power law (PPL) that handles the two data regimes differently. To estimate the parameters of the PPL, we introduce a random forest regressor trained via meta learning that generalizes across classification/detection tasks, ResNet/ViT based architectures, and random/pre-trained initializations. The PPL improves the performance estimation on average by 37% across 16 classification and 33% across 10 detection datasets, compared to the power law. We further extend the PPL to provide a confidence bound and use it to limit the prediction horizon that reduces over-estimation of data by 76% on classification and 91% on detection datasets.
翻訳日:2023-03-06 16:46:55 公開日:2023-03-02
# シリコン中のスピン光子界面の高スループット同定

High-throughput identification of spin-photon interfaces in silicon ( http://arxiv.org/abs/2303.01594v1 )

ライセンス: Link先を確認
Yihuang Xiong and C\'eline Bourgois and Natalya Sheremetyeva and Wei Chen and Diana Dahliah and Hanbin Song and Sin\'ead M. Griffin and Alp Sipahigil and Geoffroy Hautier(参考訳) ホスト半導体のカラーセンターは、多くの量子応用を可能にするスピン光子インタフェースの候補である。 シリコンにおける最適なスピン-光子界面の発見により、量子情報技術は成熟した半導体技術へと移行する。 しかし、ホスト内の荷電欠陥の可能性は非常に大きいため、実験から有望な量子欠陥を特定することは極めて困難である。 ここでは,1000以上の置換および間質帯電欠陥のスピン光子界面の同定に高スループット第一原理を用いた。 我々は、その光学特性、スピン多重性、および形成エネルギーを考慮して、最も有望な欠陥を評価する。 単一ショットハイブリッド機能アプローチの使用は、計算された光学的および電子的特性において妥当な精度で多数の欠陥のスクリーニングを可能にするために重要である。 我々は、新しい3つの有望スピン光子インタフェースを、テレコムバンドの潜在的な明るいエミッタとして同定する:$\rm Ti_{i}^{+}$, $\rm Fe_{i}^{0}$, $\rm Ru_{i}^{0}$。 これらの候補は欠陥バウンド励起によって興奮し、通信バンドの操作がターゲットである場合、シリコンにおけるこの種の欠陥を考えることの重要性を強調している。 我々の研究は、シリコンや他のホストの量子欠陥に対する大規模な計算スクリーニングへの道を開いた。

Color centers in host semiconductors are prime candidates for spin-photon interfaces that would enable numerous quantum applications. The discovery of an optimal spin-photon interface in silicon would move quantum information technologies towards a mature semiconductor technology. However, the space of possible charged defects in a host is very large, making the identification of promising quantum defects from experiments only extremely challenging. Here, we use high-throughput first principles computational screening to identify spin-photon interfaces among more than 1000 substitutional and interstitial charged defects in silicon. We evaluate the most promising defects by considering their optical properties, spin multiplicity, and formation energies. The use of a single-shot hybrid functional approach is critical in enabling the screening of a large number of defects with a reasonable accuracy in the calculated optical and electronic properties. We identify three new promising spin-photon interface as potential bright emitters in the telecom band: $\rm Ti_{i}^{+}$, $\rm Fe_{i}^{0}$, and $\rm Ru_{i}^{0}$. These candidates are excited through defect-bound excitons, stressing the importance of considering these type of defects in silicon if operations in the telecom band is targeted. Our work paves the way to further large scale computational screening for quantum defects in silicon and other hosts.
翻訳日:2023-03-06 16:46:25 公開日:2023-03-02
# QAID:Few-shot Intent Detectionにインスパイアされた質問応答

QAID: Question Answering Inspired Few-shot Intent Detection ( http://arxiv.org/abs/2303.01593v1 )

ライセンス: Link先を確認
Asaf Yehudai, Matan Vetzler, Yosi Mass, Koren Lazar, Doron Cohen, Boaz Carmeli(参考訳) 意味的に類似したきめ細かな意図によるインテント検出は難しい作業である。 そこで我々は,発話や意図を質問や回答として扱うことにより,意図検出を質問応答検索タスクとして再構成する。 そこで我々は,質問応答検索アーキテクチャを活用し,バッチコントラスト損失を伴う2段階学習スキーマを採用する。 事前学習の段階では、自己指導型トレーニングによりクエリ表現を改善する。 そして、微調整段階において、同じ意図から、クエリと回答の文脈化トークンレベルの類似度スコアを増大させる。 3つの数ショットインテント検出ベンチマークの結果から,最先端のパフォーマンスが得られた。

Intent detection with semantically similar fine-grained intents is a challenging task. To address it, we reformulate intent detection as a question-answering retrieval task by treating utterances and intent names as questions and answers. To that end, we utilize a question-answering retrieval architecture and adopt a two stages training schema with batch contrastive loss. In the pre-training stage, we improve query representations through self-supervised training. Then, in the fine-tuning stage, we increase contextualized token-level similarity scores between queries and answers from the same intent. Our results on three few-shot intent detection benchmarks achieve state-of-the-art performance.
翻訳日:2023-03-06 16:45:49 公開日:2023-03-02
# エネルギー応用のための量子工学

Quantum Engineering for Energy Applications ( http://arxiv.org/abs/2303.01632v1 )

ライセンス: Link先を確認
Florian Metzler, Jorge Sandoval, Nicola Galvanetto(参考訳) 量子工学は、量子重ね合わせのような明らかに非古典的な振る舞いの活用に基づく新しい技術を作ろうとしている。 現在追求されているアプリケーションの大部分は量子情報科学の領域に属し、量子コンピューティングは最も目に見えるサブドメインである。 しかし、量子工学の他の応用は急速に発展しつつある。 本稿では,太陽エネルギー,電池,原子力の分野における量子工学原理の展開について概説する。 我々は、明らかに異なる分野の量子工学的アプローチにおける共通点を特定し、量子情報科学に直接的な並列性を引き出す。 共有知識基盤は形成されており、これは私たちが「量子エネルギー科学」と呼ぶ新しい領域に対応している。 量子エネルギー科学は、有機太陽電池、量子電池、核融合などのエネルギー技術全般において大幅な性能向上を約束している。 この新興領域の認識は、エネルギー革新に関わるアクターに大きな関係があるかもしれない。 また、可視性を高め、リソースの配置と機関支援を動機付けることで、この分野のアクティブな研究者にもメリットがある。

Quantum engineering seeks to create novel technologies based on the exploitation of distinctly nonclassical behaviors such as quantum superposition. The vast majority of currently pursued applications fall into the domain of quantum information science, with quantum computing as the most visible subdomain. However, other applications of quantum engineering are fast emerging. Here, we review the deployment of quantum engineering principles in the fields of solar energy, batteries, and nuclear energy. We identify commonalities across quantum engineering approaches in those apparently disparate fields and draw direct parallels to quantum information science. We find that a shared knowledge base is forming, which de facto corresponds to a new domain that we refer to as 'quantum energy science'. Quantum energy science bears the promise of substantial performance improvements across energy technologies such as organic solar cells, quantum batteries, and nuclear fusion. The recognition of this emerging domain may be of great relevance to actors concerned with energy innovation. It may also benefit active researchers in this domain by increasing visibility and motivating the deployment of resources and institutional support.
翻訳日:2023-03-06 16:38:59 公開日:2023-03-02
# 運動プリミティブを用いた確率非線形系の実時間管型非ガウスリスク境界運動計画

Real-Time Tube-Based Non-Gaussian Risk Bounded Motion Planning for Stochastic Nonlinear Systems in Uncertain Environments via Motion Primitives ( http://arxiv.org/abs/2303.01631v1 )

ライセンス: Link先を確認
Weiqiao Han, Ashkan Jasour, Brian Williams(参考訳) 不確定環境における確率非線形システムの動作計画問題を考える。 より正確には、ロボットは確率的非線形ダイナミクスと不確実な初期位置を持ち、環境には複数の不安定な障害が含まれている。 障害物は任意の形状で変形し、移動することができる。 すべての不確かさは必ずしもガウス分布を持つとは限らない。 この一般設定は [1] において考慮され、解決されている。 上記の仮定に加えて,システム状態の不確実性が長期的地平線上で大きくなりすぎるため,[1]における計画手法が失敗する長期的タスクについても考察する。 [1]とは異なり,実時間オンライン動作計画アルゴリズムを提案する。 離散時間運動プリミティブとそれに対応する連続時間管をオフラインで構築し、各動作プリミティブのほぼ全ての系状態が対応するチューブ内に留まることを保証する。 確率論的安全性制約をリスクパターンと呼ばれる決定論的制約の集合に変換する。 オンライン実行中,SOS(sum-of-squares)プログラミングを用いて,決定論的リスク輪郭に対するチューブの安全性を検証する。 提案手法は, 不確実なサンプルや時間離散化を必要とせずに, 不確実な障害物が存在する場合のチューブの安全性を検証する。 システム状態が管内に留まる確率と障害物に衝突する管の確率をバウンドすることで, 障害物に衝突する系の状態のバウンド化確率を保証できる。 我々は,長期ロボット工学の課題に対するアプローチを実証する。

We consider the motion planning problem for stochastic nonlinear systems in uncertain environments. More precisely, in this problem the robot has stochastic nonlinear dynamics and uncertain initial locations, and the environment contains multiple dynamic uncertain obstacles. Obstacles can be of arbitrary shape, can deform, and can move. All uncertainties do not necessarily have Gaussian distribution. This general setting has been considered and solved in [1]. In addition to the assumptions above, in this paper, we consider long-term tasks, where the planning method in [1] would fail, as the uncertainty of the system states grows too large over a long time horizon. Unlike [1], we present a real-time online motion planning algorithm. We build discrete-time motion primitives and their corresponding continuous-time tubes offline, so that almost all system states of each motion primitive are guaranteed to stay inside the corresponding tube. We convert probabilistic safety constraints into a set of deterministic constraints called risk contours. During online execution, we verify the safety of the tubes against deterministic risk contours using sum-of-squares (SOS) programming. The provided SOS-based method verifies the safety of the tube in the presence of uncertain obstacles without the need for uncertainty samples and time discretization in real-time. By bounding the probability the system states staying inside the tube and bounding the probability of the tube colliding with obstacles, our approach guarantees bounded probability of system states colliding with obstacles. We demonstrate our approach on several long-term robotics tasks.
翻訳日:2023-03-06 16:38:44 公開日:2023-03-02
# 分散シフトでオンラインストリームに適応する学習

Learning to Adapt to Online Streams with Distribution Shifts ( http://arxiv.org/abs/2303.01630v1 )

ライセンス: Link先を確認
Chenyan Wu, Yimu Pan, Yandong Li, James Z. Wang(参考訳) テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。 この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。 既存のアプローチは2つの課題に直面している。同じドメインから大規模なテストデータバッチに依存することと、継続的な分散進化プロセスを明示的にモデル化しないことだ。 いずれの課題にも対処すべく,メタトレーニング中に分散シフトするオンラインストリームに適応するようネットワークに教えるメタラーニング手法を提案する。 結果として、トレーニング中に学習したバッチサイズ制限にかかわらず、トレーニングされたモデルは、テスト中の分散シフトに対して連続的な適応を行うことができる。 我々は,ttaのベンチマークデータセットに関する広範囲な実験を行い,幅広いオンライン配信シフト設定を組み込んだ。 その結果,最先端手法よりも一貫した改善がみられ,提案手法の有効性が示された。 さらに,ビデオセグメンテーションタスクにおいて,実世界のアプリケーションに対する手法の可能性を強調し,優れたパフォーマンスを実現した。

Test-time adaptation (TTA) is a technique used to reduce distribution gaps between the training and testing sets by leveraging unlabeled test data during inference. In this work, we expand TTA to a more practical scenario, where the test data comes in the form of online streams that experience distribution shifts over time. Existing approaches face two challenges: reliance on a large test data batch from the same domain and the absence of explicitly modeling the continual distribution evolution process. To address both challenges, we propose a meta-learning approach that teaches the network to adapt to distribution-shifting online streams during meta-training. As a result, the trained model can perform continual adaptation to distribution shifts in testing, regardless of the batch size restriction, as it has learned during training. We conducted extensive experiments on benchmarking datasets for TTA, incorporating a broad range of online distribution-shifting settings. Our results showed consistent improvements over state-of-the-art methods, indicating the effectiveness of our approach. In addition, we achieved superior performance in the video segmentation task, highlighting the potential of our method for real-world applications.
翻訳日:2023-03-06 16:38:20 公開日:2023-03-02
# 確率非線形ロボットシステムの非ガウス的不確かさ最小化に基づく制御

Non-Gaussian Uncertainty Minimization Based Control of Stochastic Nonlinear Robotic Systems ( http://arxiv.org/abs/2303.01628v1 )

ライセンス: Link先を確認
Weiqiao Han, Ashkan Jasour, Brian Williams(参考訳) 本稿では,確率的不確実性と外乱の存在下での非線形ロボットシステムの閉ループ制御問題を考える。 より正確には、不確実性と外乱による名目状態軌跡からシステムの状態の逸脱を最小限に抑える状態フィードバックコントローラを設計する。 確率システムの制御問題に対処するための既存のアプローチは、ガウスの不確実性やプロセス、線形化システムなどの不確実性の特定のクラスに限られる。 本稿では非線形力学モデルと任意の確率的不確実性を扱うアプローチを提案する。 制御器設計問題をモーメントや特性関数を含む確率分布の統計量の観点から最適化問題として定式化する。 特に、与えられた最適化問題において、ロボットシステムの非線形運動モデル全体を通して不確かさを伝播するためにモーメントと特性関数を用いる。 追従偏差を低減するために, 確率的状態の共分散行列のトレースと行列式を最小化することにより, 公称軌道周りの確率的状態の不確かさを最小限に抑える。 状態フィードバックゲインを得るために,既設の内点最適化器を用いてモーメント,特徴関数,状態フィードバックゲインの観点から決定論的最適化問題を解く。 提案手法の性能を示すために,本手法を既存の確率的制御手法と比較する。

In this paper, we consider the closed-loop control problem of nonlinear robotic systems in the presence of probabilistic uncertainties and disturbances. More precisely, we design a state feedback controller that minimizes deviations of the states of the system from the nominal state trajectories due to uncertainties and disturbances. Existing approaches to address the control problem of probabilistic systems are limited to particular classes of uncertainties and systems such as Gaussian uncertainties and processes and linearized systems. We present an approach that deals with nonlinear dynamics models and arbitrary known probabilistic uncertainties. We formulate the controller design problem as an optimization problem in terms of statistics of the probability distributions including moments and characteristic functions. In particular, in the provided optimization problem, we use moments and characteristic functions to propagate uncertainties throughout the nonlinear motion model of robotic systems. In order to reduce the tracking deviations, we minimize the uncertainty of the probabilistic states around the nominal trajectory by minimizing the trace and the determinant of the covariance matrix of the probabilistic states. To obtain the state feedback gains, we solve deterministic optimization problems in terms of moments, characteristic functions, and state feedback gains using off-the-shelf interior-point optimization solvers. To illustrate the performance of the proposed method, we compare our method with existing probabilistic control methods.
翻訳日:2023-03-06 16:38:03 公開日:2023-03-02
# 量子超越性から認定されたランダム性

Certified Randomness from Quantum Supremacy ( http://arxiv.org/abs/2303.01625v1 )

ライセンス: Link先を確認
Scott Aaronson, Shih-Han Hung(参考訳) 本稿では,暗号的に認証されたランダムビットを生成し,暗号暗号の証明に(例えば)使用する,短期量子デバイスのためのアプリケーションを提案する。 提案プロトコルは,2019年からgoogleとustcが成功裏に実施したランダム回路サンプリングに基づく,既存の「量子超越性」実験を活用している。 これらの実験のアウトプットが現在標準的な線形クロスエントロピーベンチマーク(lxeb)を通過すると、妥当なハードネス仮定の下では、必ず$\omega(n)$ min-エントロピーを持ち、ここで$n$はキュービット数である。 ランダム性のネットゲインを達成するために、小さなランダムシードを用いて疑似ランダムチャレンジ回路を作成する。 チャレンジ回路に応答して量子コンピュータは出力文字列を生成し、検証後にランダムネス抽出器に入力してほぼ一様に近いビットを生成することで、擬似ランダム性から真のランダム性への「ブートストラップ」を行う。 プロトコルの音を2つの感覚で証明します (i) ランダムオラクルモデルで正当化されるロングリスト量子超越性検証と呼ばれるハードネス仮定の下で (2) 任意の絡み合いをデバイスと共有できる盗聴者に対してランダムなオラクルモデルで無条件に行う。 (このプロトコルの出力は、ランダムなオラクルを見ることができる計算に縛られない敵に対しても予測不可能である。) 現在、我々のプロトコルの中心的な欠点は指数関数的な検証コストです。これは実際には、その実装を最大$n\sim 60$ qubits(攻撃は高価だが不可能ではない)に制限します。 我々のプロトコルは量子コンピューティングの唯一の実践的応用であり、どちらもQCを必要とし、今日では物理的に実現可能である。

We propose an application for near-term quantum devices: namely, generating cryptographically certified random bits, to use (for example) in proof-of-stake cryptocurrencies. Our protocol repurposes the existing "quantum supremacy" experiments, based on random circuit sampling, that Google and USTC have successfully carried out starting in 2019. We show that, whenever the outputs of these experiments pass the now-standard Linear Cross-Entropy Benchmark (LXEB), under plausible hardness assumptions they necessarily contain $\Omega(n)$ min-entropy, where $n$ is the number of qubits. To achieve a net gain in randomness, we use a small random seed to produce pseudorandom challenge circuits. In response to the challenge circuits, the quantum computer generates output strings that, after verification, can then be fed into a randomness extractor to produce certified nearly-uniform bits -- thereby "bootstrapping" from pseudorandomness to genuine randomness. We prove our protocol sound in two senses: (i) under a hardness assumption called Long List Quantum Supremacy Verification, which we justify in the random oracle model, and (ii) unconditionally in the random oracle model against an eavesdropper who could share arbitrary entanglement with the device. (Note that our protocol's output is unpredictable even to a computationally unbounded adversary who can see the random oracle.) Currently, the central drawback of our protocol is the exponential cost of verification, which in practice will limit its implementation to at most $n\sim 60$ qubits, a regime where attacks are expensive but not impossible. Modulo that drawback, our protocol appears to be the only practical application of quantum computing that both requires a QC and is physically realizable today.
翻訳日:2023-03-06 16:37:44 公開日:2023-03-02
# グルコシンス(GlucoSynth:GlucoSynth:GlucoSynth)

GlucoSynth: Generating Differentially-Private Synthetic Glucose Traces ( http://arxiv.org/abs/2303.01621v1 )

ライセンス: Link先を確認
Josephine Lamp, Mark Derdzinski, Christopher Hannemann, Joost van der Linden, Lu Feng, Tianhao Wang, David Evans(参考訳) 本稿では,他の多くの時系列ソースに一般化可能な課題である,高品質でプライベートな合成グルコーストレースの生成問題に焦点をあてる。 GAN(Generative Adversarial Networks)のような時系列データ合成の既存の方法は、グルコースデータの固有の特性を捉えることができず、プライバシに関しては、正式なプライバシ保証を一切含まないか、あるいは強力な正式なプライバシ保証を保持するために、合成データの有用性を著しく低下させる。 そこで本稿では,合成グルコーストレースを生成するための新しいプライバシ保存ganフレームワークglucosynthを提案する。 我々のアプローチの中核的な直感は、典型的な時間的ダイナミクスに加えて、トレース内のモチーフ(グルコースイベント)間の関係を保存することである。 さらに、差分プライバシーをフレームワークに統合し、強力な正式なプライバシー保証を提供します。 最後に,120万のグルコーストレースを用いた実世界のデータの有用性に関する包括的評価を行う。

In this paper we focus on the problem of generating high-quality, private synthetic glucose traces, a task generalizable to many other time series sources. Existing methods for time series data synthesis, such as those using Generative Adversarial Networks (GANs), are not able to capture the innate characteristics of glucose data and, in terms of privacy, either do not include any formal privacy guarantees or, in order to uphold a strong formal privacy guarantee, severely degrade the utility of the synthetic data. Therefore, in this paper we present GlucoSynth, a novel privacy-preserving GAN framework to generate synthetic glucose traces. The core intuition in our approach is to conserve relationships amongst motifs (glucose events) within the traces, in addition to typical temporal dynamics. Moreover, we integrate differential privacy into the framework to provide strong formal privacy guarantees. Finally, we provide a comprehensive evaluation on the real-world utility of the data using 1.2 million glucose traces
翻訳日:2023-03-06 16:37:14 公開日:2023-03-02
# データ効率の高い深層強化学習によるuasミッション再計画のためのマルチスタートチームオリエンテーリング問題

Multi-Start Team Orienteering Problem for UAS Mission Re-Planning with Data-Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2303.01963v1 )

ライセンス: Link先を確認
Dong Ho Lee and Jaemyung Ahn(参考訳) 本稿では,当初車両が補給所から離れた場所にあり,燃料量が異なるミッション再計画問題であるMSTOP(Multi-Start Team Orienteering Problem)について検討する。 我々は、資源(例えば、時間、燃料)消費制約の下で収集した利益の合計を最大化するために、複数の車両の目標を考慮/想定する。 このような再計画問題は、ミッション環境の変化によって複数の車両の運用が元の計画から変更されるような、幅広いインテリジェントなUASアプリケーションで発生する。 深層強化学習(rl)によってこの問題を解決するために,各部分巡回とエンコーダ・デコーダの注意を,部分巡回と残りのノード間の自己着脱性を持ったポリシネットワークを開発した。 本稿では,複数の非重複サンプルのロールアウトに基づく局所的なミニバッチベースラインに,グリーディロールアウトベースラインを置き換えたREINFORCEアルゴリズムを提案する。 トレーニングインスタンス毎に複数のサンプルを描画することで、より速く学習し、より少ないインスタンスで安定したポリシー勾配推定器を得ることができる。 提案するトレーニングアルゴリズムは,最大エントロピー目標と組み合わせた場合でも,従来のグリーディロールアウトベースラインを上回っている。

In this paper, we study the Multi-Start Team Orienteering Problem (MSTOP), a mission re-planning problem where vehicles are initially located away from the depot and have different amounts of fuel. We consider/assume the goal of multiple vehicles is to travel to maximize the sum of collected profits under resource (e.g., time, fuel) consumption constraints. Such re-planning problems occur in a wide range of intelligent UAS applications where changes in the mission environment force the operation of multiple vehicles to change from the original plan. To solve this problem with deep reinforcement learning (RL), we develop a policy network with self-attention on each partial tour and encoder-decoder attention between the partial tour and the remaining nodes. We propose a modified REINFORCE algorithm where the greedy rollout baseline is replaced by a local mini-batch baseline based on multiple, possibly non-duplicate sample rollouts. By drawing multiple samples per training instance, we can learn faster and obtain a stable policy gradient estimator with significantly fewer instances. The proposed training algorithm outperforms the conventional greedy rollout baseline, even when combined with the maximum entropy objective.
翻訳日:2023-03-06 14:49:42 公開日:2023-03-02
# less is more:causal discoveryによるオープンドメイン対話応答生成モデルのスプリアス相関の緩和

Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue Response Generation Models by Causal Discovery ( http://arxiv.org/abs/2303.01962v1 )

ライセンス: Link先を確認
Tao Feng, Lizhen Qu, Gholamreza Haffari(参考訳) 本稿では,本研究で収集したコーパスcgダイアログに基づいて,オープンドメイン応答生成モデルに対するスプリアス相関に関する最初の研究を行う。 カーレンタルモデルは、確かに急激な相関に悩まされ、無関係で一般的な反応を生み出す傾向にある。 因果発見アルゴリズムに着想を得て,条件付き独立分類器を用いた応答生成モデルの訓練と推定のための新しいモデル非依存手法を提案する。 分類器は、データ不足を克服するために、ConSTRAINと呼ばれる制約付き自己学習法で訓練される。 人的評価と自動評価の両方に基づく実験結果から,本手法は関連性,情報性,流布性において競争ベースラインを著しく上回ることがわかった。

In this paper, we conduct the first study on spurious correlations for open-domain response generation models based on a corpus CGDIALOG curated in our work. The cur rent models indeed suffer from spurious correlations and have a tendency of generating irrelevant and generic responses. Inspired by causal discovery algorithms, we propose a novel model-agnostic method for training and inference of response generation model using a conditional independence classifier. The classifier is trained by a constrained self-training method, coined CONSTRAIN, to overcome data scarcity. The experimental results based on both human and automatic evaluation show that our method significantly outperforms the competitive baselines in terms of relevance, informativeness, and fluency.
翻訳日:2023-03-06 14:49:23 公開日:2023-03-02
# 認知症研究手法最適化のための人工知能

Artificial Intelligence for Dementia Research Methods Optimization ( http://arxiv.org/abs/2303.01949v1 )

ライセンス: Link先を確認
Magda Bucholc, Charlotte James, Ahmad Al Khleifat, AmanPreet Badhwar, Natasha Clarke, Amir Dehsarvi, Christopher R. Madan, Sarah J. Marzi, Cameron Shand, Brian M. Schilder, Stefano Tamburin, Hanz M. Tantiangco, Ilianna Lourida, David J. Llewellyn, Janice M. Ranson(参考訳) 導入: 機械学習(ML)は、高次元データセットから重要な特徴を特定し、人間の専門家の精度以上の複雑なタスクを実行するのに非常に成功した。 方法:認知症研究におけるMLの現在の応用を要約し,批判的に評価し,今後の研究の方向性を明らかにする。 結果: 認知症研究において最も頻繁に使用されるMLアルゴリズムの概要を述べるとともに, 臨床, 実験, 臨床治験におけるMLの活用の可能性を明らかにする。 本稿では,再現性,複製性,解釈性の問題と,認知症研究の臨床的応用性への影響について論じる。 最後に, トランスファーラーニング, マルチタスクラーニング, 強化ラーニングといった最先端の手法を応用して, これらの課題を克服し, 今後の臨床実践への研究の翻訳を支援する方法の例を示す。 考察:MLに基づくモデルは、認知症の根本原因と病態メカニズムの理解を深める大きな可能性を秘めている。

Introduction: Machine learning (ML) has been extremely successful in identifying key features from high-dimensional datasets and executing complicated tasks with human expert levels of accuracy or greater. Methods: We summarize and critically evaluate current applications of ML in dementia research and highlight directions for future research. Results: We present an overview of ML algorithms most frequently used in dementia research and highlight future opportunities for the use of ML in clinical practice, experimental medicine, and clinical trials. We discuss issues of reproducibility, replicability and interpretability and how these impact the clinical applicability of dementia research. Finally, we give examples of how state-of-the-art methods, such as transfer learning, multi-task learning, and reinforcement learning, may be applied to overcome these issues and aid the translation of research to clinical practice in the future. Discussion: ML-based models hold great promise to advance our understanding of the underlying causes and pathological mechanisms of dementia.
翻訳日:2023-03-06 14:47:49 公開日:2023-03-02
# スミス・ボルテラ・カントールポテンシャルからのトンネル

Tunneling from general Smith-Volterra-Cantor potential ( http://arxiv.org/abs/2303.01982v1 )

ライセンス: Link先を確認
Vibhav Narayan Singh, Mohammad Umar, Mohammad Hasan and Bhabani Prasad Mandal(参考訳) 有限長$L$のSmith-Volterra-Cantor(SVC)ポテンシャルから,スケーリングパラメータ$\rho$とステージ$G$を特徴とするトンネル問題について検討した。 ステージ$G$のSVC($\rho$)ポテンシャルは、オーダー$G$の超周期ポテンシャル(SPP)の特別なケースであることを示す。 私たちが以前に開発したspp形式を用いることで、$q$-pochhammer シンボルの助けを借りてトンネル確率 $t_{g}(k)$ の密接な形式表現を提供する。 波動ベクトル$k$を持つ$T_{G}(k)$のプロファイルは、ステージ$G$の増加とともに飽和する。 非常に鋭い透過共鳴は、このシステムから生じており、鋭い透過フィルタの設計に応用できる可能性がある。

We study the tunneling problem from general Smith-Volterra-Cantor (SVC) potential of finite length $L$ characterized by the scaling parameter $\rho$ and stage $G$. We show that the SVC($\rho$) potential of stage $G$ is the special case of super periodic potential (SPP) of order $G$. By using SPP formalism developed by us earlier, we provide the close form expression of tunneling probability $T_{G}(k)$ with the help of $q$-Pochhammer symbol. The profile of $T_{G}(k)$ with wave vector $k$ is found to saturate with increasing stage $G$. Very sharp transmission resonances are found to occur from this system which may find applications in the design of sharp transmission filters.
翻訳日:2023-03-06 14:39:26 公開日:2023-03-02
# ACL-SPC:セルフスーパービジョンポイントクラウドコンプリートのための適応クローズドループシステム

ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion ( http://arxiv.org/abs/2303.01979v1 )

ライセンス: Link先を確認
Sangmin Hong, Mohsen Yavartanoo, Reyhaneh Neshatavar, Kyoung Mu Lee(参考訳) 点雲完了は、深さセンサーから得られる部分点雲の欠落部分を満たし、完全な点雲を生成する。 合成ポイントクラウド補完タスクでは教師あり手法が急速に進歩してきたが、合成と実世界のデータセット間のドメインギャップや事前情報要件のため、現実のシナリオでは適用できない。 これらの制約を克服するために、同一データ上でのトレーニングとテストのためのポイントクラウド補完のための、新しい自己管理フレームワーク ACL-SPC を提案する。 ACL-SPCは1つの部分入力を受け取り、入力の変動に対して同じ出力を強制する適応クローズドループ(ACL)システムを用いて完全点クラウドを出力しようとする。 提案したACL-SPCを各種データセット上で評価し,最初の自己教師型スキームとして部分点雲を完遂できることを証明する。 その結果,本手法は教師なし手法と同等であり,合成データセット上で訓練された教師付き手法と比較して実世界のデータセットで優れた性能を発揮することがわかった。 大規模実験は,自己指導型学習の必要性を正当化し,提案手法の有効性を実証するものである。 コードはhttps://github.com/Sangminhong/ACL-SPC_PyTorchから公開されている。

Point cloud completion addresses filling in the missing parts of a partial point cloud obtained from depth sensors and generating a complete point cloud. Although there has been steep progress in the supervised methods on the synthetic point cloud completion task, it is hardly applicable in real-world scenarios due to the domain gap between the synthetic and real-world datasets or the requirement of prior information. To overcome these limitations, we propose a novel self-supervised framework ACL-SPC for point cloud completion to train and test on the same data. ACL-SPC takes a single partial input and attempts to output the complete point cloud using an adaptive closed-loop (ACL) system that enforces the output same for the variation of an input. We evaluate our proposed ACL-SPC on various datasets to prove that it can successfully learn to complete a partial point cloud as the first self-supervised scheme. Results show that our method is comparable with unsupervised methods and achieves superior performance on the real-world dataset compared to the supervised methods trained on the synthetic dataset. Extensive experiments justify the necessity of self-supervised learning and the effectiveness of our proposed method for the real-world point cloud completion task. The code is publicly available from https://github.com/Sangminhong/ACL-SPC_PyTorch
翻訳日:2023-03-06 14:39:15 公開日:2023-03-02
# スクリュー転位時空における高調波振動子問題に対する量子フラックスと遠心力による回転フレーム効果

Rotational Frame Effects with Quantum Flux and Centrifugal Potential on Harmonic Oscillator problem in a Space-time with Screw Dislocation ( http://arxiv.org/abs/2303.01968v1 )

ライセンス: Link先を確認
Faizuddin Ahmed, Houcine Aounallah, Prabir Rudra(参考訳) 本稿では,Aharonov-Bohm(AB)フラックス場に閉じ込められた回転フレームによって誘起される非慣性効果下での粒子の量子力学と,ねじ転位に伴うトポロジカル欠陥背景における相互作用ポテンシャルについて検討する。 まず,遠心ポテンシャルをもつ高調波発振器問題について検討し,量子系の固有値解を求める。 具体的には、放射モード$n=1$で定義される高調波発振器の基底状態エネルギーレベルと波動関数について述べる。 実際、エネルギー固有値と波動関数は位相的欠陥パラメータ $\beta$ (screw dislocation) の影響を受けていることが示され、回転フレームは一定の角速度 $\omega$ と遠心ポテンシャルで動き、それらは修正される。 第二に, 回転フレーム効果下での逆二乗ポテンシャルのみと相互作用する非相対論的粒子の量子運動を解析し, エネルギーレベルと波動関数を同じ手順で示した。 どちらの場合においても、量子束場 $\phi_{ab}$ の存在は粒子のエネルギースペクトルのシフトを引き起こし、量子力学的現象であるab効果の電磁的類似性を示す。

In this paper, we study the quantum dynamics of particles under non-inertial effects induced by a rotating frame confined by the Aharonov-Bohm (AB) flux field with interacting potential in topological defect background associated to screw dislocation, which corresponds to a distortion of a vertical line into a vertical spiral. Firstly, we study the harmonic oscillator problem with a centrifugal potential and obtain the eigenvalue solution of the quantum system. As particular cases, we presented the ground state energy level and wave function of the harmonic oscillator defined by the radial mode $n=1$. In fact, it is shown there that the energy eigenvalue and wave function are influenced by the topological defect parameter $\beta$ (screw dislocation), the rotating frame which is moving with a constant angular speed $\Omega$ and the centrifugal potential, and gets them modified. Secondly, we investigate quantum motions of the non-relativistic particles interacting with only inverse square potential under rotational frame effects and presented the energy level and wave function following the same procedure. In both cases, we observe that the presence of quantum flux field $\Phi_{AB}$ causes a shifting in the spectrum of energy of the particles and shows an electromagnetic analogue to the AB-effect, a quantum mechanical phenomenon.
翻訳日:2023-03-06 14:37:47 公開日:2023-03-02
# hidden gems:cross-modal supervisorを用いた4次元レーダシーンフロー学習

Hidden Gems: 4D Radar Scene Flow Learning Using Cross-Modal Supervision ( http://arxiv.org/abs/2303.00462v2 )

ライセンス: Link先を確認
Fangqiang Ding, Andras Palffy, Dariu M. Gavrila, Chris Xiaoxuan Lu(参考訳) 本研究では,4次元レーダを用いたクロスモーダル学習によるシーンフロー推定手法を提案する。 われわれのアプローチは、現代の自動運転車におけるセンサーの冗長性によって動機付けられている。 このような冗長性は、レーダーシーンフロー推定に様々な形態の監視手段を暗黙的に提供する。 具体的には,特定されたクロスモーダル学習問題に対するマルチタスクモデルアーキテクチャを導入し,複数のクロスモーダル制約を用いたシーンフロー推定を効果的モデル学習に合致する損失関数を提案する。 広汎な実験により,本手法の最先端性能を示し,より正確な4次元レーダシーンフローを推定するためのクロスモーダル教師あり学習の有効性を示した。 また,動作セグメンテーションとエゴモーション推定という2つのサブタスクにその有用性を示す。 ソースコードはhttps://github.com/Toytiny/CMFlow.comで公開されます。

This work proposes a novel approach to 4D radar-based scene flow estimation via cross-modal learning. Our approach is motivated by the co-located sensing redundancy in modern autonomous vehicles. Such redundancy implicitly provides various forms of supervision cues to the radar scene flow estimation. Specifically, we introduce a multi-task model architecture for the identified cross-modal learning problem and propose loss functions to opportunistically engage scene flow estimation using multiple cross-modal constraints for effective model training. Extensive experiments show the state-of-the-art performance of our method and demonstrate the effectiveness of cross-modal supervised learning to infer more accurate 4D radar scene flow. We also show its usefulness to two subtasks - motion segmentation and ego-motion estimation. Our source code will be available on https://github.com/Toytiny/CMFlow.
翻訳日:2023-03-06 11:39:01 公開日:2023-03-02
# 模倣学習によるチームワーク改善のためのタスクタイム自動介入

Automated Task-Time Interventions to Improve Teamwork using Imitation Learning ( http://arxiv.org/abs/2303.00413v2 )

ライセンス: Link先を確認
Sangwon Seo, Bing Han and Vaibhav Unhelkar(参考訳) 効果的な人間と人間と自律的なチームワークは重要だが、しばしば完璧に挑戦する。 この課題は、特に医療や災害対応といった時間クリティカルな領域に関係しており、時間的圧力によって調整が難しくなり、不完全な調整の結果が深刻になる可能性がある。 これらの領域と他の領域におけるチームワークを改善するために、私たちはtic(automated intervention approach)というアプローチを紹介します。 マルチエージェント模倣学習アルゴリズムであるbtilを用いて,過去のタスク実行データから,まずチーム行動の生成モデルを学ぶ。 次に、学習した生成モデルとチームのタスク目標(共有報酬)を使用して、実行時の介入をアルゴリズムで生成する。 チームメンバーが環境の完全な可観測性なしに分散的な決定をする、総合的なマルチエージェントチーム化シナリオにおいて、我々のアプローチを評価する。 実験は、自動介入がチームのパフォーマンスをうまく改善し、チームワークを改善するための自律エージェントの設計に光を当てることを示しています。

Effective human-human and human-autonomy teamwork is critical but often challenging to perfect. The challenge is particularly relevant in time-critical domains, such as healthcare and disaster response, where the time pressures can make coordination increasingly difficult to achieve and the consequences of imperfect coordination can be severe. To improve teamwork in these and other domains, we present TIC: an automated intervention approach for improving coordination between team members. Using BTIL, a multi-agent imitation learning algorithm, our approach first learns a generative model of team behavior from past task execution data. Next, it utilizes the learned generative model and team's task objective (shared reward) to algorithmically generate execution-time interventions. We evaluate our approach in synthetic multi-agent teaming scenarios, where team members make decentralized decisions without full observability of the environment. The experiments demonstrate that the automated interventions can successfully improve team performance and shed light on the design of autonomous agents for improving teamwork.
翻訳日:2023-03-06 11:38:49 公開日:2023-03-02
# GRAN:シングルイメージ超解像のためのゴースト残留注意ネットワーク

GRAN: Ghost Residual Attention Network for Single Image Super Resolution ( http://arxiv.org/abs/2302.14557v2 )

ライセンス: Link先を確認
Axi Niu, Pei Wang, Yu Zhu, Jinqiu Sun, Qingsen Yan, Yanning Zhang(参考訳) 近年,画像の高解像度化を実現するために,より広範に深いネットワークを設計する作業が数多く行われている。 その優れた性能にもかかわらず、高い計算資源に苦しんでおり、組み込みデバイスに直接適用できない。 計算資源の削減と性能の維持を目的として,高速超解像のための新しいゴースト残留注意ネットワーク(GRAN)を提案する。 本稿では,Ghost Residual Attention Block (GRAB) グループを導入し,標準的な畳み込み操作の欠点,すなわち中間機能の冗長性を克服する。 grabはghostモジュールとchannelとspatial attention module(csam)で構成され、冗長な機能の生成を緩和する。 具体的には、Ghost Moduleは、標準の畳み込みを置き換えるために線形操作を採用することで、本質的な機能の基盤となる情報を明らかにすることができる。 Ghost Moduleによる冗長な機能の削減により、ネットワーク内のメモリとコンピューティングリソースの要求を低減します。 CSAMは、機能抽出の場所と場所について、より包括的な注意を払っている。 ベンチマークデータセット上で行った実験は,質的および定量的に,本手法の優れた性能を示す。 ベースラインモデルと比較すると,計算資源が小さく,パラメータやフロップが10倍以上も減少し,高い性能を実現している。

Recently, many works have designed wider and deeper networks to achieve higher image super-resolution performance. Despite their outstanding performance, they still suffer from high computational resources, preventing them from directly applying to embedded devices. To reduce the computation resources and maintain performance, we propose a novel Ghost Residual Attention Network (GRAN) for efficient super-resolution. This paper introduces Ghost Residual Attention Block (GRAB) groups to overcome the drawbacks of the standard convolutional operation, i.e., redundancy of the intermediate feature. GRAB consists of the Ghost Module and Channel and Spatial Attention Module (CSAM) to alleviate the generation of redundant features. Specifically, Ghost Module can reveal information underlying intrinsic features by employing linear operations to replace the standard convolutions. Reducing redundant features by the Ghost Module, our model decreases memory and computing resource requirements in the network. The CSAM pays more comprehensive attention to where and what the feature extraction is, which is critical to recovering the image details. Experiments conducted on the benchmark datasets demonstrate the superior performance of our method in both qualitative and quantitative. Compared to the baseline models, we achieve higher performance with lower computational resources, whose parameters and FLOPs have decreased by more than ten times.
翻訳日:2023-03-03 17:32:24 公開日:2023-03-02
# シナリオと分岐点が未来のマシンインテリジェンスへ

Scenarios and branch points to future machine intelligence ( http://arxiv.org/abs/2302.14478v3 )

ライセンス: Link先を確認
Koichi Takahashi(参考訳) 我々は、将来のマシンインテリジェンスに関する4つの主要な結果に対するシナリオと分岐点について議論する。 1) 第一および唯一の超知能が決定的な戦略的優位性を得るシングルトンシナリオ。 2 シングルトンシナリオが技術的に否定されるのではなく、人間の社会における政治的その他の要因、または知的エージェント間のマルチエージェント相互作用が単一のエージェントが決定的な戦略的優位性を得るのを妨げる多極性シナリオ。 3)シングルトンシナリオが否定され,多数の自律型知的エージェントが相互依存的かつ事実上停止不能な方法で運用されるエコシステムシナリオ 4) 人間の設計した知的エージェントやその子孫によって達成される認知能力が本質的に人間以下のレベルに限定される上界シナリオ。 本研究では,(1)自律性の制約,(2)自己構造の改善能力の制約,(3)熱力学的効率の制約,(4)物理的インフラの更新の制約,(5)相対的優位性の制約,(6)局所性に対する制約の6つを同定する。

We discuss scenarios and branch points to four major possible consequences regarding future machine intelligence; 1) the singleton scenario where the first and only super-intelligence acquires a decisive strategic advantage, 2) the multipolar scenario where the singleton scenario is not technically denied but political or other factors in human society or multi-agent interactions between the intelligent agents prevent a single agent from gaining a decisive strategic advantage, 3) the ecosystem scenario where the singleton scenario is denied and many autonomous intelligent agents operate in such a way that they are interdependent and virtually unstoppable, and 4) the upper-bound scenario where cognitive capabilities that can be achieved by human-designed intelligent agents or their descendants are inherently limited to the sub-human level. We identify six major constraints that can form branch points to these scenarios; (1) constraints on autonomy, (2) constraints on the ability to improve self-structure, (3) constraints related to thermodynamic efficiency, (4) constraints on updating physical infrastructure, (5) constraints on relative advantage, and (6) constraints on locality.
翻訳日:2023-03-03 17:32:02 公開日:2023-03-02
# おしゃべりしよう! ChatGPTとの会話:技術・応用・限界

Let's have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations ( http://arxiv.org/abs/2302.13817v2 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) 人間のような文を生成し、一貫性のあるエッセイを書くことができるAIベースのチャットボットの出現は、世界の注目を集めている。 本稿ではチャットボットの歴史的概要とチャット生成事前学習トランス(ChatGPT)を支える技術について述べる。 さらに、医療、教育、研究など様々な分野におけるChatGPTの応用の可能性を強調した。 有望な結果にもかかわらず、ChatGPTにはいくつかのプライバシーと倫理上の懸念がある。 さらに、現在のバージョンのChatGPTの重要な制限をいくつか強調する。 また、ChatGPTにその視点を提供して、答えようとするいくつかの質問に対する回答を提示するように求めます。

The emergence of an AI-powered chatbot that can generate human-like sentences and write coherent essays has caught the world's attention. This paper discusses the historical overview of chatbots and the technology behind Chat Generative Pre-trained Transformer, better known as ChatGPT. Moreover, potential applications of ChatGPT in various domains, including healthcare, education, and research, are highlighted. Despite promising results, there are several privacy and ethical concerns surrounding ChatGPT. In addition, we highlight some of the important limitations of the current version of ChatGPT. We also ask ChatGPT to provide its point of view and present its responses to several questions we attempt to answer.
翻訳日:2023-03-03 17:31:28 公開日:2023-03-02
# 中国の新しいデータ法の前と後: アプリのプライバシー

Before and after China's new Data Laws: Privacy in Apps ( http://arxiv.org/abs/2302.13585v3 )

ライセンス: Link先を確認
Konrad Kollnig and Lu Zhang and Jun Zhao and Nigel Shadbolt(参考訳) 多くのアプリが大量の機密情報を収集し共有するため、アプリのプライバシーは広く関心を集めている。 これに対し、中国は近年、個人情報保護法(Personal Information Protection Law:PIPL)など、さまざまな新しいデータ保護法を導入している。 これまでのところ、これらの新しい法律がアプリのプライバシー保護に与えた影響に関する研究は限られている。 このギャップに対処するために,本稿では,2020年初頭の1バージョンと2021年後半の1つのバージョンである,中国の634のiosアプリのペアによるデータ収集を分析する。 私たちの研究によると、多くのアプリが同意を実装している。 しかし、同意を拒否するエンドユーザーは、しばしばアプリから立ち去らざるを得なくなる。 アプリの数は少ないが、多くはトラッキングライブラリを統合している。 われわれの発見は、改善の余地のある中国のデータ規制における最初のイテレーションの特徴だと考えている。

Privacy in apps is a topic of widespread interest because many apps collect and share large amounts of highly sensitive information. In response, China introduced a range of new data protection laws over recent years, notably the Personal Information Protection Law (PIPL) in 2021. So far, there exists limited research on the impacts of these new laws on apps' privacy practices. To address this gap, this paper analyses data collection in pairs of 634 Chinese iOS apps, one version from early 2020 and one from late 2021. Our work finds that many more apps now implement consent. Yet, those end-users that decline consent will often be forced to exit the app. Fewer apps now collect data without consent but many still integrate tracking libraries. We see our findings as characteristic of a first iteration at Chinese data regulation with room for improvement.
翻訳日:2023-03-03 17:31:18 公開日:2023-03-02
# PyReason: オープンワールド一時論理のためのソフトウェア

PyReason: Software for Open World Temporal Logic ( http://arxiv.org/abs/2302.13482v2 )

ライセンス: Link先を確認
Dyuman Aditya, Kaustuv Mukherji, Srikar Balasubramanian, Abhiraj Chaudhary, Paulo Shakarian(参考訳) 神経象徴的推論の人気が高まり、様々な形態の微分可能(つまりファジィ)一階述語論理が採用されるようになった。 我々はPyReasonを紹介した。PyReasonは一般化されたアノテート論理に基づくソフトウェアフレームワークで、異なる論理の現在のコホートと時間拡張をキャプチャして、オープンワールド推論の機能を備えた有限時間での推論をサポートする。 さらにpyreasonは、グラフィカルな構造(ナレッジグラフ、ソーシャルネットワーク、生物ネットワークなど)の推論を直接サポートし、完全に説明可能な推論のトレースを生成し、型チェックやメモリ効率の高い実装など、さまざまな実用的な機能を含んでいる。 本稿では,我々の実装に統合された一般化注釈論理の拡張,正確かつスケーラブルな推論を行う最新のpythonベースの実装,一連の実験について概説する。 PyReason は github.com/lab-v2/pyreason で入手できる。

The growing popularity of neuro symbolic reasoning has led to the adoption of various forms of differentiable (i.e., fuzzy) first order logic. We introduce PyReason, a software framework based on generalized annotated logic that both captures the current cohort of differentiable logics and temporal extensions to support inference over finite periods of time with capabilities for open world reasoning. Further, PyReason is implemented to directly support reasoning over graphical structures (e.g., knowledge graphs, social networks, biological networks, etc.), produces fully explainable traces of inference, and includes various practical features such as type checking and a memory-efficient implementation. This paper reviews various extensions of generalized annotated logic integrated into our implementation, our modern, efficient Python-based implementation that conducts exact yet scalable deductive inference, and a suite of experiments. PyReason is available at: github.com/lab-v2/pyreason.
翻訳日:2023-03-03 17:31:06 公開日:2023-03-02
# 構造化雑音によるニューラルネットワークの学習は分類と一般化を改善する

Training neural networks with structured noise improves classification and generalization ( http://arxiv.org/abs/2302.13417v2 )

ライセンス: Link先を確認
Marco Benedetti and Enrico Ventura(参考訳) 学習におけるノイズの有益な役割は、現在、ニューラルネットワークの分野における統合概念である。 ガードナーと共同研究者が提案するトレーニング・ウィズ・ノイズ・アルゴリズムは、繰り返しネットワークにおけるノイズ注入の例である。 ノイズの多いトレーニングデータに構造を加えることで、メモリ性能が大幅に向上し、完全な分類とアトラクションの最大範囲にアプローチできることを示す。 また、ノイズが最大であり、データがネットワークダイナミクスの固定点である場合、いわゆるアンラーニングルールがトレーニング・アズ・ノイズアルゴリズムと一致することも証明する。 さらに, 最適雑音データのサンプリング手法を提案し, 学習手順と無学習手順の両方を上回るように実装した。

The beneficial role of noise in learning is nowadays a consolidated concept in the field of artificial neural networks. The training-with-noise algorithm proposed by Gardner and collaborators is an emblematic example of a noise injection procedure in recurrent networks. We show how adding structure into noisy training data can substantially improve memory performance, allowing to approach perfect classification and maximal basins of attraction. We also prove that the so-called unlearning rule coincides with the training-with-noise algorithm when noise is maximal and data are fixed points of the network dynamics. Moreover, a sampling scheme for optimal noisy data is proposed and implemented to outperform both the training-with-noise and the unlearning procedures.
翻訳日:2023-03-03 17:30:50 公開日:2023-03-02
# ディープニューラルネットワークの二重降下は避けられるか?

Can we avoid Double Descent in Deep Neural Networks? ( http://arxiv.org/abs/2302.13259v3 )

ライセンス: Link先を確認
Victor Qu\'etu and Enzo Tartaglione(参考訳) ディープラーニングモデルの最適サイズを見つけることは、特に省エネスキームにおいて、非常に現実的で幅広い影響を与える。 最近になって,予期せぬ現象である‘二重降下’が,ディープラーニングコミュニティの注目を集めている。 モデルのサイズが大きくなると、まずパフォーマンスが悪化し、その後は改善に戻ります。 これは、高一般化を維持するために最適なモデルのサイズに関する深刻な疑問を提起する: モデルは十分に過度にパラメータ化する必要があるが、パラメータが多すぎるとトレーニングリソースが浪費される。 効果的な方法で、最良のトレードオフを見つけることは可能か? 本研究は,学習問題の適切な条件付けによって二重降下現象を回避できる可能性を示唆するが,最終的な答えは見当たらない。 我々は、単純な$\ell_2$正則化が既にそのような観点に肯定的な貢献をしているので、適切な正則化を持つ複素シナリオにおいて二重降下が期待されていることを実証的に観察する。

Finding the optimal size of deep learning models is very actual and of broad impact, especially in energy-saving schemes. Very recently, an unexpected phenomenon, the ``double descent'', has caught the attention of the deep learning community. As the model's size grows, the performance gets first worse, and then goes back to improving. It raises serious questions about the optimal model's size to maintain high generalization: the model needs to be sufficiently over-parametrized, but adding too many parameters wastes training resources. Is it possible to find, in an efficient way, the best trade-off? Our work shows that the double descent phenomenon is potentially avoidable with proper conditioning of the learning problem, but a final answer is yet to be found. We empirically observe that there is hope to dodge the double descent in complex scenarios with proper regularization, as a simple $\ell_2$ regularization is already positively contributing to such a perspective.
翻訳日:2023-03-03 17:30:38 公開日:2023-03-02
# RePAD2:オープンエンディング時系列のリアルタイム・軽量・適応異常検出

RePAD2: Real-Time, Lightweight, and Adaptive Anomaly Detection for Open-Ended Time Series ( http://arxiv.org/abs/2303.00409v2 )

ライセンス: Link先を確認
Ming-Chang Lee and Jia-Chun Lin(参考訳) オープンエンド時系列(英語: open-ended time series)とは、終端のない時系列でインデックスされた一連のデータポイントを指す。 このような時系列は、モノのインターネットの普及により、至るところで見られる。 オープンエンドの時系列に対する軽量でリアルタイムの異常検出を提供することは、業界や組織にとって非常に望ましいことです。 近年,リアルタイム時系列異常検出手法がいくつか導入されている。 しかし、システムリソースを長時間オープンエンドの時系列に適用した場合、枯渇させる可能性がある。 この問題に対処するため,本稿では,最先端の異常検出手法の一つである先代のRePADを改善することで,オープンエンド時系列に対する軽量リアルタイム異常検出手法であるRePAD2を提案する。 repad2 と repad を比較した実験を行った結果,repad2 は実世界の時系列データセットに基づく類似検出手法と同等の精度と若干の時間消費を提供するとともに,前述のリソース枯渇問題に対処できることを実証した。

An open-ended time series refers to a series of data points indexed in time order without an end. Such a time series can be found everywhere due to the prevalence of Internet of Things. Providing lightweight and real-time anomaly detection for open-ended time series is highly desirable to industry and organizations since it allows immediate response and avoids potential financial loss. In the last few years, several real-time time series anomaly detection approaches have been introduced. However, they might exhaust system resources when they are applied to open-ended time series for a long time. To address this issue, in this paper we propose RePAD2, a lightweight real-time anomaly detection approach for open-ended time series by improving its predecessor RePAD, which is one of the state-of-the-art anomaly detection approaches. We conducted a series of experiments to compare RePAD2 with RePAD and another similar detection approach based on real-world time series datasets, and demonstrated that RePAD2 can address the mentioned resource exhaustion issue while offering comparable detection accuracy and slightly less time consumption.
翻訳日:2023-03-03 17:24:10 公開日:2023-03-02
# 説明不能なマルチモーダル空間評価器

Indescribable Multi-modal Spatial Evaluator ( http://arxiv.org/abs/2303.00369v2 )

ライセンス: Link先を確認
Lingke Kong, X. Sharon Qi, Qijin Shen, Jiacheng Wang, Jingyi Zhang, Yanle Hu, Qichao Zhou(参考訳) マルチモーダル画像登録は、2つの画像を異なる分布で空間的に整列する。 主な課題の1つは、異なる撮像装置から取得した画像が異なる画像分布を持つため、画像の空間的側面のみに焦点を合わせ、分布の違いを無視することが困難である。 本研究では,マルチモーダル画像登録のための自己教師型手法であるIndescribable Multi-model Spatial Evaluator (IMSE)を開発した。 IMSEは2つの画像間の空間差を測定するための正確なマルチモーダル空間評価器を作成し、その評価器の誤差予測を最小化して登録を最適化する。 IMSE性能を最適化するために,複数のセグメントに画像分布をランダムに分割し,これらのセグメントをランダムに乱して再マップし,元のイメージの分布を変更するShuffle Remapと呼ばれる新しいスタイル拡張手法を提案する。 Shuffle RemapはIMSEが未確認のターゲット分布と空間的位置の違いを予測するのに役立つ。 IMSEはT1-T2およびCT-MRIデータセットを用いた既存の登録方法よりも優れていた。 IMSEは、従来の登録プロセスに簡単に統合することができ、登録結果を評価および視覚化する便利な方法を提供する。 IMSEはまた、画像から画像への翻訳の新しいパラダイムとして使われる可能性がある。 私たちのコードはhttps://github.com/kid-liet/imseで利用可能です。

Multi-modal image registration spatially aligns two images with different distributions. One of its major challenges is that images acquired from different imaging machines have different imaging distributions, making it difficult to focus only on the spatial aspect of the images and ignore differences in distributions. In this study, we developed a self-supervised approach, Indescribable Multi-model Spatial Evaluator (IMSE), to address multi-modal image registration. IMSE creates an accurate multi-modal spatial evaluator to measure spatial differences between two images, and then optimizes registration by minimizing the error predicted of the evaluator. To optimize IMSE performance, we also proposed a new style enhancement method called Shuffle Remap which randomizes the image distribution into multiple segments, and then randomly disorders and remaps these segments, so that the distribution of the original image is changed. Shuffle Remap can help IMSE to predict the difference in spatial location from unseen target distributions. Our results show that IMSE outperformed the existing methods for registration using T1-T2 and CT-MRI datasets. IMSE also can be easily integrated into the traditional registration process, and can provide a convenient way to evaluate and visualize registration results. IMSE also has the potential to be used as a new paradigm for image-to-image translation. Our code is available at https://github.com/Kid-Liet/IMSE.
翻訳日:2023-03-03 17:23:51 公開日:2023-03-02
# エンドツーエンドSE(3)-同変セグメンテーションネットワーク

An end-to-end SE(3)-equivariant segmentation network ( http://arxiv.org/abs/2303.00351v2 )

ライセンス: Link先を確認
Ivan Diaz, Mario Geiger, Richard Iain McKinley(参考訳) 畳み込みニューラルネットワーク(CNN)は、その線形層に畳み込みカーネルを使用することで、パラメータ共有と変換等価性を実現する。 これらのカーネルをso(3)ステアブルに制限することで、cnnはパラメータ共有と等分散をさらに改善することができる。 これらの等変畳み込み層は標準畳み込み層よりもいくつかの利点があり、例えば、見当たらないポーズに対する堅牢性の向上、ネットワークサイズが小さくなり、サンプル効率が向上している。 それにもかかわらず、医療画像解析で使用されるほとんどのセグメンテーションネットワークは、標準畳み込みカーネルに依存し続けている。 本稿では,球面調和に基づく同変ボクセル畳み込みと,同変プーリングと正規化演算を利用するセグメンテーションネットワークの新たなファミリーを提案する。 これらのse(3)同変量セグメンテーションネットワークは、トレーニング中に見えないデータポーズに頑健であり、トレーニング中にローテーションベースのデータ拡張を必要としない。 また,MRI脳腫瘍のセグメンテーション性能と健常な脳構造セグメンテーションタスクのセグメンテーション性能を向上し,トレーニングデータの量削減とパラメータ効率の向上を図った。 我々の結果を再現し、他のタスクのための同変セグメンテーションネットワークを実装するためのコードはhttp://github.com/SCAN-NRAD/e3nn_Unetで入手できる。

Convolutional neural networks (CNNs) allow for parameter sharing and translational equivariance by using convolutional kernels in their linear layers. By restricting these kernels to be SO(3)-steerable, CNNs can further improve parameter sharing and equivariance. These equivariant convolutional layers have several advantages over standard convolutional layers, including increased robustness to unseen poses, smaller network size, and improved sample efficiency. Despite this, most segmentation networks used in medical image analysis continue to rely on standard convolutional kernels. In this paper, we present a new family of segmentation networks that use equivariant voxel convolutions based on spherical harmonics, as well as equivariant pooling and normalization operations. These SE(3)-equivariant volumetric segmentation networks, which are robust to data poses not seen during training, do not require rotation-based data augmentation during training. In addition, we demonstrate improved segmentation performance in MRI brain tumor and healthy brain structure segmentation tasks, with enhanced robustness to reduced amounts of training data and improved parameter efficiency. Code to reproduce our results, and to implement the equivariant segmentation networks for other tasks is available at http://github.com/SCAN-NRAD/e3nn_Unet
翻訳日:2023-03-03 17:23:26 公開日:2023-03-02
# より正確な自動分析に向けて:深層学習に基づくマルチオーガンセグメンテーションの包括的調査

Towards more precise automatic analysis: a comprehensive survey of deep learning-based multi-organ segmentation ( http://arxiv.org/abs/2303.00232v2 )

ライセンス: Link先を確認
Xiaoyu Liu, Linhao Qu, Ziyue Xie, Jiayue Zhao, Yonghong Shi, and Zhijian Song(参考訳) 医療画像からの頭部,頸部,胸部,腹部の複数の臓器の正確な分節化は,コンピュータ支援診断,手術ナビゲーション,放射線治療において重要なステップである。 近年,データ駆動型特徴抽出手法とエンドツーエンドトレーニングにより,自動深層学習に基づく多臓器分割法は従来の手法よりも優れ,新たな研究トピックとなっている。 このレビューは、この分野の最新研究を体系的に要約している。 まず, 完全かつ不完全なアノテーションの観点から, 頭頸部, 胸部, 腹部など複数領域の深層学習に基づくマルチオルガンセグメンテーションに関する161の研究を包括的にまとめた。 完全アノテーションに基づく手法は、ネットワークアーキテクチャ、ネットワーク次元、ネットワーク専用モジュール、ネットワーク損失関数の4つの側面から既存の手法を要約する。 不完全なアノテーションに基づくメソッドは、弱いアノテーションベースのメソッドと半アノテーションベースのメソッドという2つの側面から既存のメソッドを要約する。 また,複数組織セグメンテーションに頻繁に使用されるデータセットを要約し,新たな課題とこの分野の新たな研究動向について論じる。

Accurate segmentation of multiple organs of the head, neck, chest, and abdomen from medical images is an essential step in computer-aided diagnosis, surgical navigation, and radiation therapy. In the past few years, with a data-driven feature extraction approach and end-to-end training, automatic deep learning-based multi-organ segmentation method has far outperformed traditional methods and become a new research topic. This review systematically summarizes the latest research in this field. For the first time, from the perspective of full and imperfect annotation, we comprehensively compile 161 studies on deep learning-based multi-organ segmentation in multiple regions such as the head and neck, chest, and abdomen, containing a total of 214 related references. The method based on full annotation summarizes the existing methods from four aspects: network architecture, network dimension, network dedicated modules, and network loss function. The method based on imperfect annotation summarizes the existing methods from two aspects: weak annotation-based methods and semi annotation-based methods. We also summarize frequently used datasets for multi-organ segmentation and discuss new challenges and new research trends in this field.
翻訳日:2023-03-03 17:23:02 公開日:2023-03-02
# 非エルミートフォトニック構造におけるPT-SymmetryまたはBrokenの量子位相図

Quantum Phase Diagram of PT-Symmetry or Broken in a Non-Hermitian Photonic Structure ( http://arxiv.org/abs/2303.00189v2 )

ライセンス: Link先を確認
Xinchen Zhang and Yun Ma and Qi Liu and Yali Jia and Qi Zhang and Zhanqiang Bai and Junxiang Zhang and Qihuang Gong and Ying Gu(参考訳) 古典的には、pt対称性やフォトニック構造の破断はよく研究されており、各光学モードに対する利得と損失の平均効果のみが考慮される。 しかし、量子では、非エルミート系における利得や損失の役割は全く異なり、研究されていない特定の量子光学効果が引き起こされる。 そこで本研究では,利得と損失の両面を同時に有する両フォトニック構造において,2つの例外線で束縛されたPT対称性とPT破壊状態の解析を行った。 現実性を考慮して、弱い利得の下での定常状態が同定される。 2つのモード間の光子交換を表す交換演算子を定義し、さらにpt対称性から破れへの遷移を特徴付ける。 また、pt壊れたbi-waveguideシステムでは、マルチ光子状態は量子干渉によってオンデマンドに設計できる。 定常状態配置を持つ量子pt相図は、非エルミート量子系における量子状態の生成、量子干渉、論理演算を研究する基礎である。

Classically, PT symmetry or broken in photonic structures is well studied, where only average effect of gain and loss on each optical mode is considered. However, in quantum, the role of gain or loss in a non-hermitian system is totally different, the specific quantum optical effect induced by which has never been studied. Here, we analytically obtained the PT-symmetry and PT-broken regime bounded by two exceptional lines in a bi-photonic structure with both gain and loss simultaneously existing. For the consideration of reality, the steady state condition under the weak gain is identified. We defined the exchange operator to represent the photon exchange between two modes and further to characterize the transition from PT symmetry to broken. Also, in the PT broken bi-waveguide system, multi-photon state can be on-demand engineered through the quantum interference. Quantum PT-Phase diagram with steady state regime is the basis to study the quantum state fabrication, quantum interferences, and logic operations in non-hermitian quantum systems.
翻訳日:2023-03-03 17:22:41 公開日:2023-03-02
# FaceRNET: 表情強度推定ネットワーク

FaceRNET: a Facial Expression Intensity Estimation Network ( http://arxiv.org/abs/2303.00180v2 )

ライセンス: Link先を確認
Dimitrios Kollias, Andreas Psaroudakis, Anastasios Arsenos, Paraskeui Theofilou(参考訳) 本稿では,映像からの表情強度推定手法を提案する。 これには2つのコンポーネントが含まれる。 一 ビデオフレームごとに様々な感情記述子(価刺激、行動単位及び基本表現)を抽出する表現抽出ネットワーク 二 データ中の時間情報をキャプチャするRNN、次いで動的ルーティングによる様々な入力ビデオ長の処理を可能にするマスク層。 このアプローチは、優れた結果をもたらすHume-Reactionデータセットでテストされている。

This paper presents our approach for Facial Expression Intensity Estimation from videos. It includes two components: i) a representation extractor network that extracts various emotion descriptors (valence-arousal, action units and basic expressions) from each videoframe; ii) a RNN that captures temporal information in the data, followed by a mask layer which enables handling varying input video lengths through dynamic routing. This approach has been tested on the Hume-Reaction dataset yielding excellent results.
翻訳日:2023-03-03 17:22:25 公開日:2023-03-02
# 医用画像における3次元入力データ解析と意思決定の調和のためのディープニューラルアーキテクチャ

A Deep Neural Architecture for Harmonizing 3-D Input Data Analysis and Decision Making in Medical Imaging ( http://arxiv.org/abs/2303.00175v2 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Stefanos Kollias(参考訳) データ分析、特に3次元画像ボリュームの調和は、ボリューム当たりのスライス数と注釈数が異なるため、医用画像を含む様々な応用において、深層ニューラルネットワークの訓練と使用において重要な問題である。 さらに、異なる入力データセット上でのネットワークの決定を統一することは、リッチなデータ駆動の知識の生成とアプリケーションにおける信頼性の高い使用のために重要である。 本稿では,ルーティングと機能アライメントステップを含む新しいディープニューラルネットワークアーキテクチャracnetを提案する。3次元画像入力の異なる入力長と単一アノテーションを効果的に処理し,高精度な決定を行う。 さらに、トレーニングされたRACNetから潜時変数を抽出することで、ネットワークの決定に関するさらなる洞察を提供するアンカーのセットが生成される。 これらは、異なるデータセットから抽出されたデータ駆動の知識の強化と統一に使用することができる。 さまざまな国や医療センターで生成されたデータベースから3次元の胸部ctスキャンを分析することで、新型コロナウイルスの診断に焦点が当てられた。

Harmonizing the analysis of data, especially of 3-D image volumes, consisting of different number of slices and annotated per volume, is a significant problem in training and using deep neural networks in various applications, including medical imaging. Moreover, unifying the decision making of the networks over different input datasets is crucial for the generation of rich data-driven knowledge and for trusted usage in the applications. This paper presents a new deep neural architecture, named RACNet, which includes routing and feature alignment steps and effectively handles different input lengths and single annotations of the 3-D image inputs, whilst providing highly accurate decisions. In addition, through latent variable extraction from the trained RACNet, a set of anchors are generated providing further insight on the network's decision making. These can be used to enrich and unify data-driven knowledge extracted from different datasets. An extensive experimental study illustrates the above developments, focusing on COVID-19 diagnosis through analysis of 3-D chest CT scans from databases generated in different countries and medical centers.
翻訳日:2023-03-03 17:22:17 公開日:2023-03-02
# 電力系統状態推定のためのグラフニューラルネットワークのスケーラビリティとサンプル効率解析

Scalability and Sample Efficiency Analysis of Graph Neural Networks for Power System State Estimation ( http://arxiv.org/abs/2303.00105v2 )

ライセンス: Link先を確認
Ognjen Kundacina, Gorana Gojic, Mirsad Cosovic, Dragisa Miskovic, Dejan Vukobratovic(参考訳) データ駆動状態推定(SE)は、リアルタイム計測データを用いたシステム動作のより効率的な分析を可能にするため、現代の電力システムではますます重要になっている。 本稿では,因子グラフを適用したグラフニューラルネットワーク(gnns)に基づくファサー測定ユニットのみの状態推定器について徹底的に評価する。 gnnモデルのサンプル効率を評価するために,様々なトレーニングセットサイズで複数のトレーニング実験を行った。 さらに, GNNモデルのスケーラビリティを評価するために, 様々なサイズの電力系統の実験を行う。 以上の結果から,gnnベースの状態推定器は,高い精度と効率的なデータ利用率を示す。 さらに、メモリ使用量と推論時間の両方の観点からスケーラビリティを実証し、現代の電力システムにおけるデータ駆動seの有望なソリューションとなった。

Data-driven state estimation (SE) is becoming increasingly important in modern power systems, as it allows for more efficient analysis of system behaviour using real-time measurement data. This paper thoroughly evaluates a phasor measurement unit-only state estimator based on graph neural networks (GNNs) applied over factor graphs. To assess the sample efficiency of the GNN model, we perform multiple training experiments on various training set sizes. Additionally, to evaluate the scalability of the GNN model, we conduct experiments on power systems of various sizes. Our results show that the GNN-based state estimator exhibits high accuracy and efficient use of data. Additionally, it demonstrated scalability in terms of both memory usage and inference time, making it a promising solution for data-driven SE in modern power systems.
翻訳日:2023-03-03 17:22:00 公開日:2023-03-02
# 帯域制御mott遷移の量子臨界性

Quantum criticality of bandwidth-controlled Mott transition ( http://arxiv.org/abs/2302.14605v2 )

ライセンス: Link先を確認
Kensaku Takai, Youhei Yamaji, Fakher F. Assaad and Masatoshi Imada(参考訳) モット絶縁体近傍の金属状態は、様々な磁性、電荷秩序状態、様々な遷移金属酸化物と有機固体の高温超伝導を含む様々な量子相を示す。 様々な相の出現とその競合は、電子相関駆動mott絶縁体とその臨界性によって特徴づけられる金属の間の量子遷移と密接に関連しており、凝縮物質の多くの中心的問題と関連している。 しかし、量子臨界性は、遷移が圧力などの物理的パラメータを通して帯域幅によって制御されるときによく理解されない。 本稿では,オープンソースの革新型量子多体解法として実装した変分モンテカルロ法を用いて,一般的な帯域制御モット遷移におけるスケーリング則の確立により,臨界指数の包括的集合を特徴とする遷移の普遍性クラスを定量的に推定する。 臨界性はキャリアドーピングによって達成された充填制御遷移とは対照的に電荷が弱く密度不安定であり、超伝導にも弱い不安定性を示す。 この包括的解明は、量子モット転移の解明と、機能の将来設計を育む近傍のストレンジメタルの完全な理解のために、定量的な実験的研究のための多くの経路を開く。

Metallic states near the Mott insulator show a variety of quantum phases including various magnetic, charge ordered states and high-temperature superconductivity in various transition metal oxides and organic solids. The emergence of a variety of phases and their competitions are likely intimately associated with quantum transitions between the electron-correlation driven Mott insulator and metals characterized by its criticality, and is related to many central questions of condensed matter. The quantum criticality is, however, not well understood when the transition is controlled by the bandwidth through physical parameters such as pressure. Here, we quantitatively estimate the universality class of the transition characterized by a comprehensive set of critical exponents by using a variational Monte Carlo method implemented as an open-source innovated quantum many-body solver, with the help of established scaling laws at a typical bandwidth-controlled Mott transition. The criticality indicates a weaker charge and density instability in contrast to the filling-controlled transition realized by carrier doping, implying a weaker instability to superconductivity as well. The present comprehensive clarification opens up a number of routes for quantitative experimental studies for complete understanding of elusive quantum Mott transition and nearby strange metal that cultivate future design of functionality.
翻訳日:2023-03-03 17:21:28 公開日:2023-03-02
# Qompress:通信削減のための部分および混合基数演算を爆発させるクォートに対する効率的なコンパイル

Qompress: Efficient Compilation for Ququarts Exploiting Partial and Mixed Radix Operations for Communication Reduction ( http://arxiv.org/abs/2303.00658v2 )

ライセンス: Link先を確認
Andrew Litteken, Lennart Maximilian Seifert, Jason Chadwick, Natalia Nottingham, Fredric T. Chong and Jonathan M. Baker(参考訳) 量子コンピューティングは限られた資源の時代にある。 現在のハードウェアは、高い忠実度ゲート、長いコヒーレンス時間、有意義な計算を行うのに必要な計算単位数を欠いている。 現代の量子デバイスは通常バイナリシステムを使用し、各キュービットは$\ket{0}$と$\ket{1}$状態の重ね合わせに存在する。 しかし、異なる方法でシステムを操作することで、同じ物理ユニットで$\ket{2}$または$\ket{3}$の状態にアクセスすることがしばしば可能である。 本研究では,2つの量子ビットを自動的に1つの状態 qu\emph{quart} に符号化する。 量子最適制御を用いて、符号化された量子ビット上での標準量子ビット計算を完全に再現する効率的な概念証明ゲートを設計する。 我々は、qubitとququartの両方からなる任意の混合放射系上のqubitを効率的にルーティングするために、qubitコンパイルスキームを拡張し、通信を減らし、長周期のququartゲートによって導入された余剰回路実行時間を最小化する。 これらのコンパイル戦略と合わせて, 有益圧縮を見出す手法をいくつか導入し, 計算と通信による回路誤差を最大50 %削減する。 これらの方法は、回路の忠実性を維持しながら、限られた短期機械で利用可能な計算スペースを最大2倍にすることができる。

Quantum computing is in an era of limited resources. Current hardware lacks high fidelity gates, long coherence times, and the number of computational units required to perform meaningful computation. Contemporary quantum devices typically use a binary system, where each qubit exists in a superposition of the $\ket{0}$ and $\ket{1}$ states. However, it is often possible to access the $\ket{2}$ or even $\ket{3}$ states in the same physical unit by manipulating the system in different ways. In this work, we consider automatically encoding two qubits into one four-state qu\emph{quart} via a \emph{compression scheme}. We use quantum optimal control to design efficient proof-of-concept gates that fully replicate standard qubit computation on these encoded qubits. We extend qubit compilation schemes to efficiently route qubits on an arbitrary mixed-radix system consisting of both qubits and ququarts, reducing communication and minimizing excess circuit execution time introduced by longer-duration ququart gates. In conjunction with these compilation strategies, we introduce several methods to find beneficial compressions, reducing circuit error due to computation and communication by up to 50\%. These methods can increase the computational space available on a limited near-term machine by up to 2x while maintaining circuit fidelity.
翻訳日:2023-03-03 17:13:48 公開日:2023-03-02
# DP-fy ML: 差分プライバシによる機械学習の実践的ガイド

How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy ( http://arxiv.org/abs/2303.00654v2 )

ライセンス: Link先を確認
Natalia Ponomareva, Hussein Hazimeh, Alex Kurakin, Zheng Xu, Carson Denison, H. Brendan McMahan, Sergei Vassilvitskii, Steve Chien and Abhradeep Thakurta(参考訳) MLモデルは現実世界の応用においてユビキタスであり、常に研究の焦点となっている。 同時に、コミュニティはMLトレーニングデータのプライバシ保護の重要性を認識し始めています。 差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。 しかし、いくつかの業界でDPの採用が起きているが、現実の複雑なMLモデルにDPを適用しようとする試みは、いまだにごくわずかである。 DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。 パフォーマンスをチューニングし最大化するためのトリックは、紙に散らばったり、実践者の頭に格納される。 さらに、この文献は、アーキテクチャの調整を適用する方法と、dpで使用する"安全な"コンポーネントについて、矛盾する証拠を提示しているようである。 この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。 対象は研究者と実践者の両方です。 DP for MLに興味のある研究者は、現在の進歩と改善の領域を明確に示すことで恩恵を受けるだろう。 プライバシ会計や仮定,収束といった重要なトピックに注目する理論に焦点を当てたセクションも含んでいます。 実践者にとって、DP理論の背景と、適切なプライバシー定義とアプローチを選択し、DPトレーニングを実装し、モデルアーキテクチャを更新し、ハイパーパラメータをチューニングするための明確なステップバイステップガイドを提供する。 研究者と実践者の両方にとって,一貫して完全に報告するプライバシ保証は不可欠であり,保証を述べるための具体的なベストプラクティスを提案する。

ML models are ubiquitous in real world applications and are a constant focus of research. At the same time, the community has started to realize the importance of protecting the privacy of ML training data. Differential Privacy (DP) has become a gold standard for making formal statements about data anonymization. However, while some adoption of DP has happened in industry, attempts to apply DP to real world complex ML models are still few and far between. The adoption of DP is hindered by limited practical guidance of what DP protection entails, what privacy guarantees to aim for, and the difficulty of achieving good privacy-utility-computation trade-offs for ML models. Tricks for tuning and maximizing performance are scattered among papers or stored in the heads of practitioners. Furthermore, the literature seems to present conflicting evidence on how and whether to apply architectural adjustments and which components are "safe" to use with DP. This work is a self-contained guide that gives an in-depth overview of the field of DP ML and presents information about achieving the best possible DP ML model with rigorous privacy guarantees. Our target audience is both researchers and practitioners. Researchers interested in DP for ML will benefit from a clear overview of current advances and areas for improvement. We include theory-focused sections that highlight important topics such as privacy accounting and its assumptions, and convergence. For a practitioner, we provide a background in DP theory and a clear step-by-step guide for choosing an appropriate privacy definition and approach, implementing DP training, potentially updating the model architecture, and tuning hyperparameters. For both researchers and practitioners, consistently and fully reporting privacy guarantees is critical, and so we propose a set of specific best practices for stating guarantees.
翻訳日:2023-03-03 17:13:25 公開日:2023-03-02
# ROCO: 交通紛争の総括データ

ROCO: A Roundabout Traffic Conflict Dataset ( http://arxiv.org/abs/2303.00563v2 )

ライセンス: Link先を確認
Depu Meng, Owen Sayer, Rusheng Zhang, Shengyin Shen, Houqiang Li, Henry X. Liu(参考訳) 交通の衝突は交通研究コミュニティによって数十年間、代理安全対策として研究されてきた。 しかし、交通紛争の激しさから、大規模な実世界の交通紛争データ収集は極めて困難である。 本稿では,実世界の交通紛争データセットであるROCOを紹介し,分析する。 データはミシガン州アンアーバーのセント・セントとW・エルズワースの交差点にある2車線のラウンドアラウンドで収集される。 ラウンドアバウンドに設置された4台の魚眼カメラから取得した生映像データフローを入力データソースとして利用する。 ビデオから学習に基づくコンフリクト識別アルゴリズムを採用し、潜在的なトラフィックコンフリクトを見つけ、データセットの収集とアノテーションのために手動でラベル付けします。 2021年8月から2021年10月にかけて、557件の交通紛争と17件の交通事故が収集された。 道路側知覚システムを用いて抽出したトラヒックコンフリクトシーンの軌跡データを提供する。 交通紛争の重大性、交通紛争の原因、交通流への影響に基づく分類法が提供される。 交通コンフリクトデータを収集した結果、ラウンドアバウンドに入る際に循環車両に収まらないことが交通コンフリクトの最大の原因であることが判明した。 ROCOデータセットは、短期的に公開される予定である。

Traffic conflicts have been studied by the transportation research community as a surrogate safety measure for decades. However, due to the rarity of traffic conflicts, collecting large-scale real-world traffic conflict data becomes extremely challenging. In this paper, we introduce and analyze ROCO - a real-world roundabout traffic conflict dataset. The data is collected at a two-lane roundabout at the intersection of State St. and W. Ellsworth Rd. in Ann Arbor, Michigan. We use raw video dataflow captured from four fisheye cameras installed at the roundabout as our input data source. We adopt a learning-based conflict identification algorithm from video to find potential traffic conflicts, and then manually label them for dataset collection and annotation. In total 557 traffic conflicts and 17 traffic crashes are collected from August 2021 to October 2021. We provide trajectory data of the traffic conflict scenes extracted using our roadside perception system. Taxonomy based on traffic conflict severity, reason for the traffic conflict, and its effect on the traffic flow is provided. With the traffic conflict data collected, we discover that failure to yield to circulating vehicles when entering the roundabout is the largest contributing reason for traffic conflicts. ROCO dataset will be made public in the short future.
翻訳日:2023-03-03 17:12:39 公開日:2023-03-02
# 水位予測のための解釈変換器

Interpretable Transformer for Water Level Forecasting ( http://arxiv.org/abs/2303.00515v2 )

ライセンス: Link先を確認
Sunghcul Hong, Yunjin Choi and Jong-June Jeon(参考訳) ハン川の水位を予測することは交通の制御や自然災害の回避に重要である。 漢川には多くの変数があり、複雑に繋がっている。 本研究は,ハン川に架かる4つの橋であるチョンダム,ジャムス,ハングル,ハエンジュを,変数間の事前の知識に基づいて因果関係を利用して予測するトランスフォーマーを提案する。 提案モデルは,多層ネットワークとして因果構造を定式化し,マスキング法を用いて空間的および時間的因果関係を考察する。 このアプローチにより、事前の知識と一致する解釈可能性を持つことができる。 実データ解析では,2016年から2021年までのhan riverデータセットを用いて,提案モデルとディープラーニングモデルを比較した。

Forecasting the water level of the Han river is important to control traffic and avoid natural disasters. There are many variables related to the Han river and they are intricately connected. In this work, we propose a novel transformer that exploits the causal relationship based on the prior knowledge among the variables and forecasts the four bridges of the Han river: Cheongdam, Jamsu, Hangang, and Haengju. Our proposed model considers both spatial and temporal causation by formalizing the causal structure as a multilayer network and using masking methods. Due to this approach, we can have interpretability that consistent with prior knowledge. In real data analysis, we use the Han river dataset from 2016 to 2021 and compare the proposed model with deep learning models.
翻訳日:2023-03-03 17:12:20 公開日:2023-03-02
# HCl分子の基底状態構築のためのベンチマークノイズ中間スケール量子誤差緩和戦略

Benchmarking Noisy Intermediate Scale Quantum Error Mitigation Strategies for Ground State Preparation of the HCl Molecule ( http://arxiv.org/abs/2303.00445v2 )

ライセンス: Link先を確認
Tim Weaving, Alexis Ralli, William M. Kirby, Peter J. Love, Sauro Succi, Peter V. Coveney(参考訳) 制限的な量子ビットトポロジー、短いコヒーレンス時間、禁制的な高ノイズフロアを含む多くの制限により、既存のノイズの多い中間スケール量子ハードウェアで実行される量子化学実験は、完全な構成相互作用の1.6mHa以内のエネルギーエラーという高い精度で達成されている。 具体的には、量子ビットテーパリング法と文脈的部分空間変分量子固有解法と、測定エラー緩和、対称性検証、ゼロノイズ補間、二重状態浄化を含むいくつかの誤り緩和戦略を組み合わせた。 我々は、HCl分子の基底状態をテストベッドとして、これらの戦略を8組の27量子ビットのIBM Falconシリーズ量子プロセッサでベンチマークした。

Due to numerous limitations including restrictive qubit topologies, short coherence times and prohibitively high noise floors, few quantum chemistry experiments performed on existing noisy intermediate-scale quantum hardware have achieved the high bar of chemical precision, namely energy errors to within 1.6 mHa of full configuration interaction. To have any hope of doing so, we must layer contemporary resource reduction techniques with best-in-class error mitigation methods; in particular, we combine the techniques of qubit tapering and the contextual subspace variational quantum eigensolver with several error mitigation strategies comprised of measurement-error mitigation, symmetry verification, zero-noise extrapolation and dual-state purification. We benchmark these strategies across a suite of eight 27-qubit IBM Falcon series quantum processors, taking preparation of the HCl molecule's ground state as our testbed.
翻訳日:2023-03-03 17:12:06 公開日:2023-03-02
# 画像中のアフォーマンスセグメンテーションのためのベイズ深層学習

Bayesian Deep Learning for Affordance Segmentation in images ( http://arxiv.org/abs/2303.00871v1 )

ライセンス: Link先を確認
Lorenzo Mur-Labadia, Ruben Martinez-Cantin and Jose J. Guerrero(参考訳) ロボット工学の基本的な概念は、感覚運動能力と環境に応じてエージェントが利用可能な動作を関連付けるためである。 本研究では,画像中のアリーマンスを検出するための新しいベイズ深層ネットワークを提案すると同時に,空間レベルでのアリーエータと認識的分散の分布を定量化する。 mask-rcnnアーキテクチャを適用し,モンテカルロドロップアウトを用いた確率的表現を学習する。 我々の結果は決定論的ネットワークの最先端を上回っている。 この改善は、エンコーダ上のより確率的な特徴空間表現と、マスク生成によって誘導されるベイズ変量により、オブジェクトの輪郭に適応する。 また,確率的インスタンスセグメンテーションモデルにおける意味的・空間的差異を明らかにする新しい確率ベースマスク品質尺度を提案する。 予測された境界ボックスよりもバイナリマスクを比較し,確率的セグメント化をより詳細に評価することで,既存の確率的検出品質指標を修正した。 カメラノイズによる物体の輪郭のアレータリックなばらつきは, 視覚的困難画素に現れるが, エピステマティックなばらつきは現れない。

Affordances are a fundamental concept in robotics since they relate available actions for an agent depending on its sensory-motor capabilities and the environment. We present a novel Bayesian deep network to detect affordances in images, at the same time that we quantify the distribution of the aleatoric and epistemic variance at the spatial level. We adapt the Mask-RCNN architecture to learn a probabilistic representation using Monte Carlo dropout. Our results outperform the state-of-the-art of deterministic networks. We attribute this improvement to a better probabilistic feature space representation on the encoder and the Bayesian variability induced at the mask generation, which adapts better to the object contours. We also introduce the new Probability-based Mask Quality measure that reveals the semantic and spatial differences on a probabilistic instance segmentation model. We modify the existing Probabilistic Detection Quality metric by comparing the binary masks rather than the predicted bounding boxes, achieving a finer-grained evaluation of the probabilistic segmentation. We find aleatoric variance in the contours of the objects due to the camera noise, while epistemic variance appears in visual challenging pixels.
翻訳日:2023-03-03 16:48:20 公開日:2023-03-02
# MoSS:連続ロボットのための単眼形状センシング

MoSS: Monocular Shape Sensing for Continuum Robots ( http://arxiv.org/abs/2303.00891v1 )

ライセンス: Link先を確認
Chengnan Shentu, Enxu Li, Chaojun Chen, Puspita Triana Dewi, David B. Lindell, Jessica Burgner-Kahrs(参考訳) 連続型ロボットは、そのユニークな形状、コンプライアンス、小型化能力のため、様々なアプリケーションにおけるインタラクティブなタスクの候補として有望である。 このようなタスクには正確かつリアルタイムな形状認識が不可欠だが、依然として課題である。 組込み型形状センサはハードウェアの複雑さとコストが高いが、視覚ベースの手法ではステレオセットアップが必要であり、リアルタイムのパフォーマンスを達成するのに苦労する。 本稿では,連続体ロボット形状センシングに対する最初の単眼的アプローチを提案する。 ディープエンコーダ・デコーダネットワークを利用するmossnetは,ステレオマッチングの計算コストを削減し,センシングハードウェアの要求量を削減した。 特に、MOSSNetは、エンコーダと3つの並列デコーダから構成され、単一のRGB画像から空間、長さ、輪郭情報を発見し、曲線フィッティングにより3次元形状を得る。 2セグメントの腱駆動型連続体ロボットをデータ収集とテストに使用し、実世界データを用いた正確な精度(ロボットの長さ0.36%の形状誤差)とリアルタイム(70fps)形状センシングを実証する。 さらに、この方法はエンドツーエンドに最適化されており、fiducial marker、手動セグメンテーション、カメラキャリブレーションを必要としない。 コードとデータセットはhttps://github.com/ContinuumRoboticsLab/MoSSNetで入手できる。

Continuum robots are promising candidates for interactive tasks in various applications due to their unique shape, compliance, and miniaturization capability. Accurate and real-time shape sensing is essential for such tasks yet remains a challenge. Embedded shape sensing has high hardware complexity and cost, while vision-based methods require stereo setup and struggle to achieve real-time performance. This paper proposes the first eye-to-hand monocular approach to continuum robot shape sensing. Utilizing a deep encoder-decoder network, our method, MoSSNet, eliminates the computation cost of stereo matching and reduces requirements on sensing hardware. In particular, MoSSNet comprises an encoder and three parallel decoders to uncover spatial, length, and contour information from a single RGB image, and then obtains the 3D shape through curve fitting. A two-segment tendon-driven continuum robot is used for data collection and testing, demonstrating accurate (mean shape error of 0.91 mm, or 0.36% of robot length) and real-time (70 fps) shape sensing on real-world data. Additionally, the method is optimized end-to-end and does not require fiducial markers, manual segmentation, or camera calibration. Code and datasets will be made available at https://github.com/ContinuumRoboticsLab/MoSSNet.
翻訳日:2023-03-03 16:39:03 公開日:2023-03-02
# BBOBを用いた高次元ベイズ最適化アルゴリズムの比較

Comparison of High-Dimensional Bayesian Optimization Algorithms on BBOB ( http://arxiv.org/abs/2303.00890v1 )

ライセンス: Link先を確認
Maria Laura Santoni, Elena Raponi, Renato De Leone, Carola Doerr(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、評価に費用がかかる問題を効率的に最適化できるブラックボックスベースのヒューリスティックである。 BOは特に、目的関数の評価が時間を要するシミュレーションや物理実験に依存する産業における数値最適化問題の解法として人気がある。 しかし、多くの産業問題は多くのパラメータに依存している。 BOアルゴリズムは、次元が15変数を超えると、しばしば性能が損なわれると報告される。 この問題に対処するために多くの新しいアルゴリズムが提案されているが、どの最適化シナリオが最適かはよく分かっていない。 本研究では,COCO環境の24BBOB関数に対するバニラBOとCMA-ESの5つの高次元BOアルゴリズムを10から60変数の範囲で比較した。 以上の結果から, CMA-ESよりもBOを優先的に評価し, BO改善の最も有望なアプローチは信頼領域の利用であることが示唆された。 しかし,異なる関数ランドスケープや予算活用フェーズにおいて,アルゴリズムコンポーネントのハイブリダイゼーションによる改善可能性を示す重要な性能差も観察した。

Bayesian Optimization (BO) is a class of black-box, surrogate-based heuristics that can efficiently optimize problems that are expensive to evaluate, and hence admit only small evaluation budgets. BO is particularly popular for solving numerical optimization problems in industry, where the evaluation of objective functions often relies on time-consuming simulations or physical experiments. However, many industrial problems depend on a large number of parameters. This poses a challenge for BO algorithms, whose performance is often reported to suffer when the dimension grows beyond 15 variables. Although many new algorithms have been proposed to address this problem, it is not well understood which one is the best for which optimization scenario. In this work, we compare five state-of-the-art high-dimensional BO algorithms, with vanilla BO and CMA-ES on the 24 BBOB functions of the COCO environment at increasing dimensionality, ranging from 10 to 60 variables. Our results confirm the superiority of BO over CMA-ES for limited evaluation budgets and suggest that the most promising approach to improve BO is the use of trust regions. However, we also observe significant performance differences for different function landscapes and budget exploitation phases, indicating improvement potential, e.g., through hybridization of algorithmic components.
翻訳日:2023-03-03 16:38:41 公開日:2023-03-02
# BottleneckCSPとYOLOv5を組み込んだTiny Target Prediction Headを用いたゴーストコンボリューションに基づく太陽電池パネル欠陥検出

Photovoltaic Panel Defect Detection Based on Ghost Convolution with BottleneckCSP and Tiny Target Prediction Head Incorporating YOLOv5 ( http://arxiv.org/abs/2303.00886v1 )

ライセンス: Link先を確認
Longlong Li, Zhifeng Wang, Tingting Zhang(参考訳) 太陽光発電(PV)パネルの表面欠陥検出技術は、太陽光発電業界にとってスマートメンテナンスを行う上で不可欠である。 コンピュータビジョン技術を用いてPVパネル表面欠陥を検出することにより、従来の作業現場検査の負荷を低減しつつ、精度が向上する。 しかし、pvパネル表面の複数の小さな欠陥と、異なる欠陥の類似度が高いため、このような欠陥を正しく識別し検出することは困難である。 本稿では,BottleneckCSPを用いたゴーストコンボリューションと,PVパネル欠陥検出にYOLOv5(GBH-YOLOv5)を組み込んだ小型ターゲット予測ヘッドを提案する。 マルチスケールターゲットの精度を向上させるため、chaoscspモジュールは、小さな欠陥を緩和するために小さなターゲット検出のための予測ヘッドを追加し、ゴースト畳み込みを使用してモデル推論速度を改善し、パラメータ数を減らす。 まず、原画像を圧縮して切り抜きして欠陥サイズを物理的に拡大する。 そして、処理された画像をgbh−yolov5に入力し、ゴースト畳み込み、ボトルネックcspモジュールの適用、および小さなターゲットの予測ヘッドに基づくネットワーク処理により深度特徴を抽出する。 最後に、抽出した特徴を特徴ピラミッドネットワーク(FPN)と経路集約ネットワーク(PAN)構造で分類する。 一方,本手法を最先端手法と比較し,提案手法の有効性を検証する。 提案するPVパネル表面欠陥検出ネットワークは、mAPの性能を少なくとも27.8%向上させる。

Photovoltaic (PV) panel surface-defect detection technology is crucial for the PV industry to perform smart maintenance. Using computer vision technology to detect PV panel surface defects can ensure better accuracy while reducing the workload of traditional worker field inspections. However, multiple tiny defects on the PV panel surface and the high similarity between different defects make it challenging to {accurately identify and detect such defects}. This paper proposes an approach named Ghost convolution with BottleneckCSP and a tiny target prediction head incorporating YOLOv5 (GBH-YOLOv5) for PV panel defect detection. To ensure better accuracy on multiscale targets, the BottleneckCSP module is introduced to add a prediction head for tiny target detection to alleviate tiny defect misses, using Ghost convolution to improve the model inference speed and reduce the number of parameters. First, the original image is compressed and cropped to enlarge the defect size physically. Then, the processed images are input into GBH-YOLOv5, and the depth features are extracted through network processing based on Ghost convolution, the application of the BottleneckCSP module, and the prediction head of tiny targets. Finally, the extracted features are classified by a Feature Pyramid Network (FPN) and a Path Aggregation Network (PAN) structure. Meanwhile, we compare our method with state-of-the-art methods to verify the effectiveness of the proposed method. The proposed PV panel surface-defect detection network improves the mAP performance by at least 27.8%.
翻訳日:2023-03-03 16:38:18 公開日:2023-03-02
# 転写モデルによる皮膚癌診断の信頼性向上に向けて

Towards Trustable Skin Cancer Diagnosis via Rewriting Model's Decision ( http://arxiv.org/abs/2303.00885v1 )

ライセンス: Link先を確認
Siyuan Yan, Zhen Yu, Xuelin Zhang, Dwarikanath Mahapatra, Shekhar S. Chandra, Monika Janda, Peter Soyer, Zongyuan Ge(参考訳) ディープニューラルネットワークは、画像認識タスクで有望なパフォーマンスを示している。 しかしながら、データセット内の無関係なアーティファクトやバイアスを、パフォーマンス向上の手がかりとして使用することで、統合要因に大きく依存する可能性がある。 モデルがこれらのスプリアス相関に基づいて意思決定を行うと、信頼できなくなり、現実世界のシーンにデプロイされると壊滅的な結果をもたらす可能性がある。 本稿では,皮膚癌診断の文脈でこの問題を探求し,解決しようとする。 本稿では,モデル学習プロセスにヒューマン・イン・ザ・ループ・フレームワークを導入し,ユーザによるモデル決定ロジックの観察と修正を行う。 具体的には,試料の共起挙動を解析することにより,生成因子を自動的に検出する。 簡単に得られる概念例を用いて概念を学習することができる。 ブラックボックスモデルの特徴表現を説明可能な概念空間にマッピングすることで、ユーザはその概念を解釈し、最初の順序論理的命令を通して介入することができる。 提案手法は,新規に作製した皮膚病変データセットといくつかの公衆皮膚病変データセットを用いて体系的に評価した。 実験により,本手法は,カテゴリ分布に関する事前知識を必要とせずに,データセットからの共起因子を効果的に検出・除去できることを示す。 また,本手法は臨床概念に焦点を合わせ,モデル推論時のモデルの性能と信頼性を向上させることを可能にする。

Deep neural networks have demonstrated promising performance on image recognition tasks. However, they may heavily rely on confounding factors, using irrelevant artifacts or bias within the dataset as the cue to improve performance. When a model performs decision-making based on these spurious correlations, it can become untrustable and lead to catastrophic outcomes when deployed in the real-world scene. In this paper, we explore and try to solve this problem in the context of skin cancer diagnosis. We introduce a human-in-the-loop framework in the model training process such that users can observe and correct the model's decision logic when confounding behaviors happen. Specifically, our method can automatically discover confounding factors by analyzing the co-occurrence behavior of the samples. It is capable of learning confounding concepts using easily obtained concept exemplars. By mapping the black-box model's feature representation onto an explainable concept space, human users can interpret the concept and intervene via first order-logic instruction. We systematically evaluate our method on our newly crafted, well-controlled skin lesion dataset and several public skin lesion datasets. Experiments show that our method can effectively detect and remove confounding factors from datasets without any prior knowledge about the category distribution and does not require fully annotated concept labels. We also show that our method enables the model to focus on clinical-related concepts, improving the model's performance and trustworthiness during model inference.
翻訳日:2023-03-03 16:37:53 公開日:2023-03-02
# 非凸最適化のためのばらつき低減クリッピング

Variance-reduced Clipping for Non-convex Optimization ( http://arxiv.org/abs/2303.00883v1 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Haochuan Li, Subhro Das, Ali Jadbabaie(参考訳) 勾配クリッピング(gradient clipping)は、大規模な言語モデリングなどのディープラーニングアプリケーションで使用される標準的なトレーニングテクニックである。 最近の実験的研究は、勾配クリッピングの訓練において、軌道に沿ったトレーニング対象の滑らかさにかなり特別な挙動を示す。 すなわち、滑らかさは勾配ノルムとともに成長する。 これは、フォークロアの非凸最適化における確立された仮定、すなわち「l$-smoothness」とは対照的である。 最近導入された$(L_0,L_1)$-smoothnessは、非凸最適化においてそのような振る舞いをキャプチャするより緩和された概念である。 特に、この緩和された滑らか性仮定の下で、クリッピングを伴うSGDは$O(\epsilon^{-4})$確率勾配計算を必要とし、$\epsilon$-定常解を求めることが示されている。 本稿では,SPIDERという分散還元手法を用いて,慎重に設計された学習率に対して,この複雑さをオーダー最適の$O(\epsilon^{-3})$に改善することを示す。 対応する学習速度は、増大する滑らかさを緩和するクリッピング技術を含む。 さらに、目的関数が$n$成分の平均であるとき、既存の$O(n\epsilon^{-2})$を確率勾配の複雑性に限定して、オーダー最適$O(\sqrt{n} \epsilon^{-2} + n)$へと改善する。

Gradient clipping is a standard training technique used in deep learning applications such as large-scale language modeling to mitigate exploding gradients. Recent experimental studies have demonstrated a fairly special behavior in the smoothness of the training objective along its trajectory when trained with gradient clipping. That is, the smoothness grows with the gradient norm. This is in clear contrast to the well-established assumption in folklore non-convex optimization, a.k.a. $L$-smoothness, where the smoothness is assumed to be bounded by a constant $L$ globally. The recently introduced $(L_0,L_1)$-smoothness is a more relaxed notion that captures such behavior in non-convex optimization. In particular, it has been shown that under this relaxed smoothness assumption, SGD with clipping requires $O(\epsilon^{-4})$ stochastic gradient computations to find an $\epsilon$-stationary solution. In this paper, we employ a variance reduction technique, namely SPIDER, and demonstrate that for a carefully designed learning rate, this complexity is improved to $O(\epsilon^{-3})$ which is order-optimal. The corresponding learning rate comprises the clipping technique to mitigate the growing smoothness. Moreover, when the objective function is the average of $n$ components, we improve the existing $O(n\epsilon^{-2})$ bound on the stochastic gradient complexity to order-optimal $O(\sqrt{n} \epsilon^{-2} + n)$.
翻訳日:2023-03-03 16:37:28 公開日:2023-03-02
# X線2EM:コネクトロミクスにおけるX線から電子顕微鏡への不確かさを意識した画像再構成

X-Ray2EM: Uncertainty-Aware Cross-Modality Image Reconstruction from X-Ray to Electron Microscopy in Connectomics ( http://arxiv.org/abs/2303.00882v1 )

ライセンス: Link先を確認
Yicong Li, Yaron Meirovitch, Aaron T. Kuan, Jasper S. Phelps, Alexandra Pacureanu, Wei-Chung Allen Lee, Nir Shavit, Lu Mi(参考訳) 脳の総合的、シナプス分解能イメージングは、神経計算と機能を理解するために不可欠である。 コネクトミクスでは、これはボリューム電子顕微鏡(em)の唯一のパービューであり、組織を多くの薄くて繊細なスライスに切断し、画像化し、アライメントし、再構成する必要があるため、非常に難しいプロセスを伴う。 EMとは異なり、硬X線イメージングは厚い組織と互換性があり、薄切片の必要をなくし、高速な取得、本質的なアライメント、等方分解能を提供する。 残念ながら、現在の最先端のx線顕微鏡はずっと低い解像度を提供しており、セグメンテーション膜が非常に難しい。 本研究では,x線画像をemライクな画像に変換する不確実性を考慮した3次元再構成モデルを提案し,よりシンプルで高速,より正確なx線ベースのコネクトミクスパイプラインの開発の可能性を示した。

Comprehensive, synapse-resolution imaging of the brain will be crucial for understanding neuronal computations and function. In connectomics, this has been the sole purview of volume electron microscopy (EM), which entails an excruciatingly difficult process because it requires cutting tissue into many thin, fragile slices that then need to be imaged, aligned, and reconstructed. Unlike EM, hard X-ray imaging is compatible with thick tissues, eliminating the need for thin sectioning, and delivering fast acquisition, intrinsic alignment, and isotropic resolution. Unfortunately, current state-of-the-art X-ray microscopy provides much lower resolution, to the extent that segmenting membranes is very challenging. We propose an uncertainty-aware 3D reconstruction model that translates X-ray images to EM-like images with enhanced membrane segmentation quality, showing its potential for developing simpler, faster, and more accurate X-ray based connectomics pipelines.
翻訳日:2023-03-03 16:37:00 公開日:2023-03-02
# アンシラフリー量子誤り訂正符号による距離制限の達成

Achieving metrological limits using ancilla-free quantum error-correcting codes ( http://arxiv.org/abs/2303.00881v1 )

ライセンス: Link先を確認
Sisi Zhou, Argyris Giannisis Manes, Liang Jiang(参考訳) 量子誤差補正(QEC)は理論上、ノイズ量子メートル法において究極の推定限界を達成することができる。 しかし、ノイズの少ない量子メートル法のために設計された既存の量子誤り訂正符号は、一般に同一次元の1つのプローブと1つのノイズのないアンシラの間の絡み合いを利用しており、ノイズのないアンシラの要求は、実際にQECメートル法プロトコルを実装する上での大きな障害の1つである。 ここでは,2種類のマルチプローブ量子誤り訂正符号を明示的に構築することで,この要件を解消することに成功した。 具体的には、マルコフ雑音下でのハミルトン推定を考察し、そのことを示す。 (i)ハイゼンベルク極限(HL)が達成可能な場合、我々の新しい符号はHLとその最適漸近係数を達成することができる。 (i)標準量子限界(SQL)のみが達成可能な場合(任意の適応量子戦略であっても)、SQLの最適漸近係数は、わずかな修正の下で新しい符号によっても達成できる。

Quantum error correction (QEC) is theoretically capable of achieving the ultimate estimation limits in noisy quantum metrology. However, existing quantum error-correcting codes designed for noisy quantum metrology generally exploit entanglement between one probe and one noiseless ancilla of the same dimension, and the requirement of noiseless ancillas is one of the major obstacles to implementing the QEC metrological protocol in practice. Here we successfully lift this requirement by explicitly constructing two types of multi-probe quantum error-correcting codes, where the first one utilizes a negligible amount of ancillas and the second one is ancilla-free. Specifically, we consider Hamiltonian estimation under Markovian noise and show that (i) when the Heisenberg limit (HL) is achievable, our new codes can achieve the HL and its optimal asymptotic coefficient; (ii) when only the standard quantum limit (SQL) is achievable (even with arbitrary adaptive quantum strategies), the optimal asymptotic coefficient of the SQL is also achievable by our new codes under slight modifications.
翻訳日:2023-03-03 16:36:42 公開日:2023-03-02
# 光量子状態に対する複素値非ゲージ性測度

A complex-valued non-Gaussianity measure for quantum states of light ( http://arxiv.org/abs/2303.00880v1 )

ライセンス: Link先を確認
Andrew J. Pizzimenti, Prajit Dhara, Zacharie Van Herstraeten, Sijie Cheng, and Christos N. Gagatsos(参考訳) 一般ウィグナー関数とガウス関数の間の微分相対エントロピーである量を考える。 ウィグナー微分エントロピーの議論におけるウィグナー函数が同じ第1と第2のモーメント、すなわち、ガウスの議論が他の一般ウィグナー函数のガウス的関連であるなら、その量はそのガウス的議論に対して最小化されることを証明している。 そこで,任意のウィグナー関数とそのガウス関連関数間の微分相対エントロピーを導入し,そのポテンシャルを非ガウス性測度として検討する。 この量はガウスユニタリ演算の下で不変であり忠実であることが証明され、ガウスチャネルの下での単調な振る舞いに十分条件を見出す。 予測条件を支持する数値結果を提供する。 提案した位相空間に基づく非ガウス性測度は複素数値であり、その虚部はウィグナー関数の負体積の物理的意味を持つ。 同時に、この測度の実部分は余分な情報層を提供し、複素数値の量はウィグナー函数の負性のみに関連する量ではなく、非ガウス性の測度となる。 部分測定による非ガウス量子状態工学への我々の測定の有用性について検討する。

We consider a quantity that is the differential relative entropy between a generic Wigner function and a Gaussian one. We prove that said quantity is minimized with respect to its Gaussian argument, if both Wigner functions in the argument of the Wigner differential entropy have the same first and second moments, i.e., if the Gaussian argument is the Gaussian associate of the other, generic Wigner function. Therefore, we introduce the differential relative entropy between any Wigner function and its Gaussian associate and we examine its potential as a non-Gaussianity measure. We prove that said quantity is faithful, invariant under Gaussian unitary operations, and find a sufficient condition on its monotonic behavior under Gaussian channels. We provide numerical results supporting aforesaid condition. The proposed, phase-space based non-Gaussianity measure is complex-valued, with its imaginary part possessing the physical meaning of the negative volume of the Wigner function. At the same time, the real part of this measure provides an extra layer of information, rendering the complex-valued quantity a measure of non-Gaussianity, instead of a quantity pertaining only to the negativity of the Wigner function. We examine the usefulness of our measure to non-Gaussian quantum state engineering with partial measurements.
翻訳日:2023-03-03 16:36:21 公開日:2023-03-02
# TwitterとSina Weiboのソーシャルメディアデータを用いた場所の動的オントロジーモデルの構築

Building Dynamic Ontological Models for Place using Social Media Data from Twitter and Sina Weibo ( http://arxiv.org/abs/2303.00877v1 )

ライセンス: Link先を確認
Ming-Hsiang Tsou, Qingyun Zhang, Jian Xu, Atsushi Nara, Mark Gawron(参考訳) 場所は人間の思考と経験を保持する。 空間は幾何学的測度と座標系で定義される。 ソーシャルメディアは場所と空間を繋ぐ役割を果たした。 本研究では,ソーシャルメディアデータ(twitter,weibo)を用いて,北京,中国,サンディエゴの2つの地域における動的オントロジモデルを構築した。 1) カーネル密度推定(KDE) 2) ノイズを伴うアプリケーションの動的法密度に基づく空間クラスタリング(DBSCAN) 3)階層的クラスタリング。 我々はジオタグ付きソーシャルメディアデータから地名オントロジーの特徴型を特定し、ジオタグ付きポイントのKDEのデフォルト検索半径を比較して分類した。 高度にダイナミックな非行政的な場所の季節変化を追跡した結果、時間と空間による人間の活動や会話の変化に起因する場所オントロジーの動的変化を示す季節変動パターンが観察された。 また,ポイントワイズ相互情報(pmi)スコアと単語雲を調べ,各地名の意味的意味について検討した。 本研究の主な貢献は,地理分野における場所,空間,属性の関連をリンクし,分析することである。 研究者はクラウドソースのデータを使って、伝統的なガゼッタに頼るのではなく、場所のオントロジーを研究することができる。 この研究のダイナミックなオントロジーは、都市計画やリゾーニング、その他の関連産業に対する明るい洞察を与えることができる。

Place holds human thoughts and experiences. Space is defined with geometric measurement and coordinate systems. Social media served as the connection between place and space. In this study, we use social media data (Twitter, Weibo) to build a dynamic ontological model in two separate areas: Beijing, China and San Diego, the U.S.A. Three spatial analytics methods are utilized to generate the place name ontology: 1) Kernel Density Estimation (KDE); 2) Dynamic Method Density-based spatial clustering of applications with noise (DBSCAN); 3) hierarchal clustering. We identified feature types of place name ontologies from geotagged social media data and classified them by comparing their default search radius of KDE of geo-tagged points. By tracing the seasonal changes of highly dynamic non-administrative places, seasonal variation patterns were observed, which illustrates the dynamic changes in place ontology caused by the change in human activities and conversation over time and space. We also investigate the semantic meaning of each place name by examining Pointwise Mutual Information (PMI) scores and word clouds. The major contribution of this research is to link and analyze the associations between place, space, and their attributes in the field of geography. Researchers can use crowd-sourced data to study the ontology of places rather than relying on traditional gazetteers. The dynamic ontology in this research can provide bright insight into urban planning and re-zoning and other related industries.
翻訳日:2023-03-03 16:35:54 公開日:2023-03-02
# 3次元医用画像自己教師付き事前学習における幾何学的視覚類似性学習

Geometric Visual Similarity Learning in 3D Medical Image Self-supervised Pre-training ( http://arxiv.org/abs/2303.00874v1 )

ライセンス: Link先を確認
Yuting He, Guanyu Yang, Rongjun Ge, Yang Chen, Jean-Louis Coatrieux, Boyu Wang, Shuo Li(参考訳) 画像間の類似性を学ぶことは、3d医療画像の自己教師付き事前学習に不可欠である。 しかし,3次元医用画像におけるセマンティック先行の欠如とセマンティック非依存の変動は,画像間の類似性について信頼性の高い測定を行うことを難しくし,同じセマンティックスに対する一貫した表現の学習を妨げる。 本稿では,同一意味的特徴のクラスタリング効果に対する画像間の一貫した表現の学習という課題について検討する。 本稿では,画像間の類似度の測定に位相不変性の先行を組み込んだ新しい視覚類似性学習パラダイム,幾何視覚類似性学習を提案する。 このパラダイムを推し進めるために、新たな幾何マッチングヘッドであるZマッチングヘッドを構築し、意味領域のグローバルおよび局所的な類似性を協調的に学習し、異なるスケールレベルの画像間セマンティック特徴に対する効率的な表現学習を導く。 画像間類似性の学習による事前学習は, より強力な内部シーン, シーン間, グローバルな局所移動能力を, 挑戦的な4つの3次元医用画像タスクにもたらすことを実証した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/YutingHe-list/GVSL.comで公開されます。

Learning inter-image similarity is crucial for 3D medical images self-supervised pre-training, due to their sharing of numerous same semantic regions. However, the lack of the semantic prior in metrics and the semantic-independent variation in 3D medical images make it challenging to get a reliable measurement for the inter-image similarity, hindering the learning of consistent representation for same semantics. We investigate the challenging problem of this task, i.e., learning a consistent representation between images for a clustering effect of same semantic features. We propose a novel visual similarity learning paradigm, Geometric Visual Similarity Learning, which embeds the prior of topological invariance into the measurement of the inter-image similarity for consistent representation of semantic regions. To drive this paradigm, we further construct a novel geometric matching head, the Z-matching head, to collaboratively learn the global and local similarity of semantic regions, guiding the efficient representation learning for different scale-level inter-image semantic features. Our experiments demonstrate that the pre-training with our learning of inter-image similarity yields more powerful inner-scene, inter-scene, and global-local transferring ability on four challenging 3D medical image tasks. Our codes and pre-trained models will be publicly available on https://github.com/YutingHe-list/GVSL.
翻訳日:2023-03-03 16:35:32 公開日:2023-03-02
# 量子ノイズスペクトロスコピーのためのランダムパルスシーケンス

Random Pulse Sequences for Qubit Noise Spectroscopy ( http://arxiv.org/abs/2303.00909v1 )

ライセンス: Link先を確認
Kaixin Huang, Demitry Farfurnik, Alireza Seif, Mohammad Hafezi, Yi-Kai Liu(参考訳) クビットノイズスペクトロスコピーは、オープン量子系の実験的研究にとって重要なツールである。 しかし、異なる周波数での雑音スペクトル密度を複数測定する必要があるため、従来のノイズスペクトル実装手法は時間を要する。 ここでは、スペクトル密度を素早く特徴づける別の方法について述べる。 提案手法は,周波数スペクトルの任意の線形関数を測定するために,パルス間を慎重に制御したランダムパルス列を用いる。 このような測定により、ノイズスペクトルの5次モーメントを推定し、圧縮センシングによってスパースノイズスペクトルを再構成することができる。 現実的な物理系, 自己集合量子ドット上でのランダムパルス列の性能のシミュレーションにより, 従来の動的デカップリング法と比較して, ノイズスペクトルの抽出における桁違いの高速化が示された。

Qubit noise spectroscopy is an important tool for the experimental investigation of open quantum systems. However, conventional techniques for implementing noise spectroscopy are time-consuming, because they require multiple measurements of the noise spectral density at different frequencies. Here we describe an alternative method for quickly characterizing the spectral density. Our method utilizes random pulse sequences, with carefully-controlled correlations among the pulses, to measure arbitrary linear functionals of the noise spectrum. Such measurements allow us to estimate $k$'th-order moments of the noise spectrum, as well as to reconstruct sparse noise spectra via compressed sensing. Our simulations of the performance of the random pulse sequences on a realistic physical system, self-assembled quantum dots, reveal a speedup of an order of magnitude in extracting the noise spectrum compared to conventional dynamical decoupling approaches.
翻訳日:2023-03-03 16:29:31 公開日:2023-03-02
# 対話型テキスト生成

Interactive Text Generation ( http://arxiv.org/abs/2303.00908v1 )

ライセンス: Link先を確認
Felix Faltings and Michel Galley and Baolin Peng and Kiant\'e Brantley and Weixin Cai and Yizhe Zhang and Jianfeng Gao and Bill Dolan(参考訳) ユーザは毎日、テキスト、画像、コード、その他のエディタと対話する。 しかし、ユーザーとエディタ間の対話性を反映した設定では、機械学習モデルをトレーニングすることは滅多にない。 これは、実際のユーザによるAIモデルのトレーニングが遅くてコストがかかるだけでなく、これらのモデルが学んだことは、ユーザインターフェースの設計選択に特有のものかもしれないため、理解できる。 残念ながらこれは、テキスト、コード、画像生成に関するほとんどの研究が非インタラクティブな設定に焦点を当てていることを意味している。 対象テキストに対してモデルを誘導する編集を提供するユーザシミュレータを用いて,実ユーザを巻き込むことなく,対話的に生成モデルを訓練できる新たな対話型テキスト生成タスクを提案する。 我々は、Imitation Learningを使ってインタラクティブモデルをトレーニングし、競争力のある非インタラクティブ生成モデルに対する実験により、すべてのモデルにユーザー入力や編集の予算が同じであっても、インタラクティブにトレーニングされたモデルは非インタラクティブモデルよりも優れていることを示す。

Users interact with text, image, code, or other editors on a daily basis. However, machine learning models are rarely trained in the settings that reflect the interactivity between users and their editor. This is understandable as training AI models with real users is not only slow and costly, but what these models learn may be specific to user interface design choices. Unfortunately, this means most of the research on text, code, and image generation has focused on non-interactive settings, whereby the model is expected to get everything right without accounting for any input from a user who may be willing to help. We introduce a new Interactive Text Generation task that allows training generation models interactively without the costs of involving real users, by using user simulators that provide edits that guide the model towards a given target text. We train our interactive models using Imitation Learning, and our experiments against competitive non-interactive generation models show that models trained interactively are superior to their non-interactive counterparts, even when all models are given the same budget of user inputs or edits.
翻訳日:2023-03-03 16:29:17 公開日:2023-03-02
# 事前学習型視覚言語モデルを用いたオープンワールドオブジェクト操作

Open-World Object Manipulation using Pre-trained Vision-Language Models ( http://arxiv.org/abs/2303.00905v1 )

ライセンス: Link先を確認
Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman(参考訳) ロボットが人間の指示に従うためには、人間の語彙の豊富な意味情報(例:「ピンクのぬいぐるみは手に入るか?」)と、その感覚的観察と行動とをつなげる必要がある。 ロボット学習のアプローチは、ロボットが直接体験から多くの異なる行動を学べるようにしますが、ロボットがこれらすべての意味情報にまたがる初歩的な体験を持つことは、現実的ではありません。 例え、クジラのぬいぐるみと相互作用するデータを見たことがなくても、ロボットのポリシーでそのクジラのぬいぐるみを知覚し、拾えるようにしたいのです。 幸いなことに、インターネット上の静的データは膨大なセマンティック情報を持ち、この情報は事前訓練された視覚言語モデルでキャプチャされる。 本稿では,ロボットが直接見たことのない対象カテゴリーを含む指示を完結させることを目的として,これらの事前学習モデルとロボットポリシーを連携させることができるか検討する。 我々は,言語コマンドと画像から物体識別情報を抽出するために事前学習した視覚言語モデルを利用して,現在の画像,命令,抽出対象情報に対するロボットポリシーを条件とする,オープンワールドオブジェクトの操作(moo)と呼ぶシンプルな手法を開発した。 実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。 さらに,MOOが他の非言語ベースの入力モダリティに一般化して指ポインティングなどの興味の対象を指定する方法や,オープンワールドナビゲーションや操作を可能にするためにさらに拡張する方法について述べる。 プロジェクトのWebサイトと評価ビデオはhttps://robot-moo.github.io/にある。

For robots to follow instructions from people, they must be able to connect the rich semantic information in human vocabulary, e.g. "can you get me the pink stuffed whale?" to their sensory observations and actions. This brings up a notably difficult challenge for robots: while robot learning approaches allow robots to learn many different behaviors from first-hand experience, it is impractical for robots to have first-hand experiences that span all of this semantic information. We would like a robot's policy to be able to perceive and pick up the pink stuffed whale, even if it has never seen any data interacting with a stuffed whale before. Fortunately, static data on the internet has vast semantic information, and this information is captured in pre-trained vision-language models. In this paper, we study whether we can interface robot policies with these pre-trained models, with the aim of allowing robots to complete instructions involving object categories that the robot has never seen first-hand. We develop a simple approach, which we call Manipulation of Open-World Objects (MOO), which leverages a pre-trained vision-language model to extract object-identifying information from the language command and image, and conditions the robot policy on the current image, the instruction, and the extracted object information. In a variety of experiments on a real mobile manipulator, we find that MOO generalizes zero-shot to a wide range of novel object categories and environments. In addition, we show how MOO generalizes to other, non-language-based input modalities to specify the object of interest such as finger pointing, and how it can be further extended to enable open-world navigation and manipulation. The project's website and evaluation videos can be found at https://robot-moo.github.io/
翻訳日:2023-03-03 16:28:59 公開日:2023-03-02
# nm厚トンネル障壁によるハイブリッドナノワイヤのサブギャップ分光

Subgap spectroscopy along hybrid nanowires by nm-thick tunnel barriers ( http://arxiv.org/abs/2303.00903v1 )

ライセンス: Link先を確認
Vukan Levajac, Ji-Yin Wang, Grzegorz P. Mazur, Cristina Sfiligoj, Mathilde Lemang, Jan Cornelis Wolff, Alberto Bordin, Ghada Badawy, Sasa Gazibegovic, Erik P. A. M. Bakkers, Leo P. Kouwenhoven(参考訳) トンネル分光法は、マヨラナゼロモード(MZM)を探索する際に半導体超伝導ナノ構造のサブギャップスペクトルを調べるために広く用いられている。 通常、ハイブリッドの端の局所ゲートによって制御される半導体セクションはトンネルバリアとして機能する。 ハイブリッド端のみの状態を検出することに加えて、そのようなゲート定義のトンネルプローブは、MZMを模倣する非トポロジカルサブギャップ状態を形成する。 そこで我々は,これらの限界を克服するための代替型トンネルプローブを開発した。 InSb-Alハイブリッドナノワイヤの成長後、正確に制御されたAlシェルのその場酸化を行い、nm厚のAl酸化物層が得られる。 このような薄い孤立層では、トンネルプローブは金属鉛の影壁角堆積によりハイブリッドナノワイヤの任意の位置で任意に定義される。 これにより、単一ナノワイヤハイブリッドに沿って複数のトンネルプローブを作成でき、ハイブリッドに沿っている様々な空間的拡張のAndreev境界状態(ABS)をうまく特定できる。

Tunneling spectroscopy is widely used to examine the subgap spectra in semiconductor-superconductor nanostructures when searching for Majorana zero modes (MZMs). Typically, semiconductor sections controlled by local gates at the ends of hybrids serve as tunnel barriers. Besides detecting states only at the hybrid ends, such gate-defined tunnel probes can cause the formation of non-topological subgap states that mimic MZMs. Here, we develop an alternative type of tunnel probes to overcome these limitations. After the growth of an InSb-Al hybrid nanowire, a precisely controlled in-situ oxidation of the Al shell is performed to yield a nm-thick Al oxide layer. In such thin isolating layer, tunnel probes can be arbitrarily defined at any position along the hybrid nanowire by shadow-wall angle-deposition of metallic leads. This allows us to make multiple tunnel probes along single nanowire hybrids and to successfully identify Andreev bound states (ABSs) of various spatial extension residing along the hybrids.
翻訳日:2023-03-03 16:28:28 公開日:2023-03-02
# データ永続化バイアスがソーシャルメディア研究に及ぼす影響

The Impact of Data Persistence Bias on Social Media Studies ( http://arxiv.org/abs/2303.00902v1 )

ライセンス: Link先を確認
Tu\u{g}rulcan Elmas(参考訳) ソーシャルメディア研究は、しばしば世論を分析するために振り返ってデータを収集する。 ソーシャルメディアデータは時間とともに崩壊し、そのような崩壊は完全なデータセットの収集を妨げる可能性がある。 その結果、収集されたデータセットは完全なデータセットと異なり、研究はデータの永続性バイアスに悩まされる可能性がある。 過去の研究によると、ふりかえりに収集されたデータセットは、テキストの内容の観点から、オリジナルのデータセットのほとんどを表している。 しかし、議論の的となっているトピックに焦点をあてたようなソーシャルメディア研究におけるデータ永続化バイアスの影響を分析した研究はない。 本研究では,議論の的となっているトピック,トレンドトピック,問題のフレーミングという3つのタイプのデータセットに,データ永続化とバイアスを分析した。 我々は、これらのデータセット間でデータパーシステンスに苦しむであろうトピックについて報告する。 政治的指向の変化、潜在的に有害なコンテンツやトピックの存在を指標として、データの永続化バイアスを定量化する。 議論を呼んでいるデータセットはデータの永続化に苦しむ傾向が強く、再記憶の政治的左派に傾いていることが分かりました。 潜在的に有害なコンテンツを含むデータのターンアウトは、非論争的データセットにおいて著しく低い。 全体として、右列のユーザが推奨するトピックは、データ永続化に苦しむことが多いことが分かりました。 アカウントサスペンションは、データ削除に寄与する主要な要因である。 この結果から,データセットがデータ永続化バイアスに弱い場合に,データをリアルタイムに収集することで,データ永続化バイアスの計算の重要性を強調した。

Social media studies often collect data retrospectively to analyze public opinion. Social media data may decay over time and such decay may prevent the collection of the complete dataset. As a result, the collected dataset may differ from the complete dataset and the study may suffer from data persistence bias. Past research suggests that the datasets collected retrospectively are largely representative of the original dataset in terms of textual content. However, no study analyzed the impact of data persistence bias on social media studies such as those focusing on controversial topics. In this study, we analyze the data persistence and the bias it introduces on the datasets of three types: controversial topics, trending topics, and framing of issues. We report which topics are more likely to suffer from data persistence among these datasets. We quantify the data persistence bias using the change in political orientation, the presence of potentially harmful content and topics as measures. We found that controversial datasets are more likely to suffer from data persistence and they lean towards the political left upon recollection. The turnout of the data that contain potentially harmful content is significantly lower on non-controversial datasets. Overall, we found that the topics promoted by right-aligned users are more likely to suffer from data persistence. Account suspensions are the primary factor contributing to data removals, if not the only one. Our results emphasize the importance of accounting for the data persistence bias by collecting the data in real time when the dataset employed is vulnerable to data persistence bias.
翻訳日:2023-03-03 16:28:12 公開日:2023-03-02
# 煙セグメンテーションのための透過誘導ベイズ生成モデル

Transmission-Guided Bayesian Generative Model for Smoke Segmentation ( http://arxiv.org/abs/2303.00900v1 )

ライセンス: Link先を確認
Siyuan Yan, Jing Zhang, Nick Barnes(参考訳) 煙のセグメンテーションは野火を早期に消火できるように正確に局所化するのに不可欠である。 深層ニューラルネットワークは画像分割タスクで有望な結果を得たが、その非剛性形状と透明な外観のため、煙のセグメンテーションには過度に信頼しがちである。 これは、正確な煙分別のための限られた訓練データによる知識レベルの不確かさと、地味のラベル付けの難しさを表すラベル付けレベルの不確実性の両方に起因する。 2種類の不確かさを効果的にモデル化するために,モデルパラメータの後方分布とその予測を同時に推定するベイズ生成モデルを提案する。 さらに,物理ベースの画像デハジング法に触発されて,低コントラストと曖昧さに苦しむスモーク画像に対して,伝送誘導局所コヒーレンス損失の設計を行い,画素距離と伝送特性に基づく対関係の学習を誘導する。 また,この分野の発展を促進するために,1,400個の実画像と4,000個の合成画像からなる高品質な煙分画データセットSMOKE5Kを提案する。 ベンチマークテストデータセットにおける実験の結果から,モデルが正確な予測と,モデル非依存を表す信頼性の高い不確実性マップの両方を達成できることが分かる。 私たちのコードとデータセットは、https://github.com/redlessme/Transmission-BVMで公開されています。

Smoke segmentation is essential to precisely localize wildfire so that it can be extinguished in an early phase. Although deep neural networks have achieved promising results on image segmentation tasks, they are prone to be overconfident for smoke segmentation due to its non-rigid shape and transparent appearance. This is caused by both knowledge level uncertainty due to limited training data for accurate smoke segmentation and labeling level uncertainty representing the difficulty in labeling ground-truth. To effectively model the two types of uncertainty, we introduce a Bayesian generative model to simultaneously estimate the posterior distribution of model parameters and its predictions. Further, smoke images suffer from low contrast and ambiguity, inspired by physics-based image dehazing methods, we design a transmission-guided local coherence loss to guide the network to learn pair-wise relationships based on pixel distance and the transmission feature. To promote the development of this field, we also contribute a high-quality smoke segmentation dataset, SMOKE5K, consisting of 1,400 real and 4,000 synthetic images with pixel-wise annotation. Experimental results on benchmark testing datasets illustrate that our model achieves both accurate predictions and reliable uncertainty maps representing model ignorance about its prediction. Our code and dataset are publicly available at: https://github.com/redlessme/Transmission-BVM.
翻訳日:2023-03-03 16:27:48 公開日:2023-03-02
# 確率的クラスタ化フェデレーション学習

Stochastic Clustered Federated Learning ( http://arxiv.org/abs/2303.00897v1 )

ライセンス: Link先を確認
Dun Zeng, Xiangjing Hu, Shiyu Liu, Yue Yu, Qifan Wang, Zenglin Xu(参考訳) フェデレーション学習(Federated Learning)は、エッジデバイスに格納されたプライベートデータサンプルを最大限に活用する分散学習フレームワークである。 実世界のフェデレーション学習システムでは、これらのデータサンプルは分散化され、非独立に独立に分散する(Non-IID)ことが多い。 新しいソリューションとして、クラスタ化されたフェデレーション学習グループは、同様のデータ分散を持つクライアントをフェデレーションし、非iid効果を損なうとともに、クラスタ毎によりよいモデルをトレーニングした。 本稿では,非IID問題に対する新しいクラスタ化フェデレーション学習手法であるStoCFLを提案する。 詳細は、StoCFLはフレキシブルなCFLフレームワークを実装しています。これは、任意の割合のクライアント参加と、さまざまなFLシステムのために新しく加入したクライアントをサポートします。 4つの基本的非IID設定と実世界のデータセットを用いて集中的な実験を行う。 その結果,socflはクラスタ数不明であっても有望なクラスタ結果が得られることがわかった。 クライアントクラスタリングの結果に基づいて、StoCFLでトレーニングされたモデルは、さまざまなコンテキストにおけるベースラインアプローチより優れています。

Federated learning is a distributed learning framework that takes full advantage of private data samples kept on edge devices. In real-world federated learning systems, these data samples are often decentralized and Non-Independently Identically Distributed (Non-IID), causing divergence and performance degradation in the federated learning process. As a new solution, clustered federated learning groups federated clients with similar data distributions to impair the Non-IID effects and train a better model for every cluster. This paper proposes StoCFL, a novel clustered federated learning approach for generic Non-IID issues. In detail, StoCFL implements a flexible CFL framework that supports an arbitrary proportion of client participation and newly joined clients for a varying FL system, while maintaining a great improvement in model performance. The intensive experiments are conducted by using four basic Non-IID settings and a real-world dataset. The results show that StoCFL could obtain promising cluster results even when the number of clusters is unknown. Based on the client clustering results, models trained with StoCFL outperform baseline approaches in a variety of contexts.
翻訳日:2023-03-03 16:27:24 公開日:2023-03-02
# すべてのポートにわたるIPv4サービスの予測

Predicting IPv4 Services Across All Ports ( http://arxiv.org/abs/2303.00895v1 )

ライセンス: Link先を確認
Liz Izhikevich, Renata Teixeira, Zakir Durumeric(参考訳) インターネット全体の走査は、インターネットのトポロジーとセキュリティを理解するためによく用いられる。 しかし、IPv4インターネットスキャンはサービスのサブセットのみをスキャンすることに限定されており、すべてのIPv4サービスを徹底的にスキャンするにはコストがかかりすぎ、既存の帯域幅節約フレームワークがすべてのポートにわたってIPv4アドレスをスキャンするように設計されていない。 本研究では,全ポートにわたるインターネットサービスを効率的に発見するシステムであるGPSを導入する。 GPSは、非常に小さなサンプルサイズから学習し、非常に並列化可能な予測フレームワークを実行し、65Kポート全体にわたるサービス間のパターンと、無数の機能を素早く見つけることができる。 GPSは13分でサービス予測を計算し、全ポートで92.5%のサービスを131倍の帯域幅で、網羅的なスキャンに比べて204倍の精度で処理している。 gpsは、トレーニングするポートの少なくとも2つの応答性のあるipアドレスを考慮すれば、すべてのポートにまたがるサービスの大多数が可能かつ実用的であることを示す最初の作業である。

Internet-wide scanning is commonly used to understand the topology and security of the Internet. However, IPv4 Internet scans have been limited to scanning only a subset of services -- exhaustively scanning all IPv4 services is too costly and no existing bandwidth-saving frameworks are designed to scan IPv4 addresses across all ports. In this work we introduce GPS, a system that efficiently discovers Internet services across all ports. GPS runs a predictive framework that learns from extremely small sample sizes and is highly parallelizable, allowing it to quickly find patterns between services across all 65K ports and a myriad of features. GPS computes service predictions in 13 minutes (four orders of magnitude faster than prior work) and finds 92.5% of services across all ports with 131x less bandwidth, and 204x more precision, compared to exhaustive scanning. GPS is the first work to show that, given at least two responsive IP addresses on a port to train from, predicting the majority of services across all ports is possible and practical.
翻訳日:2023-03-03 16:27:04 公開日:2023-03-02
# 複数の教師によるアクティブ報酬学習

Active Reward Learning from Multiple Teachers ( http://arxiv.org/abs/2303.00894v1 )

ライセンス: Link先を確認
Peter Barnett, Rachel Freedman, Justin Svegliato, Stuart Russell(参考訳) 逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。 この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。 報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。 本稿では,これらの異なるフィードバック源のアルゴリズムによる評価が,より正確かつ効率的な報酬学習を促進することを示す。 我々は,理性レベルが異なる教師から報奨を受けた場合の情報の価値を正式に分析し,このVOIを利用して教師にフィードバックを求めるアルゴリズムを定義し,評価する。 驚くことに、比較的不合理な教師に問い合わせることは、より有益であることが多い。 この問題を形式化し、分析的ソリューションを導出することにより、AIの振る舞いと人間の価値を整合させる報酬学習アプローチの改善を促進したいと考えています。

Reward learning algorithms utilize human feedback to infer a reward function, which is then used to train an AI system. This human feedback is often a preference comparison, in which the human teacher compares several samples of AI behavior and chooses which they believe best accomplishes the objective. While reward learning typically assumes that all feedback comes from a single teacher, in practice these systems often query multiple teachers to gather sufficient training data. In this paper, we investigate this disparity, and find that algorithmic evaluation of these different sources of feedback facilitates more accurate and efficient reward learning. We formally analyze the value of information (VOI) when reward learning from teachers with varying levels of rationality, and define and evaluate an algorithm that utilizes this VOI to actively select teachers to query for feedback. Surprisingly, we find that it is often more informative to query comparatively irrational teachers. By formalizing this problem and deriving an analytical solution, we hope to facilitate improvement in reward learning approaches to aligning AI behavior with human values.
翻訳日:2023-03-03 16:26:44 公開日:2023-03-02
# ハイゼンベルク相互作用をもつ中心スピンモデルの時間-結晶挙動

Time-crystalline behavior in central-spin models with Heisenberg interactions ( http://arxiv.org/abs/2303.00893v1 )

ライセンス: Link先を確認
Rafail Frantzeskakis, John Van Dyke, Leon Zaporski, Dorian A. Gangloff, Claire Le Gall, Mete Atat\"ure, Sophia E. Economou, Edwin Barnes(参考訳) 周期的駆動とイジング相互作用を持つ量子中央スピン系では、時間結晶挙動が予測・観測されている。 ここでは、ハイゼンベルク相互作用を伴う中心スピン系においても起こりうることを理論的に示す。 そこで,本論文では,衛星スピンよりも中心スピンに十分大きなゼーマン分割を適用するか,フロッケ周期毎に中心スピンに付加パルスを適用するか,という2つの方法を提案する。 どちらの場合においても、システムは純粋なハイゼンベルク相互作用とxxz相互作用の両方の障害の存在下でスピン磁化においてサブハーモニック応答を示す。 量子ドットやカラーセンターにおける超微細結合電子核系を含むxxz中心スピン系について検討した。

Time-crystalline behavior has been predicted and observed in quantum central-spin systems with periodic driving and Ising interactions. Here, we theoretically show that it can also arise in central-spin systems with Heisenberg interactions. We present two methods to achieve this: application of a sufficiently large Zeeman splitting on the central spin compared to the satellite spins, or else by applying additional pulses to the central spin every Floquet period. In both cases, we show that the system exhibits a subharmonic response in spin magnetizations in the presence of disorder for both pure Heisenberg and XXZ interactions. Our results pertain to any XXZ central-spin system, including hyperfine-coupled electron-nuclear systems in quantum dots or color centers.
翻訳日:2023-03-03 16:26:26 公開日:2023-03-02
# unidexgrasp: 多様な提案生成と目標条件による学習による汎用ロボットデキスタラス把握

UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy ( http://arxiv.org/abs/2303.00938v1 )

ライセンス: Link先を確認
Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, He Wang(参考訳) 本研究では,テーブル上環境下での点雲観測から万能ロボットによるデクスタース把持を学習する問題に取り組む。 目標は、高品質で多様な方法でオブジェクトをつかんで持ち上げ、何百ものカテゴリや目に見えないものまで一般化することだ。 並列グリッパーグラッシングで成功したパイプラインに触発されて、タスクを2つのステージに分割しました。 1)提案(目的)の生成と取得 2)目標条件の把握実行。 第1段階では,翻訳と調音から回転を分解する点雲観測に条件付きグリップポーズの新しい確率モデルを提案する。 合成した大規模デキスタラス・グリップ・データセットに基づいて,このモデルにより,点群における対象物に対する多種多様な高品質なデキスタラス・グリップ・ポーズを抽出することができる。 第2段階では,厳密な把持実行に関わる複雑さのため,並列グリップグリップにおける動作計画を目標条件のグリップポリシーに置き換えることを提案する。 オラクル状態なしに現実的な入力しか受け取らないこの非常に一般化可能な把握ポリシーを学ぶことは極めて困難である。 そこで本稿では, 状態標準化, 対象カリキュラム, 教師・学生蒸留など, 重要な技術革新を提案する。 この2つのステージを統合することで、私たちの最終的なパイプラインは、デクスタースハンドリングの普遍的な一般化を最初に達成し、数千のオブジェクトインスタンスで平均成功率が60%を超え、すべてのベースラインのパフォーマンスを大幅に上回りながら、最小の一般化ギャップしか示せません。

In this work, we tackle the problem of learning universal robotic dexterous grasping from a point cloud observation under a table-top setting. The goal is to grasp and lift up objects in high-quality and diverse ways and generalize across hundreds of categories and even the unseen. Inspired by successful pipelines used in parallel gripper grasping, we split the task into two stages: 1) grasp proposal (pose) generation and 2) goal-conditioned grasp execution. For the first stage, we propose a novel probabilistic model of grasp pose conditioned on the point cloud observation that factorizes rotation from translation and articulation. Trained on our synthesized large-scale dexterous grasp dataset, this model enables us to sample diverse and high-quality dexterous grasp poses for the object in the point cloud. For the second stage, we propose to replace the motion planning used in parallel gripper grasping with a goal-conditioned grasp policy, due to the complexity involved in dexterous grasping execution. Note that it is very challenging to learn this highly generalizable grasp policy that only takes realistic inputs without oracle states. We thus propose several important innovations, including state canonicalization, object curriculum, and teacher-student distillation. Integrating the two stages, our final pipeline becomes the first to achieve universal generalization for dexterous grasping, demonstrating an average success rate of more than 60% on thousands of object instances, which significantly out performs all baselines, meanwhile showing only a minimal generalization gap.
翻訳日:2023-03-03 16:20:26 公開日:2023-03-02
# 接触力場の触覚測定によるすべり検出の学習とそのエントロピー

Learning to Detect Slip through Tactile Measures of the Contact Force Field and its Entropy ( http://arxiv.org/abs/2303.00935v1 )

ライセンス: Link先を確認
Xiaohai Hu, Aparajit Venkatesh, Guiliang Zheng, and Xu Chen(参考訳) 物体の把持と操作におけるすべりの検出は,物体ハンドリングにおいて重要な役割を果たす。 既存のソリューションは主に視覚情報に依存して、把握のための戦略を考案する。 それでも、人間の習熟度を達成し、不慣れな物体の一貫した把握と操作を達成するためには、人工触覚センサーの導入がロボットシステムにおいて必要となっている。 本研究では,リアルタイムにスリップを連続的に検出する新しい物理モデルとデータ駆動手法を提案する。 光学式触覚センサーであるGelSight Miniは、触覚を読み取るためのグリップに装着されている。 本研究は,スリップイベント時の触覚センサ読み取りの不均一性を活用し,特徴を発達させ,スリップ検出を分類問題として定式化する。 提案手法を評価するため, 異なる負荷条件, テクスチャ, 材料条件下で10個の共通オブジェクト上で複数のデータ駆動モデルをテストする。 その結果,最高の分類アルゴリズムが平均精度99\%を達成することがわかった。 本稿では,リアルタイムスリップ検出・防止アルゴリズムを実装した動的ロボットマニピュレーションタスクにおける本手法の適用例を示す。

Detection of slip during object grasping and manipulation plays a vital role in object handling. Existing solutions largely depend on visual information to devise a strategy for grasping. Nonetheless, in order to achieve proficiency akin to humans and achieve consistent grasping and manipulation of unfamiliar objects, the incorporation of artificial tactile sensing has become a necessity in robotic systems. In this work, we propose a novel physics-informed, data-driven method to detect slip continuously in real time. The GelSight Mini, an optical tactile sensor, is mounted on custom grippers to acquire tactile readings. Our work leverages the inhomogeneity of tactile sensor readings during slip events to develop distinctive features and formulates slip detection as a classification problem. To evaluate our approach, we test multiple data-driven models on 10 common objects under different loading conditions, textures, and materials. Our results show that the best classification algorithm achieves an average accuracy of 99\%. We demonstrate the application of this work in a dynamic robotic manipulation task in which real-time slip detection and prevention algorithm is implemented.
翻訳日:2023-03-03 16:19:57 公開日:2023-03-02
# 人間は人工知能の説明の基本的なブロックをどう認識するか

Helpful, Misleading or Confusing: How Humans Perceive Fundamental Building Blocks of Artificial Intelligence Explanations ( http://arxiv.org/abs/2303.00934v1 )

ライセンス: Link先を確認
Edward Small, Yueqing Xuan, Danula Hettiachchi, Kacper Sokol(参考訳) 説明可能な人工知能技術は、ブレークネックなスピードで進化していますが、現在の適切な評価アプローチは遅れています。 説明者はますます複雑になり、その有用性を評価するためのコンセンサスが欠如しているため、異なる説明の利点と効果を判断することは困難である。 このギャップに対処するため、複雑な予測アルゴリズムから一歩後退し、代わりに単純な数学的モデルの説明可能性を検討する。 本研究では, 数学的定式化, グラフィカル表現, テキスト要約など, 様々なモデル表現の理解度を, どのように認識するかを評価することを目的とする。 これにより、エンジニア、研究者、消費者、規制当局など多様なステークホルダーが、より複雑な人工知能の説明が構築される基本的な概念の信頼性を判断できるようになる。 本稿では,適切な評価手法を確立するためのアプローチと,関連するユーザ研究のセットアップと実行を容易にする概念的かつ実践的な枠組みを示す。

Explainable artificial intelligence techniques are evolving at breakneck speed, but suitable evaluation approaches currently lag behind. With explainers becoming increasingly complex and a lack of consensus on how to assess their utility, it is challenging to judge the benefit and effectiveness of different explanations. To address this gap, we take a step back from complex predictive algorithms and instead look into explainability of simple mathematical models. In this setting, we aim to assess how people perceive comprehensibility of different model representations such as mathematical formulation, graphical representation and textual summarisation (of varying scope). This allows diverse stakeholders -- engineers, researchers, consumers, regulators and the like -- to judge intelligibility of fundamental concepts that more complex artificial intelligence explanations are built from. This position paper charts our approach to establishing appropriate evaluation methodology as well as a conceptual and practical framework to facilitate setting up and executing relevant user studies.
翻訳日:2023-03-03 16:19:39 公開日:2023-03-02
# QuickCent: スケールフリーネットワーク上での高調波中心性推定のための高速かつフレジャルなヒューリスティック

QuickCent: a fast and frugal heuristic for harmonic centrality estimation on scale-free networks ( http://arxiv.org/abs/2303.00927v1 )

ライセンス: Link先を確認
Francisco Plana, Andr\'es Abeliuk, Jorge P\'erez(参考訳) ネットワーク集中度指数を近似する単純かつ迅速な手法を提案する。 私たちのアプローチはQuickCentと呼ばれ、人間の意思決定と推論のプロセスをモデル化するために最初に提案されたヒューリスティックな、いわゆる高速かつフリガルなヒューリスティックスにインスパイアされています。 我々が見積もっている中心性指数は調和中心性であり、これは最短パス距離に基づく測度であり、大網での計算が不可能である。 我々はQuickCentと、優先的なアタッチメントといくつかの経験的ネットワークで生成された合成データに関する既知の機械学習アルゴリズムを比較した。 我々の実験によると、QuickCentは、合成スケールフリーネットワークや経験的ネットワークでテストされた最良の代替手法と、精度で競合する推定を行うことができる。 QuickCentには、小さなトレーニングセットであっても、低いエラー分散推定を達成する機能がある。 さらに、quickcentは、より複雑な方法で生成されたものと、効率 -- 精度と時間コスト -- で比較できる。 我々は,QuickCentが優先的なアタッチメントによって生成されたようなネットワークでは,ノードがアクセス可能なネットワーク領域のサイズのプロキシとなり,高調波中心性などのサイズに基づく集中度指標の近似が可能となるという事実を,QuickCentがどのように活用するかを議論し,考察する。 最初の結果は、単純なヒューリスティックスと生物学的にインスパイアされた計算手法が、ネットワーク測度推定の文脈における有望な研究ラインであることを示している。

We present a simple and quick method to approximate network centrality indexes. Our approach, called QuickCent, is inspired by so-called fast and frugal heuristics, which are heuristics initially proposed to model some human decision and inference processes. The centrality index that we estimate is the harmonic centrality, which is a measure based on shortest-path distances, so infeasible to compute on large networks. We compare QuickCent with known machine learning algorithms on synthetic data generated with preferential attachment, and some empirical networks. Our experiments show that QuickCent is able to make estimates that are competitive in accuracy with the best alternative methods tested, either on synthetic scale-free networks or empirical networks. QuickCent has the feature of achieving low error variance estimates, even with a small training set. Moreover, QuickCent is comparable in efficiency -- accuracy and time cost -- to those produced by more complex methods. We discuss and provide some insight into how QuickCent exploits the fact that in some networks, such as those generated by preferential attachment, local density measures such as the in-degree, can be a proxy for the size of the network region to which a node has access, opening up the possibility of approximating centrality indices based on size such as the harmonic centrality. Our initial results show that simple heuristics and biologically inspired computational methods are a promising line of research in the context of network measure estimations.
翻訳日:2023-03-03 16:19:11 公開日:2023-03-02
# STUNT: ラベルのないテーブルから自己生成タスクを学習する

STUNT: Few-shot Tabular Learning with Self-generated Tasks from Unlabeled Tables ( http://arxiv.org/abs/2303.00918v1 )

ライセンス: Link先を確認
Jaehyun Nam, Jihoon Tack, Kyungmin Lee, Hankook Lee, Jinwoo Shin(参考訳) 表データの種類はアノテーションコストが高いか、新しいタスクのために新しいサンプルを集めるのが難しいため、工業用機械学習アプリケーションでは、ラベル付き表型サンプルの学習が必須となることが多い。 表型学習の分野では,このような問題は極めて過小評価されているが,表型データの不均一な特徴から,他の領域からの散発的な学習方式は適用が容易ではない。 本稿では,半教師付き半教師付き表学習のための単純かつ効果的なフレームワークを提案し,ラベルなしテーブル (stunt) から自己生成タスクを生成する。 私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。 次に、構築したタスクで一般化可能な知識を学ぶためにメタラーニングスキームを用いる。 さらに、ラベルなしデータからSTUNTを用いて擬似検証セットを生成することにより、ハイパーパラメータ探索(および早期停止)の教師なし検証手法を導入する。 実験結果から,従来の半教師付きベースラインおよび自己教師付きベースラインと比較して,様々な表型少数ショット学習ベンチマークで性能が大幅に向上することが示された。 コードはhttps://github.com/jaehyun513/stuntで入手できる。

Learning with few labeled tabular samples is often an essential requirement for industrial machine learning applications as varieties of tabular data suffer from high annotation costs or have difficulties in collecting new samples for novel tasks. Despite the utter importance, such a problem is quite under-explored in the field of tabular learning, and existing few-shot learning schemes from other domains are not straightforward to apply, mainly due to the heterogeneous characteristics of tabular data. In this paper, we propose a simple yet effective framework for few-shot semi-supervised tabular learning, coined Self-generated Tasks from UNlabeled Tables (STUNT). Our key idea is to self-generate diverse few-shot tasks by treating randomly chosen columns as a target label. We then employ a meta-learning scheme to learn generalizable knowledge with the constructed tasks. Moreover, we introduce an unsupervised validation scheme for hyperparameter search (and early stopping) by generating a pseudo-validation set using STUNT from unlabeled data. Our experimental results demonstrate that our simple framework brings significant performance gain under various tabular few-shot learning benchmarks, compared to prior semi- and self-supervised baselines. Code is available at https://github.com/jaehyun513/STUNT.
翻訳日:2023-03-03 16:18:43 公開日:2023-03-02
# 低ランク適応型視覚トランスフォーマによる顔偽造検出の高速化

Enhancing General Face Forgery Detection via Vision Transformer with Low-Rank Adaptation ( http://arxiv.org/abs/2303.00917v1 )

ライセンス: Link先を確認
Chenqi Kong, Haoliang Li, Shiqi Wang(参考訳) 今日では、偽ニュース、詐欺、偽造などに対するセキュリティ上の懸念が強まっている。 ドメイン内フェイス偽造検出の成功が実証されたにもかかわらず、既存の検出方法は一般化能力がなく、予期せぬドメインにデプロイすると劇的なパフォーマンス低下に苦しむ傾向がある。 この問題を軽減するために,視覚変換器(ViT)アーキテクチャに基づくより一般的な偽顔検出モデルを設計する。 訓練段階では、プリトレーニングされたvit重みが凍結され、低ランク適応(lora)モジュールのみが更新される。 さらに、SCL(Single Center Loss)をトレーニングプロセスの監視に適用し、モデルの一般化能力をさらに向上させる。 提案手法は,クロスマニピュレーションとクロスデータセット評価の両方において,最先端検出性能を実現する。

Nowadays, forgery faces pose pressing security concerns over fake news, fraud, impersonation, etc. Despite the demonstrated success in intra-domain face forgery detection, existing detection methods lack generalization capability and tend to suffer from dramatic performance drops when deployed to unforeseen domains. To mitigate this issue, this paper designs a more general fake face detection model based on the vision transformer(ViT) architecture. In the training phase, the pretrained ViT weights are freezed, and only the Low-Rank Adaptation(LoRA) modules are updated. Additionally, the Single Center Loss(SCL) is applied to supervise the training process, further improving the generalization capability of the model. The proposed method achieves state-of-the-arts detection performances in both cross-manipulation and cross-dataset evaluations.
翻訳日:2023-03-03 16:18:21 公開日:2023-03-02
# バイオメディカルビジョン言語処理のための大規模ドメイン特化事前学習

Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing ( http://arxiv.org/abs/2303.00915v1 )

ライセンス: Link先を確認
Sheng Zhang, Yanbo Xu, Naoto Usuyama, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, Matthew P. Lungren, Tristan Naumann, and Hoifung Poon(参考訳) 並列画像テキストデータに対するコントラスト事前トレーニングは、CLIPと関連する手法によって実証されたビジョン言語処理(VLP)において大きな成功を収めている。 しかし、事前の探索はwebの一般的なドメインに焦点を当てる傾向がある。 バイオメディカル画像とテキストはかなり異なるが、公開されているデータセットは小さく、胸部x線に傾いているため、進歩をかなり制限している。 本稿では,pubmed centralのバイオメディカル研究論文から抽出された1500万対のフィギュアカプセルを用いて,バイオメディカルvlpに関する最も大きな研究を行った。 我々のデータセット(PMC-15M)は、MIMIC-CXRのような既存のバイオメディカル画像テキストデータセットよりも2桁大きく、多様なバイオメディカル画像にまたがる。 標準のCLIP法は生物医学領域に最適である。 バイオメディカルVLPに適合したドメイン特異的適応を持つバイオメディカルCLIPを提案する。 検索から分類,視覚質問応答 (VQA) まで, 標準的なバイオメディカルイメージングタスクに関する広範な実験とアブレーション研究を行った。 BiomedCLIPは、幅広い標準データセットでこの技術の新たな状態を確立し、以前のVLPアプローチよりも大幅に優れていた。 驚いたことに、BiomedCLIPは、RSNA肺炎検出などの放射線学固有のタスクにおいて、BioViLのような放射線学固有の最先端モデルよりも優れており、すべてのバイオメディカルイメージタイプにわたる大規模な事前トレーニングの有用性を強調している。 バイオメディカルVLPの今後の研究を促進するため、我々のモデルをhttps://aka.ms/biomedclipでリリースします。

Contrastive pretraining on parallel image-text data has attained great success in vision-language processing (VLP), as exemplified by CLIP and related methods. However, prior explorations tend to focus on general domains in the web. Biomedical images and text are rather different, but publicly available datasets are small and skew toward chest X-ray, thus severely limiting progress. In this paper, we conducted by far the largest study on biomedical VLP, using 15 million figure-caption pairs extracted from biomedical research articles in PubMed Central. Our dataset (PMC-15M) is two orders of magnitude larger than existing biomedical image-text datasets such as MIMIC-CXR, and spans a diverse range of biomedical images. The standard CLIP method is suboptimal for the biomedical domain. We propose BiomedCLIP with domain-specific adaptations tailored to biomedical VLP. We conducted extensive experiments and ablation studies on standard biomedical imaging tasks from retrieval to classification to visual question-answering (VQA). BiomedCLIP established new state of the art in a wide range of standard datasets, substantially outperformed prior VLP approaches. Surprisingly, BiomedCLIP even outperformed radiology-specific state-of-the-art models such as BioViL on radiology-specific tasks such as RSNA pneumonia detection, thus highlighting the utility in large-scale pretraining across all biomedical image types. We will release our models at https://aka.ms/biomedclip to facilitate future research in biomedical VLP.
翻訳日:2023-03-03 16:18:08 公開日:2023-03-02
# 完全テスト時間適応のためのニューロモーダル・ヘビアン学習

Neuro-Modulated Hebbian Learning for Fully Test-Time Adaptation ( http://arxiv.org/abs/2303.00914v1 )

ライセンス: Link先を確認
Yushun Tang, Ce Zhang, Heng Xu, Shuoshuo Chen, Jie Cheng, Luziwei Leng, Qinghai Guo, Zhihai He(参考訳) 完全なテスト時間適応は、深層ニューラルネットワークのクロスドメイン性能劣化問題に対処するために、推論段階で入力サンプルのシーケンシャル分析に基づいてネットワークモデルを適用することを目的としている。 我々は,神経細胞の反応を局所的なシナプス変化の手順に基づいて調整し,競合する側方抑制規則によって活性化する生物学的妥当性学習から着想を得た。 これらのフィードフォワード学習ルールに基づき、オンライン適応のための教師なしかつ効果的なメカニズムを提供するソフト・ヘビー学習プロセスを設計する。 フィードバック型神経変調層を組み込むことで,完全テスト時間適応のためのフィードフォワード・ヘビアン学習の性能を大幅に向上させることができる。 上位推論層からのエラーバックプロパゲーションによって生成された外部フィードバックに基づいてニューロン応答を微調整することができる。 そこで本研究では,神経修飾ヘビー学習 (nhl) 法を提案する。 教師なしフィードフォワードソフトなヘビアン学習と学習されたニューロ変調器を組み合わせることで、外部からの反応からのフィードバックを捉えることにより、ソースモデルはテストプロセス中に効果的に適応できる。 ベンチマークによる実験結果から,提案手法はネットワークモデルの適応性能を大幅に向上し,既存手法よりも優れることが示された。

Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. We take inspiration from the biological plausibility learning where the neuron responses are tuned based on a local synapse-change procedure and activated by competitive lateral inhibition rules. Based on these feed-forward learning rules, we design a soft Hebbian learning process which provides an unsupervised and effective mechanism for online adaptation. We observe that the performance of this feed-forward Hebbian learning for fully test-time adaptation can be significantly improved by incorporating a feedback neuro-modulation layer. It is able to fine-tune the neuron responses based on the external feedback generated by the error back-propagation from the top inference layers. This leads to our proposed neuro-modulated Hebbian learning (NHL) method for fully test-time adaptation. With the unsupervised feed-forward soft Hebbian learning being combined with a learned neuro-modulator to capture feedback from external responses, the source model can be effectively adapted during the testing process. Experimental results on benchmark datasets demonstrate that our proposed method can significantly improve the adaptation performance of network models and outperforms existing state-of-the-art methods.
翻訳日:2023-03-03 16:17:40 公開日:2023-03-02
# スケーラブル・マルチエージェント深層強化学習のためのネットワークプルーニングによるパラメータ共有

Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2303.00912v1 )

ライセンス: Link先を確認
Woojun Kim, Youngchul Sung(参考訳) スケーラビリティの問題を扱うことは、多エージェント強化学習(MARL)アルゴリズムが現実の問題に適用される上で不可欠な問題の一つである。 このため,パラメータ数を減らし,サンプル効率を向上させることでトレーニング時間を短縮できるため,複数のエージェント間でのパラメータ共有が広く利用されている。 しかしながら、エージェント間で同じパラメータを使用すると、ジョイントポリシーの表現能力が制限されるため、異なるエージェントの異なる振る舞いを必要とするマルチエージェントタスクでパフォーマンスが低下する可能性がある。 本稿では,深層ニューラルネットワークに構造化プルーニングを適用して,追加パラメータを導入することなく,共同政策の表現能力を高める方法を提案する。 提案手法をいくつかのベンチマークタスクで評価し,提案手法が他のパラメータ共有手法よりも優れていることを示す。

Handling the problem of scalability is one of the essential issues for multi-agent reinforcement learning (MARL) algorithms to be applied to real-world problems typically involving massively many agents. For this, parameter sharing across multiple agents has widely been used since it reduces the training time by decreasing the number of parameters and increasing the sample efficiency. However, using the same parameters across agents limits the representational capacity of the joint policy and consequently, the performance can be degraded in multi-agent tasks that require different behaviors for different agents. In this paper, we propose a simple method that adopts structured pruning for a deep neural network to increase the representational capacity of the joint policy without introducing additional parameters. We evaluate the proposed method on several benchmark tasks, and numerical results show that the proposed method significantly outperforms other parameter-sharing methods.
翻訳日:2023-03-03 16:17:17 公開日:2023-03-02
# 仮想量子資源蒸留

Virtual quantum resource distillation ( http://arxiv.org/abs/2303.00955v1 )

ライセンス: Link先を確認
Xiao Yuan, Bartosz Regula, Ryuji Takagi, and Mile Gu(参考訳) 蒸留または精製は、量子通信や計算でしばしば発生するノイズの多い環境での量子資源の実用化の中心である。 従来、蒸留には制限された「自由」操作を使い、うるさい状態を所望の純粋な状態に近い状態に変換する必要があった。 本稿では,対象純状態の測定統計量の近似を必要とし,測定結果の古典的後処理を可能にすることにより,この設定を緩和する。 仮想資源蒸留と呼ばれるこの拡張シナリオは、従来の資源を蒸留できないノイズ状態の浄化を可能にするため、蒸留の標準概念よりもかなり有利であることを示す。 本研究では,既存の資源量と逆比例するコスト(測定オーバーヘッド)で,一般状態を仮想的に蒸留できることを示し,そのコストを凸および半定値プログラミングにより効率的に推定する方法を開発し,計算可能なバウンダリを複数与えている。 我々は、コヒーレンス、絡み合い、魔法の蒸留への応用、および量子テレポーテーション(分散量子コンピューティング)の明確な例を考える。 この研究は、量子リソースを操作する一般的な方法を調査するための新しい道を開く。

Distillation, or purification, is central to the practical use of quantum resources in noisy settings often encountered in quantum communication and computation. Conventionally, distillation requires using some restricted 'free' operations to convert a noisy state into one that approximates a desired pure state. Here, we propose to relax this setting by only requiring the approximation of the measurement statistics of a target pure state, which allows for additional classical postprocessing of the measurement outcomes. We show that this extended scenario, which we call virtual resource distillation, provides considerable advantages over standard notions of distillation, allowing for the purification of noisy states from which no resources can be distilled conventionally. We show that general states can be virtually distilled with a cost (measurement overhead) that is inversely proportional to the amount of existing resource, and we develop methods to efficiently estimate such cost via convex and semidefinite programming, giving several computable bounds. We consider applications to coherence, entanglement, and magic distillation, and an explicit example in quantum teleportation (distributed quantum computing). This work opens a new avenue for investigating generalized ways to manipulate quantum resources.
翻訳日:2023-03-03 16:11:40 公開日:2023-03-02
# ニューラルネットワーク学習の高速化のための大きな偏差

Large Deviations for Accelerating Neural Networks Training ( http://arxiv.org/abs/2303.00954v1 )

ライセンス: Link先を確認
Sreelekha Guggilam, Varun Chandola, Abani Patra(参考訳) ニューラルネットワーク(ANN)のトレーニングには膨大な量のデータが必要です。 しかしながら、分類モデルでは、ほとんどのデータ特徴はよく似ており、パフォーマンスを著しく改善することなくトレーニング時間を増加させる可能性がある。 したがって、より優れた代表サンプルを用いてANNを訓練するより効率的な方法があるのではないか、という仮説を立てる。 そこで本研究では,大規模偏差原理を用いた新しい学習手法であるlad改善反復訓練(liit)を提案する。 これは将来の仕事の幅広い機会を持つ探索的な仕事です。 本論文は,(1)高次元データの研究に高次元化が不要な大偏差理論に基づいて,新しいアン学習法liitを提案する。 2) LIITアプローチでは,LAD異常スコアに基づくサンプリング戦略を用いてMTS(Modified Training Sample)を生成し,反復的に更新する。 3) mtsサンプルは,各クラスにおける観察の異常をほとんど含むことにより,トレーニングデータによく代表されるように設計されている。 これにより、異なるパターンと機能がより小さなサンプルで学習されることが保証される。 (4) LIIT訓練ANNと従来のバッチ訓練ANNの分類性能について検討した。

Artificial neural networks (ANNs) require tremendous amount of data to train on. However, in classification models, most data features are often similar which can lead to increase in training time without significant improvement in the performance. Thus, we hypothesize that there could be a more efficient way to train an ANN using a better representative sample. For this, we propose the LAD Improved Iterative Training (LIIT), a novel training approach for ANN using large deviations principle to generate and iteratively update training samples in a fast and efficient setting. This is exploratory work with extensive opportunities for future work. The thesis presents this ongoing research work with the following contributions from this study: (1) We propose a novel ANN training method, LIIT, based on the large deviations theory where additional dimensionality reduction is not needed to study high dimensional data. (2) The LIIT approach uses a Modified Training Sample (MTS) that is generated and iteratively updated using a LAD anomaly score based sampling strategy. (3) The MTS sample is designed to be well representative of the training data by including most anomalous of the observations in each class. This ensures distinct patterns and features are learnt with smaller samples. (4) We study the classification performance of the LIIT trained ANNs with traditional batch trained counterparts.
翻訳日:2023-03-03 16:11:22 公開日:2023-03-02
# muscleMap: ビデオベースの活動筋群推定を目指して

MuscleMap: Towards Video-based Activated Muscle Group Estimation ( http://arxiv.org/abs/2303.00952v1 )

ライセンス: Link先を確認
Kunyu Peng, David Schneider, Alina Roitberg, Kailun Yang, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen(参考訳) 本稿では,特定の活動を行うヒトの現在活動している筋領域を特定することを目的とした,ビデオベースの活動筋群推定(AMGE)の課題に取り組む。 ビデオベースのAMGEは重要な問題だが見過ごされている。 この目的のために、136の異なる活動と20のラベル付き筋群を持つ15Kビデオクリップを特徴とする筋Map136を提供する。 このデータセットは、スポーツおよびリハビリテーション医療における複数のビデオベースのアプリケーションに対するビスタを開く。 AMGEアノテーションで拡張されたよく知られたアクティビティ認識ベンチマークの新しい変種であるMosmos-UCF90とMosmosto-HMDB41で、運動を特に対象とするメインのMosmosMap136データセットを補完する。 筋マップ136では,複数ラベルの筋アノテーションを扱う場合のヒトの行動認識のための最先端アーキテクチャの限界と,見えない活動への適切な一般化が求められている。 そこで本研究では,amgeの現在の活動認識モデルを超えるマルチモーダルトランスフォーマーモデルであるtransm3eを提案する。 データセットとコードはhttps://github.com/KPeng9510/MuscleMapで公開されている。

In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying currently activated muscular regions of humans performing a specific activity. Video-based AMGE is an important yet overlooked problem. To this intent, we provide the MuscleMap136 featuring >15K video clips with 136 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine. We further complement the main MuscleMap136 dataset, which specifically targets physical exercise, with Muscle-UCF90 and Muscle-HMDB41, which are new variants of the well-known activity recognition benchmarks extended with AMGE annotations. With MuscleMap136, we discover limitations of state-of-the-art architectures for human activity recognition when dealing with multi-label muscle annotations and good generalization to unseen activities is required. To address this, we propose a new multimodal transformer-based model, TransM3E, which surpasses current activity recognition models for AMGE, especially as it comes to dealing with previously unseen activities. The datasets and code will be publicly available at https://github.com/KPeng9510/MuscleMap.
翻訳日:2023-03-03 16:11:02 公開日:2023-03-02
# オープンな問題: 固定予算による最適な腕識別

Open Problem: Optimal Best Arm Identification with Fixed Budget ( http://arxiv.org/abs/2303.00950v1 )

ライセンス: Link先を確認
Chao Qin(参考訳) 腕の識別や純粋な探索の問題は、Bubeck et al. (2009) や Audibert et al. (2010) 以降、COLTコミュニティで注目されている。 独特な最高の腕を持つバンドイットの例では、いわゆる固定信頼設定における漸近的複雑性は、ガリヴィエとカウフマン(2016年)とチャーノフ(1959年)によって完全に特徴づけられてきたが、固定バジェット設定と呼ばれる「二重」設定における漸近的複雑さについてはほとんど知られていない。 本項では、固定予算設定におけるインスタンス依存漸近複雑性に関する開問題と予想について述べる。

Best arm identification or pure exploration problems have received much attention in the COLT community since Bubeck et al. (2009) and Audibert et al. (2010). For any bandit instance with a unique best arm, its asymptotic complexity in the so-called fixed-confidence setting has been completely characterized in Garivier and Kaufmann (2016) and Chernoff (1959), while little is known about the asymptotic complexity in its "dual" setting called fixed-budget setting. This note discusses the open problems and conjectures about the instance-dependent asymptotic complexity in the fixed-budget setting.
翻訳日:2023-03-03 16:10:42 公開日:2023-03-02
# 完全導電性板の存在下での量子摩擦

Quantum friction in the presence of a perfectly conducting plate ( http://arxiv.org/abs/2303.00948v1 )

ライセンス: Link先を確認
Xin Guo, Kimball A. Milton, Gerard Kennedy and Nima Pourtolami(参考訳) 完全に導電されたプレートの近くで休んでいる中性であるが偏光性粒子は、プレートの表面に対して通常の力を感じ、粒子をプレートに向かって引っ張る傾向にある。 これはよく知られたカシミール・ポルダー力であり、長い間理論上提案され、実験的に観察されてきた。 本稿では, 完全な導電板に均一に平行に移動する原子上の横摩擦力について検討する。 不完全な表面の上を移動する粒子の量子摩擦について多くの理論的予測が見つかるが、完全な導電板による極端な状況は理論的なコミュニティによって無視されていたようである。 量子真空摩擦(ブラックホール摩擦)に関する以前の研究の自然な拡張として、この理想的なケースを調査し、完全な導電板の上を動く原子上に量子摩擦力が存在することを結論付ける。 興味深いことに、距離依存性、温度依存性、摩擦力のサインさえも原子の偏光状態に依存する可能性がある。 静的偏極性を持つ等方性原子では、結果として生じる摩擦力は負定値であり、従って真の抵抗である。 プレートの表面のすぐ上には、摩擦力の大きさは、プレートがないときの量子真空摩擦の2倍である。

A neutral but polarizable particle at rest near a perfectly conducting plate feels a force normal to the surface of the plate, which tends to pull the particle towards the plate. This is the well-known Casimir-Polder force, which has long been theoretically proposed and experimentally observed. In this paper, we explore the transverse frictional force on an atom moving uniformly parallel to a perfectly conducting plate. Although many theoretical predictions can be found for the quantum friction on a particle moving above an imperfect surface, the extreme situation with a perfectly conducting plate seems to have been largely ignored by the theoretical community. We investigate this ideal case as a natural extension of our previous works on quantum vacuum friction (blackbody friction), and conclude that there does exist a quantum frictional force on an atom moving above a perfectly conducting plate. Very interestingly, the distance dependence, the temperature dependence and even the sign of the frictional force can depend on the polarization state of the atom. For an isotropic atom with a static polarizability, the resultant frictional force is found to be negative definite and therefore remains a true drag. Just above the surface of the plate, the magnitude of the frictional force is twice that of the quantum vacuum friction in the absence of the plate.
翻訳日:2023-03-03 16:10:29 公開日:2023-03-02
# グラフニューラルネットワークの潜在構造と複数特徴を考慮した注意型グラフ畳み込み

Attention-based Graph Convolution Fusing Latent Structures and Multiple Features for Graph Neural Networks ( http://arxiv.org/abs/2303.00944v1 )

ライセンス: Link先を確認
Yang Li and Yuichi Tanaka(参考訳) 本稿では,グラフニューラルネットワーク(GNN)のための注意型空間グラフ畳み込み(AGC)を提案する。 既存のAGCはノードワイズ機能のみに焦点をあて、注意重みを計算する際に1種類の注意関数を利用する。 代わりに、AGCの表現力を改善するための2つの方法を提案する。 1)高次元空間における構造情報と 2)重みを計算する際の複数の注意機能。 第1の方法は、高次元空間におけるグラフの局所構造表現を計算する。 第2の方法は、1つのAGCで同時に複数の注意関数を利用する。 どちらのアプローチも組み合わせることができる。 また,ポイントクラウドの分類と,提案するagcに基づくポイントクラウド内のポイントラベルの予測のためのgnnを提案する。 実験の結果,提案したGNNは既存手法よりも優れた性能を示した。 私たちのコードはhttps://github.com/liyang-tuat/SFAGCで公開されています。

We present an attention-based spatial graph convolution (AGC) for graph neural networks (GNNs). Existing AGCs focus on only using node-wise features and utilizing one type of attention function when calculating attention weights. Instead, we propose two methods to improve the representational power of AGCs by utilizing 1) structural information in a high-dimensional space and 2) multiple attention functions when calculating their weights. The first method computes a local structure representation of a graph in a high-dimensional space. The second method utilizes multiple attention functions simultaneously in one AGC. Both approaches can be combined. We also propose a GNN for the classification of point clouds and that for the prediction of point labels in a point cloud based on the proposed AGC. According to experiments, the proposed GNNs perform better than existing methods. Our codes open at https://github.com/liyang-tuat/SFAGC.
翻訳日:2023-03-03 16:10:10 公開日:2023-03-02
# 行動における進化的計算: ギガピクセル病理画像の超次元深埋め込み空間

Evolutionary Computation in Action: Hyperdimensional Deep Embedding Spaces of Gigapixel Pathology Images ( http://arxiv.org/abs/2303.00943v1 )

ライセンス: Link先を確認
Azam Asilian Bidgoli, Shahryar Rahnamayan, Taher Dehkharghanian, Abtin Riasatian, H.R. Tizhoosh(参考訳) デジタル病理学を採用する主な障害の1つは、全スライド画像(WSI)と呼ばれる超次元デジタル化生検サンプルの効率的な処理である。 画像解析の高速化と病理の可視化と解釈の促進のためには,深層学習とコンパクトなwsi表現の導入が急務である。 本稿では,深層埋め込みの大規模多目的最適化(lsmop)に基づくwsi表現の新しい進化的アプローチを提案する。 まず,組織病理学を専門とする深層ネットワークであるkimianetを供給し,多数の特徴ベクトルを抽出するパッチベースのサンプリングから始める。 粗い多目的特徴選択は、分類精度と特徴数によって導かれる少ない探索空間戦略を用いる。 第2段階では、新しいWSI表現である頻繁な特徴ヒストグラム(FFH)は、粗いLSMOPの複数の実行によって構成される。 微細な進化的特徴選択は、FFHに基づくコンパクトな(短い)特徴ベクトルを見つけるために適用され、進化アルゴリズムの確率的力によって支持されるデジタル病理に対するより堅牢なディープラーニングアプローチに寄与する。 The Cancer Genome Atlas(TCGA)画像を用いて,WSI表現,分類精度,特徴品質の観点から提案手法を検証した。 さらに,LSMOP分野における複数基準決定のための新しい決定空間を導入する。 最後に,深い特徴の解釈性を高めるためにパッチレベルの可視化手法を提案する。 提案された進化アルゴリズムは、wsi(元の特徴ベクトルの約14,000倍小さい)を表す非常にコンパクトな特徴ベクトルを、最先端の手法で提供されるコードよりも8%高い精度で発見する。

One of the main obstacles of adopting digital pathology is the challenge of efficient processing of hyperdimensional digitized biopsy samples, called whole slide images (WSIs). Exploiting deep learning and introducing compact WSI representations are urgently needed to accelerate image analysis and facilitate the visualization and interpretability of pathology results in a postpandemic world. In this paper, we introduce a new evolutionary approach for WSI representation based on large-scale multi-objective optimization (LSMOP) of deep embeddings. We start with patch-based sampling to feed KimiaNet , a histopathology-specialized deep network, and to extract a multitude of feature vectors. Coarse multi-objective feature selection uses the reduced search space strategy guided by the classification accuracy and the number of features. In the second stage, the frequent features histogram (FFH), a novel WSI representation, is constructed by multiple runs of coarse LSMOP. Fine evolutionary feature selection is then applied to find a compact (short-length) feature vector based on the FFH and contributes to a more robust deep-learning approach to digital pathology supported by the stochastic power of evolutionary algorithms. We validate the proposed schemes using The Cancer Genome Atlas (TCGA) images in terms of WSI representation, classification accuracy, and feature quality. Furthermore, a novel decision space for multicriteria decision making in the LSMOP field is introduced. Finally, a patch-level visualization approach is proposed to increase the interpretability of deep features. The proposed evolutionary algorithm finds a very compact feature vector to represent a WSI (almost 14,000 times smaller than the original feature vectors) with 8% higher accuracy compared to the codes provided by the state-of-the-art methods.
翻訳日:2023-03-03 16:09:59 公開日:2023-03-02
# 多相CTにおける多型膵病変の鑑別診断のためのメタ情報対応デュアルパストランス

Meta-information-aware Dual-path Transformer for Differential Diagnosis of Multi-type Pancreatic Lesions in Multi-phase CT ( http://arxiv.org/abs/2303.00942v1 )

ライセンス: Link先を確認
Bo Zhou, Yingda Xia, Jiawen Yao, Le Lu, Jingren Zhou, Chi Liu, James S. Duncan, Ling Zhang(参考訳) 膵癌は、がん関連の死因の1つである。 膵病変の完全な分類、すなわち7つの主要な病変、その他の病変の正確な検出、分節化および鑑別診断は、患者の管理と治療の臨床的意思決定を助けるために重要である。 しかし、既存の研究は、非常に特異的な病変タイプ(PDAC)またはグループに対するセグメンテーションと分類に焦点を当てている。 また, 病変の有病率関連非画像化情報を用いた鑑別診断は行われていない。 この目的のために,メタインフォメーション対応デュアルパストランスフォーマーを開発し,膵病変の完全な分類と分類の可能性を活用した。 具体的には,CNNに基づくセグメンテーションパス(Sパス)とトランスフォーマーに基づく分類パス(Cパス)から構成される。 SパスはUNetベースのネットワークを用いたセマンティックセグメンテーションによる初期特徴抽出に焦点を当てている。 Cパスは抽出した特徴とメタ情報の両方を利用して、グローバルな文脈情報のモデリングを強化するデュアルパストランスフォーマーブロックのスタックに基づいて患者レベルの分類を行う。 病理診断された膵病変クラスラベル3,096例,放射線科医の病変のvoxel-wiseマニュアルアノテーション,メタ情報の大規模多相ctデータセットを訓練および評価のために収集した。 以上の結果から,本手法は膵病変の完全分類の正確な分類とセグメンテーションを可能にし,放射線技師の報告の正確性に近づき,従来よりも有意に優れていることが示唆された。 また、共通のメタ情報(性別や年齢など)を加えることで、モデルの性能が向上し、膵疾患の診断に役立つメタ情報の重要性が示された。

Pancreatic cancer is one of the leading causes of cancer-related death. Accurate detection, segmentation, and differential diagnosis of the full taxonomy of pancreatic lesions, i.e., normal, seven major types of lesions, and other lesions, is critical to aid the clinical decision-making of patient management and treatment. However, existing works focus on segmentation and classification for very specific lesion types (PDAC) or groups. Moreover, none of the previous work considers using lesion prevalence-related non-imaging patient information to assist the differential diagnosis. To this end, we develop a meta-information-aware dual-path transformer and exploit the feasibility of classification and segmentation of the full taxonomy of pancreatic lesions. Specifically, the proposed method consists of a CNN-based segmentation path (S-path) and a transformer-based classification path (C-path). The S-path focuses on initial feature extraction by semantic segmentation using a UNet-based network. The C-path utilizes both the extracted features and meta-information for patient-level classification based on stacks of dual-path transformer blocks that enhance the modeling of global contextual information. A large-scale multi-phase CT dataset of 3,096 patients with pathology-confirmed pancreatic lesion class labels, voxel-wise manual annotations of lesions from radiologists, and patient meta-information, was collected for training and evaluations. Our results show that our method can enable accurate classification and segmentation of the full taxonomy of pancreatic lesions, approaching the accuracy of the radiologist's report and significantly outperforming previous baselines. Results also show that adding the common meta-information, i.e., gender and age, can boost the model's performance, thus demonstrating the importance of meta-information for aiding pancreatic disease diagnosis.
翻訳日:2023-03-03 16:09:33 公開日:2023-03-02
# paraformer: 効率的な特徴マッチングのための並列注意トランス

ParaFormer: Parallel Attention Transformer for Efficient Feature Matching ( http://arxiv.org/abs/2303.00941v1 )

ライセンス: Link先を確認
Xiaoyong Lu, Yaping Yan, Bin Kang, Songlin Du(参考訳) 重い計算は、多くのリアルタイムアプリケーションに適用できるディープラーニングベースの機能マッチングアルゴリズムを制限するボトルネックである。 しかし、euclideanデータに最適化された既存の軽量ネットワークは、スパースキーポイントベースのディスクリプタがマッチすることが期待されているため、古典的な特徴マッチングタスクには対処できない。 本稿では,この問題に取り組み,2つの概念を提案する。 1)paraformerとparaformerという新しい並列注意モデル 2)注目プーリングを備えたグラフベースのU-Netアーキテクチャ。 第一に、ParaFormerは振幅と位相の概念を通じて特徴とキーポイントの位置を融合させ、自己と交差した注意を並列に統合し、精度と効率の点で勝訴性能を達成する。 第二に、U-Netアーキテクチャと注目プーリングの提案により、ParaFormer-Uは計算複雑性を著しく低減し、ダウンサンプリングによる性能損失を最小化する。 ホモグラフィ推定、ポーズ推定、画像マッチングを含む様々な応用に関する十分な実験により、paraformerは高い効率を維持しながら最先端のパフォーマンスを達成できることが示されている。 効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。

Heavy computation is a bottleneck limiting deep-learningbased feature matching algorithms to be applied in many realtime applications. However, existing lightweight networks optimized for Euclidean data cannot address classical feature matching tasks, since sparse keypoint based descriptors are expected to be matched. This paper tackles this problem and proposes two concepts: 1) a novel parallel attention model entitled ParaFormer and 2) a graph based U-Net architecture with attentional pooling. First, ParaFormer fuses features and keypoint positions through the concept of amplitude and phase, and integrates self- and cross-attention in a parallel manner which achieves a win-win performance in terms of accuracy and efficiency. Second, with U-Net architecture and proposed attentional pooling, the ParaFormer-U variant significantly reduces computational complexity, and minimize performance loss caused by downsampling. Sufficient experiments on various applications, including homography estimation, pose estimation, and image matching, demonstrate that ParaFormer achieves state-of-the-art performance while maintaining high efficiency. The efficient ParaFormer-U variant achieves comparable performance with less than 50% FLOPs of the existing attention-based models.
翻訳日:2023-03-03 16:09:03 公開日:2023-03-02
# 3次元意味セグメンテーションのための空間レイアウト一貫性

Spatial Layout Consistency for 3D Semantic Segmentation ( http://arxiv.org/abs/2303.00939v1 )

ライセンス: Link先を確認
Maryam Jameela, Gunho Sohn(参考訳) 多くのユーティリティネットワークインフラの老朽化により、最小限の人的介入でそれを検査できる堅牢で信頼性の高いコンピュータビジョンシステムの開発が研究の注目を集めている。 空中レーザー地形マッピング (altm) システムは、多くのセンサーのうちの中心的なデータ収集システムとなる。 高出力エネルギーで葉を貫く能力は広い範囲をカバーし、調査グレードの精度を達成する。 しかし、ALTMの高密度で不規則な点雲を分類するためのデータ取得プロセスは、効率と精度を向上させるために対処する必要がある重要なボトルネックである。 本稿では,ALTMの点雲のボクセルに基づくセマンティックセグメンテーションを実現するための新しいディープ畳み込みニューラルネットワーク(DCNN)手法を提案する。 提案する深層学習手法であるセマンティックユーティリティネットワーク(SUNet)は多次元・多次元ネットワークである。 sunetは2つのネットワークを結合する: 1つはマルチ解像度で点雲と3次元のオブジェクトカテゴリを分類し、もう1つは2次元の領域ラベルを非コリドールと区別する。 SUNetの重要な革新は、ボクセルベースおよび地域セグメンテーションの結果に空間的レイアウトの整合性を課すことである。 提案する多次元DCNNは,空間配置埋め込みのための階層的コンテキストと粗大な戦略を組み合わせる。 67 km x 67 km の実用廊下データを用いて5pp/m2の密度でSuNetの性能試験を行った。 実験の結果,SuNetの空間配置の整合性と多分解能特性の集約は,SOTAベースラインネットワークよりも優れた性能を示し,パイロン89%,グラウンド99%,植生99%,電力線98%に対して良好なF1スコアを得ることができた。

Due to the aged nature of much of the utility network infrastructure, developing a robust and trustworthy computer vision system capable of inspecting it with minimal human intervention has attracted considerable research attention. The airborne laser terrain mapping (ALTM) system quickly becomes the central data collection system among the numerous available sensors. Its ability to penetrate foliage with high-powered energy provides wide coverage and achieves survey-grade ranging accuracy. However, the post-data acquisition process for classifying the ALTM's dense and irregular point clouds is a critical bottleneck that must be addressed to improve efficiency and accuracy. We introduce a novel deep convolutional neural network (DCNN) technique for achieving voxel-based semantic segmentation of the ALTM's point clouds. The suggested deep learning method, Semantic Utility Network (SUNet) is a multi-dimensional and multi-resolution network. SUNet combines two networks: one classifies point clouds at multi-resolution with object categories in three dimensions and another predicts two-dimensional regional labels distinguishing corridor regions from non-corridors. A significant innovation of the SUNet is that it imposes spatial layout consistency on the outcomes of voxel-based and regional segmentation results. The proposed multi-dimensional DCNN combines hierarchical context for spatial layout embedding with a coarse-to-fine strategy. We conducted a comprehensive ablation study to test SUNet's performance using 67 km x 67 km of utility corridor data at a density of 5pp/m2. Our experiments demonstrated that SUNet's spatial layout consistency and a multi-resolution feature aggregation could significantly improve performance, outperforming the SOTA baseline network and achieving a good F1 score for pylon 89%, ground 99%, vegetation 99% and powerline 98% classes.
翻訳日:2023-03-03 16:08:44 公開日:2023-03-02
# 半教師付きコントラスト学習に基づく車載行動認識

Ego-Vehicle Action Recognition based on Semi-Supervised Contrastive Learning ( http://arxiv.org/abs/2303.00977v1 )

ライセンス: Link先を確認
Chihiro Noguchi, Toshihiro Tanizawa(参考訳) 近年、多くの自動車にはカメラが搭載されており、運転シーンのビデオ映像が大量に蓄積されている。 自動運転は、特定のシーンの認識精度を向上させるために、トレーニングデータに想像できないほど稀な運転シーンを収集する必要がある。 しかし、膨大な数のビデオから特定のシーンを見つけるのは、非常にコストがかかる。 本稿では,自走車行動に着目して,適切な映像間距離を定義できることを示す。 教師あり学習に基づく既存の手法では,事前に定義されたクラスに収まらない動画は処理できないことが知られているが,ラベル付きビデオ間の埋め込み空間におけるビデオ間距離の定義には有効である。 そこで本研究では,半教師付きコントラスト学習に基づく手法を提案する。 我々は,標準グラフコントラスト学習とSOIAに基づくコントラスト学習という,関連するが明確なコントラスト学習について考察する。 後者の手法は、ラベルなしビデオ間のより高感度なビデオ間距離を提供する。 次に、hddデータセットを用いた車体行動認識の分類性能を評価することにより、トレーニング中のラベルなしデータを含む手法が、トレーニング中のラベル付きデータのみを使用して既存の手法を大幅に上回ることを示すことにより、本手法の有効性を定量化する。

In recent years, many automobiles have been equipped with cameras, which have accumulated an enormous amount of video footage of driving scenes. Autonomous driving demands the highest level of safety, for which even unimaginably rare driving scenes have to be collected in training data to improve the recognition accuracy for specific scenes. However, it is prohibitively costly to find very few specific scenes from an enormous amount of videos. In this article, we show that proper video-to-video distances can be defined by focusing on ego-vehicle actions. It is well known that existing methods based on supervised learning cannot handle videos that do not fall into predefined classes, though they work well in defining video-to-video distances in the embedding space between labeled videos. To tackle this problem, we propose a method based on semi-supervised contrastive learning. We consider two related but distinct contrastive learning: standard graph contrastive learning and our proposed SOIA-based contrastive learning. We observe that the latter approach can provide more sensible video-to-video distances between unlabeled videos. Next, the effectiveness of our method is quantified by evaluating the classification performance of the ego-vehicle action recognition using HDD dataset, which shows that our method including unlabeled data in training significantly outperforms the existing methods using only labeled data in training.
翻訳日:2023-03-03 16:02:45 公開日:2023-03-02
# イメージラベルは、海草の粗いセグメンテーションに必要なすべてです

Image Labels Are All You Need for Coarse Seagrass Segmentation ( http://arxiv.org/abs/2303.00973v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire and Tobias Fischer(参考訳) 海草の牧草地は重要な炭素シンクとして機能するが、正確に保存されている炭素量の推定には海草種の知識が必要である。 機械学習アルゴリズムを備えた水中および表面の車両は、大規模な草原の組成と範囲を正確に推定するのに役立ちます。 しかし、過去の海草の検出と分類にはパッチレベルのラベルの完全な監視が必要であった。 本稿では,訓練中に画像レベルラベル(パッチレベルラベルより25倍少ないラベル)とパッチレベルアウトプットが推定時に得られる弱教師付き粗いセグメンテーション問題としてシーグラス分類を再構成する。 この目的のために、教師なしのコントラスト事前学習と異なるバックグラウンドおよびシーグラスパッチとの類似性を備えたアーキテクチャであるSeaFeatsと、ドメイン固有のアプリケーションにおける監視信号としての大規模言語モデルの有効性を示すモデルであるSeaCLIPを紹介する。 SeaFeatsとSeaCLIPのアンサンブルは極めて堅牢なパフォーマンスをもたらし、SeaCLIPは背景クラスを保守的に予測し、ぼやけたパッチや暗いパッチの誤ったシーグラスの誤分類を避ける。 本手法は,複数種'DeepSeagrass'データセットのパッチレベルラベルをクラス重み付きF1スコアに対して6.8%(絶対),12.1%(絶対)F1スコアで'Global Wetlands'データセット上での海草の存在/存在を示す。 また,実世界展開の事例として,Global Wetlandsデータセットの異常検出と,FloatyBoatが収集した画像への本手法の適用について述べる。

Seagrass meadows serve as critical carbon sinks, but accurately estimating the amount of carbon they store requires knowledge of the seagrass species present. Using underwater and surface vehicles equipped with machine learning algorithms can help to accurately estimate the composition and extent of seagrass meadows at scale. However, previous approaches for seagrass detection and classification have required full supervision from patch-level labels. In this paper, we reframe seagrass classification as a weakly supervised coarse segmentation problem where image-level labels are used during training (25 times fewer labels compared to patch-level labeling) and patch-level outputs are obtained at inference time. To this end, we introduce SeaFeats, an architecture that uses unsupervised contrastive pretraining and feature similarity to separate background and seagrass patches, and SeaCLIP, a model that showcases the effectiveness of large language models as a supervisory signal in domain-specific applications. We demonstrate that an ensemble of SeaFeats and SeaCLIP leads to highly robust performance, with SeaCLIP conservatively predicting the background class to avoid false seagrass misclassifications in blurry or dark patches. Our method outperforms previous approaches that require patch-level labels on the multi-species 'DeepSeagrass' dataset by 6.8% (absolute) for the class-weighted F1 score, and by 12.1% (absolute) F1 score for seagrass presence/absence on the 'Global Wetlands' dataset. We also present two case studies for real-world deployment: outlier detection on the Global Wetlands dataset, and application of our method on imagery collected by FloatyBoat, an autonomous surface vehicle.
翻訳日:2023-03-03 16:02:05 公開日:2023-03-02
# 小さな集合による実用的なネットワーク・アクセラレーション:仮説、理論、アルゴリズム

Practical Network Acceleration with Tiny Sets: Hypothesis, Theory, and Algorithm ( http://arxiv.org/abs/2303.00972v1 )

ライセンス: Link先を確認
Guo-Hua Wang, Jianxin Wu(参考訳) データプライバシーの問題により、小さなトレーニングセットでネットワークを加速することが、現実的に重要なニーズとなっている。 従来手法ではフィルタレベルのプルーニングにより有望な結果を得た。 本稿では,この問題を理論的に検討し,理論結果によく適合する効果的なアルゴリズムを提案する。 まず,最近の数発圧縮アルゴリズムがオーバーフィット問題に苦しまない理由を説明するために,細粒度凸性仮説を提案する。 これに基づいて、これらの方法を初めて説明する理論が確立されている。 プルーニングネットワークの微調整に比べて、特徴模倣はパラメータのばらつきを低くすることができ、最適化が容易である。 理論的結論から、より凸最適化とより高い加速比の観点から、投下ブロックは基本的に優れた数ショット圧縮スキームであると主張する。 落下するブロックを選択するために,圧縮されたネットワークの復旧の難しさを効果的に測定する新しい指標,回復可能性を提案する。 最後に,小さなトレーニングセットのみを用いてネットワークを高速化するPRACTISEというアルゴリズムを提案する。 PRACTISEは従来の手法よりも大幅に優れていた。 22%のレイテンシ削減では、imagenet-1kでは、従来のメソッドを平均7パーセント上回っている。 データフリーやドメイン外のデータ設定でもうまく機能します。 私たちのコードはhttps://github.com/DoctorKey/Practiseにあります。

Due to data privacy issues, accelerating networks with tiny training sets has become a critical need in practice. Previous methods achieved promising results empirically by filter-level pruning. In this paper, we both study this problem theoretically and propose an effective algorithm aligning well with our theoretical results. First, we propose the finetune convexity hypothesis to explain why recent few-shot compression algorithms do not suffer from overfitting problems. Based on it, a theory is further established to explain these methods for the first time. Compared to naively finetuning a pruned network, feature mimicking is proved to achieve a lower variance of parameters and hence enjoys easier optimization. With our theoretical conclusions, we claim dropping blocks is a fundamentally superior few-shot compression scheme in terms of more convex optimization and a higher acceleration ratio. To choose which blocks to drop, we propose a new metric, recoverability, to effectively measure the difficulty of recovering the compressed network. Finally, we propose an algorithm named PRACTISE to accelerate networks using only tiny training sets. PRACTISE outperforms previous methods by a significant margin. For 22% latency reduction, it surpasses previous methods by on average 7 percentage points on ImageNet-1k. It also works well under data-free or out-of-domain data settings. Our code is at https://github.com/DoctorKey/Practise
翻訳日:2023-03-03 16:01:28 公開日:2023-03-02
# クロススケール歪みを考慮した室内パノラマルームレイアウト推定のための直交面の分離

Disentangling Orthogonal Planes for Indoor Panoramic Room Layout Estimation with Cross-Scale Distortion Awareness ( http://arxiv.org/abs/2303.00971v1 )

ライセンス: Link先を確認
Zhijie Shen, Zishuo Zheng, Chunyu Lin, Lang Nie, Kang Liao, and Yao Zhao(参考訳) マンハッタン世界想定に基づき、既存の屋内レイアウト推定スキームのほとんどは、垂直圧縮された1dシーケンスからレイアウトを復元することに焦点を当てている。 しかし、圧縮手順は異なる平面のセマンティクスを混乱させ、不明瞭な解釈性で劣る性能をもたらす。 そこで本研究では, 複雑なシーンから直交面(垂直面と水平面)を事前セグメンテーションし, 室内レイアウト推定のための幾何学的手がかりを明示的に捉えることにより, この1次元表現を解消する。 床の境界と天井の境界の対称性を考慮し,プレセグメンテーションを支援するソフトフリップ融合戦略を設計する。 さらに,浅層・深部の特徴と歪み分布認識を効果的に統合する機能組立機構を提案する。 プレセグメンテーションにおける潜在的なエラーを補うために,さらに3重の注意を生かして,絡み合ったシーケンスを再構築し,性能を向上する。 4つの人気のあるベンチマークの実験は、既存のSoTAソリューション、特に3DIoUメトリックよりも優れていることを示している。 コードは \url{https://github.com/zhijieshen-bjtu/dopnet} で入手できる。

Based on the Manhattan World assumption, most existing indoor layout estimation schemes focus on recovering layouts from vertically compressed 1D sequences. However, the compression procedure confuses the semantics of different planes, yielding inferior performance with ambiguous interpretability. To address this issue, we propose to disentangle this 1D representation by pre-segmenting orthogonal (vertical and horizontal) planes from a complex scene, explicitly capturing the geometric cues for indoor layout estimation. Considering the symmetry between the floor boundary and ceiling boundary, we also design a soft-flipping fusion strategy to assist the pre-segmentation. Besides, we present a feature assembling mechanism to effectively integrate shallow and deep features with distortion distribution awareness. To compensate for the potential errors in pre-segmentation, we further leverage triple attention to reconstruct the disentangled sequences for better performance. Experiments on four popular benchmarks demonstrate our superiority over existing SoTA solutions, especially on the 3DIoU metric. The code is available at \url{https://github.com/zhijieshen-bjtu/DOPNet}.
翻訳日:2023-03-03 16:01:09 公開日:2023-03-02
# 混合ナッシュ平衡の確率的粒子ベースプリマル双対アルゴリズム

Provable Particle-based Primal-Dual Algorithm for Mixed Nash Equilibrium ( http://arxiv.org/abs/2303.00970v1 )

ライセンス: Link先を確認
Shihong Ding, Hanze Dong, Cong Fang, Zhouchen Lin, Tong Zhang(参考訳) 連続変数に対する一般の非凸非凸ミニマックス問題を考える。 この問題に対する大きな課題は、鞍点が存在しないかもしれないことである。 この問題を解決するために、連続変数上の確率分布で表されるランダム化戦略である混合ナッシュ平衡を求めるという関連する問題を考察する。 本稿では,混合ナッシュ平衡に対するランダム戦略の更新を表現するために,粒子の確率的移動を用いた確率分布上の弱エントロピー正規化min-max最適化手法のための粒子ベース原始双対アルゴリズム(ppda)を提案する。 提案アルゴリズムの厳密な収束解析を提供する。 運動のない粒子重みを更新しようとする以前の研究と比較すると、PPDAは非漸近的な定量的収束結果、実行時間、サンプルの複雑さを保証する最初の実装可能な粒子ベースアルゴリズムである。 我々のフレームワークは、一般の非凸非凹面設定における連続最小値最適化のための粒子ベースアルゴリズムの設計に関する新しい知見を提供する。

We consider the general nonconvex nonconcave minimax problem over continuous variables. A major challenge for this problem is that a saddle point may not exist. In order to resolve this difficulty, we consider the related problem of finding a Mixed Nash Equilibrium, which is a randomized strategy represented by probability distributions over the continuous variables. We propose a Particle-based Primal-Dual Algorithm (PPDA) for a weakly entropy-regularized min-max optimization procedure over the probability distributions, which employs the stochastic movements of particles to represent the updates of random strategies for the mixed Nash Equilibrium. A rigorous convergence analysis of the proposed algorithm is provided. Compared to previous works that try to update particle weights without movements, PPDA is the first implementable particle-based algorithm with non-asymptotic quantitative convergence results, running time, and sample complexity guarantees. Our framework gives new insights into the design of particle-based algorithms for continuous min-max optimization in the general nonconvex nonconcave setting.
翻訳日:2023-03-03 16:00:48 公開日:2023-03-02
# 同時機械翻訳のためのテストセットの推論可能性の再検討

Rethinking the Reasonability of the Test Set for Simultaneous Machine Translation ( http://arxiv.org/abs/2303.00969v1 )

ライセンス: Link先を確認
Mengge Liu, Wen Zhang, Xiang Li, Jian Luan, Bin Wang, Yuhang Guo, Shuoying Chen(参考訳) 同時機械翻訳(SimulMT)モデルは、原文の終了前に翻訳を開始し、翻訳を原文と単調に一致させる。 しかし,SimulMT モデルの性能を過小評価するかどうかを再考するために,SimulMT 評価のために設計されていない全文のオフライン翻訳により,一般的な全文翻訳テストセットが取得される。 本稿では,SiMuST-C と表記される MuST-C 英語-中国語テストセットに基づく単調テストセットを手動でアノテートする。 我々の人的評価は、注釈付きテストセットの受容性を確認する。 3種類のSimulMTモデルに対する評価により,テストセット上での過小評価問題を緩和できることを確認した。 さらなる実験により、自動抽出された単調トレーニングセットの微調整により、SimulMTモデルが最大3 BLEU点まで改善されることが示されている。

Simultaneous machine translation (SimulMT) models start translation before the end of the source sentence, making the translation monotonically aligned with the source sentence. However, the general full-sentence translation test set is acquired by offline translation of the entire source sentence, which is not designed for SimulMT evaluation, making us rethink whether this will underestimate the performance of SimulMT models. In this paper, we manually annotate a monotonic test set based on the MuST-C English-Chinese test set, denoted as SiMuST-C. Our human evaluation confirms the acceptability of our annotated test set. Evaluations on three different SimulMT models verify that the underestimation problem can be alleviated on our test set. Further experiments show that finetuning on an automatically extracted monotonic training set improves SimulMT models by up to 3 BLEU points.
翻訳日:2023-03-03 16:00:32 公開日:2023-03-02
# マルチエージェント社会選択によるダイナミックフェアネス・アウェア・レコメンデーション

Dynamic fairness-aware recommendation through multi-agent social choice ( http://arxiv.org/abs/2303.00968v1 )

ライセンス: Link先を確認
Amanda Aird, Paresha Farastu, Joshua Sun, Amy Voida, Nicholas Mattei, Robin Burke(参考訳) パーソナライズドレコメンデーションの文脈におけるアルゴリズム的公平性は、分類タスクでよく遭遇する人々とは大きく異なる課題を示している。 分類を研究する研究者は一般に、公正性は保護されたグループと保護されていないグループの間の結果の平等を達成する問題であるとみなし、この基準に基づいてアルゴリズムによる介入を構築した。 私たちは、現実世界のアプリケーション全般、特にパーソナライズドレコメンデーションの文脈における公平性は、より複雑で多面的であり、より一般的なアプローチを必要とすると主張している。 2段階の社会的選択問題として,レコメンダシステムにおけるマルチテイクホルダフェアネスを定式化するモデルを提案する。 特に,公平性問題とパーソナライズド・レコメンデーション規定の両方を統合したアロケーション問題とアグリゲーション問題の新たな組み合わせとしてレコメンデーション・フェアネスを表現し,この定式化に基づく新しいレコメンデーション手法を導出する。 シミュレーションは、フレームワークが動的に複数の公正な関心事を統合する能力を示している。

Algorithmic fairness in the context of personalized recommendation presents significantly different challenges to those commonly encountered in classification tasks. Researchers studying classification have generally considered fairness to be a matter of achieving equality of outcomes between a protected and unprotected group, and built algorithmic interventions on this basis. We argue that fairness in real-world application settings in general, and especially in the context of personalized recommendation, is much more complex and multi-faceted, requiring a more general approach. We propose a model to formalize multistakeholder fairness in recommender systems as a two stage social choice problem. In particular, we express recommendation fairness as a novel combination of an allocation and an aggregation problem, which integrate both fairness concerns and personalized recommendation provisions, and derive new recommendation techniques based on this formulation. Simulations demonstrate the ability of the framework to integrate multiple fairness concerns in a dynamic way.
翻訳日:2023-03-03 16:00:16 公開日:2023-03-02
# 説明可能な機械学習を用いた顧客チャーン予測モデル

Customer Churn Prediction Model using Explainable Machine Learning ( http://arxiv.org/abs/2303.00960v1 )

ライセンス: Link先を確認
Jitendra Maan, Harsh Maan(参考訳) 顧客の振舞いを予測し、デジタル化の急速な成長とともに既存の顧客を維持することは、顧客がサブスクリプションベースの製品やサービスモデルを選択する機会を拡大する重要な課題となっている。 新しい顧客獲得のコストは、既存の顧客を維持するよりも5倍高いため、業界全体の大きな脅威である顧客チャーン問題に対処する必要がある。 収益に対する直接的な影響を考慮すると、企業は顧客のチャーン率を増加させる要因を特定します。 この論文の重要な目的は、最も混乱しがちである潜在的な顧客を予測し、そのような早期警告は、それらを保持するための修正措置を取るのに役立つ、ユニークな顧客チャーン予測モデルを開発することである。 そこで本研究では,木ベースの機械学習手法とアルゴリズムの性能を評価し分析し,xgboost分類器を顧客チャーン問題の最適解として同定した。 このような現実世界の問題に対処するため、Paper氏は、Churn Prediction Modelがどのように予測を行っているのかを顧客が理解するための重要な指標であるModel Interpretabilityを強調している。 モデル説明可能性と透明性を改善するために、モデルにとってどの機能が最も重要な/関連する機能であるかを説明するために、機能の組み合わせが可能なShapley値を計算する新しいアプローチを提案した。

It becomes a significant challenge to predict customer behavior and retain an existing customer with the rapid growth of digitization which opens up more opportunities for customers to choose from subscription-based products and services model. Since the cost of acquiring a new customer is five-times higher than retaining an existing customer, henceforth, there is a need to address the customer churn problem which is a major threat across the Industries. Considering direct impact on revenues, companies identify the factors that increases the customer churn rate. Here, key objective of the paper is to develop a unique Customer churn prediction model which can help to predict potential customers who are most likely to churn and such early warnings can help to take corrective measures to retain them. Here, we evaluated and analyzed the performance of various tree-based machine learning approaches and algorithms and identified the Extreme Gradient Boosting XGBOOST Classifier as the most optimal solution to Customer churn problem. To deal with such real-world problems, Paper emphasize the Model interpretability which is an important metric to help customers to understand how Churn Prediction Model is making predictions. In order to improve Model explainability and transparency, paper proposed a novel approach to calculate Shapley values for possible combination of features to explain which features are the most important/relevant features for a model to become highly interpretable, transparent and explainable to potential customers.
翻訳日:2023-03-03 15:59:54 公開日:2023-03-02
# パリティ保護コンバータを用いた高忠実マイクロ波ビームスプリッタ

A high-fidelity microwave beamsplitter with a parity-protected converter ( http://arxiv.org/abs/2303.00959v1 )

ライセンス: Link先を確認
Yao Lu, Aniket Maiti, John W. O. Garmon, Suhas Ganjam, Yaxing Zhang, Jahan Claes, Luigi Frunzio, S. M. Girvin, Robert J. Schoelkopf(参考訳) マイクロ波共振器間の高速で高忠実な動作は、ボゾン量子計算と超伝導回路によるシミュレーションにとって重要なツールである。 これらの操作を実装するための魅力的なアプローチは、非線形コンバータを介してこれらの共振器を結合し、パラメトリックプロセスをRFドライブで作動させることである。 寄生過程を活性化することなく強力なドライブを導入するか、さらにデコヒーレンスチャネルを導入する必要があるため、これらのプロセスを同時に高速かつ高忠実にすることは困難である。 本研究では, 駆動周波数と環境騒音のスペクトルを慎重に管理することに加えて, 変換器ハミルトンの内蔵対称性を利用して不要な非線形相互作用を抑制でき, コンバータによるデコヒーレンスを防止できることを示す。 差動駆動型DC-SQUIDをコンバータとし、2つの高Qマイクロ波キャビティを組み合わせたこれらの原理を実証する。 このアーキテクチャを用いて、高コヒーレントなビームスプリッターと高速な($100 ns)キャビティ間のスワップを設計した。 このビームスプリッターをキャビティのジョイント単光子部分空間で特徴付けし、光子損失イベントを検出後選択することで、ビームスプリッターゲートの忠実度が99.98$\%$を超えることを証明し、我々の知識が現在のアートをはるかに上回っていることを示す。

Fast, high-fidelity operations between microwave resonators are an important tool for bosonic quantum computation and simulation with superconducting circuits. An attractive approach for implementing these operations is to couple these resonators via a nonlinear converter and actuate parametric processes with RF drives. It can be challenging to make these processes simultaneously fast and high fidelity, since this requires introducing strong drives without activating parasitic processes or introducing additional decoherence channels. We show that in addition to a careful management of drive frequencies and the spectrum of environmental noise, leveraging the inbuilt symmetries of the converter Hamiltonian can suppress unwanted nonlinear interactions, preventing converter-induced decoherence. We demonstrate these principles using a differentially-driven DC-SQUID as our converter, coupled to two high-Q microwave cavities. Using this architecture, we engineer a highly-coherent beamsplitter and fast ($\sim$ 100 ns) swaps between the cavities, limited primarily by their intrinsic single-photon loss. We characterize this beamsplitter in the cavities' joint single-photon subspace, and show that we can detect and post-select photon loss events to achieve a beamsplitter gate fidelity exceeding 99.98$\%$, which to our knowledge far surpasses the current state of the art.
翻訳日:2023-03-03 15:59:30 公開日:2023-03-02
# 選好トランスフォーマー:rl用トランスフォーマーを用いた人間選好のモデリング

Preference Transformer: Modeling Human Preferences using Transformers for RL ( http://arxiv.org/abs/2303.00957v1 )

ライセンス: Link先を確認
Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee(参考訳) 嗜好に基づく強化学習(RL)は,2つの行動間の人間の嗜好を用いてエージェントを訓練する枠組みを提供する。 しかし, 嗜好に基づくRLは, 人間の意図に沿った報酬関数を学習するために, 大量のフィードバックを必要とするため, スケールが困難である。 本稿では,トランスを用いた人間の嗜好をモデル化するニューラルネットワークであるPreference Transformerを提案する。 決定に等しく寄与するマルコフ的報酬に基づく人間の判断を仮定した先行アプローチとは異なり,非マルコフ的報酬の重み付け和に基づく新しい選好モデルを導入する。 次に,因果的および双方向的自己照応層を積み重ねるトランスアーキテクチャを用いて,提案する選好モデルを設計する。 従来のアプローチでは動作しないが,人間の好みを用いて,様々な制御タスクを優先トランスフォーマーが解決できることを実証する。 また,人間の意思決定における時間的依存性を自動的に捉えることにより,選好トランスフォーマーが適切な報酬を誘導し,軌道上の重要な事象に対処できることを示した。 コードはプロジェクトのwebサイト(https://sites.google.com/view/preference-transformer.com)で入手できる。

Preference-based reinforcement learning (RL) provides a framework to train agents using human preferences between two behaviors. However, preference-based RL has been challenging to scale since it requires a large amount of human feedback to learn a reward function aligned with human intent. In this paper, we present Preference Transformer, a neural architecture that models human preferences using transformers. Unlike prior approaches assuming human judgment is based on the Markovian rewards which contribute to the decision equally, we introduce a new preference model based on the weighted sum of non-Markovian rewards. We then design the proposed preference model using a transformer architecture that stacks causal and bidirectional self-attention layers. We demonstrate that Preference Transformer can solve a variety of control tasks using real human preferences, while prior approaches fail to work. We also show that Preference Transformer can induce a well-specified reward and attend to critical events in the trajectory by automatically capturing the temporal dependencies in human decision-making. Code is available on the project website: https://sites.google.com/view/preference-transformer.
翻訳日:2023-03-03 15:59:01 公開日:2023-03-02
# X&Fuse:テキスト・画像生成における視覚情報の利用

X&Fuse: Fusing Visual Information in Text-to-Image Generation ( http://arxiv.org/abs/2303.01000v1 )

ライセンス: Link先を確認
Yuval Kirstain, Omer Levy, Adam Polyak(参考訳) X&Fuseはテキストから画像を生成する際の視覚情報に基づく一般的な手法である。 3つの異なるテキスト・画像生成シナリオにおけるX&Fuseの可能性を示す。 (i)画像バンクが利用可能になると、関連する画像(Retrieve&Fuse)を検索して条件付けし、MS-COCOベンチマークを大幅に改善し、ゼロショット設定で6.65の最先端のFIDスコアを得る。 (ii) 被写体画像が手元にある場合,これらを利用して被写体駆動生成(crop&fuse)を行い,x100以上高速でテキスト反転法を上回った。 3)画像シーンへのオラクルアクセス(Scene&Fuse)により、ゼロショット設定でMS-COCOのFIDスコア5.03を達成することができる。 実験の結果,X&Fuseは,モデルが付加的な視覚情報から恩恵を受けるシナリオに対して,効果的で,適応しやすく,シンプルで,汎用的なアプローチであることが示唆された。

We introduce X&Fuse, a general approach for conditioning on visual information when generating images from text. We demonstrate the potential of X&Fuse in three different text-to-image generation scenarios. (i) When a bank of images is available, we retrieve and condition on a related image (Retrieve&Fuse), resulting in significant improvements on the MS-COCO benchmark, gaining a state-of-the-art FID score of 6.65 in zero-shot settings. (ii) When cropped-object images are at hand, we utilize them and perform subject-driven generation (Crop&Fuse), outperforming the textual inversion method while being more than x100 faster. (iii) Having oracle access to the image scene (Scene&Fuse), allows us to achieve an FID score of 5.03 on MS-COCO in zero-shot settings. Our experiments indicate that X&Fuse is an effective, easy-to-adapt, simple, and general approach for scenarios in which the model may benefit from additional visual information.
翻訳日:2023-03-03 15:52:46 公開日:2023-03-02
# Few-shot Pseudo-supervised Contrastive Learningによる教師なしメタラーニング

Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive Learning ( http://arxiv.org/abs/2303.00996v1 )

ライセンス: Link先を確認
Huiwon Jang, Hankook Lee, Jinwoo Shin(参考訳) 教師なしメタラーニングは、ラベルなしデータから構築されたタスクの分布を通して、一般化可能な知識を学習することを目的としている。 ここでの課題は、ラベル情報なしでメタラーニングのための多様なタスクを構築する方法である;最近の研究は、例えば、事前訓練された表現による擬似ラベルの作成や生成モデルによる合成サンプルの作成を提案している。 しかし,このようなタスク構築戦略は,メタラーニング中に不変な擬似ラベルに大きく依存することや,表現や生成されたサンプルの品質に大きく依存していることから,基本的に制限されている。 この制限を克服するために,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。 PsCoは、モーメントネットワークと以前のバッチのキューを使用して、擬似ラベルの改善と、多様なタスクを段階的に構築する。 我々の広範な実験により、PsCoは既存の教師なしメタラーニング手法よりも、ドメイン内およびドメイン間数ショット分類ベンチマークで優れていることが示された。 PsCoは大規模ベンチマークに容易に拡張可能であるが、最近の先行技術メタスキーマはそうではない。

Unsupervised meta-learning aims to learn generalizable knowledge across a distribution of tasks constructed from unlabeled data. Here, the main challenge is how to construct diverse tasks for meta-learning without label information; recent works have proposed to create, e.g., pseudo-labeling via pretrained representations or creating synthetic samples via generative models. However, such a task construction strategy is fundamentally limited due to heavy reliance on the immutable pseudo-labels during meta-learning and the quality of the representations or the generated samples. To overcome the limitations, we propose a simple yet effective unsupervised meta-learning framework, coined Pseudo-supervised Contrast (PsCo), for few-shot classification. We are inspired by the recent self-supervised learning literature; PsCo utilizes a momentum network and a queue of previous batches to improve pseudo-labeling and construct diverse tasks in a progressive manner. Our extensive experiments demonstrate that PsCo outperforms existing unsupervised meta-learning methods under various in-domain and cross-domain few-shot classification benchmarks. We also validate that PsCo is easily scalable to a large-scale benchmark, while recent prior-art meta-schemes are not.
翻訳日:2023-03-03 15:52:27 公開日:2023-03-02
# サンプルサイズ推定器を用いた逐次最小最適化アルゴリズム

Sequential minimum optimization algorithm with small sample size estimators ( http://arxiv.org/abs/2303.00992v1 )

ライセンス: Link先を確認
Wojciech Roga, Takafumi Ono, Masahiro Takeoka(参考訳) 逐次最小最適化は、機械学習のグローバル検索訓練アルゴリズムである。 他のパラメータが与えられたチューナブルパラメータに対するコスト関数の機能的依存性を安価に決定できる場合に適用できる。 この仮定は既知のゲートからなる量子回路によって満たされる。 本手法をフォトニクス回路に適用することにより,偶然事象の頻度の低さがアルゴリズムの速度を低下させる。 機械学習タスクをうまく実行するのに十分なサンプルサイズ推定器を小型化するアルゴリズムを提案する。 データ再アップロードを伴う量子光学分類器に適用した修正アルゴリズムの有効性を実証する。

Sequential minimum optimization is a machine-learning global search training algorithm. It is applicable when the functional dependence of the cost function on a tunable parameter given the other parameters can be cheaply determined. This assumption is satisfied by quantum circuits built of known gates. We apply it to photonics circuits where the additional challenge appears: low frequency of coincidence events lowers the speed of the algorithm. We propose to modify the algorithm such that small sample size estimators are enough to successfully run the machine learning task. We demonstrate the effectiveness of the modified algorithm applying it to a quantum optics classifier with data reuploading.
翻訳日:2023-03-03 15:52:06 公開日:2023-03-02
# 2モード圧縮コヒーレント入力を用いたミシェルソン干渉計の位相感度の最適化

Optimizing the phase sensitivity of a Michelson interferometer with a two mode squeezed coherent input ( http://arxiv.org/abs/2303.00990v1 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Xiao-Qi Xiao, Hwang Lee(参考訳) 2モードスクイーズドコヒーレント入力を持つミシェルソン型干渉計について考察した。 このような干渉計はショットノイズ限界よりも高い位相感度を持ち、e^{2r}$ であり、ここで r$ はスクイーズパラメータである [phys. rev. a 102,022614 (2020)]。 両腕の光子損失と雑音が非対称である場合、スキーズ角度の最適選択は入力やポンプのパワーを増大させることなく位相感度を向上させることができることを示す。 特に干渉計の片腕のみに損失が発生すると、光子損失の位相感度が最大80\%向上する。 したがって、LiDAR、ジャイロスコープ、高吸収・反射材料の屈折率測定など、いくつかの応用において顕著な改善がなされる。

A Michelson-type interferometer with two-mode squeezed coherent state input is considered. Such an interferometer has a better phase sensitivity over the shot-noise limit by a factor of $e^{2r}$, where $r$ is the squeezing parameter [Phys. Rev. A 102,022614 (2020)]. We show that when photon loss and noise in the two arms is asymmetric an optimal choice of the squeezing angle can allow improvement in phase sensitivity without any increase in input or pump power. In particular, when loss occurs only in one arm of the interferometer, we can have improvement in phase sensitivity for photon loss up to 80\%. Hence, a significant improvement can be made in several applications such as LiDAR, gyroscopes and measuring refractive indices of highly absorptive/reflective materials.
翻訳日:2023-03-03 15:51:57 公開日:2023-03-02
# 低密度のパイロットを持つ大規模mimoシステムのためのデュアルアテンションベースのチャネル推定ネットワーク

Pay Less But Get More: A Dual-Attention-based Channel Estimation Network for Massive MIMO Systems with Low-Density Pilots ( http://arxiv.org/abs/2303.00986v1 )

ライセンス: Link先を確認
Binggui Zhou, Xi Yang, Shaodan Ma, Feifei Gao, and Guanghua Yang(参考訳) 大規模マルチインプット・マルチアウトプット(MIMO)システムの有望な利点を享受するには,チャネル推定により正確なチャネル状態情報(CSI)が必要となる。 しかし、複雑な無線伝搬環境と大規模アンテナアレーにより、大規模mimoシステムの正確なチャネル推定は極めて困難であり、膨大なトレーニングオーバーヘッドがかかる。 CSIの十分な精度を得るために時間的資源が消費され、それによってシステムのスペクトルとエネルギー効率が著しく低下する。 本稿では,重大MIMOチャネルの時空間領域の特徴を時空間アテンションモジュールと空間アテンションモジュールとで分離することにより,低密度パイロットによる正確なチャネル推定を実現するための二重アテンションに基づくチャネル推定ネットワーク(DACEN)を提案する。 推定精度をさらに向上するため,DACENに基づくパラメータ-インスタンス変換学習手法を提案し,トレーニングデータセット収集期間中に取得した高密度パイロットから学習したチャネル知識を伝達する。 公開データセットを用いた実験結果から,低密度パイロットを用いたDACEN法(\rho_L=6/52$)は,高密度パイロット(\rho_H=26/52$)であっても,既存の手法よりも優れたチャネル推定性能が得られることがわかった。 さらに, 提案手法では, DACEN を用いた超低密度パイロット (\rho_L^\prime=2/52$) 法は, 従来の低密度パイロット法よりも高い評価精度を実現し, 提案手法の有効性と優位性を示す。

To reap the promising benefits of massive multiple-input multiple-output (MIMO) systems, accurate channel state information (CSI) is required through channel estimation. However, due to the complicated wireless propagation environment and large-scale antenna arrays, precise channel estimation for massive MIMO systems is significantly challenging and costs an enormous training overhead. Considerable time-frequency resources are consumed to acquire sufficient accuracy of CSI, which thus severely degrades systems' spectral and energy efficiencies. In this paper, we propose a dual-attention-based channel estimation network (DACEN) to realize accurate channel estimation via low-density pilots, by decoupling the spatial-temporal domain features of massive MIMO channels with the temporal attention module and the spatial attention module. To further improve the estimation accuracy, we propose a parameter-instance transfer learning approach based on the DACEN to transfer the channel knowledge learned from the high-density pilots pre-acquired during the training dataset collection period. Experimental results on a publicly available dataset reveal that the proposed DACEN-based method with low-density pilots ($\rho_L=6/52$) achieves better channel estimation performance than the existing methods even with higher-density pilots ($\rho_H=26/52$). Additionally, with the proposed transfer learning approach, the DACEN-based method with ultra-low-density pilots ($\rho_L^\prime=2/52$) achieves higher estimation accuracy than the existing methods with low-density pilots, thereby demonstrating the effectiveness and the superiority of the proposed method.
翻訳日:2023-03-03 15:51:40 公開日:2023-03-02
# データセットとアルゴリズムの符号化

Encoding of data sets and algorithms ( http://arxiv.org/abs/2303.00984v1 )

ライセンス: Link先を確認
Katarina Doctor, Tong Mao, Hrushikesh Mhaskar(参考訳) 多くの高インパクトアプリケーションでは、使用するアルゴリズムの複雑さと比較して、機械学習アルゴリズムの出力品質と信頼性を保証することが重要である。 本稿では,アルゴリズムの性能や複雑性といった特定の指標から,どのモデル(データ集合に適用されるアルゴリズム)が互いに近いかを決定するために,数学的に厳密な理論を開始した。 これには、データセットとアルゴリズムの仮想空間上にグリッドを作成して、データセットをサンプリングした有限個の確率分布と有限個のアルゴリズムの集合を特定することが含まれる。 このグリッドに作用する所定のしきい値計量は、各アルゴリズムと利害関係のデータセットから任意のアプリケーションへの近さ(または統計距離)を表現する。 このプロジェクトの技術的に難しい部分は、これらの空間の定義で生じる \textbf{infinitely many variable} のコンパクト部分集合のいわゆる計量エントロピーを推定することである。

In many high-impact applications, it is important to ensure the quality of output of a machine learning algorithm as well as its reliability in comparison with the complexity of the algorithm used. In this paper, we have initiated a mathematically rigorous theory to decide which models (algorithms applied on data sets) are close to each other in terms of certain metrics, such as performance and the complexity level of the algorithm. This involves creating a grid on the hypothetical spaces of data sets and algorithms so as to identify a finite set of probability distributions from which the data sets are sampled and a finite set of algorithms. A given threshold metric acting on this grid will express the nearness (or statistical distance) from each algorithm and data set of interest to any given application. A technically difficult part of this project is to estimate the so-called metric entropy of a compact subset of functions of \textbf{infinitely many variables} that arise in the definition of these spaces.
翻訳日:2023-03-03 15:51:10 公開日:2023-03-02
# 自動車知覚システムの性能を定量化するシミュレーションの利用

Using simulation to quantify the performance of automotive perception systems ( http://arxiv.org/abs/2303.00983v1 )

ライセンス: Link先を確認
Zhenyi Liu, Devesh Shah, Alireza Rahimpour, Devesh Upadhyay, Joyce Farrell, Brian A Wandell(参考訳) 複雑なシステムの設計と評価は、ソフトウェアシミュレーション(デジタルツインと呼ばれることもある)の恩恵を受ける。 このシミュレーションは、システムの性能を特徴づけたり、測定しにくい条件(例えば、自動車の知覚システムにおける夜間)でその性能をテストするために使用することができる。 本稿では,物体(自動車)検出のための画像システムの性能評価に使用する画像システムシミュレーションソフトウェアについて述べる。 様々な光学および画素サイズを持つ13種類のカメラを用いた実験について述べる。 カメラ空間分解能の影響を測定するため,様々な距離に車両を配置した運転シーンのコレクションを設計した。 平均精度の測定によりシステム性能を定量化し,システム分解能と物体検出性能に関するトレンドを報告する。 また,全カメラおよびCOCO事前訓練ネットワークにおいて,夜間に比べて夜間における大規模な性能劣化を定量化した。

The design and evaluation of complex systems can benefit from a software simulation - sometimes called a digital twin. The simulation can be used to characterize system performance or to test its performance under conditions that are difficult to measure (e.g., nighttime for automotive perception systems). We describe the image system simulation software tools that we use to evaluate the performance of image systems for object (automobile) detection. We describe experiments with 13 different cameras with a variety of optics and pixel sizes. To measure the impact of camera spatial resolution, we designed a collection of driving scenes that had cars at many different distances. We quantified system performance by measuring average precision and we report a trend relating system resolution and object detection performance. We also quantified the large performance degradation under nighttime conditions, compared to daytime, for all cameras and a COCO pre-trained network.
翻訳日:2023-03-03 15:50:58 公開日:2023-03-02
# 効率的な変圧器訓練のための事前学習モデルの構築

Learning to Grow Pretrained Models for Efficient Transformer Training ( http://arxiv.org/abs/2303.00980v1 )

ライセンス: Link先を確認
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David Daniel Cox, Zhangyang Wang, Yoon Kim(参考訳) トランスフォーマーのスケーリングは、多くのドメインにおいて大きなブレークスルーをもたらし、既存のモデルのより大きなバージョンを訓練し、定期的にリリースするパラダイムへとつながった。 このようなモデルの新たなインスタンスは、通常、スクラッチから完全にトレーニングされる。 既存のモデルのパラメータにおける暗黙の知識を使って、新しい大きなモデルのより高速なトレーニングを可能にするには、どうすればよいのか? 本稿では,事前学習されたトランスフォーマーの成長を学習し,より小さいモデルのパラメータを線形にマッピングし,より大きなモデルを初期化するトランスフォーマートレーニングの促進手法について述べる。 トラクタブル・ラーニングでは、線形変換を(線形)幅および深さ成長演算子の合成として分解し、さらにこれらの成長演算子のクロネッカー分解を用いてアーキテクチャ的知識をエンコードする。 言語および視覚トランスフォーマー間の大規模な実験により、学習した線形成長演算子(LiGO)は、スクラッチから最大50%の計算コストを削減できる一方で、より小さな事前学習モデルを再利用してより大規模なモデルを初期化する強力なベースラインを一貫して上回ります。

Scaling transformers has led to significant breakthroughs in many domains, leading to a paradigm in which larger versions of existing models are trained and released on a periodic basis. New instances of such models are typically trained completely from scratch, despite the fact that they are often just scaled-up versions of their smaller counterparts. How can we use the implicit knowledge in the parameters of smaller, extant models to enable faster training of newer, larger models? This paper describes an approach for accelerating transformer training by learning to grow pretrained transformers, where we learn to linearly map the parameters of the smaller model to initialize the larger model. For tractable learning, we factorize the linear transformation as a composition of (linear) width- and depth-growth operators, and further employ a Kronecker factorization of these growth operators to encode architectural knowledge. Extensive experiments across both language and vision transformers demonstrate that our learned Linear Growth Operator (LiGO) can save up to 50% computational cost of training from scratch, while also consistently outperforming strong baselines that also reuse smaller pretrained models to initialize larger models.
翻訳日:2023-03-03 15:50:44 公開日:2023-03-02
# ドメイン類似度に基づく重み付けを用いたマルチソースソフト擬似ラベル学習

Multi-Source Soft Pseudo-Label Learning with Domain Similarity-based Weighting for Semantic Segmentation ( http://arxiv.org/abs/2303.00979v1 )

ライセンス: Link先を確認
Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura(参考訳) 本稿では,対象データセットと必ずしも関係のない複数のソースデータセットを用いたセマンティックセマンティックセマンティクスのためのドメイン適応トレーニング手法について述べる。 複数のソースモデルから予測対象確率を統合することで,ソフトな擬似ラベル生成手法を提案する。 各ソースモデルの予測は、ソースとターゲットデータセット間の推定領域類似度に基づいて重み付けされ、ターゲットとより類似したソースに基づいてトレーニングされたモデルの寄与を強調し、合理的な擬似ラベルを生成する。 また,それらのエントロピーを考慮したソフト擬似ラベルを用いたトレーニング手法を提案する。 実験では,従来の作業と既存のマルチソースドメイン適応手法との比較や性能向上,および様々なターゲット環境への適用性を示した。

This paper describes a method of domain adaptive training for semantic segmentation using multiple source datasets that are not necessarily relevant to the target dataset. We propose a soft pseudo-label generation method by integrating predicted object probabilities from multiple source models. The prediction of each source model is weighted based on the estimated domain similarity between the source and the target datasets to emphasize contribution of a model trained on a source that is more similar to the target and generate reasonable pseudo-labels. We also propose a training method using the soft pseudo-labels considering their entropy to fully exploit information from the source datasets while suppressing the influence of possibly misclassified pixels. The experiments show comparative or better performance than our previous work and another existing multi-source domain adaptation method, and applicability to a variety of target environments.
翻訳日:2023-03-03 15:50:22 公開日:2023-03-02
# エンドツーエンド音声要約のための大規模テキストコーパスの活用

Leveraging Large Text Corpora for End-to-End Speech Summarization ( http://arxiv.org/abs/2303.00978v1 )

ライセンス: Link先を確認
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Atsunori Ogawa, Marc Delcroix, Ryo Masumura(参考訳) エンドツーエンド音声要約(E2E SSum)は、音声から要約文を直接生成する技術である。 自動音声認識(ASR)とテキスト要約モデルを組み合わせたカスケードアプローチと比較して、E2Eアプローチは、ASRエラーを軽減し、非言語情報を取り込み、システム全体を単純化するため、より有望である。 しかし、大量のペアデータ(音声と要約)の収集が難しいため、トレーニングデータは通常、堅牢なE2E SSumシステムをトレーニングするには不十分である。 本稿では,E2E SSumトレーニングに大量の外部テキスト要約データを活用する2つの新しい手法を提案する。 最初のテクニックは、テキスト要約によるE2E SSumトレーニングに使用される合成音声を生成するために、TTS(text-to-speech)システムを使用することである。 2つ目は、合成音声の代わりに直接音素シーケンスをE2E SSumモデルに入力するTSフリー方式である。 実験により,提案するttsおよびphonemeに基づく手法により,how2データセットのメトリクスが改善されることを示す。 特に、私たちの最良のシステムは、過去の最先端システムよりも大きなマージン(METEORが6ポイント以上改善した点)で優れています。 私たちの知る限りでは、E2E SSumのために外部言語リソースを使用する最初の作業です。 さらに,提案するE2E SSumシステムの有効性を確認するために,ハウ2データセットの詳細な解析を行った。

End-to-end speech summarization (E2E SSum) is a technique to directly generate summary sentences from speech. Compared with the cascade approach, which combines automatic speech recognition (ASR) and text summarization models, the E2E approach is more promising because it mitigates ASR errors, incorporates nonverbal information, and simplifies the overall system. However, since collecting a large amount of paired data (i.e., speech and summary) is difficult, the training data is usually insufficient to train a robust E2E SSum system. In this paper, we present two novel methods that leverage a large amount of external text summarization data for E2E SSum training. The first technique is to utilize a text-to-speech (TTS) system to generate synthesized speech, which is used for E2E SSum training with the text summary. The second is a TTS-free method that directly inputs phoneme sequence instead of synthesized speech to the E2E SSum model. Experiments show that our proposed TTS- and phoneme-based methods improve several metrics on the How2 dataset. In particular, our best system outperforms a previous state-of-the-art one by a large margin (i.e., METEOR score improvements of more than 6 points). To the best of our knowledge, this is the first work to use external language resources for E2E SSum. Moreover, we report a detailed analysis of the How2 dataset to confirm the validity of our proposed E2E SSum system.
翻訳日:2023-03-03 15:50:09 公開日:2023-03-02
# グラフニューラルネットワークにおけるハミルトン情報伝搬からのノード埋め込み

Node Embedding from Hamiltonian Information Propagation in Graph Neural Networks ( http://arxiv.org/abs/2303.01030v1 )

ライセンス: Link先を確認
Qiyu Kang, Kai Zhao, Yang Song, Sijie Wang, Rui She, and Wee Peng Tay(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに対する様々な推論タスクで成功している。 しかし、多くのGNNが文献で直面している一般的な課題は、様々なジオメトリにグラフノードを埋め込む問題とオーバー・スムーシングの問題である。 これらの問題に対処するため,ハミルトニアン動的GNN(HDG)と呼ばれる新しいグラフ情報伝搬戦略を提案する。 HDGのハミルトニアンエネルギー関数は学習可能であり、任意のグラフデータセットの基底幾何学に適応することができる。 我々は,様々な下流タスクにおける最先端のベースラインに対する総合的な評価を通じて,グラフデータセットの基盤となる幾何を,複雑かつ混合されたジオメトリーでも自動的に学習する能力を示す。 また,hdgが小さい摂動に対して安定であることを検証し,多数の層を積み重ねる際のオーバースムーシング問題を緩和できることを示した。

Graph neural networks (GNNs) have achieved success in various inference tasks on graph-structured data. However, common challenges faced by many GNNs in the literature include the problem of graph node embedding under various geometries and the over-smoothing problem. To address these issues, we propose a novel graph information propagation strategy called Hamiltonian Dynamic GNN (HDG) that uses a Hamiltonian mechanics approach to learn node embeddings in a graph. The Hamiltonian energy function in HDG is learnable and can adapt to the underlying geometry of any given graph dataset. We demonstrate the ability of HDG to automatically learn the underlying geometry of graph datasets, even those with complex and mixed geometries, through comprehensive evaluations against state-of-the-art baselines on various downstream tasks. We also verify that HDG is stable against small perturbations and can mitigate the over-smoothing problem when stacking many layers.
翻訳日:2023-03-03 15:43:14 公開日:2023-03-02
# 最適状態生成コストをもつ非単位力学に対するハミルトンシミュレーションの線形結合

Linear combination of Hamiltonian simulation for non-unitary dynamics with optimal state preparation cost ( http://arxiv.org/abs/2303.01029v1 )

ライセンス: Link先を確認
Dong An, Jin-Peng Liu, Lin Lin(参考訳) 本稿では,非ユニタリダイナミクスの一般クラスを,ハミルトニアン・シミュレーション(lchs)問題の線形結合としてシミュレートする方法を提案する。 LCHSは、問題を拡張線形系問題に変換することやスペクトル写像定理に頼らない。 後者は、量子特異値変換(qsvt)のような非ユニタリ過程を含む幅広いタスクを解決するための多くの量子アルゴリズムの数学的基礎である。 LCHS法は, 状態調製における最適コストを実現することができる。 また、全てのパラメータにほぼ最適に依存する複素吸収ポテンシャル法によるオープン量子力学シミュレーションの応用を実証する。

We propose a simple method for simulating a general class of non-unitary dynamics as a linear combination of Hamiltonian simulation (LCHS) problems. LCHS does not rely on converting the problem into a dilated linear system problem, or on the spectral mapping theorem. The latter is the mathematical foundation of many quantum algorithms for solving a wide variety of tasks involving non-unitary processes, such as the quantum singular value transformation (QSVT). The LCHS method can achieve optimal cost in terms of state preparation. We also demonstrate an application for open quantum dynamics simulation using the complex absorbing potential method with near-optimal dependence on all parameters.
翻訳日:2023-03-03 15:42:58 公開日:2023-03-02
# Specformer: スペクトルグラフニューラルネットワークがTransformerと出会う

Specformer: Spectral Graph Neural Networks Meet Transformers ( http://arxiv.org/abs/2303.01028v1 )

ライセンス: Link先を確認
Deyu Bo and Chuan Shi and Lele Wang and Renjie Liao(参考訳) スペクトルグラフニューラルネットワーク(GNN)は、スペクトル領域グラフ畳み込みを通じてグラフ表現を学ぶ。 しかし、既存のスペクトルグラフフィルタのほとんどはスカラー-スカラー関数、すなわち1つの固有値から1つのフィルタ値へのマッピングであり、スペクトルのグローバルパターンを無視している。 さらに、これらのフィルタはしばしば、表現性や柔軟性が制限されたいくつかの固定階多項式に基づいて構築される。 そこで本研究では,すべての固有値の集合を効果的にエンコードし,スペクトル領域に自己アテンションを行うspecformerを導入し,学習可能なset-to-setスペクトルフィルタを実現する。 また、非局所グラフ畳み込みを可能にする学習可能なベースを持つデコーダを設計する。 重要なことは、Specformerは置換と同型である。 複数のSpecformerレイヤを積み重ねることで、強力なスペクトルGNNを構築することができる。 合成データセットでは、他のスペクトルGNNよりも、地中スペクトルフィルタをよりよく回収できることが示される。 実世界のグラフデータセットにおけるノードレベルのタスクとグラフレベルのタスクの広範な実験は、Specformerが最先端のGNNより優れ、有意義なスペクトルパターンを学ぶことを示している。 コードとデータはhttps://github.com/bdy9527/specformerで入手できる。

Spectral graph neural networks (GNNs) learn graph representations via spectral-domain graph convolutions. However, most existing spectral graph filters are scalar-to-scalar functions, i.e., mapping a single eigenvalue to a single filtered value, thus ignoring the global pattern of the spectrum. Furthermore, these filters are often constructed based on some fixed-order polynomials, which have limited expressiveness and flexibility. To tackle these issues, we introduce Specformer, which effectively encodes the set of all eigenvalues and performs self-attention in the spectral domain, leading to a learnable set-to-set spectral filter. We also design a decoder with learnable bases to enable non-local graph convolution. Importantly, Specformer is equivariant to permutation. By stacking multiple Specformer layers, one can build a powerful spectral GNN. On synthetic datasets, we show that our Specformer can better recover ground-truth spectral filters than other spectral GNNs. Extensive experiments of both node-level and graph-level tasks on real-world graph datasets show that our Specformer outperforms state-of-the-art GNNs and learns meaningful spectrum patterns. Code and data are available at https://github.com/bdy9527/Specformer.
翻訳日:2023-03-03 15:42:48 公開日:2023-03-02
# 量子マイクロ波パラメトリック干渉計

Quantum microwave parametric interferometer ( http://arxiv.org/abs/2303.01026v1 )

ライセンス: Link先を確認
F. Kronowetter, F. Fesquet, M. Renger, K. Honasoge, Y. Nojiri, K. Inomata, Y. Nakamura, A. Marx, R. Gross, K. G. Fedorov(参考訳) 古典的干渉計は様々な物理量の正確な測定に不可欠である。 精度は標準量子限界によって制限される。 この限界は、量子状態や非線形量子要素を用いることで克服できる。 ここではマイクロ波系で動作する非線形ジョセフソン干渉計の実験的検討を行う。 量子マイクロ波パラメトリック干渉計(qumpi)は超伝導磁束駆動ジョセフソンパラメトリック増幅器と線形マイクロ波素子を組み合わせたものである。 実装されたqumpiを体系的に分析する。 ガウス干渉力はショットノイズ限界を超え、出力モードでポアソニアン以下の光子統計を観測する。 さらに、量子照明プロトコルにおける最適量子計測に不可欠なQUMPIの低利得演算系を同定する。

Classical interferometers are indispensable tools for the precise determination of various physical quantities. Their accuracy is bound by the standard quantum limit. This limit can be overcome by using quantum states or nonlinear quantum elements. Here, we present the experimental study of a nonlinear Josephson interferometer operating in the microwave regime. Our quantum microwave parametric interferometer (QUMPI) is based on superconducting flux-driven Josephson parametric amplifiers combined with linear microwave elements. We perform a systematic analysis of the implemented QUMPI. We find that its Gaussian interferometric power exceeds the shot-noise limit and observe sub-Poissonian photon statistics in the output modes. Furthermore, we identify a low-gain operation regime of the QUMPI which is essential for optimal quantum measurements in quantum illumination protocols.
翻訳日:2023-03-03 15:42:28 公開日:2023-03-02
# 断熱的量子学習

Adiabatic quantum learning ( http://arxiv.org/abs/2303.01023v1 )

ライセンス: Link先を確認
Nannan Ma, Wenhao Chu, and Jiangbin Gong(参考訳) 断熱型量子制御プロトコルは、実際の実行時間に対するロバスト性と非感受性のため、量子計算に広く関心が寄せられている。 従来の量子学習アルゴリズムの拡張として、本研究は「断熱的量子学習」と呼ばれる断熱的量子進化に基づくいくつかの量子学習プロトコルの実行を提案する。 従来の量子機械学習プロトコルでは、出力は通常、事前に選択された可観測物の期待値であり、射影測定によって量子回路が何度も実行され、妥当な精度で出力が得られる。 対照的に、ここで提案された断熱的量子学習は、将来の断熱的弱測定プロトコルと統合され、システムの単一の測定により、関連する量子状態を混乱させることなく、関心のある観測物の期待値を抽出することができる。 私たちの考えは簡単な例で示されています。

Adiabatic quantum control protocols have been of wide interest to quantum computation due to their robustness and insensitivity to their actual duration of execution. As an extension of previous quantum learning algorithms, this work proposes to execute some quantum learning protocols based entirely on adiabatic quantum evolution, hence dubbed as ``adiabatic quantum learning". In a conventional quantum machine learning protocol, the output is usually the expectation value of a pre-selected observable and the projective measurement of which forces a quantum circuit to run many times to obtain the output with a reasonable precision. By contrast, the proposed adiabatic quantum learning here may be integrated with future adiabatic weak measurement protocols, where a single measurement of the system allows to extract the expectation value of observables of interest without disrupting the concerned quantum states. Our main idea is illustrated with simple examples.
翻訳日:2023-03-03 15:42:18 公開日:2023-03-02
# CADeSH: スマートホームの協調的異常検出

CADeSH: Collaborative Anomaly Detection for Smart Homes ( http://arxiv.org/abs/2303.01021v1 )

ライセンス: Link先を確認
Yair Meidan, Dan Avraham, Hanan Libhaber, Asaf Shabtai(参考訳) home iot(internet of things)デバイスは通常平易でタスク指向だが、日々の使用状況はトラフィックパターンに影響する可能性がある。 このため、異常に基づく侵入検知システムは、高い偽陽性率(FPR)に悩まされる傾向にある。 そこで本研究では、まずオートエンコーダを用いて、頻繁な(" Benign")と頻繁な("malicious")トラフィックフローを区別する2段階の協調的異常検出手法を提案する。 クラスタリングは、希少なフローのみを分析し、それを既知の("rare yet beign")または未知の("malicious")と分類するために使用される。 本手法は,(1) 様々なユーザインタラクションやネットワークトポロジを考慮して, 正常な動作をより堅牢に特徴付けるとともに, (2) 検査対象デバイスではなく, 同一デバイスのプールに基づいて複数の特徴を計算し, 協調的な手法である。 我々は、さまざまなネットワーク上に展開された8つの同一のIoTデバイスから生成された21日間のリアルタイムトラフィックデータを用いて、実験的な手法の評価を行った。 協調異常検出法により,精度リコール曲線0.841,f1スコア0.929,fprわずか0.014のマクロ平均面積を達成した。 これらの有望な結果は、実験室のラベル付きトラフィックデータをテストセットとして使用し、実験室外に配置された機器のトラフィックに関するモデルをトレーニングし、高い一般化性を示した。 高一般化性と有望な性能に加えて,提案手法では,プライバシ保護,リソース節約,モデル中毒軽減などのメリットも提供する。 それに加えて、科学コミュニティへの貢献として、私たちの新しいデータセットがオンラインで利用可能です。

Although home IoT (Internet of Things) devices are typically plain and task oriented, the context of their daily use may affect their traffic patterns. For this reason, anomaly-based intrusion detection systems tend to suffer from a high false positive rate (FPR). To overcome this, we propose a two-step collaborative anomaly detection method which first uses an autoencoder to differentiate frequent (`benign') and infrequent (possibly `malicious') traffic flows. Clustering is then used to analyze only the infrequent flows and classify them as either known ('rare yet benign') or unknown (`malicious'). Our method is collaborative, in that (1) normal behaviors are characterized more robustly, as they take into account a variety of user interactions and network topologies, and (2) several features are computed based on a pool of identical devices rather than just the inspected device. We evaluated our method empirically, using 21 days of real-world traffic data that emanated from eight identical IoT devices deployed on various networks, one of which was located in our controlled lab where we implemented two popular IoT-related cyber-attacks. Our collaborative anomaly detection method achieved a macro-average area under the precision-recall curve of 0.841, an F1 score of 0.929, and an FPR of only 0.014. These promising results were obtained by using labeled traffic data from our lab as the test set, while training the models on the traffic of devices deployed outside the lab, and thus demonstrate a high level of generalizability. In addition to its high generalizability and promising performance, our proposed method also offers benefits such as privacy preservation, resource savings, and model poisoning mitigation. On top of that, as a contribution to the scientific community, our novel dataset is available online.
翻訳日:2023-03-03 15:42:03 公開日:2023-03-02
# ネットワークサービス近接度に基づく強化学習エージェントのドメイン適応

Domain Adaptation of Reinforcement Learning Agents based on Network Service Proximity ( http://arxiv.org/abs/2303.01013v1 )

ライセンス: Link先を確認
Kaushik Dey, Satheesh K. Perepu, Pallab Dasgupta, Abir Das(参考訳) 無線ネットワークにおけるサービス要求の動的かつ進化的な性質は、ネットワークサービスのポートフォリオの増大を制御するためのインテリジェントな自己適応型強化学習(RL)エージェントを検討するテレコム産業を動機付けている。 多くの新しいタイプのサービスの注入は、将来6Gネットワークが採用されると予想され、時にこれらのサービスは、ネットワーク外部のアプリケーションによって定義される。 特定のサービスタイプのニーズを管理するために訓練されたrlエージェントは、ドメイン適応なしで異なるサービスタイプを管理するのに理想的ではありません。 我々は、新しいサービスと既存のサービス間の近接度を評価するための簡単なヒューリスティックを提供し、最も近いサービスのRLエージェントが、ドメイン適応の明確に定義されたプロセスを通じて、新しいサービスタイプに迅速に適応することを示す。 当社のアプローチでは,学習したソースポリシを,新たなポリシを再トレーニングすることなく,動的に変化する新たな状況に適応させることによって,大幅なコンピューティングとコスト効率の向上を実現します。 このようなドメイン適応技術は、急速に進化するサービスタイプに直面した、より一般化されたRLベースのサービス管理の基礎を提供するかもしれない。

The dynamic and evolutionary nature of service requirements in wireless networks has motivated the telecom industry to consider intelligent self-adapting Reinforcement Learning (RL) agents for controlling the growing portfolio of network services. Infusion of many new types of services is anticipated with future adoption of 6G networks, and sometimes these services will be defined by applications that are external to the network. An RL agent trained for managing the needs of a specific service type may not be ideal for managing a different service type without domain adaptation. We provide a simple heuristic for evaluating a measure of proximity between a new service and existing services, and show that the RL agent of the most proximal service rapidly adapts to the new service type through a well defined process of domain adaptation. Our approach enables a trained source policy to adapt to new situations with changed dynamics without retraining a new policy, thereby achieving significant computing and cost-effectiveness. Such domain adaptation techniques may soon provide a foundation for more generalized RL-based service management under the face of rapidly evolving service types.
翻訳日:2023-03-03 15:41:31 公開日:2023-03-02
# k$-core攻撃問題に対する階層的サイクルツリーパッキングモデル

Hierarchical cycle-tree packing model for $K$-core attack problem ( http://arxiv.org/abs/2303.01007v1 )

ライセンス: Link先を確認
Jianwen Zhou, Hai-Jun Zhou(参考訳) グラフの$k$-coreは、各頂点が少なくとも$k$の他の頂点と接続する唯一の最大部分グラフである。 k$-coreの最適攻撃問題は、k$-coreの完全な崩壊をもたらす最小サイズの頂点の集合を構築することを要求する。 本稿では,長期相関した$K$-coreプルーニングプロセスを静的パターンに変換する階層型サイクルツリーパッキングモデルを構築し,統計物理学のレプリカ対称性(RS)キャビティ手法を用いて解析する。 サイクルツリー誘導攻撃(CTGA)メッセージパスアルゴリズムは、ランダム正規グラフとエルドス・レーニグラフに対して優れた性能を示す。 これは、$K$-core攻撃セットの最小濃度に関する新しい上限を提供する。 この研究のモデルは、他の不可逆な力学過程に対する最適初期条件を構築するために拡張することができる。

The $K$-core of a graph is the unique maximum subgraph within which each vertex connects to at least $K$ other vertices. The $K$-core optimal attack problem asks to construct a minimum-sized set of vertices whose removal results in the complete collapse of the $K$-core. In this paper, we construct a hierarchical cycle-tree packing model which converts a long-range correlated $K$-core pruning process into static patterns and analyze this model through the replica-symmetric (RS) cavity method of statistical physics. The cycle-tree guided attack (CTGA) message-passing algorithm exhibits superior performance on random regular and Erdos-Renyi graphs. It provides new upper bounds on the minimal cardinality of the $K$-core attack set. The model of this work may be extended to construct optimal initial conditions for other irreversible dynamical processes.
翻訳日:2023-03-03 15:41:14 公開日:2023-03-02
# 非線形ボソニックマクスウェルの悪魔

Nonlinear bosonic Maxwell's demon ( http://arxiv.org/abs/2303.01005v1 )

ライセンス: Link先を確認
Atirach Ritboon and Radim Filip(参考訳) システム内のゆらぎを測定することで貴重な資源を抽出するというマクスウェルのデーモン原理は、既に現代の量子物理学を刺激していた。 古典物理学とは対照的に、プローブへの自由結合とその自由測定はシステム状態を根本的に形作る。 これはマックスウェルのデーモン効果の新しい次元となり、得られた情報に加えて、システムに対するバックアクションを利用でき、さらなる応用に不可欠である。 量子ボソニック・マックスウェルのデーモンを2段階のシステムに結合して、この問題に簡単に対処する。 エネルギー的に保守的なJaynes-Cummings相互作用によるエネルギー量子の決定論的多重減算は、非平衡状態をもたらす。 いまだに超ポアソニアンであるが、共鳴的に他の2レベル系を熱状態よりも良く励起することができる。 マクスウェルのデーモン演算によりポアソニアンに近い超ポアソニアン統計のさらなる低減と励起率の向上を図るため、非線形Jaynes-Cummings相互作用によるエネルギー的に保守的なマルチフォノンサブトラクションの使用を提案する。 両方の決定論的減算の最適組み合わせは、ショットノイズ制限源が生成するポアソン分布に極端にボソニックな非線形飽和を必要とする理想的なレーザーとしてアプローチする統計をもたらす。

Maxwell's demon principle of extracting valuable resources through measuring fluctuations in the system already stimulated modern quantum physics. In contrast to classical physics, a free coupling to a probe and its free measurement fundamentally shape the system state. This becomes a new dimension of the Maxwell demon effect, as in addition to the gained information, the back action on the system can be exploited and essential for further applications. We investigate quantum bosonic Maxwell's demon coupled to a two-level system to address this issue straightforwardly. The deterministic multiple subtractions of energy quanta by an energetically conservative Jaynes-Cummings interaction leads to an out-of-equilibrium state. Although still super-Poissonian, it can resonantly excite another two-level system better than any thermal state. To further reduce the super-Poissonian statistics close to a Poissonian by a Maxwell's demon operation and increase the excitation rate, we suggest subsequent use of still energetically conservative multiphonon subtractions performed by an available nonlinear Jaynes-Cummings interaction. The optimal combination of both deterministic subtractions leads to statistics that approaches a Poissonian distribution otherwise produced by shot-noise-limited sources as an ideal laser requiring extreme bosonic nonlinear saturations.
翻訳日:2023-03-03 15:40:59 公開日:2023-03-02
# 解離クラスを用いた混合ドメイントレーニングにおけるターゲットドメインデータによる負の伝達

Target Domain Data induces Negative Transfer in Mixed Domain Training with Disjoint Classes ( http://arxiv.org/abs/2303.01003v1 )

ライセンス: Link先を確認
Eryk Banatt, Vickram Rajendran, Liam Packer(参考訳) 現実的なシナリオでは、ターゲットドメイン内で利用可能なトレーニングデータが限られた数のクラスだけに存在する場合が多く、残りのクラスは代理ドメイン内でのみ利用できる。 対象ドメインと代理ドメインの間に不整合クラスが存在する場合のトレーニング対象ドメインを含めると、大きな負の転送が発生し、対象ドメインを含まないトレーニングに比べてパフォーマンスが著しく低下することを示す。 この負の転送は、複数のソースドメインが存在する場合にのみ発生する中間的ショートカットによるものであると仮定し、これがそうである可能性を実験的に証明する。 この現象は合成と実数の両方で25以上の異なる領域シフトで発生し、多くの場合、最先端のドメイン適応法を用いても性能がランダムに低下する。

In practical scenarios, it is often the case that the available training data within the target domain only exist for a limited number of classes, with the remaining classes only available within surrogate domains. We show that including the target domain in training when there exist disjoint classes between the target and surrogate domains creates significant negative transfer, and causes performance to significantly decrease compared to training without the target domain at all. We hypothesize that this negative transfer is due to an intermediate shortcut that only occurs when multiple source domains are present, and provide experimental evidence that this may be the case. We show that this phenomena occurs on over 25 distinct domain shifts, both synthetic and real, and in many cases deteriorates the performance to well worse than random, even when using state-of-the-art domain adaptation methods.
翻訳日:2023-03-03 15:40:36 公開日:2023-03-02
# 逐次インセンティブマーケティングにおける予算配分のためのモデルベース制約型MDP

Model-based Constrained MDP for Budget Allocation in Sequential Incentive Marketing ( http://arxiv.org/abs/2303.01049v1 )

ライセンス: Link先を確認
Shuai Xiao, Le Guo, Zaifan Jiang, Lei Lv, Yuanbo Chen, Jun Zhu, Shuang Yang(参考訳) 逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、販売を促進する重要なアプローチである。 しかし、予算制約下での利益(ビジネス目的など)を最大化するために、効果的にインセンティブを割り当てる方法は、文献では研究されていない。 この問題は事実のため技術的に難しい。 1) 歴史的にログ化されたデータを用いて, 割り当て戦略を学ばなければならない。 2) 最適性と実現可能性(すなわち、予算を超えるコスト)は、オンラインシステムに展開する前に評価する必要がある。 本稿では,この問題を制約付きマルコフ決定過程(cmdp)として定式化する。 ログ付き反事実データを用いたcmdp問題を解決するために,二分探索とモデルに基づく計画を組み合わせた効率的な学習アルゴリズムを提案する。 まず、CMDPはラグランジュ緩和を用いて双対に変換され、これは双対変数に対して単調であることが証明される。 さらに,双対問題は,二分探索(すなわち単調性を利用して)により,最適双対変数を効率的に発見することで,ポリシー学習によって解くことができることを示した。 最後に,双対変数のポリシを再トレーニングすることなく,協調最適化プロセスを効果的に加速するためにモデルベースプランニングが有効であることを示す。 合成および実際のマーケティングデータセットの実証結果から,本手法の有効性が確認された。

Sequential incentive marketing is an important approach for online businesses to acquire customers, increase loyalty and boost sales. How to effectively allocate the incentives so as to maximize the return (e.g., business objectives) under the budget constraint, however, is less studied in the literature. This problem is technically challenging due to the facts that 1) the allocation strategy has to be learned using historically logged data, which is counterfactual in nature, and 2) both the optimality and feasibility (i.e., that cost cannot exceed budget) needs to be assessed before being deployed to online systems. In this paper, we formulate the problem as a constrained Markov decision process (CMDP). To solve the CMDP problem with logged counterfactual data, we propose an efficient learning algorithm which combines bisection search and model-based planning. First, the CMDP is converted into its dual using Lagrangian relaxation, which is proved to be monotonic with respect to the dual variable. Furthermore, we show that the dual problem can be solved by policy learning, with the optimal dual variable being found efficiently via bisection search (i.e., by taking advantage of the monotonicity). Lastly, we show that model-based planing can be used to effectively accelerate the joint optimization process without retraining the policy for every dual variable. Empirical results on synthetic and real marketing datasets confirm the effectiveness of our methods.
翻訳日:2023-03-03 15:35:34 公開日:2023-03-02
# オブジェクト検出のためのタスク特化コンテキストデカップリング

Task-Specific Context Decoupling for Object Detection ( http://arxiv.org/abs/2303.01047v1 )

ライセンス: Link先を確認
Jiayuan Zhuang, Zheng Qin, Hao Yu, Xucan Chen(参考訳) 分類とローカライゼーションは、オブジェクト検出における2つの主要なサブタスクである。 にもかかわらず、これらの2つのタスクは特徴コンテキストに対して矛盾しない好みを持っている。つまり、ローカライゼーションは境界を意識した特徴が境界ボックスを正確に回帰させるのを期待する。 排他的手法は通常、切り離された頭を使って各タスクの異なる特徴コンテキストを学習する。 しかし、頭は依然として同じ入力機能に適用され、分類と局所化のバランスが不完全になる。 本稿では,2つのタスクの特徴エンコーディングをさらに分離する新しいタスク固有コンテキストデカップリング(tscode)ヘッドを提案する。 分類のために、空間的に粗いが意味的に強い特徴符号化を生成する。 ローカライズのために、よりエッジ情報を含む高分解能な特徴マップを提供し、オブジェクト境界を良くする。 TSCODEはプラグアンドプレイであり、既存の検出パイプラインに容易に組み込むことができる。 大規模実験により,本手法は計算コストを抑えながら,1.0 AP以上の異なる検出器を安定的に改良することを示した。 私たちのコードとモデルは公開されます。

Classification and localization are two main sub-tasks in object detection. Nonetheless, these two tasks have inconsistent preferences for feature context, i.e., localization expects more boundary-aware features to accurately regress the bounding box, while more semantic context is preferred for object classification. Exsiting methods usually leverage disentangled heads to learn different feature context for each task. However, the heads are still applied on the same input features, which leads to an imperfect balance between classifcation and localization. In this work, we propose a novel Task-Specific COntext DEcoupling (TSCODE) head which further disentangles the feature encoding for two tasks. For classification, we generate spatially-coarse but semantically-strong feature encoding. For localization, we provide high-resolution feature map containing more edge information to better regress object boundaries. TSCODE is plug-and-play and can be easily incorperated into existing detection pipelines. Extensive experiments demonstrate that our method stably improves different detectors by over 1.0 AP with less computational cost. Our code and models will be publicly released.
翻訳日:2023-03-03 15:35:12 公開日:2023-03-02
# 映像における時間的文定位のための視覚・意味認識グラフメモリネットワーク

Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos ( http://arxiv.org/abs/2303.01046v1 )

ライセンス: Link先を確認
Daizong Liu, Pan Zhou(参考訳) tslv(temporal sentence localization in videos)は、与えられた文クエリに従って、未トリミングビデオの最も興味のあるセグメントを検索することを目的としている。 しかし、既存のtslvアプローチのほとんどが、同じ制限に苦しんでいる:(1)フレームレベルまたはオブジェクトレベルの視覚的表現学習と対応する相関推論のみに焦点をあてるが、両方を統合することができない。 そこで本稿では,オブジェクトレベルからフレームレベルまでの視覚的・意味的問合せ推論を可能にする階層的ビジュアル・セマンティック・アウェア・推論ネットワーク(hvsarn)を提案する。 具体的には、視覚的推論のために、ビデオの視覚情報を活用する視覚グラフメモリを設計する;意味的推論には、ビデオオブジェクトのクラスや属性に含まれる意味的知識を明示的に活用し、セマンティック空間における相関推論を行う、セマンティックグラフメモリも導入する。 3つのデータセットの実験は、HVSARNが新しい最先端のパフォーマンスを達成することを示す。

Temporal sentence localization in videos (TSLV) aims to retrieve the most interested segment in an untrimmed video according to a given sentence query. However, almost of existing TSLV approaches suffer from the same limitations: (1) They only focus on either frame-level or object-level visual representation learning and corresponding correlation reasoning, but fail to integrate them both; (2) They neglect to leverage the rich semantic contexts to further benefit the query reasoning. To address these issues, in this paper, we propose a novel Hierarchical Visual- and Semantic-Aware Reasoning Network (HVSARN), which enables both visual- and semantic-aware query reasoning from object-level to frame-level. Specifically, we present a new graph memory mechanism to perform visual-semantic query reasoning: For visual reasoning, we design a visual graph memory to leverage visual information of video; For semantic reasoning, a semantic graph memory is also introduced to explicitly leverage semantic knowledge contained in the classes and attributes of video objects, and perform correlation reasoning in the semantic space. Experiments on three datasets demonstrate that our HVSARN achieves a new state-of-the-art performance.
翻訳日:2023-03-03 15:34:55 公開日:2023-03-02
# I2P-Rec:Bird’s Eye View Projectionsによる大規模ポイントクラウドマップの画像認識

I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through Bird's Eye View Projections ( http://arxiv.org/abs/2303.01043v1 )

ライセンス: Link先を確認
Yixuan Li, Shuhang Zheng, Zhu Yu, Beinan Yu, Si-Yuan Cao, Lun Luo, Hui-Liang Shen(参考訳) 位置認識は、オンラインローカライズアルゴリズムに最初の推測を提供するため、自動運転車が完全な自律性を達成するための重要な技術である。 画像やポイントクラウドに基づく現在の手法は良好な性能を達成しているが、大規模なポイントクラウドマップ上でのイメージのローカライズは未解決の問題である。 このクロスモーダルマッチングタスクは、画像や点雲から一貫した記述子を抽出することが難しいため、難しい。 本稿では,クロスモーダルデータを同一モダリティに変換することで,この問題を解決するための i2p-rec 法を提案する。 具体的には,近年の深度推定ネットワークの成功を利用して画像から点雲を復元する。 次に、ポイント雲をBird's Eye View (BEV)イメージに投影します。 中間表現としてBEV画像を用いて、畳み込みニューラルネットワークを用いてグローバルな特徴を抽出し、次いでNetVLAD層を用いてマッチングを行う。 提案手法をKITTIデータセット上で評価する。 実験の結果, i2p-recのリコールレートは, 僅かなトレーニングデータで90%以上, トップ1で達成できることがわかった。 また、ポイントクラウドマップ上のモノクロ画像とステレオ画像をそれぞれローカライズする場合、Top-1\%以上の80\%と90\%のリコール率を達成することで、未知の環境によく当てはまる。

Place recognition is an important technique for autonomous cars to achieve full autonomy since it can provide an initial guess to online localization algorithms. Although current methods based on images or point clouds have achieved satisfactory performance, localizing the images on a large-scale point cloud map remains a fairly unexplored problem. This cross-modal matching task is challenging due to the difficulty in extracting consistent descriptors from images and point clouds. In this paper, we propose the I2P-Rec method to solve the problem by transforming the cross-modal data into the same modality. Specifically, we leverage on the recent success of depth estimation networks to recover point clouds from images. We then project the point clouds into Bird's Eye View (BEV) images. Using the BEV image as an intermediate representation, we extract global features with a Convolutional Neural Network followed by a NetVLAD layer to perform matching. We evaluate our method on the KITTI dataset. The experimental results show that, with only a small set of training data, I2P-Rec can achieve a recall rate at Top-1 over 90\%. Also, it can generalize well to unknown environments, achieving recall rates at Top-1\% over 80\% and 90\%, when localizing monocular images and stereo images on point cloud maps, respectively.
翻訳日:2023-03-03 15:34:33 公開日:2023-03-02
# 強化学習指導型多目的エグザム紙生成

Reinforcement Learning Guided Multi-Objective Exam Paper Generation ( http://arxiv.org/abs/2303.01042v1 )

ライセンス: Link先を確認
Yuhu Shang, Xuexiong Luo, Lihong Wang, Hao Peng, Xiankun Zhang, Yimeng Ren, Kun Liang(参考訳) インストラクターの反復的かつ複雑な作業を減らすため、インストラクター特定評価基準に従って、高品質な試験用紙の自動作成を目標とする知的教育分野において、試験用紙生成(EPG)技術が健全なトピックとなっている。 現在の進歩は、ヒューリスティックアルゴリズムの能力を利用して、難易度、質問数などのよく知られた目標制約を最適化し、最適解を生成する。 しかし、実際のシナリオでは、他の等しく関連する目標(試験得点の分布、スキルカバレッジなど)を考慮することは極めて重要である。 さらに、大規模質問データセットの巨大な検索空間から最適な質問のサブセットを見つけ出し、高品質な試験用紙を構成する自動多目的ソリューションの開発も急務であるが、非自明である。 そこで我々は,MOEPGと呼ばれる強化学習指導型多目的論文生成フレームワークを巧みに設計し,難易度,試験スコアの分布,スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。 具体的には, 被験者集団の熟練度を正確に測定するために, まず, 被験者と応答ログの相互作用情報をモデル化するために, 深い知識追跡を用いる。 次に,適切な質問を自動的に選択して試験用紙作成プロセスを更新する関数近似器であるフレキシブル試験用qネットワークを設計する。 その後、MOEPGは、決定空間を複数のサブスペースに分割して、試験用紙の更新方向をよりよく案内する。 2つの実世界のデータセットに関する広範な実験を通して、MOEPGは試験紙生成シナリオの多重ジレンマに対処できることを示した。

To reduce the repetitive and complex work of instructors, exam paper generation (EPG) technique has become a salient topic in the intelligent education field, which targets at generating high-quality exam paper automatically according to instructor-specified assessment criteria. The current advances utilize the ability of heuristic algorithms to optimize several well-known objective constraints, such as difficulty degree, number of questions, etc., for producing optimal solutions. However, in real scenarios, considering other equally relevant objectives (e.g., distribution of exam scores, skill coverage) is extremely important. Besides, how to develop an automatic multi-objective solution that finds an optimal subset of questions from a huge search space of large-sized question datasets and thus composes a high-quality exam paper is urgent but non-trivial. To this end, we skillfully design a reinforcement learning guided Multi-Objective Exam Paper Generation framework, termed MOEPG, to simultaneously optimize three exam domain-specific objectives including difficulty degree, distribution of exam scores, and skill coverage. Specifically, to accurately measure the skill proficiency of the examinee group, we first employ deep knowledge tracing to model the interaction information between examinees and response logs. We then design the flexible Exam Q-Network, a function approximator, which automatically selects the appropriate question to update the exam paper composition process. Later, MOEPG divides the decision space into multiple subspaces to better guide the updated direction of the exam paper. Through extensive experiments on two real-world datasets, we demonstrate that MOEPG is feasible in addressing the multiple dilemmas of exam paper generation scenario.
翻訳日:2023-03-03 15:33:55 公開日:2023-03-02
# 非剛点クラウドマッチングのためのニューラル固有埋め込み

Neural Intrinsic Embedding for Non-rigid Point Cloud Matching ( http://arxiv.org/abs/2303.01038v1 )

ライセンス: Link先を確認
Puhua Jiang, Mingze Sun, Ruqi Huang(参考訳) 原始的な3Dデータ表現として、点雲は3Dセンシングにおいて優位であるが、基礎となるオブジェクトの固有の構造情報には乏しい。 このような不一致は、変形可能な形状からサンプリングされた点雲間の対応を直接確立する上で大きな課題となる。 そこで我々は,各頂点を高次元空間に埋め込むニューラル内在性埋め込み(NIE)を提案し,その内在性構造を尊重する。 NIEに基づいて,非剛点クラウド登録のための弱教師付き学習フレームワークを提案する。 以前の研究とは異なり、我々は拡張的で敏感なオフラインベース構築(例えばラプラシアンの固有分解)を必要としたり、監督のために接地トラスト対応ラベルを必要としたりしない。 我々は、我々のフレームワークが最先端のベースラインと同等あるいはそれ以上に機能していることを実証的に示し、一般により監督的および/またはより構造的な幾何学的入力を必要とする。

As a primitive 3D data representation, point clouds are prevailing in 3D sensing, yet short of intrinsic structural information of the underlying objects. Such discrepancy poses great challenges on directly establishing correspondences between point clouds sampled from deformable shapes. In light of this, we propose Neural Intrinsic Embedding (NIE) to embed each vertex into a high-dimensional space in a way that respects the intrinsic structure. Based upon NIE, we further present a weakly-supervised learning framework for non-rigid point cloud registration. Unlike the prior works, we do not require expansive and sensitive off-line basis construction (e.g., eigen-decomposition of Laplacians), nor do we require ground-truth correspondence labels for supervision. We empirically show that our framework performs on par with or even better than the state-of-the-art baselines, which generally require more supervision and/or more structural geometric input.
翻訳日:2023-03-03 15:33:15 公開日:2023-03-02
# Google USM:100言語を超えて自動音声認識をスケール

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages ( http://arxiv.org/abs/2303.01037v1 )

ライセンス: Link先を確認
Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Fran\c{c}oise Beaufays, Yonghui Wu(参考訳) 我々は,100以上の言語で自動音声認識(asr)を行う単一大規模モデルであるuniversal speech model (usm)を提案する。 これは300以上の言語にまたがる1200万時間(M)の大規模ラベル付き多言語データセットでモデルのエンコーダを事前トレーニングし、より小さなラベル付きデータセットで微調整することで達成される。 我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。 また,Whisperモデルでは,ラベル付きトレーニングセットを1/7の規模で使用しても,ドメイン内およびドメイン外音声認識タスクにおいて,同等あるいは優れた性能を示すことを示す。

We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.
翻訳日:2023-03-03 15:32:59 公開日:2023-03-02
# 統計的形状モデルと畳み込みニューラルネットワークを用いた2次元および3次元医用画像からの呼吸薬物沈着予測

Validated respiratory drug deposition predictions from 2D and 3D medical images with statistical shape models and convolutional neural networks ( http://arxiv.org/abs/2303.01036v1 )

ライセンス: Link先を確認
Josh Williams, Haavard Ahlqvist, Alexander Cunningham, Andrew Kirby, Ira Katz, John Fleming, Joy Conway, Steve Cunningham, Ali Ozel, Uwe Wolfram(参考訳) 呼吸器疾患の10億人の患者にとって、吸入器で病気を管理することは生活の質に重大な影響を及ぼす。 呼吸パターン、肺病理、形態などの患者特有の特徴を考慮した計算モデルを用いて、汎用的な治療計画を改善することができる。 そこで我々は,患者固有の沈着モデリングのための自動計算フレームワークを開発し,検証することを目的とする。 そこで,2次元胸部X線と3次元CT画像から3次元患者の呼吸線量計を作成できる画像処理手法を提案する。 画像処理装置を用いて気道および肺形態を解析し,in vivoデータと比較した沈着評価を行った。 2D-to-3D画像処理は、地上の真実のセグメンテーションと比較して気道の直径を9%の中央値誤差に再現するが、肺のアウトラインノイズのために最大33%のアウトリーに敏感である。 予測された局所沈着は、生体内測定と比較して5%の中央値誤差を示した。 提案する枠組みは,各患者(疾患や肺・気道形態など)に課されるニーズを最も満たせる治療法を決定するために,様々な治療法に対して患者固有の沈着測定を行うことが可能である。 患者固有のモデリングを追加意思決定ツールとして臨床実践に統合することで、治療計画の最適化と呼吸器疾患の負担軽減が期待できる。

For the one billion sufferers of respiratory disease, managing their disease with inhalers crucially influences their quality of life. Generic treatment plans could be improved with the aid of computational models that account for patient-specific features such as breathing pattern, lung pathology and morphology. Therefore, we aim to develop and validate an automated computational framework for patient-specific deposition modelling. To that end, an image processing approach is proposed that could produce 3D patient respiratory geometries from 2D chest X-rays and 3D CT images. We evaluated the airway and lung morphology produced by our image processing framework, and assessed deposition compared to in vivo data. The 2D-to-3D image processing reproduces airway diameter to 9% median error compared to ground truth segmentations, but is sensitive to outliers of up to 33% due to lung outline noise. Predicted regional deposition gave 5% median error compared to in vivo measurements. The proposed framework is capable of providing patient-specific deposition measurements for varying treatments, to determine which treatment would best satisfy the needs imposed by each patient (such as disease and lung/airway morphology). Integration of patient-specific modelling into clinical practice as an additional decision-making tool could optimise treatment plans and lower the burden of respiratory diseases.
翻訳日:2023-03-03 15:32:41 公開日:2023-03-02
# マルチタスク自己監督型時系列表現学習

Multi-Task Self-Supervised Time-Series Representation Learning ( http://arxiv.org/abs/2303.01034v1 )

ライセンス: Link先を確認
Heejeong Choi, Pilsung Kang(参考訳) 時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。 ラベル付きデータがスパースだがラベルなしのデータが豊富である場合、類似のサンプルが互いに近い潜在空間を学習するためのフレームワーク、すなわち、類似したデータが互いに遠く離れている場合、優れた性能を示す。 この戦略は、正のペア選択と対照的な損失に依存する時系列表現の異なる一貫性を促進することができる。 本稿では,文脈,時間,変換の整合性に関連する自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。 これにより、ネットワークは様々な下流タスクやドメインの一般的な表現を学ぶことができる。 具体的には、まずデータ前処理を採用し、各自己監督タスクに対して正と負のペアを生成する。 このモデルは、文脈的、時間的、および変換的コントラスト学習を実行し、コントラスト的損失を用いて共同で最適化される。 さらに,各一貫性の寄与を考慮し,効果的なマルチタスク学習を実現するための不確実性重み付け手法について検討する。 提案手法は, 時系列分類, 予測, 異常検出の3つの下流課題について評価した。 実験の結果,提案手法は下流タスクのベンチマークモデルを上回るだけでなく,ドメイン間転送学習における効率性も示している。

Time-series representation learning can extract representations from data with temporal dynamics and sparse labels. When labeled data are sparse but unlabeled data are abundant, contrastive learning, i.e., a framework to learn a latent space where similar samples are close to each other while dissimilar ones are far from each other, has shown outstanding performance. This strategy can encourage varied consistency of time-series representations depending on the positive pair selection and contrastive loss. We propose a new time-series representation learning method by combining the advantages of self-supervised tasks related to contextual, temporal, and transformation consistency. It allows the network to learn general representations for various downstream tasks and domains. Specifically, we first adopt data preprocessing to generate positive and negative pairs for each self-supervised task. The model then performs contextual, temporal, and transformation contrastive learning and is optimized jointly using their contrastive losses. We further investigate an uncertainty weighting approach to enable effective multi-task learning by considering the contribution of each consistency. We evaluate the proposed framework on three downstream tasks: time-series classification, forecasting, and anomaly detection. Experimental results show that our method not only outperforms the benchmark models on these downstream tasks, but also shows efficiency in cross-domain transfer learning.
翻訳日:2023-03-03 15:32:15 公開日:2023-03-02
# ESceme: エピソード記憶による視覚・言語ナビゲーション

ESceme: Vision-and-Language Navigation with Episodic Scene Memory ( http://arxiv.org/abs/2303.01032v1 )

ライセンス: Link先を確認
Qi Zheng, Daqing Liu, Chaoyue Wang, Jing Zhang, Dadong Wang, Dacheng Tao(参考訳) vision-and-language navigation (vln)は、現実世界のシーンで自然言語ナビゲーション命令に従う視覚エージェントをシミュレートする。 既存のアプローチは、ビームサーチ、探索前、動的または階層的なヒストリエンコーディングなど、新しい環境におけるナビゲーションに大きな進歩をもたらした。 一般化と効率のバランスをとるために,現在進行中の経路とは別に,訪問したシナリオを記憶する。 本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。 エピソディクスシーンメモリにより、エージェントは次の予測のより大きな図を思い描くことができる。 このようにしてエージェントは、単に見える環境に適応するのではなく、現在利用可能な情報を最大限に活用することを学ぶ。 トレーニング中の候補ノードの観測特性を向上させることで,簡便かつ効果的な実装を提供する。 本稿では,短水平ナビゲーション(R2R),長水平ナビゲーション(R4R),ビジョン・アンド・ダイアログナビゲーション(CVDN)を含む3つのVLNタスクにおけるEScemeの優位性を検証し,新しい最先端技術を実現する。 コードは: \url{https://github.com/qizhust/esceme}.comで入手できる。

Vision-and-language navigation (VLN) simulates a visual agent that follows natural-language navigation instructions in real-world scenes. Existing approaches have made enormous progress in navigation in new environments, such as beam search, pre-exploration, and dynamic or hierarchical history encoding. To balance generalization and efficiency, we resort to memorizing visited scenarios apart from the ongoing route while navigating. In this work, we introduce a mechanism of Episodic Scene memory (ESceme) for VLN that wakes an agent's memories of past visits when it enters the current scene. The episodic scene memory allows the agent to envision a bigger picture of the next prediction. In this way, the agent learns to make the most of currently available information instead of merely adapting to the seen environments. We provide a simple yet effective implementation by enhancing the observation features of candidate nodes during training. We verify the superiority of ESceme on three VLN tasks, including short-horizon navigation (R2R), long-horizon navigation (R4R), and vision-and-dialog navigation (CVDN), and achieve a new state-of-the-art. Code is available: \url{https://github.com/qizhust/esceme}.
翻訳日:2023-03-03 15:31:55 公開日:2023-03-02
# LANDMARK:シーングラフ生成のための言語誘導表現拡張フレームワーク

LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation ( http://arxiv.org/abs/2303.01080v1 )

ライセンス: Link先を確認
Xiaoguang Chang, Teng Wang, Shaowei Cai and Changyin Sun(参考訳) シーングラフ生成(sgg)は複雑なビジュアル機能とデータセットのロングテール問題の両方に苦しむ高度なタスクである。 近年,新しい損失関数とデータバランス戦略を設計することにより,様々な非バイアス戦略が提案されている。 残念なことに、これらの偏見のない手法は、特徴の洗練の観点から言語の先行性を強調できない。 述語が主観的対象対とグローバルな文脈に隠された意味と高い相関関係があることに着想を得て,言語-視覚的対話パターン,グローバル言語コンテキスト,ペア述語相関から述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。 具体的には、まずオブジェクトラベルを、異なる表現学習のための3つの特徴的なセマンティック埋め込みに投影する。 次に、Language Attention Module(LAM)とExperience Estimation Module(EEM)は、それぞれ注目ベクトルと述語分布に対する主観対象語埋め込みを処理します。 言語コンテキストモジュール(LCM)は各単語の埋め込みからグローバルコンテキストを符号化する。 最後に、モジュール出力を使用して視覚表現とSGGモデルの予測を更新する。 すべての言語表現は、余分な知識を必要としないように、純粋にオブジェクトカテゴリから生成される。 このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。 さらに、表現レベルの偏りのない戦略は、他のメソッドとの互換性の利点をランドマークに与えます。 コードはhttps://github.com/rafa-cxg/pysgg-cxgで入手できる。

Scene graph generation (SGG) is a sophisticated task that suffers from both complex visual features and dataset long-tail problem. Recently, various unbiased strategies have been proposed by designing novel loss functions and data balancing strategies. Unfortunately, these unbiased methods fail to emphasize language priors in feature refinement perspective. Inspired by the fact that predicates are highly correlated with semantics hidden in subject-object pair and global context, we propose LANDMARK (LANguage-guiDed representationenhanceMent frAmewoRK) that learns predicate-relevant representations from language-vision interactive patterns, global language context and pair-predicate correlation. Specifically, we first project object labels to three distinctive semantic embeddings for different representation learning. Then, Language Attention Module (LAM) and Experience Estimation Module (EEM) process subject-object word embeddings to attention vector and predicate distribution, respectively. Language Context Module (LCM) encodes global context from each word embed-ding, which avoids isolated learning from local information. Finally, modules outputs are used to update visual representations and SGG model's prediction. All language representations are purely generated from object categories so that no extra knowledge is needed. This framework is model-agnostic and consistently improves performance on existing SGG models. Besides, representation-level unbiased strategies endow LANDMARK the advantage of compatibility with other methods. Code is available at https://github.com/rafa-cxg/PySGG-cxg.
翻訳日:2023-03-03 15:25:06 公開日:2023-03-02
# 保守的オフライン政策評価のための幻覚的adversarial control

Hallucinated Adversarial Control for Conservative Offline Policy Evaluation ( http://arxiv.org/abs/2303.01076v1 )

ライセンス: Link先を確認
Jonas Rothfuss, Bhavya Sukhija, Tobias Birchler, Parnian Kassraie, Andreas Krause(参考訳) 本研究では,他のエージェントが収集した環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の問題について検討する。 これは、特定のポリシーが実際の世界にデプロイされる前に、パフォーマンス/安全性の基準をある程度満たすかどうかを決める場合に重要である。 この目的のために,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを導入する。 政策のパフォーマンスを保守的に見積もるために、HAMBOは、モデルがエピステマ性信頼領域のマージン内において、政策が取るであろう最悪の事例の軌跡を幻覚する。 結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。 最後に,ベイズ型ニューラルネットワークに基づくスケーラブルなアプローチの変種について考察し,様々な連続制御環境において信頼性と厳密な下界をもたらすことを実証的に示す。

We study the problem of conservative off-policy evaluation (COPE) where given an offline dataset of environment interactions, collected by other agents, we seek to obtain a (tight) lower bound on a policy's performance. This is crucial when deciding whether a given policy satisfies certain minimal performance/safety criteria before it can be deployed in the real world. To this end, we introduce HAMBO, which builds on an uncertainty-aware learned model of the transition dynamics. To form a conservative estimate of the policy's performance, HAMBO hallucinates worst-case trajectories that the policy may take, within the margin of the models' epistemic confidence regions. We prove that the resulting COPE estimates are valid lower bounds, and, under regularity conditions, show their convergence to the true expected return. Finally, we discuss scalable variants of our approach based on Bayesian Neural Networks and empirically demonstrate that they yield reliable and tight lower bounds in various continuous control environments.
翻訳日:2023-03-03 15:24:43 公開日:2023-03-02
# Regretを使わないことを学ぶ

Learning not to Regret ( http://arxiv.org/abs/2303.01074v1 )

ライセンス: Link先を確認
David Sychrovsky, Michal Sustr, Elnaz Davoodi, Marc Lanctot, Martin Schmid(参考訳) レグレト最小化は、不完全情報ゲームにおけるナッシュ平衡を見つけるための多くのアルゴリズムの重要な構成要素である。 メモリに収まらないゲームにスケールするには、値関数を使った検索を使うことができる。 しかし、検索で繰り返し値関数を呼び出すことは高価である。 したがって、検索木における後悔を最小限に抑えることが望ましい。 我々は,後悔の最小化を加速するために,‘learning not to regret’というフレームワークを導入して,後悔の最小化をメタ学習する。 得られたアルゴリズムは任意の設定で後悔を最小限に抑え、選択されたゲームの分布に高速に収束するように(メタ)学習される。 実験では,先行する後悔最小化アルゴリズムよりも,メタ学習アルゴリズムが大幅に高速に収束することを示す。

Regret minimization is a key component of many algorithms for finding Nash equilibria in imperfect-information games. To scale to games that cannot fit in memory, we can use search with value functions. However, calling the value functions repeatedly in search can be expensive. Therefore, it is desirable to minimize regret in the search tree as fast as possible. We propose to accelerate the regret minimization by introducing a general ``learning not to regret'' framework, where we meta-learn the regret minimizer. The resulting algorithm is guaranteed to minimize regret in arbitrary settings and is (meta)-learned to converge fast on a selected distribution of games. Our experiments show that meta-learned algorithms converge substantially faster than prior regret minimization algorithms.
翻訳日:2023-03-03 15:24:24 公開日:2023-03-02
# GHQ: 異種協調型マルチエージェント強化学習のためのグループ型ハイブリッドQ学習

GHQ: Grouped Hybrid Q Learning for Heterogeneous Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2303.01070v1 )

ライセンス: Link先を確認
Xiaoyang Yu, Youfang Lin, Xiangsen Wang, Sheng Han, Kai Lv(参考訳) 従来の深層マルチエージェント強化学習(MARL)アルゴリズムは、通常均質なシナリオにおいて、印象的な結果を得た。 しかし、異種シナリオも非常に一般的であり、通常は解決が難しい。 本稿では,Starcraft Multi-Agent Challenges (SMAC)環境における協調的異種MARL問題について論じる。 まず,smac における異種問題を定義し記述する。 問題を包括的に明らかにし,研究するために,元のSMACマップに新たなマップを追加する。 これらの異種マップではベースラインアルゴリズムがうまく機能しないことがわかった。 本稿では,GIGM(Grouped Individual-Global-Max Consistency)と新しいMARLアルゴリズムであるGrouped Hybrid Q Learning(GHQ)を提案する。 GHQはエージェントを複数のグループに分け、各グループごとに個別のパラメータを保持するとともに、因子化のための新しいハイブリッド構造を持つ。 グループ間の協調性を高めるために,グループ間の相互情報(igmi)を最大化する。 オリジナルマップと新しい異種マップの実験は、他の最先端アルゴリズムと比較してghqの素晴らしい性能を示している。

Previous deep multi-agent reinforcement learning (MARL) algorithms have achieved impressive results, typically in homogeneous scenarios. However, heterogeneous scenarios are also very common and usually harder to solve. In this paper, we mainly discuss cooperative heterogeneous MARL problems in Starcraft Multi-Agent Challenges (SMAC) environment. We firstly define and describe the heterogeneous problems in SMAC. In order to comprehensively reveal and study the problem, we make new maps added to the original SMAC maps. We find that baseline algorithms fail to perform well in those heterogeneous maps. To address this issue, we propose the Grouped Individual-Global-Max Consistency (GIGM) and a novel MARL algorithm, Grouped Hybrid Q Learning (GHQ). GHQ separates agents into several groups and keeps individual parameters for each group, along with a novel hybrid structure for factorization. To enhance coordination between groups, we maximize the Inter-group Mutual Information (IGMI) between groups' trajectories. Experiments on original and new heterogeneous maps show the fabulous performance of GHQ compared to other state-of-the-art algorithms.
翻訳日:2023-03-03 15:24:13 公開日:2023-03-02
# 腹部大動脈瘤進展モデルのための暗黙的神経表現

Implicit Neural Representations for Modeling of Abdominal Aortic Aneurysm Progression ( http://arxiv.org/abs/2303.01069v1 )

ライセンス: Link先を確認
Dieuwertje Alblas, Marieke Hofman, Christoph Brune, Kak Khee Yeung, Jelmer M. Wolterink(参考訳) 腹部大動脈瘤 (AAA) は腹部大動脈の進行性拡張であり,未治療の場合には致死性病変で破裂する。 画像に基づく患者モニタリングは、外科治療を受ける患者を選択するために必要である。 本研究では,暗黙的ニューラル表現(INR)に基づくモデルを提案し,AAAの進行をモデル化する。 我々はAAA壁を,空間と時間に作用する多層的知覚によって推定される符号付き距離関数(SDF)のゼロレベル集合として表現する。 縦型ctデータにおいて自動抽出されたセグメンテーションマスクを用いて,このinrを最適化する。 このネットワークは時空間座標で条件付けられ、任意の時点で任意の解像度でAAA表面を表す。 SDFの空間的および時間的勾配を正規化することにより、AAA形状を適切に補間する。 高い不規則な間隔で取得した画像から平均表面距離0.72mmから2.52mmのAAA補間を実現できることを示す。 以上の結果から,本モデルはaaaの進行を経時的に正確に補間できることが示唆された。

Abdominal aortic aneurysms (AAAs) are progressive dilatations of the abdominal aorta that, if left untreated, can rupture with lethal consequences. Imaging-based patient monitoring is required to select patients eligible for surgical repair. In this work, we present a model based on implicit neural representations (INRs) to model AAA progression. We represent the AAA wall over time as the zero-level set of a signed distance function (SDF), estimated by a multilayer perception that operates on space and time. We optimize this INR using automatically extracted segmentation masks in longitudinal CT data. This network is conditioned on spatiotemporal coordinates and represents the AAA surface at any desired resolution at any moment in time. Using regularization on spatial and temporal gradients of the SDF, we ensure proper interpolation of the AAA shape. We demonstrate the network's ability to produce AAA interpolations with average surface distances ranging between 0.72 and 2.52 mm from images acquired at highly irregular intervals. The results indicate that our model can accurately interpolate AAA shapes over time, with potential clinical value for a more personalised assessment of AAA progression.
翻訳日:2023-03-03 15:23:58 公開日:2023-03-02
# ニューラルネットワーク翻訳に対する標的敵攻撃

Targeted Adversarial Attacks against Neural Machine Translation ( http://arxiv.org/abs/2303.01068v1 )

ライセンス: Link先を確認
Sahar Sadrizadeh, AmirHossein Dabiri Aghdam, Ljiljana Dolamic, Pascal Frossard(参考訳) ニューラルマシン翻訳(nmt)システムは様々な用途で使われている。 しかし、それらは敵の攻撃として知られる入力の非常に小さな摂動に弱いことが示されている。 本論文では,NMTモデルに対する新たな敵攻撃を提案する。 特に,原文と摂動文との類似性を維持しつつ,既定の目標キーワードを逆文の翻訳に挿入することが目的である。 そこで本研究では,逆損失項と類似項を含む最適化問題を提案する。 埋め込み空間における勾配投影を用いて逆文を作成する。 実験の結果,NMTモデルに対する他の標的攻撃であるSeq2Sickは,成功率や翻訳品質の低下という点で優れていた。 この攻撃は、75%以上の文に対してキーワードを翻訳に挿入することに成功し、原文との類似性は維持される。

Neural Machine Translation (NMT) systems are used in various applications. However, it has been shown that they are vulnerable to very small perturbations of their inputs, known as adversarial attacks. In this paper, we propose a new targeted adversarial attack against NMT models. In particular, our goal is to insert a predefined target keyword into the translation of the adversarial sentence while maintaining similarity between the original sentence and the perturbed one in the source domain. To this aim, we propose an optimization problem, including an adversarial loss term and a similarity term. We use gradient projection in the embedding space to craft an adversarial sentence. Experimental results show that our attack outperforms Seq2Sick, the other targeted adversarial attack against NMT models, in terms of success rate and decrease in translation quality. Our attack succeeds in inserting a keyword into the translation for more than 75% of sentences while similarity with the original sentence stays preserved.
翻訳日:2023-03-03 15:23:41 公開日:2023-03-02
# ラベル階層を用いた極端なマルチラベルテキスト分類のための補助指標を用いたマルチアンウェル質問タスクの適用

Adopting the Multi-answer Questioning Task with an Auxiliary Metric for Extreme Multi-label Text Classification Utilizing the Label Hierarchy ( http://arxiv.org/abs/2303.01064v1 )

ライセンス: Link先を確認
Li Wang, Ying Wah Teh, Mohammed Ali Al-Garadi(参考訳) エクストリームマルチラベルテキスト分類は、ラベル階層を利用して、極端なラベルを複数のラベルグループに分割し、タスクを単純なマルチグループマルチラベル分類タスクに変換する。 現在の研究では、ラベルを固定長のベクトルとしてエンコードしており、異なるラベル群に対して複数の分類器を確立する必要がある。 問題は、階層内のラベル関係を犠牲にすることなく、1つの分類子のみを構築する方法だ。 本稿では,過度なマルチラベル分類のための複数問合せタスクを採用する。 本稿では,補助的な分類評価指標を提案する。 本研究は,法領域に対して提案手法と評価基準を適用した。 法的bertの利用とタスク分散に関する研究について考察した。 実験結果から,EURLEXデータセットに対して,階層構造と複数問合せタスクを極端に多ラベル分類できることがわかった。 マルチラベル分類タスクの微調整では、領域適応BERTモデルは、この実験で明らかな利点を示さなかった。 この方法は理論上ゼロショット学習にも応用できる。

Extreme multi-label text classification utilizes the label hierarchy to partition extreme labels into multiple label groups, turning the task into simple multi-group multi-label classification tasks. Current research encodes labels as a vector with fixed length which needs establish multiple classifiers for different label groups. The problem is how to build only one classifier without sacrificing the label relationship in the hierarchy. This paper adopts the multi-answer questioning task for extreme multi-label classification. This paper also proposes an auxiliary classification evaluation metric. This study adopts the proposed method and the evaluation metric to the legal domain. The utilization of legal Berts and the study on task distribution are discussed. The experiment results show that the proposed hierarchy and multi-answer questioning task can do extreme multi-label classification for EURLEX dataset. And in minor/fine-tuning the multi-label classification task, the domain adapted BERT models could not show apparent advantages in this experiment. The method is also theoretically applicable to zero-shot learning.
翻訳日:2023-03-03 15:23:28 公開日:2023-03-02
# 複雑なビーム系における前方・逆問題に対する物理情報ニューラルネットワーク

Physics-informed neural networks for solving forward and inverse problems in complex beam systems ( http://arxiv.org/abs/2303.01055v1 )

ライセンス: Link先を確認
Taniya Kapoor, Hongrui Wang, Alfredo Nunez, Rolf Dollevoet(参考訳) 本稿では,2重ビームをウィンクラー基礎と接続するオイラー・ベルヌーリ理論とティモシェンコ理論に基づく1重および2重ビームからなる複雑な構造系をシミュレートする,物理インフォームニューラルネットワーク(pinns)を用いた新しい枠組みを提案する。 特に、オイラー・ベルヌーリ方程式とティモシェンコ偏微分方程式 (pdes) の前方および逆問題は、物理学的に変形した損失関数を持つ非次元方程式を用いて解く。 高次複素ビームpdesを効率的に解いて、横変位と断面回転を1e〜35%未満の誤差で計算する。 さらに、ノイズデータであっても、空間領域全体における未知の次元のないモデルパラメータと適用力を決定するために、逆問題も頑健に解決される。 その結果,PINNは,ビームシステムを含む工学構造や機械の問題を解決する上で有望な戦略であることが示唆された。

This paper proposes a new framework using physics-informed neural networks (PINNs) to simulate complex structural systems that consist of single and double beams based on Euler-Bernoulli and Timoshenko theory, where the double beams are connected with a Winkler foundation. In particular, forward and inverse problems for the Euler-Bernoulli and Timoshenko partial differential equations (PDEs) are solved using nondimensional equations with the physics-informed loss function. Higher-order complex beam PDEs are efficiently solved for forward problems to compute the transverse displacements and cross-sectional rotations with less than 1e-3 percent error. Furthermore, inverse problems are robustly solved to determine the unknown dimensionless model parameters and applied force in the entire space-time domain, even in the case of noisy data. The results suggest that PINNs are a promising strategy for solving problems in engineering structures and machines involving beam systems.
翻訳日:2023-03-03 15:23:12 公開日:2023-03-02
# 深層学習によるヒト海綿静脈の光学コヒーレンス断層像の分割

Deep Learning based Segmentation of Optical Coherence Tomographic Images of Human Saphenous Varicose Vein ( http://arxiv.org/abs/2303.01054v1 )

ライセンス: Link先を確認
Maryam Viqar, Violeta Madjarova, Amit Kumar Yadav, Desislava Pashkuleva, Alexander S. Machikhin(参考訳) arous convolution with residual blocks を用いた u-net モデルに基づくヒト静脈静脈の光コヒーレンス断層像に対して, ディープラーニングに基づくセグメンテーションモデルを提案し, 精度は 0.9932 である。

Deep-learning based segmentation model is proposed for Optical Coherence Tomography images of human varicose vein based on the U-Net model employing atrous convolution with residual blocks, which gives an accuracy of 0.9932.
翻訳日:2023-03-03 15:22:52 公開日:2023-03-02
# 逆機器可変回帰によるロバストネットワークの逆例と因果接種における因果関係の解明

Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression ( http://arxiv.org/abs/2303.01052v1 )

ライセンス: Link先を確認
Junho Kim.Byung-Kwan Lee, Yong Man Ro(参考訳) 敵の例の起源はまだ研究分野では説明不可能であり、包括的な研究にもかかわらず、様々な観点から議論を喚起する。 本稿では,因果的に学習されたネットワークにおける予期せぬ脆弱性,すなわち逆インストゥルメンタル変数(iv)回帰を探索する方法を提案する。 配置することで,未知の共起者から分離された偏りのない環境下での敵予測の因果関係を推定する。 提案手法は, カジュアルな特徴推定器(仮説モデル)と最悪の事例(テスト関数)との間のゼロサム最適化ゲームを利用して, 因果的特徴の発見に支障をきたすことによって, 逆因果的特徴の解明を目的とする。 広範な分析を通じて, 推定された因果的特徴は, 敵のロバスト性に対する正しい予測と強く関連しており, 反事実的特徴は, 正しい予測から著しく逸脱していることを示す。 また,CAFE (CAusal features) を防御ネットワークに効果的に接種し,敵の堅牢性を向上する方法について述べる。

The origin of adversarial examples is still inexplicable in research fields, and it arouses arguments from various viewpoints, albeit comprehensive investigations. In this paper, we propose a way of delving into the unexpected vulnerability in adversarially trained networks from a causal perspective, namely adversarial instrumental variable (IV) regression. By deploying it, we estimate the causal relation of adversarial prediction under an unbiased environment dissociated from unknown confounders. Our approach aims to demystify inherent causal features on adversarial examples by leveraging a zero-sum optimization game between a casual feature estimator (i.e., hypothesis model) and worst-case counterfactuals (i.e., test function) disturbing to find causal features. Through extensive analyses, we demonstrate that the estimated causal features are highly related to the correct prediction for adversarial robustness, and the counterfactuals exhibit extreme features significantly deviating from the correct prediction. In addition, we present how to effectively inoculate CAusal FEatures (CAFE) into defense networks for improving adversarial robustness.
翻訳日:2023-03-03 15:22:46 公開日:2023-03-02
# アルツハイマー病に対するEvidence-empowered Transfer Learning

Evidence-empowered Transfer Learning for Alzheimer's Disease ( http://arxiv.org/abs/2303.01105v1 )

ライセンス: Link先を確認
Kai Tzu-iunn Ong, Hana Kim, Minjin Kim, Jinseong Jang, Beomseok Sohn, Yoon Seong Choi, Dosik Hwang, Seong Jae Hwang, Jinyoung Yeo(参考訳) 転送学習は、アルツハイマー病(AD)の分野でのデータ不足を緩和するために広く利用されている。 従来の転写学習は、自然画像分類のようなAD非関連タスクで訓練された再利用モデルに依存している。 しかし、非医療的源と対象の医療領域の相違により、しばしば負の移動を引き起こす。 そこで我々はAD診断にエビデンスを応用した転写学習を提案する。 従来の手法とは違って,付加的なMRIデータを必要としないAD関連補助タスク,すなわち形態変化予測を利用する。 この補助課題において、診断モデルはMRIスキャンにおける形態的特徴から明らかかつ伝達可能な知識を学習する。 実験の結果,モデルキャパシティによらず検出性能の向上に有効であるだけでなく,データ効率と信頼性も向上した。

Transfer learning has been widely utilized to mitigate the data scarcity problem in the field of Alzheimer's disease (AD). Conventional transfer learning relies on re-using models trained on AD-irrelevant tasks such as natural image classification. However, it often leads to negative transfer due to the discrepancy between the non-medical source and target medical domains. To address this, we present evidence-empowered transfer learning for AD diagnosis. Unlike conventional approaches, we leverage an AD-relevant auxiliary task, namely morphological change prediction, without requiring additional MRI data. In this auxiliary task, the diagnosis model learns the evidential and transferable knowledge from morphological features in MRI scans. Experimental results demonstrate that our framework is not only effective in improving detection performance regardless of model capacity, but also more data-efficient and faithful.
翻訳日:2023-03-03 15:16:47 公開日:2023-03-02
# 指数的に可変な波動関数重なりによるフラックス量子ビットの高速ユニバーサル制御

Fast universal control of a flux qubit via exponentially tunable wave-function overlap ( http://arxiv.org/abs/2303.01102v1 )

ライセンス: Link先を確認
Svend Kr{\o}jer, Anders Enevold Dahl, Kasper Sangild Christensen, Morten Kjaergaard and Karsten Flensberg(参考訳) 保護された超伝導量子ビットの高速かつ高忠実性制御と読み出しは、本質的に不感度のため困難である。 本稿では,この課題を解決するために,リラクゼーションに対する調整可能な保護レベルを享受するフラックス量子ビット変動を提案する。 我々の量子ビット設計であるDSFQ(Double-shunted flux qubit)は、3つの接合環幾何学を通して一般的な二重井戸ポテンシャルを実現する。 ジャンクションの1つは調整可能であり、バリアの高さと保護レベルを制御することができる。 バリアの低下に依存する単一および2量子ゲート動作の解析を行う。 非計算状態が操作中に占有されないため、これは高い忠実度ゲートをもたらす実行可能な方法であることを示す。 また、dsfqが読み出し共振器への減衰を防ぎながら外部印加フラックスを調整することにより、読み出し共振器との効果的な結合を制御できることを示す。 最後に,ループ領域が同一でない場合でも,大域磁場の変動に指数関数的に影響を受けないdsfqの二重ループグラディメトリ版についても検討した。

Fast, high fidelity control and readout of protected superconducting qubits are fundamentally challenging due to their inherent insensitivity. We propose a flux qubit variation which enjoys a tunable level of protection against relaxation to resolve this outstanding issue. Our qubit design, the double-shunted flux qubit (DSFQ), realizes a generic double-well potential through its three junction ring geometry. One of the junctions is tunable, making it possible to control the barrier height and thus the level of protection. We analyze single- and two-qubit gate operations that rely on lowering the barrier. We show that this is a viable method that results in high fidelity gates as the non-computational states are not occupied during operations. Further, we show how the effective coupling to a readout resonator can be controlled by adjusting the externally applied flux while the DSFQ is protected from decaying into the readout resonator. Finally, we also study a double-loop gradiometric version of the DSFQ which is exponentially insensitive to variations in the global magnetic field, even when the loop areas are non-identical.
翻訳日:2023-03-03 15:16:35 公開日:2023-03-02
# マルチヘッド多損失モデル校正

Multi-Head Multi-Loss Model Calibration ( http://arxiv.org/abs/2303.01099v1 )

ライセンス: Link先を確認
Adrian Galdran, Johan Verjans, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester(参考訳) 有意義な不確実性推定を提供することは、臨床における機械学習モデルの展開の成功に不可欠である。 不確実性定量化の中枢的な側面は、モデルキャリブレーション(モデルキャリブレーション)とも呼ばれるモデルの実際の確率と整合した予測を返す能力である。 校正を改善するために多くの方法が提案されているが、深層ニューラルネットワークのアンサンブルを訓練する単純だが高価な手法とは一致しない。 本稿では,深層アンサンブルのコストのかかるトレーニングと推論をバイパスする簡易なセンシング方式を提案するが,キャリブレーション能力は維持する。 この考え方は、ネットワークの終端にある一般的な線形分類器を、異なる損失関数で監督されたヘッドの集合に置き換えて、予測に多様性を強制する。 具体的には、各頭部は重み付きクロスエントロピー損失を最小限に抑えるように訓練されるが、重みは異なる枝間で異なる。 その結果, 病理組織学的および内視鏡的画像分類のための2つの課題データセットにおいて, 精度を犠牲にすることなく, 良好な校正が得られた。 実験の結果,マルチヘッド型マルチロス分類器は本質的によく校正されており,最近の校正技術よりも優れており,Deep Ensemblesの性能にも挑戦していることがわかった。 実験を再現するコードは \url{https://github.com/agaldran/mhml_calibration} で見ることができる。

Delivering meaningful uncertainty estimates is essential for a successful deployment of machine learning models in the clinical practice. A central aspect of uncertainty quantification is the ability of a model to return predictions that are well-aligned with the actual probability of the model being correct, also known as model calibration. Although many methods have been proposed to improve calibration, no technique can match the simple, but expensive approach of training an ensemble of deep neural networks. In this paper we introduce a form of simplified ensembling that bypasses the costly training and inference of deep ensembles, yet it keeps its calibration capabilities. The idea is to replace the common linear classifier at the end of a network by a set of heads that are supervised with different loss functions to enforce diversity on their predictions. Specifically, each head is trained to minimize a weighted Cross-Entropy loss, but the weights are different among the different branches. We show that the resulting averaged predictions can achieve excellent calibration without sacrificing accuracy in two challenging datasets for histopathological and endoscopic image classification. Our experiments indicate that Multi-Head Multi-Loss classifiers are inherently well-calibrated, outperforming other recent calibration techniques and even challenging Deep Ensembles' performance. Code to reproduce our experiments can be found at \url{https://github.com/agaldran/mhml_calibration} .
翻訳日:2023-03-03 15:16:17 公開日:2023-03-02
# 超伝導量子ビット系における量子イマジナリー時間進化による分子エネルギーの決定

Determination of Molecular Energies via Quantum Imaginary Time Evolution in a Superconducting Qubit System ( http://arxiv.org/abs/2303.01098v1 )

ライセンス: Link先を確認
Zhiwen Zong, Sainan Huai, Tianqi Cai, Wenyan Jin, Ze Zhan, Zhenxing Zhang, Kunliang Bu, Liyang Sui, Ying Fei, Yicong Zheng, Shengyu Zhang, Jianlan Wu, Yi Yin(参考訳) 基底状態問題を解決する有効なツールとして、想像時間発展(ite)は物理・化学シミュレーションで広く使われている。 量子対する異なるITEベースのアルゴリズムが最近提案され、いくつかの実システムに適用されている。 超伝導量子ビット系における水素 (H2) および水素化リチウム (LiH) 分子の基底状態エネルギーをシミュレートする変動型量子想像時間進化法 (QITE) を実験的に実現した。 H2分子は、ユニタリカップリングクラスタ(UCC)アンザッツを持つ3量子回路を用いて直接シミュレートされる。 また, qite をクラスタ平均場法(cmf)法と組み合わせ, 効果的なハミルトニアンを得る。 LiH分子は、ハードウェア効率のアンサッツを持つ3量子回路を用いてシミュレートされる。 比較のために、LiH分子は平衡点にUCCアンザッツを持つ4量子回路を用いて直接シミュレートされる。 実験結果はすべて4回の反復で収束し、高忠実度基底状態エネルギーが得られた。 将来のより複雑なシステムでは、CMFは相互作用のさらなるグループ化を許して効果的なハミルトニアンを得ることができ、ハイブリッドQITEアルゴリズムはより少ない量子ビットを持つ比較的大規模なシステムをシミュレートすることができる。

As a valid tool for solving ground state problems, imaginary time evolution (ITE) is widely used in physical and chemical simulations. Different ITE-based algorithms in their quantum counterpart have recently been proposed and applied to some real systems. We experimentally realize the variational-based quantum imaginary time evolution (QITE) algorithm to simulate the ground state energy of hydrogen (H2) and lithium hydride (LiH) molecules in a superconducting qubit system. The H2 molecule is directly simulated using the 3-qubit circuit with unitary-coupled clusters (UCC) ansatz. We also combine QITE with the cluster mean-field (CMF) method to obtain an effective Hamiltonian. The LiH molecule is correspondingly simulated using the 3-qubit circuit with hardware-efficient ansatz. For comparison, the LiH molecule is also directly simulated using the 4-qubit circuit with UCC ansatz at the equilibrium point. All the experimental results show a convergence within 4 iterations, with high-fidelity ground state energy obtained. For a more complex system in the future, the CMF may allow further grouping of interactions to obtain an effective Hamiltonian, then the hybrid QITE algorithm can possibly simulate a relatively large-scale system with fewer qubits.
翻訳日:2023-03-03 15:15:53 公開日:2023-03-02
# CTRLStruct:オープンドメイン応答生成のための対話構造学習

CTRLStruct: Dialogue Structure Learning for Open-Domain Response Generation ( http://arxiv.org/abs/2303.01094v1 )

ライセンス: Link先を確認
Congchi Yin, Piji Li and Zhaochun Ren(参考訳) 対話構造発見は対話生成に不可欠である。 構造化されたトピックフローは、バックグラウンド情報を活用し、将来のトピックを予測することで、制御可能で説明可能な応答を生成する。 しかし、従来の研究は、より複雑で困難なオープンドメイン対話以外のタスク指向対話における対話構造学習に重点を置いていた。 本稿では,トピックレベルの対話クラスタを効果的に探索するための対話構造学習のための新しいフレームワークctrlstructを提案する。 正確には、双方向トランスフォーマーによって符号化された対話発話は、表現を改善するために特別に設計されたコントラスト学習タスクによってさらに訓練される。 そして、発話レベルの表現にクラスタリングを行い、対話構造グラフの頂点と見なせる話題レベルのクラスタを形成する。 頂点間の遷移確率を示すグラフのエッジは、データセットにおける専門家の振る舞いを模倣して計算される。 最後に、対話構造グラフを対話モデルに統合し、制御応答生成を行う。 2つのポピュラーなopen-domain dialogueデータセットにおける実験により、このモデルは、優れた対話モデルに比べてよりコヒーレントな応答を生成できるだけでなく、対話発話表現における典型的な文埋め込み手法よりも優れていることが示された。 コードはGitHubで入手できる。

Dialogue structure discovery is essential in dialogue generation. Well-structured topic flow can leverage background information and predict future topics to help generate controllable and explainable responses. However, most previous work focused on dialogue structure learning in task-oriented dialogue other than open-domain dialogue which is more complicated and challenging. In this paper, we present a new framework CTRLStruct for dialogue structure learning to effectively explore topic-level dialogue clusters as well as their transitions with unlabelled information. Precisely, dialogue utterances encoded by bi-directional Transformer are further trained through a special designed contrastive learning task to improve representation. Then we perform clustering to utterance-level representations and form topic-level clusters that can be considered as vertices in dialogue structure graph. The edges in the graph indicating transition probability between vertices are calculated by mimicking expert behavior in datasets. Finally, dialogue structure graph is integrated into dialogue model to perform controlled response generation. Experiments on two popular open-domain dialogue datasets show our model can generate more coherent responses compared to some excellent dialogue models, as well as outperform some typical sentence embedding methods in dialogue utterance representation. Code is available in GitHub.
翻訳日:2023-03-03 15:15:31 公開日:2023-03-02
# ArCL: Augmentation-Robust表現によるコントラスト学習の促進

ArCL: Enhancing Contrastive Learning with Augmentation-Robust Representations ( http://arxiv.org/abs/2303.01092v1 )

ライセンス: Link先を確認
Xuyang Zhao and Tianqi Du and Yisen Wang and Jun Yao and Weiran Huang(参考訳) Self-Supervised Learning (SSL)は、モデルトレーニングにラベルのないデータを活用するパラダイムである。 実験的な研究により、sslは下流の分布とトレーニングの分布が異なる分散シフトシナリオにおいて有望なパフォーマンスを達成できることが示されている。 しかし、その移動可能性に関する理論的理解は限られている。 本稿では,データ拡張の影響を調べることにより,自己教師ありコントラスト学習の伝達可能性を分析するための理論的枠組みを提案する。 この結果から,コントラスト学習の下流性能はデータ拡張の選択に大きく依存していることが判明した。 さらに、対照的な学習は、その伝達可能性を制限するドメイン不変の特徴を学習できないことを示す。 これらの理論的知見に基づいて、ドメイン不変の特徴を学習し、既存のコントラスト学習アルゴリズムと容易に統合できるAugmentation-robust Contrastive Learning (ArCL) という新しい手法を提案する。 複数のデータセットで実験を行い,arclがコントラスト学習の伝達性を大幅に向上させることを示した。

Self-Supervised Learning (SSL) is a paradigm that leverages unlabeled data for model training. Empirical studies show that SSL can achieve promising performance in distribution shift scenarios, where the downstream and training distributions differ. However, the theoretical understanding of its transferability remains limited. In this paper, we develop a theoretical framework to analyze the transferability of self-supervised contrastive learning, by investigating the impact of data augmentation on it. Our results reveal that the downstream performance of contrastive learning depends largely on the choice of data augmentation. Moreover, we show that contrastive learning fails to learn domain-invariant features, which limits its transferability. Based on these theoretical insights, we propose a novel method called Augmentation-robust Contrastive Learning (ArCL), which guarantees to learn domain-invariant features and can be easily integrated with existing contrastive learning algorithms. We conduct experiments on several datasets and show that ArCL significantly improves the transferability of contrastive learning.
翻訳日:2023-03-03 15:15:13 公開日:2023-03-02
# OPE-SR:任意スケール画像超解像におけるパラメータフリーアップサンプリングモジュール設計のための直交位置符号化

OPE-SR: Orthogonal Position Encoding for Designing a Parameter-free Upsampling Module in Arbitrary-scale Image Super-Resolution ( http://arxiv.org/abs/2303.01091v1 )

ライセンス: Link先を確認
Gaochao Song, Luo Zhang, Ran Su, Jianfeng Shi, Ying He, Qian Sun(参考訳) Inlicit Neural representation (INR)は、任意のスケールの画像超解像(SR)に対する一般的なアプローチであり、INRの重要な構成要素である位置符号化は、その表現能力を向上する。 位置符号化をモチベーションとして,位置符号化の拡張である直交位置符号化(OPE)と,INRベースのアップサンプリングモジュールを置き換えるOPE-Upscaleモジュールを提案する。 inrと同様、ope-upscaleモジュールは2d座標と潜在コードを入力として取得しますが、トレーニングパラメータは必要ありません。 このパラメータフリー機能により、OPE-Upscale Moduleは線形結合操作を直接実行して画像を連続的に再構成し、任意のスケールの画像再構成を実現することができる。 簡潔なSRフレームワークとして,提案手法は計算効率が高く,実験や評価によって確認されている最先端技術(SOTA)と比較してメモリ消費が少ない。 さらに,本手法は任意のスケール画像超解像におけるSOTAと同等の結果が得られる。 最後に、op が直交基底の集合に対応することを示し、我々の設計原理を正当化する。

Implicit neural representation (INR) is a popular approach for arbitrary-scale image super-resolution (SR), as a key component of INR, position encoding improves its representation ability. Motivated by position encoding, we propose orthogonal position encoding (OPE) - an extension of position encoding - and an OPE-Upscale module to replace the INR-based upsampling module for arbitrary-scale image super-resolution. Same as INR, our OPE-Upscale Module takes 2D coordinates and latent code as inputs; however it does not require training parameters. This parameter-free feature allows the OPE-Upscale Module to directly perform linear combination operations to reconstruct an image in a continuous manner, achieving an arbitrary-scale image reconstruction. As a concise SR framework, our method has high computing efficiency and consumes less memory comparing to the state-of-the-art (SOTA), which has been confirmed by extensive experiments and evaluations. In addition, our method has comparable results with SOTA in arbitrary scale image super-resolution. Last but not the least, we show that OPE corresponds to a set of orthogonal basis, justifying our design principle.
翻訳日:2023-03-03 15:14:55 公開日:2023-03-02
# LiteG2P:Grapheme-to-phoneme変換のための高速・軽量・高精度モデル

LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme conversion ( http://arxiv.org/abs/2303.01086v1 )

ライセンス: Link先を確認
Chunfeng Wang, Peisong Huang, Yuxiang Zou, Haoyu Zhang, Shichao Liu, Xiang Yin, Zejun Ma(参考訳) 音声認識(ASR)とテキスト音声(TTS)のフロントエンドのキーコンポーネントとして、G2P(Grapheme-to-phoneme)が文字を対応する発音に変換する役割を担っている。 既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションシナリオ、特にオンデバイス推論のプロセスでは制限されている。 本稿では,専門家知識とコネクショニスト時間分類(ctc)に基づくニューラルネットワークの利点を統合し,高速で軽量で理論的に並列なliteg2pと呼ばれる新しい手法を提案する。 慎重に設計することで、LiteG2Pはクラウドとデバイスの両方に適用できる。 CMUデータセットを用いた実験結果から,提案手法の性能は10倍のパラメータを持つ最先端のCTC法よりも優れており,さらにパラメータが少なく,33倍の計算量を有する最先端のTransformerベースのシーケンス・ツー・シーケンスモデルと同等であることがわかった。

As a key component of automated speech recognition (ASR) and the front-end in text-to-speech (TTS), grapheme-to-phoneme (G2P) plays the role of converting letters to their corresponding pronunciations. Existing methods are either slow or poor in performance, and are limited in application scenarios, particularly in the process of on-device inference. In this paper, we integrate the advantages of both expert knowledge and connectionist temporal classification (CTC) based neural network and propose a novel method named LiteG2P which is fast, light and theoretically parallel. With the carefully leading design, LiteG2P can be applied both on cloud and on device. Experimental results on the CMU dataset show that the performance of the proposed method is superior to the state-of-the-art CTC based method with 10 times fewer parameters, and even comparable to the state-of-the-art Transformer-based sequence-to-sequence model with less parameters and 33 times less computation.
翻訳日:2023-03-03 15:14:34 公開日:2023-03-02
# GBMST: 粒界に基づく効率的な最小スパンニング木クラスタリング

GBMST: An Efficient Minimum Spanning Tree Clustering Based on Granular-Ball ( http://arxiv.org/abs/2303.01082v1 )

ライセンス: Link先を確認
Jiang Xie, Shuyin Xia, Guoyin Wang and Xinbo Gao(参考訳) 既存のクラスタリング手法のほとんどは、各データの距離や密度などの情報の単一の粒度に基づいている。 この最もきめ細かいアプローチは、通常非効率でノイズの影響を受けやすい。 そこで本研究では,多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。 粗粒粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装し,アウトレーラの影響を大幅に回避し,MSTの構築プロセスの高速化を図る。 いくつかのデータセットの実験結果はアルゴリズムの威力を示している。 すべてのコードはhttps://github.com/xjnine/GBMSTでリリースされた。

Most of the existing clustering methods are based on a single granularity of information, such as the distance and density of each data. This most fine-grained based approach is usually inefficient and susceptible to noise. Therefore, we propose a clustering algorithm that combines multi-granularity Granular-Ball and minimum spanning tree (MST). We construct coarsegrained granular-balls, and then use granular-balls and MST to implement the clustering method based on "large-scale priority", which can greatly avoid the influence of outliers and accelerate the construction process of MST. Experimental results on several data sets demonstrate the power of the algorithm. All codes have been released at https://github.com/xjnine/GBMST.
翻訳日:2023-03-03 15:14:13 公開日:2023-03-02
# BERTはシークエンシャルタスクの予測を控えることができるか? 調査研究

Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study ( http://arxiv.org/abs/2303.01081v1 )

ライセンス: Link先を確認
Mingxu Tao, Yansong Feng, Dongyan Zhao(参考訳) 大規模な事前訓練された言語モデルは、さまざまな自然言語処理(NLP)タスクの最先端を実現するのに役立ちます。 この問題を軽減するため、近年の研究では、スパース体験リプレイと局所適応により既存のモデルを強化し、良好な性能が得られる。 しかし,本論文では,BERTのような事前学習型言語モデルが,メモリリプレイが少なくても逐次学習できる可能性を見出した。 BERTが古い知識を維持する能力を検証するために、BERTのパラメータを固定した単一層プローブネットワークを採用し、再定義する。 テキスト分類と抽出質問応答という2種類のNLPタスクのモデルについて検討する。 実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイやリプレイを行なわずに,長期間にわたって高品質な表現を生成できることがわかった。 さらに,記憶のリハーサルがタスクインクリメンタル学習においてどのように重要な役割を果たすか,そのメカニズムを解釈する一連の新しい手法を導入し,新たな発見と壊滅的なリハーサルに関するこれまでの研究とのギャップを橋渡しする。

Large pre-trained language models help to achieve state of the art on a variety of natural language processing (NLP) tasks, nevertheless, they still suffer from forgetting when incrementally learning a sequence of tasks. To alleviate this problem, recent works enhance existing models by sparse experience replay and local adaption, which yield satisfactory performance. However, in this paper we find that pre-trained language models like BERT have a potential ability to learn sequentially, even without any sparse memory replay. To verify the ability of BERT to maintain old knowledge, we adopt and re-finetune single-layer probe networks with the parameters of BERT fixed. We investigate the models on two types of NLP tasks, text classification and extractive question answering. Our experiments reveal that BERT can actually generate high quality representations for previously learned tasks in a long term, under extremely sparse replay or even no replay. We further introduce a series of novel methods to interpret the mechanism of forgetting and how memory rehearsal plays a significant role in task incremental learning, which bridges the gap between our new discovery and previous studies about catastrophic forgetting.
翻訳日:2023-03-03 15:13:54 公開日:2023-03-02
# brainbox量子オートエンコーダによる絡み合い状態の誤り緩和

Error mitigation of entangled states using brainbox quantum autoencoders ( http://arxiv.org/abs/2303.01134v1 )

ライセンス: Link先を確認
Jos\'ephine Pazem, Mohammad H. Ansari(参考訳) 現在の量子ハードウェアは、多ビットの絡み合った状態へのアクセスを制限する様々なノイズの源となる。 単一量子ビットボトルネックを持つ量子オートエンコーダ回路は、ノイズアンタングル状態の誤差を補正する能力を示している。 ボトルネックの中で少し複雑な構造、いわゆるブレインボックスを導入することで、より速く、より強力なノイズチャネルを発生させることができる。 ボトルネックに対する最も適切なブレインボックスの選択は、ハードウェアのノイズ強度とトレーニングインピーダンスとのトレードオフの結果である。 最後に、ネットワーク全体のR'enyiエントロピーフローを研究することにより、エンタングルメントの局在化が学習を通しての認知において中心的な役割を果たすことを示す。

Current quantum hardware is subject to various sources of noise that limits the access to multi-qubit entangled states. Quantum autoencoder circuits with a single qubit bottleneck have shown capability to correct error in noisy entangled state. By introducing slightly more complex structures in the bottleneck, the so-called brainboxes, the denoising process can take place faster and for stronger noise channels. Choosing the most suitable brainbox for the bottleneck is the result of a trade-off between noise intensity on the hardware, and the training impedance. Finally, by studying R\'enyi entropy flow throughout the networks we demonstrate that the localization of entanglement plays a central role in denoising through learning.
翻訳日:2023-03-03 15:07:03 公開日:2023-03-02
# トップK勧告のための不均一モデルからの蒸留

Distillation from Heterogeneous Models for Top-K Recommendation ( http://arxiv.org/abs/2303.01130v1 )

ライセンス: Link先を確認
SeongKu Kang, Wonbin Kweon, Dongha Lee, Jianxun Lian, Xing Xie, Hwanjo Yu(参考訳) 近年のレコメンデータシステムは異種モデルのアンサンブルを用いて顕著な性能を示した。 しかし、それはリソースとモデル数に比例する推論遅延を必要とするため、非常にコストがかかる。 本研究の目的は,異種教員のアンサンブル知識を,知識蒸留(kd)を用いた軽量学生モデルに移し,高い精度を維持しつつ,膨大な推論コストを削減することである。 実験の結果,異種教員から知識を移すと,蒸留の効果が著しく低下することがわかった。 それにもかかわらず、難易度を和らげる重要な信号が教師の訓練軌道から得られることを示した。 本稿では,教師の軌跡から生み出す知識の難解なシーケンスを伝達することにより,生徒モデルを指導する新しいkdフレームワークhetcompを提案する。 生徒の学習状態に応じた指導を行うため、hetcompは動的知識構築を用いて、段階的に難易度の高いランキング知識と適応的知識転送を提供し、より詳細なランキング情報を徐々に転送する。 総合実験の結果,HetCompは蒸留品質と学生モデルの一般化を著しく改善することがわかった。

Recent recommender systems have shown remarkable performance by using an ensemble of heterogeneous models. However, it is exceedingly costly because it requires resources and inference latency proportional to the number of models, which remains the bottleneck for production. Our work aims to transfer the ensemble knowledge of heterogeneous teachers to a lightweight student model using knowledge distillation (KD), to reduce the huge inference costs while retaining high accuracy. Through an empirical study, we find that the efficacy of distillation severely drops when transferring knowledge from heterogeneous teachers. Nevertheless, we show that an important signal to ease the difficulty can be obtained from the teacher's training trajectory. This paper proposes a new KD framework, named HetComp, that guides the student model by transferring easy-to-hard sequences of knowledge generated from the teachers' trajectories. To provide guidance according to the student's learning state, HetComp uses dynamic knowledge construction to provide progressively difficult ranking knowledge and adaptive knowledge transfer to gradually transfer finer-grained ranking information. Our comprehensive experiments show that HetComp significantly improves the distillation quality and the generalization of the student model.
翻訳日:2023-03-03 15:06:52 公開日:2023-03-02
# 小型フットプリント話者検証のためのマルチレベルXベクトル知識の蒸留

Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker Verification ( http://arxiv.org/abs/2303.01125v1 )

ライセンス: Link先を確認
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) ディープスピーカーモデルは話者検証において低い誤り率をもたらす。 にもかかわらず、ハイパフォーマンスはモデルのサイズと計算時間で交換される傾向にあり、これらのモデルが限られた条件下で動作することを困難にしている。 我々は, 知識蒸留を活用し, 小型深層話者埋め込み抽出に焦点をあてた。 この話題の先行研究は、発話レベルで話者埋め込み抽出に対処する一方で、x-vectorモデル(教師ネットワーク)の様々なレベルからの埋め込みを組み合わせ、小さなフットプリントの学生ネットワークを訓練することを提案する。 その結果, 学生モデルは教師の埋め込みの大きさによって85%~91%小さくなっており, フレームレベルの情報の有用性が示唆された。 教師の埋め込みの結合は、教師から75%の相対的なサイズ削減を生かしながら、教師と同等のパフォーマンスに達する学生ネットワークに結果をもたらす。 発見と類似は、他のx-ベクター変種にさらに拡張される。

Deep speaker models yield low error rates in speaker verification. Nonetheless, the high performance tends to be exchanged for model size and computation time, making these models challenging to run under limited conditions. We focus on small-footprint deep speaker embedding extraction, leveraging knowledge distillation. While prior work on this topic has addressed speaker embedding extraction at the utterance level, we propose to combine embeddings from various levels of the x-vector model (teacher network) to train small-footprint student networks. Results indicate the usefulness of frame-level information, with the student models being 85%-91% smaller than their teacher, depending on the size of the teacher embeddings. Concatenation of teacher embeddings results in student networks that reach comparable performance along with the teacher while utilizing a 75% relative size reduction from the teacher. The findings and analogies are furthered to other x-vector variants.
翻訳日:2023-03-03 15:06:30 公開日:2023-03-02
# 量子コンピュータを用いた制約電子状態の表現と測定のための資源効率的な方法

Resource efficient method for representation and measurement of constrained electronic structure states with a quantum computer ( http://arxiv.org/abs/2303.01122v1 )

ライセンス: Link先を確認
Kaur Kristjuhan and Mark Nicholas Jones(参考訳) 本稿では,分子の基底状態エネルギーの量子シミュレーションを改善する新しい手法を提案する。 問題制約に違反する状態を除外するカスタムマッピングを生成することにより,問題の次元性を低減する前処理ステップを古典的に実施する。 その後、この写像を通じて問題ハミルトニアンの期待値を抽出するための特別な測定方法が用いられる。 本手法は,量子化学問題の物理を近似することなく,変分量子固有解法(VQE)アルゴリズムを実行するために必要な量子資源の量を削減できることを実証する。

We present a novel method for improving the quantum simulation of the ground state energy of molecules. We perform a pre-processing step classically, which reduces the dimensionality of the problem by generating a custom mapping which excludes states which violate problem constraints. Subsequently, a specialized measurement scheme is used to extract the expectation value of the problem Hamiltonian through this mapping. We demonstrate that this method reduces the amount of quantum resources needed to run a Variational Quantum Eigensolver (VQE) algorithm without making any approximations to the physics of the quantum chemistry problem.
翻訳日:2023-03-03 15:06:15 公開日:2023-03-02
# すべての類型:半監督学習における自己学習のための擬似ラベルデータの選択方法

In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for Self-Training in Semi-Supervised Learning ( http://arxiv.org/abs/2303.01117v1 )

ライセンス: Link先を確認
Julian Rodemann, Christoph Jansen, Georg Schollmeyer, Thomas Augustin(参考訳) 自己学習は半教師付き学習において単純かつ効果的な方法である。 擬似ラベル付きデータを追加することで、トレーニングデータを反復的に強化する。 一般化性能はこれらの擬似ラベルデータ(PLS)の選択に大きく依存する。 本稿では,plsをモデリングの前提に対してより堅牢にすることを目的としている。 この目的のために,多目的ユーティリティ関数を最大化する擬似ラベルデータを選択することを提案する。 後者は不確実性の異なる源を考慮し、モデルの選択、エラーの蓄積、共変量シフトの3つについてより詳細に論じる。 このような不確実性に関する二階情報がない場合には、さらに一般ベイズ的αカット更新規則の一般的アプローチを考える。 概念実証として,シミュレーションデータと実世界のデータに対する3つの頑健な拡張の適用が注目される。 結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。

Self-training is a simple yet effective method within semi-supervised learning. The idea is to iteratively enhance training data by adding pseudo-labeled data. Its generalization performance heavily depends on the selection of these pseudo-labeled data (PLS). In this paper, we aim at rendering PLS more robust towards the involved modeling assumptions. To this end, we propose to select pseudo-labeled data that maximize a multi-objective utility function. The latter is constructed to account for different sources of uncertainty, three of which we discuss in more detail: model selection, accumulation of errors and covariate shift. In the absence of second-order information on such uncertainties, we furthermore consider the generic approach of the generalized Bayesian alpha-cut updating rule for credal sets. As a practical proof of concept, we spotlight the application of three of our robust extensions on simulated and real-world data. Results suggest that in particular robustness w.r.t. model choice can lead to substantial accuracy gains.
翻訳日:2023-03-03 15:06:03 公開日:2023-03-02
# 集積電荷センサによるInAsナノワイヤ三重量子ドットの電荷状態、三重点、四重点

Charge states, triple points and quadruple points in an InAs nanowire triple quantum dot revealed by an integrated charge sensor ( http://arxiv.org/abs/2303.01114v1 )

ライセンス: Link先を確認
Weijie Li, Zhihai Liu, Jingwei Mu, Yi Luo, Dong Pan, Jianhua Zhao and H. Q. Xu(参考訳) 量子ドット(QD)電荷センサと一体化したシリアルトリプル量子ドット(TQD)は、細いフィンガーゲート技術によりInAsナノワイヤから実現される。 装置の複雑な電荷状態と興味深い性質は、直接輸送測定と電荷センサ検出測定によって研究されている。 TQDとセンサQDのQDから形成される容量結合型並列二重QDの電荷安定性図の測定は、TQDとセンサQDとの可視容量結合を示し、電荷センサの感度が良好であることを示す。 TQDの電荷安定性図は電荷センサにより測定され、測定された電荷安定性図に見られる大域的な特徴は、TQDを介して直接輸送電流の同時測定と、効果的な容量ネットワークモデルに基づくシミュレーションによりよく再現される。 TQDの複素電荷安定性図は、3つのQDがすべて共鳴状態かほぼ共振状態にあるようなエネルギー的に縮退した領域における統合電荷センサで詳細に測定され、四重点と可能な8つの電荷状態の形成が観察される。 さらに,量子セルオートマトンとしてのtqdの動作を実証し,考察した。

A serial triple quantum dot (TQD) integrated with a quantum dot (QD) charge sensor is realized from an InAs nanowire via a fine finger-gate technique. The complex charge states and intriguing properties of the device are studied in the few-electron regime by direct transport measurements and by charge-sensor detection measurements. The measurements of the charge stability diagram for a capacitively coupled, parallel double-QD formed from a QD in the TQD and the sensor QD show a visible capacitance coupling between the TQD and the sensor QD, indicating a good sensitivity of the charge sensor. The charge stability diagrams of the TQD are measured by the charge sensor and the global features seen in the measured charge stability diagrams are well reproduced by the simultaneous measurements of the direct transport current through the TQD and by the simulation made based on an effective capacitance network model. The complex charge stability diagrams of the TQD are measured in detail with the integrated charge sensor in an energetically degenerate region, where all the three QDs are on or nearly on resonance, and the formations of quadruple points and of all possible eight charge states are observed. In addition, the operation of the TQD as a quantum cellular automata is demonstrated and discussed.
翻訳日:2023-03-03 15:05:49 公開日:2023-03-02
# 固体スピンを用いた量子増強ラジオ検出とレンジ

Quantum enhanced radio detection and ranging with solid spins ( http://arxiv.org/abs/2303.01113v1 )

ライセンス: Link先を確認
Xiang-Dong Chen and En-Hui Wang and Long-Kun Shan and Shao-Chun Zhang and Ce Feng and Yu Zheng and Yang Dong and Guang-Can Guo and Fang-Wen Sun(参考訳) 物体の正確な電波周波数範囲と位置決めは、自律走行、モノのインターネット、製造などの研究の恩恵を受けている。 量子受信機は、従来の測定値を上回る能力を持つ無線信号を検出するために提案されている。 最も有望な候補の一つとして、固体スピンは優れた強靭性、高空間分解能、小型化を示す。 しかし、高周波RF信号に対する適度な応答から問題が発生する。 ここでは、量子センサとrfフィールドのコヒーレントな相互作用を利用して、量子強化された電波検出と範囲を示す。 RF磁気感度は、ナノスケール量子センシングとRF集束に基づいて、3次で21$pT/\sqrt{Hz}$に改善される。 マルチ光子励起によりターゲット位置へのスピンの応答がさらに高められ、16$\mu m$のレンジ精度がGHz RF信号で実現される。 その結果、量子強化レーダーと固体スピンとの通信を探索する道を開いた。

The accurate radio frequency (RF) ranging and localizing of objects has benefited the researches including autonomous driving, the Internet of Things, and manufacturing. Quantum receivers have been proposed to detect the radio signal with ability that can outperform conventional measurement. As one of the most promising candidates, solid spin shows superior robustness, high spatial resolution and miniaturization. However, challenges arise from the moderate response to a high frequency RF signal. Here, by exploiting the coherent interaction between quantum sensor and RF field, we demonstrate quantum enhanced radio detection and ranging. The RF magnetic sensitivity is improved by three orders to 21 $pT/\sqrt{Hz}$, based on nanoscale quantum sensing and RF focusing. Further enhancing the response of spins to the target's position through multi-photon excitation, a ranging accuracy of 16 $\mu m$ is realized with a GHz RF signal. The results pave the way for exploring quantum enhanced radar and communications with solid spins.
翻訳日:2023-03-03 15:05:27 公開日:2023-03-02
# 視覚原子:正弦波を用いた事前学習型視覚トランスフォーマー

Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves ( http://arxiv.org/abs/2303.01112v1 )

ライセンス: Link先を確認
Sora Takashima, Ryo Hayamizu, Nakamasa Inoue, Hirokatsu Kataoka, Rio Yokota(参考訳) fdsl(formula-driven supervised learning)は、imagenet-21kの事前学習効果を超えるexfractaldb-21kが示されている視覚トランスフォーマーの事前学習に有効であることが示されている。 これらの研究は、輪郭が前訓練された視覚変換器のテクスチャよりも重要であったことも示している。 しかし、なぜ輪郭指向の合成データセットが実際のデータセットと同じ精度を達成できるのかという体系的な調査がないため、懐疑論の余地は少ない。 本研究では,輪郭指向合成データセットの設計空間を体系的に研究するための円高調波に基づく新しい手法を開発する。 これにより、最適なfdslパラメータの範囲を効率的に探索し、データセット内の合成画像の多様性を最大化することができます。 新たなデータセット visualatom-21k が vit-base の事前トレーニングに使用されると、imagenet-1k の微調整時に top-1 の精度は 83.7% に達した。 これは JFT-300M の事前トレーニングによって達成されたトップ-1 の精度 (84.2%) に近い。 静的データセットである JFT-300M とは異なり、合成データセットの品質は改善され続けており、現在の作業はこの可能性の証である。 FDSLはまた、実際の画像に関連する一般的な問題、例えば、プライバシー/コピーライト問題、コスト/エラーのラベル付け、倫理的偏見など、自由である。

Formula-driven supervised learning (FDSL) has been shown to be an effective method for pre-training vision transformers, where ExFractalDB-21k was shown to exceed the pre-training effect of ImageNet-21k. These studies also indicate that contours mattered more than textures when pre-training vision transformers. However, the lack of a systematic investigation as to why these contour-oriented synthetic datasets can achieve the same accuracy as real datasets leaves much room for skepticism. In the present work, we develop a novel methodology based on circular harmonics for systematically investigating the design space of contour-oriented synthetic datasets. This allows us to efficiently search the optimal range of FDSL parameters and maximize the variety of synthetic images in the dataset, which we found to be a critical factor. When the resulting new dataset VisualAtom-21k is used for pre-training ViT-Base, the top-1 accuracy reached 83.7% when fine-tuning on ImageNet-1k. This is close to the top-1 accuracy (84.2%) achieved by JFT-300M pre-training, while the number of images is 1/14. Unlike JFT-300M which is a static dataset, the quality of synthetic datasets will continue to improve, and the current work is a testament to this possibility. FDSL is also free of the common issues associated with real images, e.g. privacy/copyright issues, labeling costs/errors, and ethical biases.
翻訳日:2023-03-03 15:05:11 公開日:2023-03-02
# 画像分類問題としての株価変動予測

Predicting Stock Price Movement as an Image Classification Problem ( http://arxiv.org/abs/2303.01111v1 )

ライセンス: Link先を確認
Matej Steinbacher(参考訳) 本論文は,画像分類問題と見なされる株式の日内価格変動について検討する。 CNNベースのモデルを使用して、最初の取引時間とクローゼットの間の高レベルな関係を説得力のあるケースを作ります。 このアルゴリズムは、対立する2つのクラスを適切に分離し、アルゴリズムの予測に従って投資することで、理論上の最大値以外の全ての代替構成を上回った。 論文をサポートするために、いくつかの追加テストを実施しました。 論文の調査結果は、金融市場と特に株価変動の予測を研究するためのコンピュータビジョン技術の適合性を強調している。

The paper studies intraday price movement of stocks that is considered as an image classification problem. Using a CNN-based model we make a compelling case for the high-level relationship between the first hour of trading and the close. The algorithm managed to adequately separate between the two opposing classes and investing according to the algorithm's predictions outperformed all alternative constructs but the theoretical maximum. To support the thesis, we ran several additional tests. The findings in the paper highlight the suitability of computer vision techniques for studying financial markets and in particular prediction of stock price movements.
翻訳日:2023-03-03 15:04:45 公開日:2023-03-02
# 超伝導回路における線形結合器によるハードウェア効率の良い自律誤差補正

Hardware efficient autonomous error correction with linear couplers in superconducting circuits ( http://arxiv.org/abs/2303.01110v1 )

ライセンス: Link先を確認
Ziqian Li, Tanay Roy, David Rodr\'iguez P\'erez, David I. Schuster, Eliot Kapit(参考訳) 大規模量子コンピュータは、情報のデコヒーレンスを防ぐために、必然的に量子エラー補正(QEC)を必要とする。 このような誤り訂正のオーバーヘッドがしばしば予測可能であることを考えると、自律的量子誤り訂正(AQEC)の提案は有望な短期的代替手段を提供する。 AQECスキームは、エラー状態をエンジニアリングされた散逸によって効率的に除去できる励起に変換することで機能する。 2つのトランスモンをエンコーダとして、波長可変カプラと2つの損失共振器を冷却源として、すべての単一量子ビットエラーチャネルを自律的に修正または抑制できる新しいaqecスキームであるstar codeを提案する。 理論的および数値的に、現実的なパラメータに対する論理状態の寿命の二次的改善を示す。 スター符号は2光子相互作用しか必要とせず、線形結合要素で実現でき、他の多くのAQEC提案で実装が難しい高次駆動や散逸項を避けることができる。 Starコードは他の平面超伝導回路に適応することができ、より大きな量子コンピュータやエラー訂正符号に組み込むための単一の量子ビットに代わるスケーラブルな代替手段を提供する。

Large-scale quantum computers will inevitably need quantum error correction (QEC) to protect information against decoherence. Given that the overhead of such error correction is often formidable, autonomous quantum error correction (AQEC) proposals offer a promising near-term alternative. AQEC schemes work by transforming error states into excitations that can be efficiently removed through engineered dissipation. We propose a new AQEC scheme, called the Star code, which can autonomously correct or suppress all single qubit error channels using two transmons as encoders with a tunable coupler and two lossy resonators as a cooling source. We theoretically and numerically demonstrate quadratic improvements in logical states' lifetime for realistic parameters. The Star code requires only two-photon interactions and can be realized with linear coupling elements, avoiding higher-order drive or dissipation terms that are difficult to implement in many other AQEC proposals. The Star code can be adapted to other planar superconducting circuits, offering a scalable alternative to single qubits for incorporation in larger quantum computers or error correction codes.
翻訳日:2023-03-03 15:04:36 公開日:2023-03-02
# マルチエージェント強化学習におけるエキスパートフリーオンライン転送学習

Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.01170v1 )

ライセンス: Link先を確認
Alberto Castagna and Ivana Dusparic(参考訳) 強化学習(rl)におけるトランスファーラーニングは、外部知識によるトレーニングフェーズを強化する方法を導入することで、深層rlのトレーニング問題、すなわち探索コスト、データ可用性、収束時間を克服するために広く研究されている。 一般的に知識は専門家から初心者に移される。 これにより、初心者エージェントの問題は解決されるが、そのような転送が効果的になるためには、エキスパートエージェントのタスクを十分に理解する必要がある。 本稿では,マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を実現するアルゴリズムであるExpert-Free Online Transfer Learning (EF-OnTL)を提案する。 専用の専門家は存在せず、エージェントのパフォーマンスや不確実性に基づいて、転送ステップ毎に転送するトランスファーソースエージェントと知識を動的に選択する。 不確実性推定を改善するため,RLエージェントと環境相互作用から不確実性を評価するRNDの拡張であるState Action Reward Next-State Random Network Distillation (sars-RND)を提案する。 専門家エージェントの有無に関わらず,ef-ontlが非転送シナリオやアドバイスベースのベースラインに対して,cart-pole,mt-pp,hfo(half field offense)という3つのベンチマークタスクで有効性を示す。 その結果,ef-ontlは外部入力やしきい値チューニングを必要とせず,アドバイスベースのベースラインと比較した場合,全体的な比較性能が得られることがわかった。 EF-OnTLは、対処されるタスクの複雑さに関連する改善によって、非トランスファーよりも優れています。

Transfer learning in Reinforcement Learning (RL) has been widely studied to overcome training issues of Deep-RL, i.e., exploration cost, data availability and convergence time, by introducing a way to enhance training phase with external knowledge. Generally, knowledge is transferred from expert-agents to novices. While this fixes the issue for a novice agent, a good understanding of the task on expert agent is required for such transfer to be effective. As an alternative, in this paper we propose Expert-Free Online Transfer Learning (EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer learning in multi-agent system. No dedicated expert exists, and transfer source agent and knowledge to be transferred are dynamically selected at each transfer step based on agents' performance and uncertainty. To improve uncertainty estimation, we also propose State Action Reward Next-State Random Network Distillation (sars-RND), an extension of RND that estimates uncertainty from RL agent-environment interaction. We demonstrate EF-OnTL effectiveness against a no-transfer scenario and advice-based baselines, with and without expert agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that EF-OnTL achieve overall comparable performance when compared against advice-based baselines while not requiring any external input nor threshold tuning. EF-OnTL outperforms no-transfer with an improvement related to the complexity of the task addressed.
翻訳日:2023-03-03 14:58:53 公開日:2023-03-02
# 不均一地形上の惑星ローバーの可逆性予測の確率的融合によるリスク対応経路計画

Risk-aware Path Planning via Probabilistic Fusion of Traversability Prediction for Planetary Rovers on Heterogeneous Terrains ( http://arxiv.org/abs/2303.01169v1 )

ライセンス: Link先を確認
Masafumi Endo, Tatsunori Taniai, Ryo Yonetani, Genya Ishigami(参考訳) 機械学習(ML)は、変形可能な地形における自律ローバー操作のトラバーサビリティを評価する上で重要な役割を果たすが、避けられない予測エラーに悩まされている。 特に地質学的特徴が異なる不均質な地形では、誤ったトラバーサビリティの予測がより顕著になり、回復不能なローバーの車輪の滑りや固定化のリスクが高まる。 本研究では,そのような誤予測を明示的に考慮した経路計画アルゴリズムを提案する。 鍵となる考え方は、地形型分類とすべり予測のための独特のMLモデルの確率論的融合である。 これにより、異質な地形を考慮したマルチモーダルスリップ分布を導出し、さらに経路計画におけるリスク対応トラバースコストの導出に統計的リスク評価を適用することができる。 大規模シミュレーション実験により,提案手法は既存手法に比べて不均質な地形上でより実現可能な経路を生成できることが実証された。

Machine learning (ML) plays a crucial role in assessing traversability for autonomous rover operations on deformable terrains but suffers from inevitable prediction errors. Especially for heterogeneous terrains where the geological features vary from place to place, erroneous traversability prediction can become more apparent, increasing the risk of unrecoverable rover's wheel slip and immobilization. In this work, we propose a new path planning algorithm that explicitly accounts for such erroneous prediction. The key idea is the probabilistic fusion of distinctive ML models for terrain type classification and slip prediction into a single distribution. This gives us a multimodal slip distribution accounting for heterogeneous terrains and further allows statistical risk assessment to be applied to derive risk-aware traversing costs for path planning. Extensive simulation experiments have demonstrated that the proposed method is able to generate more feasible paths on heterogeneous terrains compared to existing methods.
翻訳日:2023-03-03 14:58:22 公開日:2023-03-02
# BPT: 位置認識のためのバイナリポイントクラウドトランス

BPT: Binary Point Cloud Transformer for Place Recognition ( http://arxiv.org/abs/2303.01166v1 )

ライセンス: Link先を確認
Zhixing Hou, Yuzhang Shang, Tian Gao, Yan Yan(参考訳) 再訪問した場所を認識するアルゴリズムであるplace recognitionは、フルスラムシステムにおいてバックエンド最適化トリガーの役割を担っている。 MLP, CNN, トランスフォーマーなどの深層学習ツールを備えた多くの研究が, この研究分野において大きな進歩を遂げている。 ポイントクラウドトランスフォーマーはロボット工学における位置認識の優れたフレームワークの1つであるが、大きなメモリ消費と高価な計算量を持つため、様々なポイントクラウドトランスフォーマーネットワークをモバイルや組み込みデバイスに広く展開することは有害である。 そこで本研究では,位置認識のための二点雲変換器を提案する。 その結果、32ビットのフル精度モデルは、メモリ占有量が少なく、ビット単位で高速な1ビットモデルに還元できる。 私たちの知る限り、これはplace recognitionなどのオンラインアプリケーション用のモバイルデバイスにデプロイ可能な、最初のバイナリポイントクラウドトランスフォーマーです。 いくつかの標準ベンチマークの実験では、提案手法は対応する完全精度変換器モデルと同等の結果を得ることができ、さらにいくつかの完全精度深層学習法より優れていることが示されている。 例えば、提案手法では、平均リコールレートの指標として、トップ@1%で93.28%、トップ@1%で85.74%を達成している。 一方、同じ変圧器構造を持つモデルのサイズと浮動小数点演算は、元の精度からバイナリ精度までそれぞれ56.1%、34.1%減少する。

Place recognition, an algorithm to recognize the re-visited places, plays the role of back-end optimization trigger in a full SLAM system. Many works equipped with deep learning tools, such as MLP, CNN, and transformer, have achieved great improvements in this research field. Point cloud transformer is one of the excellent frameworks for place recognition applied in robotics, but with large memory consumption and expensive computation, it is adverse to widely deploy the various point cloud transformer networks in mobile or embedded devices. To solve this issue, we propose a binary point cloud transformer for place recognition. As a result, a 32-bit full-precision model can be reduced to a 1-bit model with less memory occupation and faster binarized bitwise operations. To our best knowledge, this is the first binary point cloud transformer that can be deployed on mobile devices for online applications such as place recognition. Experiments on several standard benchmarks demonstrate that the proposed method can get comparable results with the corresponding full-precision transformer model and even outperform some full-precision deep learning methods. For example, the proposed method achieves 93.28% at the top @1% and 85.74% at the top @1% on the Oxford RobotCar dataset in terms of the metric of the average recall rate. Meanwhile, the size and floating point operations of the model with the same transformer structure reduce 56.1% and 34.1% respectively from original precision to binary precision.
翻訳日:2023-03-03 14:58:05 公開日:2023-03-02
# 形式仕様に対する反復回路修復

Iterative Circuit Repair Against Formal Specifications ( http://arxiv.org/abs/2303.01158v1 )

ライセンス: Link先を確認
Matthias Cosler, Frederik Schmitt, Christopher Hahn, Bernd Finkbeiner(参考訳) 本稿では,線形時間時間論理(LTL)で与えられる形式仕様に対して,逐次回路を修復する深層学習手法を提案する。 欠陥回路とその形式的仕様を考えると、対応する仕様を満たす回路を出力するためにトランスフォーマーモデルを訓練する。 本稿では,形式仕様と回路のマルチモーダル表現学習のための階層変換器を提案する。 本稿では,より複雑な仕様や分散データセットへの一般化を可能にするデータ生成アルゴリズムを提案する。 さらに,提案する修復機構はトランスフォーマーを用いたTLL仕様からの回路の自動合成を大幅に改善する。 毎年恒例のリアクティブ合成コンペティションのアウト・オブ・ディストリビューションデータセットにおいて、ホールドアウトインスタンスの6.8ドルのポイントと11.8ドルのパーセンテージで最先端の改善を行う。

We present a deep learning approach for repairing sequential circuits against formal specifications given in linear-time temporal logic (LTL). Given a defective circuit and its formal specification, we train Transformer models to output circuits that satisfy the corresponding specification. We propose a separated hierarchical Transformer for multimodal representation learning of the formal specification and the circuit. We introduce a data generation algorithm that enables generalization to more complex specifications and out-of-distribution datasets. In addition, our proposed repair mechanism significantly improves the automated synthesis of circuits from LTL specifications with Transformers. It improves the state-of-the-art by $6.8$ percentage points on held-out instances and $11.8$ percentage points on an out-of-distribution dataset from the annual reactive synthesis competition.
翻訳日:2023-03-03 14:57:40 公開日:2023-03-02
# 非相関による特徴量の概念とランダムな森林回帰による傾向の検出

A Notion of Feature Importance by Decorrelation and Detection of Trends by Random Forest Regression ( http://arxiv.org/abs/2303.01156v1 )

ライセンス: Link先を確認
Yannick Gerstorfer, Lena Krieg, Max Hahn-Klimroth(参考訳) 多くの研究において、依存変数に対する特定の特徴の影響を判定したい。 より具体的に言うと、私たちは影響の強さ、すなわち、その特徴は関連しているのか、そしてもしその機能が依存変数にどのように影響するかに興味を持っています。 近年、データ駆動型アプローチである 'emph{random forest regression} が応用分野に進出している(Boulesteix et al., 2012)。 これらのモデルは、影響の強さの自然な指標である特徴の重要性の尺度を直接導出することができる。 関連する特徴について、特徴と従属変数の相関関係やランク相関は、典型的には影響の性質を決定するために用いられる。 より最近の手法では、機能間の相互作用を測定できるものもあり、モデリングアプローチに基づいている。 特に、機械学習モデルを使用する場合、SHAPスコアはこれらのトレンドを決定するための最新かつ顕著な方法である(Lundberg et al., 2017)。 本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を提案する。 さらに,無作為な森林回帰を用いてデータの傾向を推定するための2つの推定器を提案する。 我々は,様々な合成および実世界のデータセット上のよく確立された推定器の特性を実証的に比較した。

In many studies, we want to determine the influence of certain features on a dependent variable. More specifically, we are interested in the strength of the influence -- i.e., is the feature relevant? -- and, if so, how the feature influences the dependent variable. Recently, data-driven approaches such as \emph{random forest regression} have found their way into applications (Boulesteix et al., 2012). These models allow to directly derive measures of feature importance, which are a natural indicator of the strength of the influence. For the relevant features, the correlation or rank correlation between the feature and the dependent variable has typically been used to determine the nature of the influence. More recent methods, some of which can also measure interactions between features, are based on a modeling approach. In particular, when machine learning models are used, SHAP scores are a recent and prominent method to determine these trends (Lundberg et al., 2017). In this paper, we introduce a novel notion of feature importance based on the well-studied Gram-Schmidt decorrelation method. Furthermore, we propose two estimators for identifying trends in the data using random forest regression, the so-called absolute and relative transversal rate. We empirically compare the properties of our estimators with those of well-established estimators on a variety of synthetic and real-world datasets.
翻訳日:2023-03-03 14:57:26 公開日:2023-03-02
# GeoLab: 幾何学に基づく表面白質の軌跡解析

GeoLab: Geometry-based Tractography Parcellation of Superficial White Matter ( http://arxiv.org/abs/2303.01147v1 )

ライセンス: Link先を確認
Nabil Vindas, Nicole Labra Avila, Fan Zhang, Tengfei Xue, Lauren J. O'Donnell, Jean-Fran\c{c}ois Mangin(参考訳) 表面白質 (SWM) は, 臨床研究に関心があるにもかかわらず, 長距離接続よりも研究が進んでいない。 そこで本研究では,対象物から数百個の短い白色物質束を高速に分割する,効率的な幾何解析手法(GeoLab)を提案する。 この方法は657個のバンドルからなるEBRAINSヨーロッパインフラのSWMアトラスのために設計されている。 アトラス射影はアトラス流線の6つのバンドル固有の幾何学的性質の事前計算された統計に依存する。 RecoBundlesの精神では、対象をアトラス空間に合わせるために、グローバルおよびローカルなストリームラインベースの登録(SBR)が使用される。 次に、モデルバンドルの流線との類似性を記述する6つの幾何学的パラメータを考慮に入れて、流線をラベル付けする。 他の最先端の方法と比較して、GeoLabはより多くの合理性のあるバンドルを抽出できる。

Superficial white matter (SWM) has been less studied than long-range connections despite being of interest to clinical research, andfew tractography parcellation methods have been adapted to SWM. Here, we propose an efficient geometry-based parcellation method (GeoLab) that allows high-performance segmentation of hundreds of short white matter bundles from a subject. This method has been designed for the SWM atlas of EBRAINS European infrastructure, which is composed of 657 bundles. The atlas projection relies on the precomputed statistics of six bundle-specific geometrical properties of atlas streamlines. In the spirit of RecoBundles, a global and local streamline-based registration (SBR) is used to align the subject to the atlas space. Then, the streamlines are labeled taking into account the six geometrical parameters describing the similarity to the streamlines in the model bundle. Compared to other state-of-the-art methods, GeoLab allows the extraction of more bundles with a higher number of streamlines.
翻訳日:2023-03-03 14:57:05 公開日:2023-03-02
# 量子セキュアな一方向関数による量子公開鍵暗号の簡易構成

A Simple Construction of Quantum Public-Key Encryption from Quantum-Secure One-Way Functions ( http://arxiv.org/abs/2303.01143v1 )

ライセンス: Link先を確認
Khashayar Barooti and Giulio Malavolta and Michael Walter(参考訳) 量子公開鍵暗号 [gottesman; kawachi et al., eurocrypt'05] 公開鍵を量子状態とすることで、公開鍵暗号 (pke) を一般化する。 以前の研究は、量子PKEは古典的対位法を実現するために必要なものよりも弱い仮定から構築できることを示した。 本研究では,任意の量子セキュア片方向関数から量子PKEを構築することができることを示す。 対照的に、古典的PKEはより構造化された仮定を必要とすると考えられている。 我々の構成は単純で、古典的な暗号文のみを使用し、CCAセキュリティの強い概念を満たす。

Quantum public-key encryption [Gottesman; Kawachi et al., Eurocrypt'05] generalizes public-key encryption (PKE) by allowing the public keys to be quantum states. Prior work indicated that quantum PKE can be constructed from assumptions that are potentially weaker than those needed to realize its classical counterpart. In this work, we show that quantum PKE can be constructed from any quantum-secure one-way function. In contrast, classical PKE is believed to require more structured assumptions. Our construction is simple, uses only classical ciphertexts, and satisfies the strong notion of CCA security.
翻訳日:2023-03-03 14:56:48 公開日:2023-03-02
# deepsade: ドメイン制約満足度を保証するニューラルネットワークの学習

DeepSaDe: Learning Neural Networks that Guarantee Domain Constraint Satisfaction ( http://arxiv.org/abs/2303.01141v1 )

ライセンス: Link先を確認
Kshitij Goyal, Sebastijan Dumancic, Hendrik Blockeel(参考訳) 機械学習モデル、特にニューラルネットワークの人気が高まっているため、その信頼性に関する懸念があり、特に安全クリティカルなアプリケーションにおいて、例えば自動運転車の動作は安全でなければならない。 このようなドメイン要件が制約として強制されるようなニューラルネットワークをトレーニングできるアプローチもあるが、(目に見えないデータであっても)可能なすべての予測によって制約が満足されることを保証できないか、強制可能な制約の種類に制限されているかのいずれかだ。 本稿では,様々な制約を強制し,すべての可能な予測によって制約が満たされることを保証するニューラルネットワークの学習手法を提案する。 このアプローチは、線形モデルの学習が制約満足度問題(CSP)として定式化される以前の作業に基づいている。 このアイデアをニューラルネットワークに適用するために、ネットワーク層上の制約伝搬と、勾配降下とCSP解決の混合に基づく重み更新という、2つの重要な新しい要素が追加されている。 さまざまな機械学習タスクの評価は、我々のアプローチが多種多様なドメイン制約を強制するのに十分柔軟であり、それをニューラルネットワークで保証できることを示している。

As machine learning models, specifically neural networks, are becoming increasingly popular, there are concerns regarding their trustworthiness, specially in safety-critical applications, e.g. actions of an autonomous vehicle must be safe. There are approaches that can train neural networks where such domain requirements are enforced as constraints, but they either cannot guarantee that the constraint will be satisfied by all possible predictions (even on unseen data) or they are limited in the type of constraints that can be enforced. In this paper, we present an approach to train neural networks which can enforce a wide variety of constraints and guarantee that the constraint is satisfied by all possible predictions. The approach builds on earlier work where learning linear models is formulated as a constraint satisfaction problem (CSP). To make this idea applicable to neural networks, two crucial new elements are added: constraint propagation over the network layers, and weight updates based on a mix of gradient descent and CSP solving. Evaluation on various machine learning tasks demonstrates that our approach is flexible enough to enforce a wide variety of domain constraints and is able to guarantee them in neural networks.
翻訳日:2023-03-03 14:56:37 公開日:2023-03-02
# 埋め込みとグラフニューラルネットワークを用いた知識グラフ上の濃度推定

Cardinality Estimation over Knowledge Graphs with Embeddings and Graph Neural Networks ( http://arxiv.org/abs/2303.01140v1 )

ライセンス: Link先を確認
Tim Schwabe, Maribel Acosta(参考訳) 知識グラフ(kg)上の濃度推定はクエリ最適化に不可欠であるが、一般的な知識グラフの半構造化の性質と複雑な相関のため、依然として困難な課題である。 本研究では,知識グラフの埋め込みとグラフニューラルネットワーク(GNN)を利用して,結合クエリの濃度を正確に予測する手法であるGNCEを提案する。 GNCEはまず、KG内のすべてのエンティティに対して意味的に意味のある埋め込みを生成し、それが与えられたクエリに統合され、GNNによって処理され、クエリの濃度を推定する。 我々は,数kgのgnceをqエラーの観点から評価し,サンプリング,要約,(機械)学習に基づく最先端のアプローチよりも,実行時間やパラメータの低減とともに,推定精度の面で優れていることを示す。 さらに,gnce が非知覚エンティティに帰納的一般化できることを示し,動的クエリ処理シナリオでの使用に適していることを示す。 提案手法は,接続クエリの正確な濃度推定に依存するクエリ最適化および関連アプリケーションを大幅に改善する可能性がある。

Cardinality Estimation over Knowledge Graphs (KG) is crucial for query optimization, yet remains a challenging task due to the semi-structured nature and complex correlations of typical Knowledge Graphs. In this work, we propose GNCE, a novel approach that leverages knowledge graph embeddings and Graph Neural Networks (GNN) to accurately predict the cardinality of conjunctive queries. GNCE first creates semantically meaningful embeddings for all entities in the KG, which are then integrated into the given query, which is processed by a GNN to estimate the cardinality of the query. We evaluate GNCE on several KGs in terms of q-Error and demonstrate that it outperforms state-of-the-art approaches based on sampling, summaries, and (machine) learning in terms of estimation accuracy while also having lower execution time and less parameters. Additionally, we show that GNCE can inductively generalise to unseen entities, making it suitable for use in dynamic query processing scenarios. Our proposed approach has the potential to significantly improve query optimization and related applications that rely on accurate cardinality estimates of conjunctive queries.
翻訳日:2023-03-03 14:56:18 公開日:2023-03-02
# 分離データに基づく勾配沈み込みの厳密なリスク境界

Tight Risk Bounds for Gradient Descent on Separable Data ( http://arxiv.org/abs/2303.01135v1 )

ライセンス: Link先を確認
Matan Schliserman and Tomer Koren(参考訳) 分離可能な線形分類に適用した非正規化勾配法の一般化特性について検討し,sudry et al. (2018) の先駆的研究から注目されている。 本設定では, 尾の減衰率で表される任意の滑らかな損失関数に対して, 勾配降下に対する密な上下(人口)リスク境界を確立する。 私たちの境界は $\Theta(r_{\ell,T}^2 / \gamma^2 T + r_{\ell,T}^2 / \gamma^2 n)$, where $T$ is the number of gradient steps, $n$ is size of the training set, $\gamma$ is the data margin, $r_{\ell,T}$ は損失関数(および$T$)の(テール崩壊率)に依存する複雑性項である。 私たちの上界は、shamir (2021)、schliserman and koren (2022) による最もよく知られた上界と一致し、その適用範囲は事実上どんな滑らかな損失関数にも拡張され、それらが課す技術的仮定も緩和される。 我々のリスク低い境界は、この文脈で最初のものであり、与えられたテール崩壊率と全てのパラメーターレシエーションに対する上限の厳密性を確立する。 これらの結果を示すために用いられる証明手法は、以前の研究に比べて著しく単純であり、他の勾配法にも容易に拡張できる。

We study the generalization properties of unregularized gradient methods applied to separable linear classification -- a setting that has received considerable attention since the pioneering work of Soudry et al. (2018). We establish tight upper and lower (population) risk bounds for gradient descent in this setting, for any smooth loss function, expressed in terms of its tail decay rate. Our bounds take the form $\Theta(r_{\ell,T}^2 / \gamma^2 T + r_{\ell,T}^2 / \gamma^2 n)$, where $T$ is the number of gradient steps, $n$ is size of the training set, $\gamma$ is the data margin, and $r_{\ell,T}$ is a complexity term that depends on the (tail decay rate) of the loss function (and on $T$). Our upper bound matches the best known upper bounds due to Shamir (2021); Schliserman and Koren (2022), while extending their applicability to virtually any smooth loss function and relaxing technical assumptions they impose. Our risk lower bounds are the first in this context and establish the tightness of our upper bounds for any given tail decay rate and in all parameter regimes. The proof technique used to show these results is also markedly simpler compared to previous work, and is straightforward to extend to other gradient methods; we illustrate this by providing analogous results for Stochastic Gradient Descent.
翻訳日:2023-03-03 14:55:57 公開日:2023-03-02
# UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction (特集:情報ネットワーク)

UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction ( http://arxiv.org/abs/2303.01194v1 )

ライセンス: Link先を確認
Andrianos Michail, Stefanos Konstantinou, Simon Clematide(参考訳) 本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。 公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。 我々の言語間移動学習アプローチでは,まず回帰ヘッドパラメータのみを更新し,学習率の低下で事前学習したトランスフォーマーエンコーダパラメータを更新するヘッドファーストファインタニング法(HeFiT)の利点を探索する。 さらに,人間ラベル付きデータが利用できない低リソース環境において,少数の自動生成例(この場合,ChatGPT)を使用することによる影響について検討した。 本研究は、HeFiTがトレーニングを安定させ、ツイートへのドメイン適応に欠ける事前学習モデルの結果を継続的に改善することを示す。 また, 合成データを用いた場合, 言語間学習のパフォーマンスが著しく向上し, ゼロショットベースライン結果の改善に現在のテキスト生成システムの有用性を確認した。 最後に,アノテートデータの不整合が言語間干渉問題にどのように寄与するかを検討する。

This paper describes the submission of UZH_CLyp for the SemEval 2023 Task 9 "Multilingual Tweet Intimacy Analysis". We achieved second-best results in all 10 languages according to the official Pearson's correlation regression evaluation measure. Our cross-lingual transfer learning approach explores the benefits of using a Head-First Fine-Tuning method (HeFiT) that first updates only the regression head parameters and then also updates the pre-trained transformer encoder parameters at a reduced learning rate. Additionally, we study the impact of using a small set of automatically generated examples (in our case, from ChatGPT) for low-resource settings where no human-labeled data is available. Our study shows that HeFiT stabilizes training and consistently improves results for pre-trained models that lack domain adaptation to tweets. Our study also shows a noticeable performance increase in cross-lingual learning when synthetic data is used, confirming the usefulness of current text generation systems to improve zero-shot baseline results. Finally, we examine how possible inconsistencies in the annotated data contribute to cross-lingual interference issues.
翻訳日:2023-03-03 14:50:07 公開日:2023-03-02
# 時系列データの解釈可能なシステム同定と長期予測

Interpretable System Identification and Long-term Prediction on Time-Series Data ( http://arxiv.org/abs/2303.01193v1 )

ライセンス: Link先を確認
Xiaoyi Liu, Duxin Chen, Wenjia Wei, Xia Zhu, and Wenwu Yu(参考訳) 過去数十年間、深層学習の進歩によって、時系列予測に大きな注目を集めてきた。 しかし、ほとんどのニューラルネットワークベースの手法は解釈可能性に欠け、ターゲットの物理的システムの隠れたメカニズムを抽出するのに失敗する。 これらの欠点を克服するために,事前知識のない解釈可能なスパースシステム同定法を提案する。 この手法は、ほとんどのシステム同定法において多項式関数の無差別使用の代わりに、辞書行列における無関係な項目を減らすためにフーリエ変換を採用する。 解釈可能なシステム表現を示し、計算コストを大幅に削減する。 パラメータ行列の正規化に$l_1$ normを採用することで、システムモデルのスパースな記述が実現できる。 また, 提案手法の性能試験には, 水温データ, 地球温度データ, 財務データを含む3つのデータセットを用いる。 物理的背景に関する事前の知識は分かっていないが,本手法は,従来のベースラインデータ駆動手法よりもノイズや不完全性に拘わらず,長期予測が可能であった。 本研究は,時系列予測に関するいくつかの知見を提供し,ホワイトボックスシステム同定法が,見落としやすいが本質的な周期的特徴を抽出し,ニューラルネットワークに基づくブラックボックス法を長期予測タスクで打ち負かす可能性を示唆する。

Time-series prediction has drawn considerable attention during the past decades fueled by the emerging advances of deep learning methods. However, most neural network based methods lack interpretability and fail in extracting the hidden mechanism of the targeted physical system. To overcome these shortcomings, an interpretable sparse system identification method without any prior knowledge is proposed in this study. This method adopts the Fourier transform to reduces the irrelevant items in the dictionary matrix, instead of indiscriminate usage of polynomial functions in most system identification methods. It shows an interpretable system representation and greatly reduces computing cost. With the adoption of $l_1$ norm in regularizing the parameter matrix, a sparse description of the system model can be achieved. Moreover, Three data sets including the water conservancy data, global temperature data and financial data are used to test the performance of the proposed method. Although no prior knowledge was known about the physical background, experimental results show that our method can achieve long-term prediction regardless of the noise and incompleteness in the original data more accurately than the widely-used baseline data-driven methods. This study may provide some insight into time-series prediction investigations, and suggests that an white-box system identification method may extract the easily overlooked yet inherent periodical features and may beat neural-network based black-box methods on long-term prediction tasks.
翻訳日:2023-03-03 14:49:42 公開日:2023-03-02
# UNMT は MASS ベースの UNMT よりも単語順のばらつきに頑健である

Denoising-based UNMT is more robust to word-order divergence than MASS-based UNMT ( http://arxiv.org/abs/2303.01191v1 )

ライセンス: Link先を確認
Tamali Banerjee, Rudra Murthy V, and Pushpak Bhattacharyya(参考訳) 自己教師付き事前学習によるunmtアプローチが言語ペア間の単語順の発散にロバストかどうかを検討する。 同じ自己教師付き事前訓練目標と事前訓練された2つのモデルを比較してこれを達成する。 第1モデルは、異なる単語順序の言語ペアで訓練され、第2モデルは、ターゲット言語の単語順序に合うように、ソース言語を並べ替えた同じ言語ペアで訓練される。 理想的には、単語順のばらつきに頑健なUNMTアプローチは、2つの構成間に目に見える性能差を示さなければならない。 本稿では,MASS (Masked Sequence-to-Sequence Pre-Training) とDAE (Denoising AutoEncoder) の2つの手法について検討する。 我々は5つの英語$\rightarrow$Indic言語ペア、すなわちen-hi, en-bn, en-gu, en-kn, en-taで実験を行い、ソース言語の語順はSVO(Subject-Verb-Object)、ターゲット言語の語順はSOV(Subject-Object-Verb)である。 これらの言語ペアに対して,DAEをベースとしたUNMTアプローチは,翻訳精度においてMASSよりも一貫して優れていた。 さらに,単語の順序差を並べ替えることで,MASSベースのUNMTモデルの翻訳精度が向上するが,DAEベースのUNMTモデルの翻訳精度は向上しない。 この結果から,DAEベースのUNMTはMASSベースのUNMTよりも単語順のばらつきに強いことが示唆された。 DAEアプローチにおける単語シャッフルノイズは、単語順序の発散に頑健なアプローチの可能性がある。

We aim to investigate whether UNMT approaches with self-supervised pre-training are robust to word-order divergence between language pairs. We achieve this by comparing two models pre-trained with the same self-supervised pre-training objective. The first model is trained on language pairs with different word-orders, and the second model is trained on the same language pairs with source language re-ordered to match the word-order of the target language. Ideally, UNMT approaches which are robust to word-order divergence should exhibit no visible performance difference between the two configurations. In this paper, we investigate two such self-supervised pre-training based UNMT approaches, namely Masked Sequence-to-Sequence Pre-Training, (MASS) (which does not have shuffling noise) and Denoising AutoEncoder (DAE), (which has shuffling noise). We experiment with five English$\rightarrow$Indic language pairs, i.e., en-hi, en-bn, en-gu, en-kn, and en-ta) where word-order of the source language is SVO (Subject-Verb-Object), and the word-order of the target languages is SOV (Subject-Object-Verb). We observed that for these language pairs, DAE-based UNMT approach consistently outperforms MASS in terms of translation accuracies. Moreover, bridging the word-order gap using reordering improves the translation accuracy of MASS-based UNMT models, while it cannot improve the translation accuracy of DAE-based UNMT models. This observation indicates that DAE-based UNMT is more robust to word-order divergence than MASS-based UNMT. Word-shuffling noise in DAE approach could be the possible reason for the approach being robust to word-order divergence.
翻訳日:2023-03-03 14:49:20 公開日:2023-03-02
# Incoherent Strategiesを用いた量子チャネル認証

Quantum Channel Certification with Incoherent Strategies ( http://arxiv.org/abs/2303.01188v1 )

ライセンス: Link先を確認
Omar Fawzi, Nicolas Flammarion, Aur\'elien Garivier and Aadil Oufkir(参考訳) 量子チャネル認証の問題では、量子プロセスへのブラックボックスアクセスがあり、このプロセスが事前定義された仕様に適合するか、あるいはこの仕様から$\varepsilon$-farであるかを判断したい。 目的は、ブラックボックスの使用回数を最小化しながら、このタスクを達成することである。 ここでは,チャネル認証の極端な2つのケースに対して,最適な非一貫性戦略に着目する。 1つ目は、事前定義された仕様がユニタリチャネル、例えば量子回路のゲートである場合である。 この場合、ブラックボックスが固定ユニタリ作用素によって次元$d$または$\varepsilon$-farで記述されるかどうかをテストするには、ブラックボックスの使用には$\Theta(d/\varepsilon^2)$が必要である。 2つ目の設定は、事前定義された仕様が入力ディメンション$d_{\text{in}}$と出力ディメンション$d_{\text{out}}$で完全に非分極化チャネルである場合です。 この場合、非適応的な設定において、$\tilde{\Theta}(d_{\text{in}}^2d_{\text{out}}^{1.5}/\varepsilon^2) チャネルの使用は、ダイヤモンドノルムの脱分極チャネルと等しいか、あるいはそれから$\varepsilon$-far であるかどうかを検証するのに十分である。 最後に、適応的な設定でこの問題に対して$\Omega(d_{\text{in}}^2d_{\text{out}}/\varepsilon^2)の低い境界を証明します。 特別の場合 $d_{\text{in}} = 1$ はよく研究された量子状態認証問題に対応している。

In the problem of quantum channel certification, we have black box access to a quantum process and would like to decide if this process matches some predefined specification or is $\varepsilon$-far from this specification. The objective is to achieve this task while minimizing the number of times the black box is used. Here, we focus on optimal incoherent strategies for two relevant extreme cases of channel certification. The first one is when the predefined specification is a unitary channel, e.g., a gate in a quantum circuit. In this case, we show that testing whether the black box is described by a fixed unitary operator in dimension $d$ or $\varepsilon$-far from it in the trace norm requires $\Theta(d/\varepsilon^2)$ uses of the black box. The second setting we consider is when the predefined specification is a completely depolarizing channel with input dimension $d_{\text{in}}$ and output dimension $d_{\text{out}}$. In this case, we prove that, in the non-adaptive setting, $\tilde{\Theta}(d_{\text{in}}^2d_{\text{out}}^{1.5}/\varepsilon^2)$ uses of the channel are necessary and sufficient to verify whether it is equal to the depolarizing channel or $\varepsilon$-far from it in the diamond norm. Finally, we prove a lower bound of $\Omega(d_{\text{in}}^2d_{\text{out}}/\varepsilon^2)$ for this problem in the adaptive setting. Note that the special case $d_{\text{in}} = 1$ corresponds to the well-studied quantum state certification problem.
翻訳日:2023-03-03 14:48:44 公開日:2023-03-02
# ペナリゼーションの有無による離散時間競合リスク回帰

Discrete-time Competing-Risks Regression with or without Penalization ( http://arxiv.org/abs/2303.01186v1 )

ライセンス: Link先を確認
Tomer Meir and Malka Gorfine(参考訳) 多くの研究は、競合リスクと正しい検閲を組み込んだイベントデータの解析を行っている。 ほとんどのメソッドとソフトウェアパッケージは、連続的な障害時間の分散から来るデータを分析するためのものだ。 しかしながら、障害時のデータは本質的に離散的であるか、不正確な測定のため、しばしば離散的である。 本稿では,競合イベントを用いた離散時間生存分析のための新しい推定手法を提案する。 提案手法は既存の手順に対して2つの大きな利点を提供する: 第一に、見積もりプロセスを加速し、第二に、広く使われている正規化回帰法とスクリーニング法の直接的な統合と適用を可能にする。 提案手法の利点を総合的なシミュレーション研究により示す。 また,集中治療室に入院した入院患者の生存期間を推定し,在宅退院,他施設への転院,院内死亡の3つのイベントを考慮し,生存期間を推定した。

Many studies employ the analysis of time-to-event data that incorporates competing risks and right censoring. Most methods and software packages are geared towards analyzing data that comes from a continuous failure time distribution. However, failure-time data may sometimes be discrete either because time is inherently discrete or due to imprecise measurement. This paper introduces a novel estimation procedure for discrete-time survival analysis with competing events. The proposed approach offers two key advantages over existing procedures: first, it accelerates the estimation process; second, it allows for straightforward integration and application of widely used regularized regression and screening methods. We illustrate the benefits of our proposed approach by conducting a comprehensive simulation study. Additionally, we showcase the utility of our procedure by estimating a survival model for the length of stay of patients hospitalized in the intensive care unit, considering three competing events: discharge to home, transfer to another medical facility, and in-hospital death.
翻訳日:2023-03-03 14:48:14 公開日:2023-03-02
# 振幅増幅によるQAOA:3SAT解決の成功確率の改善

Amplitude amplification-inspired QAOA: Improving the success probability for solving 3SAT ( http://arxiv.org/abs/2303.01183v1 )

ライセンス: Link先を確認
Alexander Mandl, Johanna Barzen, Marvin Bechtold, Frank Leymann, Karoline Wild(参考訳) Boolean satisfiability problem (SAT) は、特に有界節のサイズを持つ 3SAT は、幅広い決定問題をそれに還元できるため、よく研究されている問題である。 高複雑性のため、より効率的に3SATを解く量子アルゴリズムの可能性を調べることが重要なトピックである。 3SATは可変代入を満たすための非構造化探索として定式化できるため、振幅増幅アルゴリズムを適用することができる。 しかし、振幅増幅の高回路複雑さは、短期量子システムでの使用を妨げる。 一方,Quantum Approximate Optimization Algorithm (QAOA) は,その単純な量子アンサッツにより,近い将来にノイズの多い中間量子デバイスに対して3SATを解くための候補となる。 しかし、QAOAは一般に高い近似比を示すが、現在の実装では成功確率が減少する3SAT問題がある。 本稿では,3SAT の成功確率を改善するために,振幅増幅によるQAOAの変種を提案する。 このために (i)振幅増幅によるQAOA変種を3種類導入して実装する。 (ii)この変種は標準qaoa実装と比較して実験的であり、 (iii)成功確率とアンサッツ複雑性への影響を分析する。 実験の結果,回路の複雑度を適度に向上させるだけで,成功確率の向上が達成できることがわかった。

The Boolean satisfiability problem (SAT), in particular 3SAT with its bounded clause size, is a well-studied problem since a wide range of decision problems can be reduced to it. Due to its high complexity, examining potentials of quantum algorithms for solving 3SAT more efficiently is an important topic. Since 3SAT can be formulated as unstructured search for satisfying variable assignments, the amplitude amplification algorithm can be applied. However, the high circuit complexity of amplitude amplification hinders its use on near-term quantum systems. On the other hand, the Quantum Approximate Optimization Algorithm (QAOA) is a promising candidate for solving 3SAT for Noisy Intermediate-Scale Quantum devices in the near future due to its simple quantum ansatz. However, although QAOA generally exhibits a high approximation ratio, there are 3SAT problem instances where its success probability decreases using current implementations. To address this problem, in this paper we introduce amplitude amplification-inspired variants of QAOA to improve the success probability for 3SAT. For this, (i) three amplitude amplification-inspired QAOA variants are introduced and implemented, (ii) the variants are experimental compared with a standard QAOA implementation, and (iii) the impact on the success probability and ansatz complexity is analyzed. The experiment results show that an improvement in the success probability can be achieved with only a moderate increase in circuit complexity.
翻訳日:2023-03-03 14:47:58 公開日:2023-03-02
# iSAGE: データストリームのオンライン説明のためのSAGEのインクリメンタルバージョン

iSAGE: An Incremental Version of SAGE for Online Explanation on Data Streams ( http://arxiv.org/abs/2303.01181v1 )

ライセンス: Link先を確認
Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke H\"ullermeier(参考訳) 説明可能な人工知能(XAI)は主にバッチ学習シナリオに焦点を当てている。 静的学習タスクでは、SAGEのような様々なXAI手法が提案され、モデルの重要性が入力機能に分散されている。 しかし、モデルはしばしばインクリメンタル学習のような変化する動的環境に適用されます。 その結果、動的学習環境に適したSAGEの直接インクリメンタル化としてiSAGEを提案する。 さらに、インクリメンタルな設定で条件付きデータ分布に基づいて特徴量除去をモデル化する効率的な近似法を提案する。 我々は,不偏推定器であることを示すための説明法を正式に分析し,点推定に対する信頼境界を構築する。 最後に,確立されたデータセットと概念ドリフトストリームに基づいて,本手法を徹底的に実験的に評価する。

Explainable Artificial Intelligence (XAI) focuses mainly on batch learning scenarios. In the static learning tasks, various XAI methods, like SAGE, have been proposed that distribute the importance of a model on its input features. However, models are often applied in ever-changing dynamic environments like incremental learning. As a result, we propose iSAGE as a direct incrementalization of SAGE suited for dynamic learning environments. We further provide an efficient approximation method to model feature removal based on the conditional data distribution in an incremental setting. We formally analyze our explanation method to show that it is an unbiased estimator and construct confidence bounds for the point estimates. Lastly, we evaluate our approach in a thorough experimental analysis based on well-established data sets and concept drift streams.
翻訳日:2023-03-03 14:47:35 公開日:2023-03-02
# SHAP-IQ:任意の順序共有相互作用の統一近似

SHAP-IQ: Unified Approximation of any-order Shapley Interactions ( http://arxiv.org/abs/2303.01179v1 )

ライセンス: Link先を確認
Fabian Fumagalli, Maximilian Muschalik, Patrick Kolpaczki, Eyke H\"ullermeier, Barbara Hammer(参考訳) 主に、説明可能な人工知能(XAI)の研究において、シャープリー値(SV)を用いて、ブラックボックスモデルの特徴的重要性のスコアを決定する。 シェープ相互作用指標は、シャプリー値を拡張して、任意の順序の特徴相互作用スコアを定義する。 ユニークなシャプリー相互作用指数の定義は、オープンリサーチの問題であり、これまで3つの定義が提案されてきたが、これは公理の選択によって異なる。 さらに、各定義には特定の近似技術が必要である。 しかし,shap-iq(shapley interaction quantification)は,線形性,対称性,ダミー公理を満たしたシャプリー相互作用を計算するための,効率的なサンプリングに基づく近似器である。 SHAP-IQは、新しい表現に基づいており、既存の手法とは対照的に、近似品質の理論的保証と点推定の分散の推定を提供する。 SVの特殊な場合,本手法はSVの新規な表現を明らかにし,Unbiased KernelSHAPに対応して計算を単純化する。 本稿では,高次元合成モデルにおける最先端言語モデルを説明することにより,計算効率と有効性を説明する。

Predominately in explainable artificial intelligence (XAI) research, the Shapley value (SV) is applied to determine feature importance scores for any black box model. Shapley interaction indices extend the Shapley value to define any-order feature interaction scores. Defining a unique Shapley interaction index is an open research question and, so far, three definitions have been proposed, which differ by their choice of axioms. Moreover, each definition requires a specific approximation technique. We, however, propose SHAPley Interaction Quantification (SHAP-IQ), an efficient sampling-based approximator to compute Shapley interactions for all three definitions, as well as all other that satisfy the linearity, symmetry and dummy axiom. SHAP-IQ is based on a novel representation and, in contrast to existing methods, we provide theoretical guarantees for its approximation quality, as well as estimates for the variance of the point estimates. For the special case of SV, our approach reveals a novel representation of the SV and corresponds to Unbiased KernelSHAP with a greatly simplified calculation. We illustrate the computational efficiency and effectiveness by explaining state-of-the-art language models among high-dimensional synthetic models.
翻訳日:2023-03-03 14:47:25 公開日:2023-03-02
# Augmenting Medical Imaging:Augmenting Data Analysisのための65のテクニックの包括的カタログ

Augmenting Medical Imaging: A Comprehensive Catalogue of 65 Techniques for Enhanced Data Analysis ( http://arxiv.org/abs/2303.01178v1 )

ライセンス: Link先を確認
Manuel Cossio(参考訳) 医療イメージングの分野では、機械学習モデルのトレーニングには、堅牢性と相互運用性を確保するために、大きくて多様なトレーニングデータセットが必要である。 しかし,各画像のラベル付けや医療データに関連するプライバシー上の懸念から,このような多様で異種なデータを取得することは困難である。 これらの課題を回避するため、データ拡張はトレーニングデータセットのサイズと多様性を高めるための有望で費用対効果の高い技術として現れています。 本研究では,医療画像に使用される特定のデータ拡張技術の包括的レビューを行い,そのメリットについて検討する。 医用画像撮影に用いるデータ拡張技術について,11種類の目的を同定し,65種類の異なる手法を収集した。 これらの手法は空間変換ベース,色およびコントラスト調整ベース,ノイズベース,変形ベース,データ混合ベース,フィルタ,マスクベース,分割ベース,マルチスケール,マルチビューベース,メタラーニングベースに分類された。 我々は、いくつかの手法では全てのパラメータの手動仕様を必要とするのに対し、タスク要求に基づいて拡張の型と大きさを調整するのに自動化に頼っているのを観察した。 これらの技術を利用することで、データ可用性の制限や課題のあるドメインに適用可能な、より堅牢なモデルの開発が可能になる。 今後利用可能な技術のリストは拡張され、研究者に考慮すべき追加オプションが提供されることが期待されている。

In the realm of medical imaging, the training of machine learning models necessitates a large and varied training dataset to ensure robustness and interoperability. However, acquiring such diverse and heterogeneous data can be difficult due to the need for expert labeling of each image and privacy concerns associated with medical data. To circumvent these challenges, data augmentation has emerged as a promising and cost-effective technique for increasing the size and diversity of the training dataset. In this study, we provide a comprehensive review of the specific data augmentation techniques employed in medical imaging and explore their benefits. We conducted an in-depth study of all data augmentation techniques used in medical imaging, identifying 11 different purposes and collecting 65 distinct techniques. The techniques were operationalized into spatial transformation-based, color and contrast adjustment-based, noise-based, deformation-based, data mixing-based, filters and mask-based, division-based, multi-scale and multi-view-based, and meta-learning-based categories. We observed that some techniques require manual specification of all parameters, while others rely on automation to adjust the type and magnitude of augmentation based on task requirements. The utilization of these techniques enables the development of more robust models that can be applied in domains with limited or challenging data availability. It is expected that the list of available techniques will expand in the future, providing researchers with additional options to consider.
翻訳日:2023-03-03 14:47:05 公開日:2023-03-02
# 強化学習を用いたヘリウムバルーンの資源拘束型ステーションキーピング

Resource-Constrained Station-Keeping for Helium Balloons using Reinforcement Learning ( http://arxiv.org/abs/2303.01173v1 )

ライセンス: Link先を確認
Jack Saunders, Lo\"ic Prenevost, \"Ozg\"ur \c{S}im\c{s}ek, Alan Hunter, and Wenbin Li(参考訳) 高高度気球は、生態調査、大気モニタリング、通信中継に有用であることが証明されている。 しかし、重量と電力の制約により、成層圏を航行するためには代替的な推進モードを検討する必要がある。 最近の強化学習は、異なる高度の様々な対向風場を通じて促進される固定された位置の領域で気球を維持するための制御スキームとして提案されている。 空気ポンプ式駅の維持は検討されているが、安価で代替手段として一般的に用いられる気流式およびバラスト式作動気球の制御に関する研究は行われていない。 このようなバルーンに対して強化学習が有効であることを示す。 具体的にはsoft actor-criticアルゴリズムを使用しており、平均して50\;km以内で飛行の25\%をステーションキープすることができる。 また,提案するコントローラは資源の消費を効果的に最小化し,長時間の飛行を支援する。 我々はコントローラを連続的な制御強化学習問題とみなし、離散的なアクション空間を使用する現在の最先端の作業とは対照的に、より多様な軌跡を実現する。 さらに, 連続制御により, 空気ポンプでは不可能な上昇速度を増大させることができる。 所望の上昇速度は、以前の作業で使用されていた低レベル制御コマンドと比較して、より透明なポリシーを提供するために、所望の高度と時間要素に分離される。 最後に, 運動方程式を適用することで, 排ガスとバラストの適切なしきい値を確立し, エージェントが環境を悪用することを防止する。 具体的には、換気と発泡に関する制約を課すことによって、アクションが物理的に実現可能であることを保証します。

High altitude balloons have proved useful for ecological aerial surveys, atmospheric monitoring, and communication relays. However, due to weight and power constraints, there is a need to investigate alternate modes of propulsion to navigate in the stratosphere. Very recently, reinforcement learning has been proposed as a control scheme to maintain the balloon in the region of a fixed location, facilitated through diverse opposing wind-fields at different altitudes. Although air-pump based station keeping has been explored, there is no research on the control problem for venting and ballasting actuated balloons, which is commonly used as a low-cost alternative. We show how reinforcement learning can be used for this type of balloon. Specifically, we use the soft actor-critic algorithm, which on average is able to station-keep within 50\;km for 25\% of the flight, consistent with state-of-the-art. Furthermore, we show that the proposed controller effectively minimises the consumption of resources, thereby supporting long duration flights. We frame the controller as a continuous control reinforcement learning problem, which allows for a more diverse range of trajectories, as opposed to current state-of-the-art work, which uses discrete action spaces. Furthermore, through continuous control, we can make use of larger ascent rates which are not possible using air-pumps. The desired ascent-rate is decoupled into desired altitude and time-factor to provide a more transparent policy, compared to low-level control commands used in previous works. Finally, by applying the equations of motion, we establish appropriate thresholds for venting and ballasting to prevent the agent from exploiting the environment. More specifically, we ensure actions are physically feasible by enforcing constraints on venting and ballasting.
翻訳日:2023-03-03 14:46:40 公開日:2023-03-02
# gpmパッシブマイクロ波ラジオメータからの降雨の深層学習手法ドレインの評価

Evaluation of drain, a deep-learning approach to rain retrieval from gpm passive microwave radiometer ( http://arxiv.org/abs/2303.01220v1 )

ライセンス: Link先を確認
Nicolas Viltard, Vibolroth Sambath, Pierre Lepetit, Audrey Martini, Laurent Barth\`es, C\'ecile Mallet(参考訳) 受動マイクロ波放射計のデータによる雨の回収は、70年代後半に最初の防衛気象衛星計画が開始されて以来、課題となっている。 1997年の熱帯降雨測定ミッション(TRMM)の立ち上げ以来、多くの進歩があったが、最近までデータはピクセル単位で処理され、近隣のいくつかのピクセルを考慮に入れていた。 深層学習はコンピュータビジョンの分野で著しく改善され、雨の検索問題に取り組むための全く新しい方法を提供している。 GPM(Global Precipitation Measurement)コア衛星は、TRMM、受動マイクロ波放射計、レーダーなどと同様に、誓いの一部を共有している。 37 と 89 GHz のチャネルで測定された明るさ温度は、通常の画像の RGB 成分のように使用されるが、デュアル周波数レーダからの降雨速度は表面の雨をもたらす。 次に、これらのデータに基づいてU-netをトレーニングして、Deep-learning RAIN(DRAIN)という検索アルゴリズムを開発する。 入力として4つの明るさ温度しか持たず、事前情報がないため、ほとんどの場合、DRAINはGPROF(GPM公式アルゴリズム)よりも類似または若干優れた性能を提供している。 これらのパフォーマンスは、dremeが従来のピクセル単位ではなくイメージベースで動作していることによるものだと仮定されている。

Retrieval of rain from Passive Microwave radiometers data has been a challenge ever since the launch of the first Defense Meteorological Satellite Program in the late 70s. Enormous progress has been made since the launch of the Tropical Rainfall Measuring Mission (TRMM) in 1997 but until recently the data were processed pixel-by-pixel or taking a few neighboring pixels into account. Deep learning has obtained remarkable improvement in the computer vision field, and offers a whole new way to tackle the rain retrieval problem. The Global Precipitation Measurement (GPM) Core satellite carries similarly to TRMM, a passive microwave radiometer and a radar that share part of their swath. The brightness temperatures measured in the 37 and 89 GHz channels are used like the RGB components of a regular image while rain rate from Dual Frequency radar provides the surface rain. A U-net is then trained on these data to develop a retrieval algorithm: Deep-learning RAIN (DRAIN). With only four brightness temperatures as an input and no other a priori information, DRAIN is offering similar or slightly better performances than GPROF, the GPM official algorithm, in most situations. These performances are assumed to be due to the fact that DRAIN works on an image basis instead of the classical pixel-by-pixel basis.
翻訳日:2023-03-03 14:40:48 公開日:2023-03-02
# 高解像度画像における物体検出のための粗粒度フレームワーク

A Coarse to Fine Framework for Object Detection in High Resolution Image ( http://arxiv.org/abs/2303.01219v1 )

ライセンス: Link先を確認
Jinyan Liu, Jie Chen(参考訳) 物体検出は、画像中の物体の特定と分類を目的としたコンピュータビジョンの基本的な問題である。 現在の装置は、非常に高解像度の画像を容易に撮ることができるが、オブジェクト検出の現在のアプローチでは、高解像度画像における小さな物体や大規模な分散問題を検出することはめったにない。 本稿では,高解像度画像の計算コストを低減しつつ,特に小型オブジェクトや大規模分散シーンにおける物体検出の精度を向上する,単純かつ効率的な手法を提案する。 画像が適切にダウンサンプリングされている場合、全体の検出精度は低下するが、リコールレートは著しく低下しない。 さらに、軽量検出器を使用しても高解像度画像を入力することで、小さな物体をよりよく検出することができる。 高解像度画像における大物体の精度を確保しつつ、小物体の検出性能を向上させるためのクラスタベース粗大物体検出フレームワークを提案する。 第1段階では、小型物体のダウンサンプリング画像における粗い検出と、高解像度画像上での軽量検出器によるセンターローカライゼーションを行い、粗い検出とセンターローカライゼーション結果によるクラスタ領域生成法に基づく画像チップを取得し、さらに第2ステージ検出器にチップを送り、微細な検出を行う。 最後に,粗い検出と細かい検出結果を融合する。 提案手法は,高分解能画像における物体の空間と情報を有効利用することにより,より効率的に検出できる。 実験の結果,提案手法は他の最先端検出器と比較して有望な性能が得られることがわかった。

Object detection is a fundamental problem in computer vision, aiming at locating and classifying objects in image. Although current devices can easily take very high-resolution images, current approaches of object detection seldom consider detecting tiny object or the large scale variance problem in high resolution images. In this paper, we introduce a simple yet efficient approach that improves accuracy of object detection especially for small objects and large scale variance scene while reducing the computational cost in high resolution image. Inspired by observing that overall detection accuracy is reduced if the image is properly down-sampled but the recall rate is not significantly reduced. Besides, small objects can be better detected by inputting high-resolution images even if using lightweight detector. We propose a cluster-based coarse-to-fine object detection framework to enhance the performance for detecting small objects while ensure the accuracy of large objects in high-resolution images. For the first stage, we perform coarse detection on the down-sampled image and center localization of small objects by lightweight detector on high-resolution image, and then obtains image chips based on cluster region generation method by coarse detection and center localization results, and further sends chips to the second stage detector for fine detection. Finally, we merge the coarse detection and fine detection results. Our approach can make good use of the sparsity of the objects and the information in high-resolution image, thereby making the detection more efficient. Experiment results show that our proposed approach achieves promising performance compared with other state-of-the-art detectors.
翻訳日:2023-03-03 14:40:25 公開日:2023-03-02
# 合成ミスインフォーマー:マルチモーダルミス情報の生成と対処

Synthetic Misinformers: Generating and Combating Multimodal Misinformation ( http://arxiv.org/abs/2303.01217v1 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) ソーシャルメディアの拡大とマルチメディアコンテンツの普及に伴い、誤情報の拡散が大きな関心事となっている。 これは、画像とそれに伴うテキストの組み合わせが誤解を招くかどうかを検出するマルチモーダル誤情報検出(mmd)のための効果的な戦略を必要とする。 ディープニューラルネットワークのデータ集約性と手動アノテーションの労働集約的なプロセスのため、研究者はMDDモデルをトレーニングするために、合成マルチモーダル誤報(synthetic Misinformers)と呼ばれる)を自動生成する様々な方法を模索してきた。 しかし、実世界の誤情報に対する限定的な評価と、他の合成誤情報との比較の欠如は、この分野の進歩を評価するのに困難である。 そこで本研究では,(1)OOC(out-of-context)イメージキャプションペア,(2)NEI(cross-modal named entity inconsistency)および(3)ハイブリッドアプローチを含む,既存のおよび新しいシンセティックミシンフォーマの比較研究を行い,実世界の誤情報に対して評価する。 比較研究により,提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCおよびNEIミスコンバータを上回り,ハイブリッドアプローチによりより高い検出精度が得られることを示す。 それにもかかわらず、COSMOS評価プロトコルからの情報漏洩を緩和した後、感度の低いスコアは、タスクが従来の研究よりはるかに難しいことを示唆している。 最後に,neiベースの合成ミスインフォーマーは,テキストのみのmmdがマルチモーダルに勝るユニモーダルバイアスに苦しむ傾向を示した。

With the expansion of social media and the increasing dissemination of multimedia content, the spread of misinformation has become a major concern. This necessitates effective strategies for multimodal misinformation detection (MMD) that detect whether the combination of an image and its accompanying text could mislead or misinform. Due to the data-intensive nature of deep neural networks and the labor-intensive process of manual annotation, researchers have been exploring various methods for automatically generating synthetic multimodal misinformation - which we refer to as Synthetic Misinformers - in order to train MMD models. However, limited evaluation on real-world misinformation and a lack of comparisons with other Synthetic Misinformers makes difficult to assess progress in the field. To address this, we perform a comparative study on existing and new Synthetic Misinformers that involves (1) out-of-context (OOC) image-caption pairs, (2) cross-modal named entity inconsistency (NEI) as well as (3) hybrid approaches and we evaluate them against real-world misinformation; using the COSMOS benchmark. The comparative study showed that our proposed CLIP-based Named Entity Swapping can lead to MMD models that surpass other OOC and NEI Misinformers in terms of multimodal accuracy and that hybrid approaches can lead to even higher detection accuracy. Nevertheless, after alleviating information leakage from the COSMOS evaluation protocol, low Sensitivity scores indicate that the task is significantly more challenging than previous studies suggested. Finally, our findings showed that NEI-based Synthetic Misinformers tend to suffer from a unimodal bias, where text-only MMDs can outperform multimodal ones.
翻訳日:2023-03-03 14:39:58 公開日:2023-03-02
# なぜ(そしていつ)ローカルSGDはSGDより一般化するのか?

Why (and When) does Local SGD Generalize Better than SGD? ( http://arxiv.org/abs/2303.01215v1 )

ライセンス: Link先を確認
Xinran Gu, Kaifeng Lyu, Longbo Huang, Sanjeev Arora(参考訳) ローカルSGDは大規模トレーニングのための通信効率のよいSGDの一種であり、複数のGPUが独立してSGDを実行し、定期的にモデルのパラメータを平均する。 近年、ローカルsgdは、通信オーバーヘッドを減らすという設計目標を達成するだけでなく、対応するsgdベースライン(lin et al., 2020b)よりも高いテスト精度をもたらすことが観測されているが、このためのトレーニング制度はまだ議論中である(ortiz et al., 2021)。 本稿では,SDE(Stochastic Differential Equation)近似に基づいて局所SGDがより一般化する理由(そしていつ)を理解することを目的とする。 この論文の主な貢献は i) 局所的なSGDの長期的挙動を学習率系で捉えたSDEの導出により, 局所的ミニマの多様体に近づくと, 騒音が反復して漂流し拡散することを示す。 (II)局所SGDと局所SGDのSDEの比較により、局所SGDはより強いドリフト項を誘導し、正則化の強い効果、例えば、より速いシャープネスの減少をもたらすことが示されている。 (iii)学習率の小さい、十分な訓練時間を持つと、sgdよりも一般化できるが、2つの条件のどちらかを取り除くと改善しないという実証的な証拠。

Local SGD is a communication-efficient variant of SGD for large-scale training, where multiple GPUs perform SGD independently and average the model parameters periodically. It has been recently observed that Local SGD can not only achieve the design goal of reducing the communication overhead but also lead to higher test accuracy than the corresponding SGD baseline (Lin et al., 2020b), though the training regimes for this to happen are still in debate (Ortiz et al., 2021). This paper aims to understand why (and when) Local SGD generalizes better based on Stochastic Differential Equation (SDE) approximation. The main contributions of this paper include (i) the derivation of an SDE that captures the long-term behavior of Local SGD in the small learning rate regime, showing how noise drives the iterate to drift and diffuse after it has reached close to the manifold of local minima, (ii) a comparison between the SDEs of Local SGD and SGD, showing that Local SGD induces a stronger drift term that can result in a stronger effect of regularization, e.g., a faster reduction of sharpness, and (iii) empirical evidence validating that having a small learning rate and long enough training time enables the generalization improvement over SGD but removing either of the two conditions leads to no improvement.
翻訳日:2023-03-03 14:39:24 公開日:2023-03-02
# まばらな二重降下をまき散らすさま

Dodging the Sparse Double Descent ( http://arxiv.org/abs/2303.01213v1 )

ライセンス: Link先を確認
Victor Qu\'etu, Enzo Tartaglione(参考訳) 本稿では,より具体的には ‘sparse double descent'' 現象を回避して,ディープニューラルネットワークにおける過パラメータ問題に対処する手法を提案する。 筆者らは, この現象を回避し, 一般化を改善する学習フレームワークを提案し, エントロピー尺度を用いて, 再初期化法, モデル幅と深さ, データセットノイズなどの様々な要因を包括的に定量的に分析した。 提案手法は,典型的な逆学習装置を用いた実験結果によって支持される。 実験を再現するためのソースコードは補足資料に提供され、論文の受理後に公開される予定だ。

This paper presents an approach to addressing the issue of over-parametrization in deep neural networks, more specifically by avoiding the ``sparse double descent'' phenomenon. The authors propose a learning framework that allows avoidance of this phenomenon and improves generalization, an entropy measure to provide more insights on its insurgence, and provide a comprehensive quantitative analysis of various factors such as re-initialization methods, model width and depth, and dataset noise. The proposed approach is supported by experimental results achieved using typical adversarial learning setups. The source code to reproduce the experiments is provided in the supplementary materials and will be publicly released upon acceptance of the paper.
翻訳日:2023-03-03 14:38:57 公開日:2023-03-02
# グリッド中心交通シナリオによる自動運転の認識:総合的レビュー

Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review ( http://arxiv.org/abs/2303.01212v1 )

ライセンス: Link先を確認
Yining Shi, Kun Jiang, Jiusi Li, Junze Wen, Zelin Qian, Mengmeng Yang, Ke Wang, Diange Yang(参考訳) グリッド中心の知覚は、移動ロボットの知覚とナビゲーションにとって重要な分野である。 それでも、自動運転車は高度にダイナミックで大規模な屋外交通シナリオを正確に認識しなければならず、グリッド中心の知覚の複雑さと計算コストが高いため、グリッド中心の認識は、自動運転のオブジェクト中心の認識よりも一般的ではない。 ディープラーニング技術とハードウェアの急速な発展は、グリッド中心の知覚の進化に関する新たな洞察を与え、多くのリアルタイムアルゴリズムの展開を可能にする。 現在の産業・学術研究は、網羅的な環境表現、閉塞に対する強い堅牢性、より効率的なセンサー融合、より安全な計画方針など、グリッド中心の認識の大きな利点を示している。 この急速に拡大する分野に対する現在の調査が欠如していることを踏まえて,自律走行車に対するグリッド中心の認識を階層的に概観する。 筆者らは,従来および現在の占有グリッド技術に関する知識を整理し,自律運転システムにおける特徴表現,データユーティリティ,応用の3点の観点から,アルゴリズムの体系的奥行き分析を行う。 最後に,現在の研究動向を概説するとともに,今後の展望について述べる。

Grid-centric perception is a crucial field for mobile robot perception and navigation. Nonetheless, grid-centric perception is less prevalent than object-centric perception for autonomous driving as autonomous vehicles need to accurately perceive highly dynamic, large-scale outdoor traffic scenarios and the complexity and computational costs of grid-centric perception are high. The rapid development of deep learning techniques and hardware gives fresh insights into the evolution of grid-centric perception and enables the deployment of many real-time algorithms. Current industrial and academic research demonstrates the great advantages of grid-centric perception, such as comprehensive fine-grained environmental representation, greater robustness to occlusion, more efficient sensor fusion, and safer planning policies. Given the lack of current surveys for this rapidly expanding field, we present a hierarchically-structured review of grid-centric perception for autonomous vehicles. We organize previous and current knowledge of occupancy grid techniques and provide a systematic in-depth analysis of algorithms in terms of three aspects: feature representation, data utility, and applications in autonomous driving systems. Lastly, we present a summary of the current research trend and provide some probable future outlooks.
翻訳日:2023-03-03 14:38:46 公開日:2023-03-02
# 自己からの学習 : 偽音声検出のための自己蒸留法

Learning From Yourself: A Self-Distillation Method for Fake Speech Detection ( http://arxiv.org/abs/2303.01211v1 )

ライセンス: Link先を確認
Jun Xue, Cunhang Fan, Jiangyan Yi, Chenglong Wang, Zhengqi Wen, Dan Zhang, Zhao Lv(参考訳) 本稿では,モデル複雑性を増大させることなくFSDの性能を大幅に向上させることができる,偽音声検出のための新しい自己蒸留法を提案する。 fsdでは、スペクトログラム欠陥やミュートセグメントなど、浅いネットワークによってしばしば知覚される細かな情報が非常に重要である。 しかし、浅いネットワークには多くのノイズがあり、これはうまく捉えられない。 この問題に対処するため,浅層ネットワークを強化するために最深部ネットワーク命令浅層ネットワークを提案する。 具体的には、FSDのネットワークを複数のセグメントに分割し、教師モデルとして最も深いネットワークを使用し、すべての浅いネットワークは分類子を追加して複数の学生モデルとなる。 一方、最も深いネットワーク特徴と浅いネットワーク特徴との間の蒸留経路は、特徴差を減らすために用いられる。 asvspoof 2019 laとpaデータセットの一連の実験結果は、提案手法の有効性を示し、ベースラインと比較して大幅に改善されている。

In this paper, we propose a novel self-distillation method for fake speech detection (FSD), which can significantly improve the performance of FSD without increasing the model complexity. For FSD, some fine-grained information is very important, such as spectrogram defects, mute segments, and so on, which are often perceived by shallow networks. However, shallow networks have much noise, which can not capture this very well. To address this problem, we propose using the deepest network instruct shallow network for enhancing shallow networks. Specifically, the networks of FSD are divided into several segments, the deepest network being used as the teacher model, and all shallow networks become multiple student models by adding classifiers. Meanwhile, the distillation path between the deepest network feature and shallow network features is used to reduce the feature difference. A series of experimental results on the ASVspoof 2019 LA and PA datasets show the effectiveness of the proposed method, with significant improvements compared to the baseline.
翻訳日:2023-03-03 14:38:25 公開日:2023-03-02
# プルーニングの平均値:分散検出の性能と安定性の向上

Average of Pruning: Improving Performance and Stability of Out-of-Distribution Detection ( http://arxiv.org/abs/2303.01201v1 )

ライセンス: Link先を確認
Zhen Cheng, Fei Zhu, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) オープンワールドにおけるニューラルネットワークのアウト・オブ・ディストリビューション(OOD)入力の検出は重要な問題となっている。 しかし,OOD検出の最適軌道に沿った不安定な挙動は明らかにされていない。 本稿では,OOD検出の性能がトレーニング中に過度に適合し,不安定であることを示す。 1) 訓練誤差が0に近い場合、性能が低下する可能性があり、 2) 訓練の最終段階において, 成績は著しく変化する。 そこで本研究では, モデル平均化とプルーニングからなるAoP(Average of Pruning)を提案し, 不安定な挙動を緩和する。 具体的には、モデル平均化はランドスケープをスムーズにすることで安定した性能を達成するのに役立ち、冗長な特徴を排除してオーバーフィッティングを排除するためにプルーニングが認定される。 本手法の有効性を検証するため,各種データセットとアーキテクチャに関する総合実験を行った。

Detecting Out-of-distribution (OOD) inputs have been a critical issue for neural networks in the open world. However, the unstable behavior of OOD detection along the optimization trajectory during training has not been explored clearly. In this paper, we first find the performance of OOD detection suffers from overfitting and instability during training: 1) the performance could decrease when the training error is near zero, and 2) the performance would vary sharply in the final stage of training. Based on our findings, we propose Average of Pruning (AoP), consisting of model averaging and pruning, to mitigate the unstable behaviors. Specifically, model averaging can help achieve a stable performance by smoothing the landscape, and pruning is certified to eliminate the overfitting by eliminating redundant features. Comprehensive experiments on various datasets and architectures are conducted to verify the effectiveness of our method.
翻訳日:2023-03-03 14:38:10 公開日:2023-03-02
# オーサシップ分類による文書証明と認証

Document Provenance and Authentication through Authorship Classification ( http://arxiv.org/abs/2303.01197v1 )

ライセンス: Link先を確認
Muhammad Tayyab Zamir, Muhammad Asif Ayub, Jebran Khan, Muhammad Jawad Ikram, Nasir Ahmad, Kashif Ahmad(参考訳) 比較的探求の少ないトピックであるスタイル分析は、いくつかの興味深いアプリケーションを可能にします。 例えば、著者は、コラボレーションでより一貫性のあるドキュメントを作成するために、文章スタイルを調整できる。 同様に、スタイル分析は文書の証明と認証を第一ステップとして使うこともできる。 本稿では,スタイル分析における重要な課題の一つである単一文書と複数文書の分類のためのアンサンブルに基づくテキスト処理フレームワークを提案する。 提案フレームワークは、古典的機械学習(ML)アルゴリズム、トランスフォーマー、深層学習アルゴリズムなど、最先端のテキスト分類アルゴリズムを個別および有益に基づく後期融合に組み込んでいる。 メリットに基づくレイトフュージョンでは、個々のテキスト分類アルゴリズムにメリットに基づく重みを割り当てるために、いくつかの重み付け最適化と選択手法を採用した。 また,クリーンデータと非クリーンデータの両方について実験を行い,nlpアプリケーションで通常除外されるタスクに対する文字の影響を分析した。 提案フレームワークは大規模ベンチマークデータセット上で評価され、既存のソリューションよりも大幅にパフォーマンスが向上する。

Style analysis, which is relatively a less explored topic, enables several interesting applications. For instance, it allows authors to adjust their writing style to produce a more coherent document in collaboration. Similarly, style analysis can also be used for document provenance and authentication as a primary step. In this paper, we propose an ensemble-based text-processing framework for the classification of single and multi-authored documents, which is one of the key tasks in style analysis. The proposed framework incorporates several state-of-the-art text classification algorithms including classical Machine Learning (ML) algorithms, transformers, and deep learning algorithms both individually and in merit-based late fusion. For the merit-based late fusion, we employed several weight optimization and selection methods to assign merit-based weights to the individual text classification algorithms. We also analyze the impact of the characters on the task that are usually excluded in NLP applications during pre-processing by conducting experiments on both clean and un-clean data. The proposed framework is evaluated on a large-scale benchmark dataset, significantly improving performance over the existing solutions.
翻訳日:2023-03-03 14:37:55 公開日:2023-03-02
# STDepthFormer:自己教師型トランスモデルによるビデオの時空間深さ予測

STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model ( http://arxiv.org/abs/2303.01196v1 )

ライセンス: Link先を確認
Houssem Boulahbal, Adrian Voicila, Andrew Comport(参考訳) 本稿では,新しい空間的注意(ST)ネットワークを用いたビデオ入力から,将来的なフレーム列を同時に予測する自己教師型モデルを提案する。 ST変換器ネットワークは、画像内の空間オブジェクト間で異なるスケールで一貫性を制約しながら、将来のフレーム間で両方の時間的一貫性を制約することができる。 これは、単一のフレームを出力として予測することに焦点を当てた深度予測のための以前の作業ではそうではなかった。 提案モデルでは,物体の形状やテクスチャなどの事前の知識を,入力画像のシーケンスからの動きや形状を制約しながら,単像深度推定法と同様に活用する。 トランスフォーマーアーキテクチャ以外にも、先行研究に関する主な貢献の1つは、単一の出力フレームではなく、出力フレームのシーケンス間の時空間的一貫性を強制する目的関数にある。 示すように、この結果はより正確で堅牢な深さ列予測をもたらす。 モデルは、KITTIベンチマークの既存のベースラインを上回る高精度な深度予測結果を得る。 提案手法の有効性を評価するため,広範なアブレーション実験を行った。 提案モデルによる顕著な結果のひとつは,複数物体の検出,セグメンテーション,追跡を含む複雑なモデルを必要とするのではなく,シーン内の物体の動きを暗黙的に予測できることである。

In this paper, a self-supervised model that simultaneously predicts a sequence of future frames from video-input with a novel spatial-temporal attention (ST) network is proposed. The ST transformer network allows constraining both temporal consistency across future frames whilst constraining consistency across spatial objects in the image at different scales. This was not the case in prior works for depth prediction, which focused on predicting a single frame as output. The proposed model leverages prior scene knowledge such as object shape and texture similar to single-image depth inference methods, whilst also constraining the motion and geometry from a sequence of input images. Apart from the transformer architecture, one of the main contributions with respect to prior works lies in the objective function that enforces spatio-temporal consistency across a sequence of output frames rather than a single output frame. As will be shown, this results in more accurate and robust depth sequence forecasting. The model achieves highly accurate depth forecasting results that outperform existing baselines on the KITTI benchmark. Extensive ablation studies were performed to assess the effectiveness of the proposed techniques. One remarkable result of the proposed model is that it is implicitly capable of forecasting the motion of objects in the scene, rather than requiring complex models involving multi-object detection, segmentation and tracking.
翻訳日:2023-03-03 14:37:37 公開日:2023-03-02
# mixphm: 冗長性を考慮したパラメータ効率の調整による低リソースビジュアル質問応答

MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering ( http://arxiv.org/abs/2303.01239v1 )

ライセンス: Link先を確認
Jingjing Jiang, Nanning Zheng(参考訳) 近年,VQAの最先端性能を実現するために,事前学習型視覚言語モデル(VLM)が主流となっている。 しかし、VLMがスケールするにつれて、計算コストが高くなり、ストレージ効率が悪くなり、低リソース環境で特定のタスクの完全なモデルパラメータを調整しすぎる傾向にある。 現在のパラメータ効率の良いチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う重要なパフォーマンスギャップが存在する。 本稿では,冗長性を考慮したパラメータ効率の高いチューニング手法である \textbf{mixphm} を提案する。 具体的には、MixPHMは複数のPHM専門家によって実装された軽量モジュールである。 パラメータ冗長性を低減するため、低ランクのサブスペースで専門家の重みを再パラメータ化し、mixphm内外の重みの一部を共有する。 さらに,表現冗長性の定量的解析に基づいて,mixphmによりタスク関連冗長性が低減され,タスク関連相関が促進される \textbf{redundancy regularization} を提案する。 低リソース設定のVQA v2, GQA, OK-VQAで行った実験は、MixPHMが最先端パラメータ効率の手法より優れており、フル微調整を一貫して超越している唯一の方法であることを示している。

Recently, finetuning pretrained vision-language models (VLMs) has become one prevailing paradigm to achieve state-of-the-art performance in VQA. However, as VLMs scale, it becomes computationally expensive, storage inefficient, and prone to overfitting to tune full model parameters for a specific task in low-resource settings. Although current parameter-efficient tuning methods dramatically reduce the number of tunable parameters, there still exists a significant performance gap with full finetuning. In this paper, we propose \textbf{MixPHM}, a redundancy-aware parameter-efficient tuning method that outperforms full finetuning in low-resource VQA. Specifically, MixPHM is a lightweight module implemented by multiple PHM-experts in a mixture-of-experts manner. To reduce parameter redundancy, we reparameterize expert weights in a low-rank subspace and share part of the weights inside and across MixPHM. Moreover, based on our quantitative analysis of representation redundancy, we propose \textbf{redundancy regularization}, which facilitates MixPHM to reduce task-irrelevant redundancy while promoting task-relevant correlation. Experiments conducted on VQA v2, GQA, and OK-VQA with different low-resource settings show that our MixPHM outperforms state-of-the-art parameter-efficient methods and is the only one consistently surpassing full finetuning.
翻訳日:2023-03-03 14:31:17 公開日:2023-03-02
# FlowFormer++: 光フロー推定の事前学習のためのマスク付きコストボリューム自動符号化

FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical Flow Estimation ( http://arxiv.org/abs/2303.01237v1 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li(参考訳) FlowFormerは、オプティカルフロー推定にトランスフォーマーアーキテクチャを導入し、最先端のパフォーマンスを実現する。 flowformerの中核コンポーネントは、transformerベースのコストボリュームエンコーダである。 トランスフォーマの符号化能力の解き放つための前置型自動エンコーディング(mae)の最近の成功に触発されて,新しいmae方式でコストボリュームエンコーダをプリトレーニングすることでフローフォーマを強化するためのマスク付きコストボリュームオートエンコード(mcva)を提案する。 まず,隣接する画素のコストマップに高い相関関係があることから,マスク情報漏洩を防止するブロック共有マスキング手法を提案する。 次に,コストボリュームエンコーダが長距離情報を集約し,事前学習と微調整の一貫性を保証する,新しいプリテキスト再構成タスクを提案する。 また,事前トレーニング中にマスクに対応するためにflowformerアーキテクチャを変更する方法を示す。 MCVAで事前訓練されたFlowFormer++は、SintelとKITTI-2015ベンチマークの両方で公開されたメソッドの中で、第1位である。 具体的には、FlowFormer++はSintelベンチマークのクリーンパスと最終パスで1.07と1.94の平均エンドポイントエラー(AEPE)を達成する。 FlowFormer++は、KITTI-2015テストセットで4.52 F1-allを取得し、FlowFormerを0.16改善した。

FlowFormer introduces a transformer architecture into optical flow estimation and achieves state-of-the-art performance. The core component of FlowFormer is the transformer-based cost-volume encoder. Inspired by the recent success of masked autoencoding (MAE) pretraining in unleashing transformers' capacity of encoding visual representation, we propose Masked Cost Volume Autoencoding (MCVA) to enhance FlowFormer by pretraining the cost-volume encoder with a novel MAE scheme. Firstly, we introduce a block-sharing masking strategy to prevent masked information leakage, as the cost maps of neighboring source pixels are highly correlated. Secondly, we propose a novel pre-text reconstruction task, which encourages the cost-volume encoder to aggregate long-range information and ensures pretraining-finetuning consistency. We also show how to modify the FlowFormer architecture to accommodate masks during pretraining. Pretrained with MCVA, FlowFormer++ ranks 1st among published methods on both Sintel and KITTI-2015 benchmarks. Specifically, FlowFormer++ achieves 1.07 and 1.94 average end-point error (AEPE) on the clean and final pass of Sintel benchmark, leading to 7.76\% and 7.18\% error reductions from FlowFormer. FlowFormer++ obtains 4.52 F1-all on the KITTI-2015 test set, improving FlowFormer by 0.16.
翻訳日:2023-03-03 14:30:34 公開日:2023-03-02
# bikedna: 自転車のインフラデータとネットワークアセスメントのためのツール

BikeDNA: A Tool for Bicycle Infrastructure Data & Network Assessment ( http://arxiv.org/abs/2303.01223v1 )

ライセンス: Link先を確認
Ane Rahbek Vier{\o}, Anastassia Vybornova, Michael Szell(参考訳) 既存の自転車インフラの高品質なデータは、人間の移動のグリーン移行をサポートするエビデンスベースの自転車ネットワーク計画の要件である。 しかし、この要件は滅多に満たない: 政府機関やopenstreetmapのようなクラウドソースプロジェクトからのデータは、しばしば未知、異質、または低い品質に苦しむ。 現在利用可能な道路網のデータ品質評価ツールは、しばしばネットワークトポロジ、空間的不均一性、自転車固有のデータ特性を考慮できない。 このギャップを埋めるために,自転車のインフラデータに合わせた品質評価を,ネットワーク構造と接続性に焦点をあてたオープンソースツールである bikedna を紹介する。 BikeDNAは、1つのデータセットのスタンドアロン分析を実行するか、OpenStreetMapと機能マッチングを含む参照データセットの比較分析を行う。 データ品質の指標は、研究領域全体とグリッドセルレベルの両方で世界規模で検討されているため、データ品質の空間的変動が明らかになる。 インタラクティブマップとhtml/pdfレポートが生成され、その結果の視覚的な探索とコミュニケーションが容易になる。 BikeDNAは、都市計画からOpenStreetMapデータの改善、持続可能なモビリティのためのネットワーク研究まで、幅広いアプリケーションのための自転車インフラストラクチャデータの品質評価をサポートする。

High-quality data on existing bicycle infrastructure are a requirement for evidence-based bicycle network planning, which supports a green transition of human mobility. However, this requirement is rarely met: Data from governmental agencies or crowdsourced projects like OpenStreetMap often suffer from unknown, heterogeneous, or low quality. Currently available tools for road network data quality assessment often fail to account for network topology, spatial heterogeneity, and bicycle-specific data characteristics. To fill these gaps, we introduce BikeDNA, an open-source tool for reproducible quality assessment tailored to bicycle infrastructure data with a focus on network structure and connectivity. BikeDNA performs either a standalone analysis of one data set or a comparative analysis between OpenStreetMap and a reference data set, including feature matching. Data quality metrics are considered both globally for the entire study area and locally on grid cell level, thus exposing spatial variation in data quality. Interactive maps and HTML/PDF reports are generated to facilitate the visual exploration and communication of results. BikeDNA supports quality assessments of bicycle infrastructure data for a wide range of applications -- from urban planning to OpenStreetMap data improvement or network research for sustainable mobility.
翻訳日:2023-03-03 14:28:43 公開日:2023-03-02
# クリフォード回路を用いた分割量子化学シミュレーション

Partitioning Quantum Chemistry Simulations with Clifford Circuits ( http://arxiv.org/abs/2303.01221v1 )

ライセンス: Link先を確認
Philipp Schleich, Joseph Boen, Lukasz Cincio, Abhinav Anand, Jakob S. Kottmann, Sergei Tretiak, Pavel A. Dub, Al\'an Aspuru-Guzik(参考訳) 現在の量子コンピューティングハードウェアは、量子コンピュータ上での量子化学計算において、より大きく複雑な分子の研究を短期的に制限するわずかなノイズ量子ビットの可用性によって制限されている。 本研究では,量子回路と変分量子固有解器の枠組みに留まりながら,古典的および近古典的処理の限界について検討する。 この目的のために,分離可能なペア ansatz 形式を適応させたパラメトリズド波動関数に対して,naive と physical に動機づけられ,古典的に効率的な積 ansatz を考える。 このアンサッツから派生したサブシステム間の相互作用を考慮した後処理と組み合わせる。 古典的処理は、強制されたサブシステム間の支持を持ち、ハミルトニアンに折り畳まれる別の量子回路によって与えられる。 ハミルトン項の数が指数関数的に増加するのを避けるために、エンタングリング演算は純粋にクリフォード回路または近クリフォード回路から構成される。 クリフォード回路は古典的に効率的にシミュレートできるが、それらは普遍的ではない。 表現性の欠如を考慮し、選択された非クリフォードゲートの少ない近クリフォード回路を用いる。 この目的を達成するための正確な回路構造は分子に依存し、シミュレートアニーリングと遺伝的アルゴリズムを用いて構築される。 関心の分子の集合に対する我々のアプローチを実証し、方法論の到達範囲について検討する。 本手法の数値シミュレーションによる実証的検証により, 分離可能なペア・アンサッツと比較して, 最大50\%の量子ビット数の減少が確認された。

Current quantum computing hardware is restricted by the availability of only few, noisy qubits which limits the investigation of larger, more complex molecules in quantum chemistry calculations on quantum computers in the near-term. In this work, we investigate the limits of their classical and near-classical treatment while staying within the framework of quantum circuits and the variational quantum eigensolver. To this end, we consider naive and physically motivated, classically efficient product ansatz for the parametrized wavefunction adapting the separable pair ansatz form. We combine it with post-treatment to account for interactions between subsystems originating from this ansatz. The classical treatment is given by another quantum circuit that has support between the enforced subsystems and is folded into the Hamiltonian. To avoid an exponential increase in the number of Hamiltonian terms, the entangling operations are constructed from purely Clifford or near-Clifford circuits. While Clifford circuits can be simulated efficiently classically, they are not universal. In order to account for missing expressibility, near-Clifford circuits with only few, selected non-Clifford gates are employed. The exact circuit structure to achieve this objective is molecule-dependent and is constructed using simulated annealing and genetic algorithms. We demonstrate our approach on a set of molecules of interest and investigate the extent of our methodology's reach. Empirical validation of our approach using numerical simulations shows a reduction of the qubit count of up to a 50\% at a similar accuracy as compared to the separable-pair ansatz.
翻訳日:2023-03-03 14:28:22 公開日:2023-03-02
# 勾配部分空間距離によるプライベート機械学習のためのパブリックデータセットの選択

Choosing Public Datasets for Private Machine Learning via Gradient Subspace Distance ( http://arxiv.org/abs/2303.01256v1 )

ライセンス: Link先を確認
Xin Gu, Gautam Kamath, Zhiwei Steven Wu(参考訳) 異なるプライベート確率勾配降下は、各繰り返しにノイズを注入することで、モデルパラメータの数に応じてノイズの大きさが増加するモデルトレーニングを民営化する。 最近の研究は、パブリックデータによって指定されたサブスペースに勾配を投影することで、プライベート機械学習のためにパブリックデータを活用することでノイズを低減できることを示唆している。 しかし、公開データセットの選択を考えると、プライベートタスクに最も適したデータセットがどれであるかは事前には明確ではない。 我々は,公立と私設の例の勾配の低次元部分空間距離を測定することで,公開データセットを選択するアルゴリズムを提案する。 この部分空間距離で余剰リスクがスケールすることを示す理論的解析を行う。 この距離は計算が容易で、設定の変更に対して堅牢である。 実験的な評価は、訓練されたモデルの精度がこの距離で単調であることを示している。

Differentially private stochastic gradient descent privatizes model training by injecting noise into each iteration, where the noise magnitude increases with the number of model parameters. Recent works suggest that we can reduce the noise by leveraging public data for private machine learning, by projecting gradients onto a subspace prescribed by the public data. However, given a choice of public datasets, it is not a priori clear which one may be most appropriate for the private task. We give an algorithm for selecting a public dataset by measuring a low-dimensional subspace distance between gradients of the public and private examples. We provide theoretical analysis demonstrating that the excess risk scales with this subspace distance. This distance is easy to compute and robust to modifications in the setting. Empirical evaluation shows that trained model accuracy is monotone in this distance.
翻訳日:2023-03-03 14:21:16 公開日:2023-03-02
# Python制御フローを用いたトラップイオンのリアルタイムハイブリッド量子古典計算

Real-time hybrid quantum-classical computations for trapped-ions with Python control-flow ( http://arxiv.org/abs/2303.01282v1 )

ライセンス: Link先を確認
Tobias Schmale, Bence Temesi, Niko Trittschanke, Nicolas Pulido-Mateo, Ilya Elenskiy, Ludwig Krinner, Timko Dubielzig, Christian Ospelkaus, Hendrik Weimer, Daniel Borcherding(参考訳) 近年,量子計算と古典計算を組み合わせたハイブリッドアルゴリズムの数が増加傾向にある。 これら2つのコンピューティングアプローチは相互に互いのパフォーマンスを向上させ、純粋なアルゴリズムに匹敵する高度なアルゴリズムの期待をもたらす。 この新しい種類のコードに対応するためには、量子ハードウェアと古典ハードウェアの相互作用を可能にする適切な環境を作成する必要がある。 これらのハイブリッドプロセスの多くは、量子コンピュータのコヒーレンス時間が自然の時間制約として生じるため、古典的なオーバーヘッドを最小限に抑えることが重要である。 しかし、イオントラップ量子コンピュータでは、関連する時間スケールはマイクロ秒ではなく秒単位であるため、超伝導技術よりもはるかに制限要因が少ない。 実際、この長いコヒーレンス時間により、Pythonのような解釈型プログラミング言語で量子計算をリアルタイムに制御するためのスキームを開発することができる。 特に、超伝導量子ビットとは異なり、あらかじめ全ての命令をコンパイルする必要はない。 これにより、ハイブリッドアルゴリズムの実装はシンプルであり、既存のPythonライブラリのリッチな環境から恩恵を受けることができる。 解釈量子古典計算(IQCC)のこのアプローチが実現可能であることを示すため、実世界の実例を持ち出し、現実的なベンチマークで評価する。

In recent years, the number of hybrid algorithms that combine quantum and classical computations has been continuously increasing. These two approaches to computing can mutually enhance each others' performances thus bringing the promise of more advanced algorithms that can outmatch their pure counterparts. In order to accommodate this new class of codes, a proper environment has to be created, which enables the interplay between the quantum and classical hardware. For many of these hybrid processes the coherence time of the quantum computer arises as a natural time constraint, making it crucial to minimize the classical overhead. For ion-trap quantum computers however, this is a much less limiting factor than with superconducting technologies, since the relevant timescale is on the order of seconds instead of microseconds. In fact, this long coherence time enables us to develop a scheme for real-time control of quantum computations in an interpreted programming language like Python. In particular, compilation of all instructions in advance is not necessary, unlike with superconducting qubits. This keeps the implementation of hybrid algorithms simple and also lets users benefit from the rich environment of existing Python libraries. In order to show that this approach of interpreted quantum-classsical computations (IQCC) is feasible, we bring real-world examples and evaluate them in realistic benchmarks.
翻訳日:2023-03-03 14:13:09 公開日:2023-03-02
# 非同期1ビット通信による分散フルグラフGNNトレーニングの強化

Boosting Distributed Full-graph GNN Training with Asynchronous One-bit Communication ( http://arxiv.org/abs/2303.01277v1 )

ライセンス: Link先を確認
Meng Zhang, Qinghao Hu, Peng Sun, Yonggang Wen, Tianwei Zhang(参考訳) 大規模グラフ上でのグラフニューラルネットワーク(gnn)のトレーニングは、高メモリ要求とgpuメモリの制限との衝突のために難しい。 近年,この問題に対処するために分散フルグラフGNNトレーニングが広く採用されている。 しかし、GPU間通信のオーバーヘッドが大きくなり、スループットが大幅に低下する可能性がある。 既存の通信圧縮技術は主に従来のdnnトレーニングにフォーカスしており、そのボトルネックは勾配とパラメータの同期にある。 分散GNNトレーニングでは,前方通過時の機能と後方通過時の機能勾配の階層的コミュニケーションが障壁となるため,うまく動作しないことがわかった。 そこで本研究では,gnnにおける1ビット量子化技術を用いた効率的な分散gnn学習フレームワークsylvieを提案する。 詳しくは、sylvieは送信されたデータを量子化し、受信したデータを各レイヤの完全な精度値に戻す軽量な低ビットモジュールを提供する。 さらに,さらなる性能向上を実現するために,導入したステイレネスを制御するための境界付きステイレネスアダプタを提案する。 sylvieがトレーニングスループットを最大28.1倍向上させることを示すため,様々なモデルとデータセットの理論的収束解析と広範な実験を行った。

Training Graph Neural Networks (GNNs) on large graphs is challenging due to the conflict between the high memory demand and limited GPU memory. Recently, distributed full-graph GNN training has been widely adopted to tackle this problem. However, the substantial inter-GPU communication overhead can cause severe throughput degradation. Existing communication compression techniques mainly focus on traditional DNN training, whose bottleneck lies in synchronizing gradients and parameters. We find they do not work well in distributed GNN training as the barrier is the layer-wise communication of features during the forward pass & feature gradients during the backward pass. To this end, we propose an efficient distributed GNN training framework Sylvie, which employs one-bit quantization technique in GNNs and further pipelines the curtailed communication with computation to enormously shrink the overhead while maintaining the model quality. In detail, Sylvie provides a lightweight Low-bit Module to quantize the sent data and dequantize the received data back to full precision values in each layer. Additionally, we propose a Bounded Staleness Adaptor to control the introduced staleness to achieve further performance enhancement. We conduct theoretical convergence analysis and extensive experiments on various models & datasets to demonstrate Sylvie can considerably boost the training throughput by up to 28.1x.
翻訳日:2023-03-03 14:12:50 公開日:2023-03-02
# 半教師付きセマンティックセグメンテーションのための衝突型クロスビュー整合性

Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.01276v1 )

ライセンス: Link先を確認
Zicheng Wang, Zhen Zhao, Luping Zhou, Dong Xu, Xiaoxia Xing, Xiangyu Kong(参考訳) 半教師付きセマンティックセグメンテーションは、大規模な完全注釈付きトレーニングデータの要求を効果的に活用することで、研究の関心が高まっている。 現在の手法は、しばしば擬似ラベルプロセスからの確認バイアスに苦しむが、これは共学習フレームワークによって軽減される。 現在のco-training-based semi-supervised semantic segmentationメソッドは、異なるサブネットが互いに崩壊しないように手作りの摂動に依存しているが、これらの人工摂動は最適な解を導くことはできない。 本研究では,半教師付きセマンティクスセグメンテーションのための2分岐コトレーニングフレームワークに基づく,コンフリクトベースのクロスビュー一貫性(ccvc)手法を提案する。 本研究の目的は,2つのサブネットに無関係な視点から情報的特徴を学習させることである。 特に,2つのサブネットが特徴差損失を導入して同一入力から異なる特徴を学習することを奨励する新たなクロスビュー整合性(CVC)戦略を提案し,これらの特徴は入力の一貫性のある予測スコアを生成することが期待されている。 CVC戦略は、2つのサブネットが崩壊するのを防ぐのに役立つ。 さらに,コンフリクトベースの擬似ラベリング(CPL)手法を提案し,モデルが競合予測からより有用な情報を学ぶことを保証し,安定したトレーニングプロセスを実現する。 我々はPASCAL VOC 2012とCityscapesで広く使われているベンチマークデータセットに対して,新しい半教師付きセマンティックセマンティックセマンティックセマンティクスアプローチを検証する。

Semi-supervised semantic segmentation has recently gained increasing research interest as it can reduce the requirement for large-scale fully-annotated training data by effectively exploiting large amounts of unlabelled data. The current methods often suffer from the confirmation bias from the pseudo-labelling process, which can be alleviated by the co-training framework. The current co-training-based semi-supervised semantic segmentation methods rely on hand-crafted perturbations to prevent the different sub-nets from collapsing into each other, but these artificial perturbations cannot lead to the optimal solution. In this work, we propose a new conflict-based cross-view consistency (CCVC) method based on a two-branch co-training framework for semi-supervised semantic segmentation. Our work aims at enforcing the two sub-nets to learn informative features from irrelevant views. In particular, we first propose a new cross-view consistency (CVC) strategy that encourages the two sub-nets to learn distinct features from the same input by introducing a feature discrepancy loss, while these distinct features are expected to generate consistent prediction scores of the input. The CVC strategy helps to prevent the two sub-nets from stepping into the collapse. In addition, we further propose a conflict-based pseudo-labelling (CPL) method to guarantee the model will learn more useful information from conflicting predictions, which will lead to a stable training process. We validate our new semi-supervised semantic segmentation approach on the widely used benchmark datasets PASCAL VOC 2012 and Cityscapes, where our method achieves new state-of-the-art performance.
翻訳日:2023-03-03 14:12:31 公開日:2023-03-02
# 対物画像モデルの公理的音響性の測定

Measuring axiomatic soundness of counterfactual image models ( http://arxiv.org/abs/2303.01274v1 )

ライセンス: Link先を確認
Miguel Monteiro and Fabio De Sousa Ribeiro and Nick Pawlowski and Daniel C. Castro and Ben Glocker(参考訳) 画像の反事実を評価するための一般的な枠組みを提案する。 深層生成モデルのパワーと柔軟性は、構造因果モデルのメカニズムを学ぶための貴重なツールとなる。 しかし、その柔軟性は、一般的な場合、反実的識別性を不可能にする。 これらの問題に触発されて、我々は、反現実的推論モデル(合成、可逆性、有効性)に必要な制約を決定するために、パールの反現実的定義を再考する。 対物は、入力変数、その親、および対物親の関数として構成し、公理的制約を用いて、対物関係を表すことができる関数の集合を制限し、したがって近似関数と理想関数の間の距離メトリクスを導出する。 我々は、これらのメトリクスがどのようにして、異なる近似カウンターファクト推論モデルの比較と選択に利用できるかを示し、モデルの欠点とトレードオフに関する洞察を提供する。

We present a general framework for evaluating image counterfactuals. The power and flexibility of deep generative models make them valuable tools for learning mechanisms in structural causal models. However, their flexibility makes counterfactual identifiability impossible in the general case. Motivated by these issues, we revisit Pearl's axiomatic definition of counterfactuals to determine the necessary constraints of any counterfactual inference model: composition, reversibility, and effectiveness. We frame counterfactuals as functions of an input variable, its parents, and counterfactual parents and use the axiomatic constraints to restrict the set of functions that could represent the counterfactual, thus deriving distance metrics between the approximate and ideal functions. We demonstrate how these metrics can be used to compare and choose between different approximate counterfactual inference models and to provide insight into a model's shortcomings and trade-offs.
翻訳日:2023-03-03 14:12:03 公開日:2023-03-02
# 計量迷路のナビゲート:時系列における異常検出のための評価指標の分類法

Navigating the Metric Maze: A Taxonomy of Evaluation Metrics for Anomaly Detection in Time Series ( http://arxiv.org/abs/2303.01272v1 )

ライセンス: Link先を確認
Sondre S{\o}rb{\o} and Massimiliano Ruocco(参考訳) 時系列異常検出の分野は、いくつかの方法が利用可能であり、特定の領域に対して最も適切な方法を決定することが困難である。 これらの手法の評価はメトリクスの使用によって促進され、その特性は様々である。 新しい評価指標が存在するにもかかわらず、どのメトリクスが特定のシナリオやドメインに最も適しているかの合意は限られており、最も一般的に使われるメトリクスは文献で批判されている。 本稿では,時系列異常検出法の評価に用いる指標の包括的概要と,それらの計算方法に基づく分類法について述べる。 評価メトリクスのプロパティセットと、特定のケーススタディと実験セットを定義することで、20のメトリクスを分析、詳細に議論し、それぞれのタスクに特有の適合性を強調する。 本論文は,広範囲な実験と分析を通じて,課題の具体的な要件を考慮し,評価基準の選択を慎重に行う必要があることを論じる。

The field of time series anomaly detection is constantly advancing, with several methods available, making it a challenge to determine the most appropriate method for a specific domain. The evaluation of these methods is facilitated by the use of metrics, which vary widely in their properties. Despite the existence of new evaluation metrics, there is limited agreement on which metrics are best suited for specific scenarios and domain, and the most commonly used metrics have faced criticism in the literature. This paper provides a comprehensive overview of the metrics used for the evaluation of time series anomaly detection methods, and also defines a taxonomy of these based on how they are calculated. By defining a set of properties for evaluation metrics and a set of specific case studies and experiments, twenty metrics are analyzed and discussed in detail, highlighting the unique suitability of each for specific tasks. Through extensive experimentation and analysis, this paper argues that the choice of evaluation metric must be made with care, taking into account the specific requirements of the task at hand.
翻訳日:2023-03-03 14:11:48 公開日:2023-03-02
# 偽学習データの解析がディープラーニングシステムの性能に及ぼす影響

Analyzing Effects of Fake Training Data on the Performance of Deep Learning Systems ( http://arxiv.org/abs/2303.01268v1 )

ライセンス: Link先を確認
Pratinav Seth, Akshat Bhandari and Kumud Lakara(参考訳) ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に苦しむことが多い。 利用可能なベンチマーク以上のトレーニングに適したデータを見つけることは、しばしば困難である。 これは特にコンピュータビジョンモデルの場合である。 しかし、GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。 この合成データは、ディープラーニングモデルが直面するいくつかの課題を軽減するために使用できる。 本稿では,合成データの異なる比率と実際の(有機的な)データを用いたコンピュータビジョンモデルの訓練の効果について詳細に分析する。 本研究では, 各種合成データとオリジナルデータとの混合が, 分散データに対するモデルのロバスト性, 予測の一般的な品質に及ぼす影響を解析した。

Deep learning models frequently suffer from various problems such as class imbalance and lack of robustness to distribution shift. It is often difficult to find data suitable for training beyond the available benchmarks. This is especially the case for computer vision models. However, with the advent of Generative Adversarial Networks (GANs), it is now possible to generate high-quality synthetic data. This synthetic data can be used to alleviate some of the challenges faced by deep learning models. In this work we present a detailed analysis of the effect of training computer vision models using different proportions of synthetic data along with real (organic) data. We analyze the effect that various quantities of synthetic data, when mixed with original data, can have on a model's robustness to out-of-distribution data and the general quality of predictions.
翻訳日:2023-03-03 14:11:32 公開日:2023-03-02
# 弱改良セマンティックセグメンテーションのためのトークンコントラスト

Token Contrast for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.01267v1 )

ライセンス: Link先を確認
Lixiang Ru, Heliang Zheng, Yibing Zhan, Bo Du(参考訳) 画像レベルラベルを使用する弱い教師付きセマンティックセグメンテーション(wsss)は通常、クラスアクティベーションマップ(cam)を使用して擬似ラベルを生成する。 CNNの局所的な構造認識によって制限されたCAMは通常、統合対象領域を識別できない。 最近のViT(Vision Transformer)は、この欠陥を修復できるが、過度にスムースな問題である \ie、最終的なパッチトークンが一様であることを観察する。 本稿では,この問題に対処するためにトークンコントラスト(toco)を提案し,wsss における vit のメリットをさらに探究する。 まず,vitにおける中間層が意味的多様性を維持できるという観測に動機づけられ,パッチトークンコントラストモジュール (ptc) を設計した。 PTCは、中間層から派生した擬似トークン関係で最終パッチトークンを監督し、セマンティック領域を整列させ、より正確なCAMを生成する。 次に,camの低信頼領域をさらに差別化するために,vitのクラストークンが高レベルセマンティクスをキャプチャできるという事実に触発されたクラストークンコントラストモジュール(ctc)を考案した。 CTCは、クラストークンを対比することにより、不確実なローカルリージョンとグローバルオブジェクト間の表現整合性を促進する。 PASCAL VOCとMS COCOデータセットの実験は、提案されたToCoが他のシングルステージ競合を著しく上回り、最先端のマルチステージメソッドで同等のパフォーマンスを達成することを示している。 コードはhttps://github.com/rulixiang/tocoで入手できる。

Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels typically utilizes Class Activation Map (CAM) to generate the pseudo labels. Limited by the local structure perception of CNN, CAM usually cannot identify the integral object regions. Though the recent Vision Transformer (ViT) can remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the final patch tokens incline to be uniform. In this work, we propose Token Contrast (ToCo) to address this issue and further explore the virtue of ViT for WSSS. Firstly, motivated by the observation that intermediate layers in ViT can still retain semantic diversity, we designed a Patch Token Contrast module (PTC). PTC supervises the final patch tokens with the pseudo token relations derived from intermediate layers, allowing them to align the semantic regions and thus yield more accurate CAM. Secondly, to further differentiate the low-confidence regions in CAM, we devised a Class Token Contrast module (CTC) inspired by the fact that class tokens in ViT can capture high-level semantics. CTC facilitates the representation consistency between uncertain local regions and global objects by contrasting their class tokens. Experiments on the PASCAL VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other single-stage competitors and achieve comparable performance with state-of-the-art multi-stage methods. Code is available at https://github.com/rulixiang/ToCo.
翻訳日:2023-03-03 14:11:18 公開日:2023-03-02
# ピンニング制御を用いたステアリンググラフニューラルネットワーク

Steering Graph Neural Networks with Pinning Control ( http://arxiv.org/abs/2303.01265v1 )

ライセンス: Link先を確認
Acong Zhang, Ping Li, Guanrong Chen(参考訳) ラベル付きデータがほとんど制限されている半教師付き環境では、グラフ上に不連続に分散された同じクラスラベルを持つノードの特徴表現を学習することは、メッセージパッシングベースのグラフニューラルネットワーク(GNN)にとって大きな課題である。 不連続な情報伝達問題を解決するために,ラベル付きデータのプロトタイプ(クラスセンター)を活用することで表現学習を監督する制御原理を提案する。 グラフ学習を離散的動的プロセスとして、ラベル付きデータのプロトタイプを「望ましい」クラス表現として扱うことで、自動制御理論から特徴学習プロセスのための学習フィードバックコントローラの設計へのピンニング制御のアイデアを借用し、各ラウンドにおけるメッセージパッシング派生特徴とクラスプロトタイプの違いを最小化して、クラス関連特徴を生成する。 具体的には、各ラウンドで各ノードに最適なコントローラを装備し、ノードとクラスプロトタイプ間のマッチング関係を学習し、強いヘテロフィリーを持つグラフ内の非互換な隣人からの集約情報を修正できるようにする。 実験により,提案したPCGCNモデルは,グラフがラベルが少なく,強いヘテロフィリーを持つ場合に,深いGNNや他の競合するヘテロフィリー指向手法よりも優れた性能が得られることが示された。

In the semi-supervised setting where labeled data are largely limited, it remains to be a big challenge for message passing based graph neural networks (GNNs) to learn feature representations for the nodes with the same class label that is distributed discontinuously over the graph. To resolve the discontinuous information transmission problem, we propose a control principle to supervise representation learning by leveraging the prototypes (i.e., class centers) of labeled data. Treating graph learning as a discrete dynamic process and the prototypes of labeled data as "desired" class representations, we borrow the pinning control idea from automatic control theory to design learning feedback controllers for the feature learning process, attempting to minimize the differences between message passing derived features and the class prototypes in every round so as to generate class-relevant features. Specifically, we equip every node with an optimal controller in each round through learning the matching relationships between nodes and the class prototypes, enabling nodes to rectify the aggregated information from incompatible neighbors in a graph with strong heterophily. Our experiments demonstrate that the proposed PCGCN model achieves better performances than deep GNNs and other competitive heterophily-oriented methods, especially when the graph has very few labels and strong heterophily.
翻訳日:2023-03-03 14:10:47 公開日:2023-03-02
# ゲームキャラクタ自動生成のためのゼロショットテキスト・パラメータ変換

Zero-Shot Text-to-Parameter Translation for Game Character Auto-Creation ( http://arxiv.org/abs/2303.01311v1 )

ライセンス: Link先を確認
Rui Zhao, Wei Li, Zhipeng Hu, Lincheng Li, Zhengxia Zou, Zhenwei Shi, Changjie Fan(参考訳) 近年のロールプレイングゲーム(RPG)はキャラクター自動生成システムに大きな成功を収めた。 連続パラメータ(骨の位置など)と離散パラメータ(髪型など)によって制御される骨駆動顔モデルにより、ユーザーはゲーム内のキャラクターをパーソナライズしカスタマイズすることができる。 従来のゲーム内キャラクタの自動生成システムは、主に画像駆動であり、顔のパラメータが最適化され、レンダリングされたキャラクタが参照の顔写真に類似している。 本稿では,ゼロショットテキスト駆動型ゲームキャラクタ自動生成を実現する新しいテキスト・パラメータ変換法(T2P)を提案する。 本手法では,参照写真や数百のパラメータを手作業で編集することなく,任意のテキスト記述による鮮やかなゲーム内キャラクタを作成できる。 本手法では,大規模な事前学習型マルチモーダルCLIPとニューラルレンダリングのパワーを生かして,連続的な顔パラメータと離散的な顔パラメータの両方を統一されたフレームワークで検索する。 不連続なパラメータ表現のため、従来の手法では離散的な顔パラメータを効果的に学習するのは難しい。 我々の知る限りでは、T2Pは離散パラメータと連続パラメータの両方を最適化できる最初の方法である。 実験結果から,T2Pはテキストプロンプトによって高品質で鮮明なゲームキャラクタを生成できることがわかった。 T2Pは、客観的評価と主観的評価の両方において、他のSOTAテキスト・3D生成方法よりも優れている。

Recent popular Role-Playing Games (RPGs) saw the great success of character auto-creation systems. The bone-driven face model controlled by continuous parameters (like the position of bones) and discrete parameters (like the hairstyles) makes it possible for users to personalize and customize in-game characters. Previous in-game character auto-creation systems are mostly image-driven, where facial parameters are optimized so that the rendered character looks similar to the reference face photo. This paper proposes a novel text-to-parameter translation method (T2P) to achieve zero-shot text-driven game character auto-creation. With our method, users can create a vivid in-game character with arbitrary text description without using any reference photo or editing hundreds of parameters manually. In our method, taking the power of large-scale pre-trained multi-modal CLIP and neural rendering, T2P searches both continuous facial parameters and discrete facial parameters in a unified framework. Due to the discontinuous parameter representation, previous methods have difficulty in effectively learning discrete facial parameters. T2P, to our best knowledge, is the first method that can handle the optimization of both discrete and continuous parameters. Experimental results show that T2P can generate high-quality and vivid game characters with given text prompts. T2P outperforms other SOTA text-to-3D generation methods on both objective evaluations and subjective evaluations.
翻訳日:2023-03-03 14:04:24 公開日:2023-03-02
# BIFRNet:脳にインスパイアされた画像認識のための機能回復DNN

BIFRNet: A Brain-Inspired Feature Restoration DNN for Partially Occluded Image Recognition ( http://arxiv.org/abs/2303.01309v1 )

ライセンス: Link先を確認
Jiahong Zhang, Lihong Cao, Qiuxia Lai, Binyao Li, Yunxiao Qin(参考訳) 部分的に隠蔽された画像認識(POIR)問題は、人工知能の長年の課題である。 POIR問題に対処する一般的な戦略は、非排除機能を使って分類することである。 残念なことに、この戦略は、可視部が限られた情報しか提供できないため、画像がひどく遮蔽されると効果を失う。 神経科学におけるいくつかの研究により、オクルードされた情報を埋め、アモーダル補完と呼ばれる特徴修復は、脳が部分的にオクルードされた画像を認識するために必須であることが明らかとなった。 しかし、機能回復は一般的にCNNによって無視されるので、CNNがPOIR問題に対して効果がない理由かもしれない。 そこで本研究では,脳にインスパイアされた新しい特徴回復ネットワーク(bifrnet)を提案する。 これは腹側視覚経路を模倣し、画像の特徴と背側視覚経路を抽出し、オクルードされた画像領域と可視像領域を識別する。 さらに、オブジェクトの事前知識を保存するのにナレッジモジュールを使用し、可視的特徴と事前知識に基づいて隠蔽された機能の復元にコンプリートモジュールを使用する。 人工的および実世界の隠蔽画像データセットに関する詳細な実験は、BIFRNetがPOIR問題を解決する既存の方法よりも優れていることを示している。 特に排他的画像の場合、BIRFRNetは他の手法をはるかに上回り、人間の脳のパフォーマンスに近い。 さらに、脳にインスパイアされたデザインはbifrnetをより解釈しやすくする。

The partially occluded image recognition (POIR) problem has been a challenge for artificial intelligence for a long time. A common strategy to handle the POIR problem is using the non-occluded features for classification. Unfortunately, this strategy will lose effectiveness when the image is severely occluded, since the visible parts can only provide limited information. Several studies in neuroscience reveal that feature restoration which fills in the occluded information and is called amodal completion is essential for human brains to recognize partially occluded images. However, feature restoration is commonly ignored by CNNs, which may be the reason why CNNs are ineffective for the POIR problem. Inspired by this, we propose a novel brain-inspired feature restoration network (BIFRNet) to solve the POIR problem. It mimics a ventral visual pathway to extract image features and a dorsal visual pathway to distinguish occluded and visible image regions. In addition, it also uses a knowledge module to store object prior knowledge and uses a completion module to restore occluded features based on visible features and prior knowledge. Thorough experiments on synthetic and real-world occluded image datasets show that BIFRNet outperforms the existing methods in solving the POIR problem. Especially for severely occluded images, BIRFRNet surpasses other methods by a large margin and is close to the human brain performance. Furthermore, the brain-inspired design makes BIFRNet more interpretable.
翻訳日:2023-03-03 14:03:59 公開日:2023-03-02
# 推論に基づくソフトウェアテスト

Reasoning-Based Software Testing ( http://arxiv.org/abs/2303.01302v1 )

ライセンス: Link先を確認
Luca Giamattei, Roberto Pietrantuono, Stefano Russo(参考訳) ソフトウェアシステムがますます普及し、自律的になるにつれて、品質をテストする能力は厳しい課題に直面している。 多くのシステムは不確実で高度に変化する環境で運用されることが求められている。 これにより、テスト時に難解な状態空間を探索することが容易になる。 最先端の技術はこの空間を効率的に探索するために、観察から何らかの(説明的あるいは暗黙的な)学習によってテスターの直感を増強することで、ペースを保とうとする。 例えば、履歴データを利用して検索(ML駆動テストなど)やテスト実行データ自体(適応テストや検索ベーステストなど)を駆動する。 説得力のある進歩にもかかわらず、これほど巨大な空間で検索を賢くする必要は迫られ続けている。 因果的推論タスクとして,テスト問題に対する新たな考え方である推論ベースのソフトウェアテスト(rbst)を導入する。 単なる直感的あるいは最先端の学習的戦略と比較して、因果推論は人間が空間を「スマートに」探索するために行うプロセスをより自然にエミュレートすると主張する。 RBSTは、計算能力によって、この能力を模倣し、増幅することを目的としている。 概念の飛躍は、因果発見と推論のために多くのツールを利用することによって、提案されたフレームワークから様々なインスタンス化できる新しい技術トレンドへの土台を開くことができる。 本論文で報告された予備結果は有望である。

With software systems becoming increasingly pervasive and autonomous, our ability to test for their quality is severely challenged. Many systems are called to operate in uncertain and highly-changing environment, not rarely required to make intelligent decisions by themselves. This easily results in an intractable state space to explore at testing time. The state-of-the-art techniques try to keep the pace, e.g., by augmenting the tester's intuition with some form of (explicit or implicit) learning from observations to search this space efficiently. For instance, they exploit historical data to drive the search (e.g., ML-driven testing) or the tests execution data itself (e.g., adaptive or search-based testing). Despite the indubitable advances, the need for smartening the search in such a huge space keeps to be pressing. We introduce Reasoning-Based Software Testing (RBST), a new way of thinking at the testing problem as a causal reasoning task. Compared to mere intuition-based or state-of-the-art learning-based strategies, we claim that causal reasoning more naturally emulates the process that a human would do to ''smartly" search the space. RBST aims to mimic and amplify, with the power of computation, this ability. The conceptual leap can pave the ground to a new trend of techniques, which can be variously instantiated from the proposed framework, by exploiting the numerous tools for causal discovery and inference. Preliminary results reported in this paper are promising.
翻訳日:2023-03-03 14:03:34 公開日:2023-03-02
# ヒューマンAIハイブリッドシステムにおけるデリゲーションによる検知障害の補償

Compensating for Sensing Failures via Delegation in Human-AI Hybrid Systems ( http://arxiv.org/abs/2303.01300v1 )

ライセンス: Link先を確認
Andrew Fuchs, Andrea Passarella, Marco Conti(参考訳) 自律的な行動や人間の活動の増強が可能な知的なシステムが増加していることを踏まえると、人間、自律的なシステム、あるいはその両方が複数の要因(例えば知覚)の1つによって失敗を生じさせるシナリオを考えることが重要である。 人間か自律的なエージェントの障害は単にパフォーマンスのレベルを低下させるか、障害は怪我や死と同じくらい深刻なものを引き起こす。 本論では,代行課題の実施時期と人的・自律的なシステムが制御可能かどうかを,管理担当者が特定するハイブリッド型人間AIチームについて考察する。 この文脈では、マネージャは、感知能力と潜在的な欠陥の結果、(人間的、自律的な)エージェントの失敗の可能性に基づいて、最善のアクションを見積もる。 環境コンテクストがセンシング欠陥にどのように寄与するか,あるいは悪化するかをモデル化する。 これらのコンテキストは、マネージャが意思決定に適合する能力の属性を学ぶ必要がある場合を提供します。 このようにして、強化学習(RL)マネージャがコンテキストデリゲーション・アソシエーションを補正し、エージェントのハイブリッドチームが孤立して働くエージェントの振る舞いより優れていることを示す。

Given an increasing prevalence of intelligent systems capable of autonomous actions or augmenting human activities, it is important to consider scenarios in which the human, autonomous system, or both can exhibit failures as a result of one of several contributing factors (e.g. perception). Failures for either humans or autonomous agents can lead to simply a reduced performance level, or a failure can lead to something as severe as injury or death. For our topic, we consider the hybrid human-AI teaming case where a managing agent is tasked with identifying when to perform a delegation assignment and whether the human or autonomous system should gain control. In this context, the manager will estimate its best action based on the likelihood of either (human, autonomous) agent failure as a result of their sensing capabilities and possible deficiencies. We model how the environmental context can contribute to, or exacerbate, the sensing deficiencies. These contexts provide cases where the manager must learn to attribute capabilities to suitability for decision-making. As such, we demonstrate how a Reinforcement Learning (RL) manager can correct the context-delegation association and assist the hybrid team of agents in outperforming the behavior of any agent working in isolation.
翻訳日:2023-03-03 14:03:11 公開日:2023-03-02
# 生成逆数ネットワークを用いた協調フィルタリングレコメンダシステムのための合成データセットの作成

Creating Synthetic Datasets for Collaborative Filtering Recommender Systems using Generative Adversarial Networks ( http://arxiv.org/abs/2303.01297v1 )

ライセンス: Link先を確認
Jes\'us Bobadilla and Abraham Guti\'errez and Raciel Yera and Luis Mart\'inez(参考訳) 機械学習の研究と教育には、必要なトレーニング、検証、テストタスクを処理するのに十分なサンプルを含む、多様で代表的でオープンなデータセットが必要である。 現在、Recommender Systemsエリアには多数のサブフィールドが含まれており、精度と精度以上の品質対策が継続的に改善されている。 この研究の多様性を養うには、既存のデータセットを合成データセットで強化する必要がある。 本稿では,ユーザ数,アイテム数,サンプル数,確率的変動量を選択することにより,協調フィルタリングデータセットをパラメータ化された方法で生成する生成型逆ネットワーク(gan)ベースの手法を提案する。 このパラメータ化は通常のGANではできない。 我々のGANモデルは、大小、大小、離散的なベクトルではなく、アイテムとユーザの密集、短小、連続的な埋め込み表現で供給され、大小の入力ベクトルに基づく従来のアプローチと比較して、正確で迅速な学習を行う。 提案アーキテクチャは、高密度なユーザとアイテムの埋め込みを抽出するDeepMFモデルと、高密度なGAN生成したサンプルから、必要な合成データセットを作成するために必要な離散かつスパースなデータセットに変換するクラスタリングプロセスを含む。 3つの異なるソースデータセットの結果は、生成されたデータセットに対して、適切な分布と期待される品質値と進化を示している。 合成データセットとソースコードは研究者が利用できる。

Research and education in machine learning needs diverse, representative, and open datasets that contain sufficient samples to handle the necessary training, validation, and testing tasks. Currently, the Recommender Systems area includes a large number of subfields in which accuracy and beyond accuracy quality measures are continuously improved. To feed this research variety, it is necessary and convenient to reinforce the existing datasets with synthetic ones. This paper proposes a Generative Adversarial Network (GAN)-based method to generate collaborative filtering datasets in a parameterized way, by selecting their preferred number of users, items, samples, and stochastic variability. This parameterization cannot be made using regular GANs. Our GAN model is fed with dense, short, and continuous embedding representations of items and users, instead of sparse, large, and discrete vectors, to make an accurate and quick learning, compared to the traditional approach based on large and sparse input vectors. The proposed architecture includes a DeepMF model to extract the dense user and item embeddings, as well as a clustering process to convert from the dense GAN generated samples to the discrete and sparse ones, necessary to create each required synthetic dataset. The results of three different source datasets show adequate distributions and expected quality values and evolutions on the generated datasets compared to the source ones. Synthetic datasets and source codes are available to researchers.
翻訳日:2023-03-03 14:02:50 公開日:2023-03-02
# DNN操作精度の反復評価と改善

Iterative Assessment and Improvement of DNN Operational Accuracy ( http://arxiv.org/abs/2303.01295v1 )

ライセンス: Link先を確認
Antonio Guerriero, Roberto Pietrantuono, Stefano Russo(参考訳) ディープニューラルネットワーク(dnn)は現在、特定のタスクにおける人間的、あるいは超人的なパフォーマンスのおかげで、多くのアプリケーションドメインで広く採用されている。 しかし、予測不可能な動作条件のため、予期せぬ故障がフィールドに現れ、DNNの動作性能はリリース前に推定された動作と大きく異なる。 dnnシステムのライフサイクルでは、精度の評価は通常、オフライン、運用入力のサンプリング、または疑似オラクルによるオンラインの2つの方法で行われる。 前者は、サンプル入力を手動でラベル付けする必要があるため、より高価であると考えられている。 後者は自動だが正確ではない。 MLOpsのような機械学習システムにおける産業強度ライフサイクルモデルの出現は、DNNの精度を忠実に見積もるだけでなく、リモデリングやリトレーニングによって改善する可能性も提供すると考えている。 DAIC (DNN Assessment and Improvement Cycle) は,オンライン擬似軌道の「低コスト」と「高コスト」のオフラインサンプリング技術を組み合わせて,ライフサイクルの繰り返しにおけるDNNの運用精度を推定・改善する手法である。 予備的な結果は、2つのアプローチを組み合わせてDNNライフサイクルに統合する利点を示している。

Deep Neural Networks (DNN) are nowadays largely adopted in many application domains thanks to their human-like, or even superhuman, performance in specific tasks. However, due to unpredictable/unconsidered operating conditions, unexpected failures show up on field, making the performance of a DNN in operation very different from the one estimated prior to release. In the life cycle of DNN systems, the assessment of accuracy is typically addressed in two ways: offline, via sampling of operational inputs, or online, via pseudo-oracles. The former is considered more expensive due to the need for manual labeling of the sampled inputs. The latter is automatic but less accurate. We believe that emerging iterative industrial-strength life cycle models for Machine Learning systems, like MLOps, offer the possibility to leverage inputs observed in operation not only to provide faithful estimates of a DNN accuracy, but also to improve it through remodeling/retraining actions. We propose DAIC (DNN Assessment and Improvement Cycle), an approach which combines ''low-cost'' online pseudo-oracles and ''high-cost'' offline sampling techniques to estimate and improve the operational accuracy of a DNN in the iterations of its life cycle. Preliminary results show the benefits of combining the two approaches and integrating them in the DNN life cycle.
翻訳日:2023-03-03 14:02:27 公開日:2023-03-02
# 量子性の簡単なテストも量子ビットを認証する

Simple Tests of Quantumness Also Certify Qubits ( http://arxiv.org/abs/2303.01293v1 )

ライセンス: Link先を確認
Zvika Brakerski, Alexandru Gheorghiu, Gregory D. Kahanamoku-Meyer, Eitan Porat, Thomas Vidick(参考訳) 量子性の検定は、古典的検証者が証明者が古典的でないことを(のみ)証明できるプロトコルである。 我々は、(kalai et al., 2022)のような最近の提案を捉えた、あるテンプレートに従う量子性テストが、実際にはもっと多くのことができることを示す。 すなわち、同じプロトコルは、証明可能なランダム性や古典的な量子計算のデリゲートといったアプリケーションの中心にあるビルディングブロックであるqubitの認定に使用できる。 Certification qubits は以前、Learning with Errors 問題と適応ハードコアの使用の難しさに基づいてのみ可能であることが知られていた(Brakerski et al., 2018)。 提案手法は,量子トラップドアクラウフリー関数の存在や量子完全準同型暗号を基盤とした量子ビット認証を可能にする。 これらは例えば、エラーを伴うリング学習からインスタンス化することができる。 技術的には、そのようなプロトコルの量子音響性は、単純なアルゴリズム的タスクのバウンダリを証明し、プロトコルの「2つの課題」に非公式に答えることに還元できることを示す。 この還元は、一般的な量子証明器の巻き戻しの不可能性を利用して、これらのプロトコルが量子性を示すという直観を定式化する。 これにより (Kahanamoku-Meyer et al., 2021) と (Kalai et al., 2022) の量子音響性に厳密な境界を証明でき、量子多項式時間証明器が $\cos^2 \frac{\pi}{8}\approx 0.853$ 以上の確率で成功できないことを示す。 従来、古典的確率の成功確率の上限と量子的確率の成功確率の上限のみが知られていた。 そして、この量子音響性証明を拡張して、量子音響性境界に接近するプロバーが、ほぼ反可換な測定を行う必要があることを示す。 これは証明者がqubitを持つことを示す。

A test of quantumness is a protocol that allows a classical verifier to certify (only) that a prover is not classical. We show that tests of quantumness that follow a certain template, which captures recent proposals such as (Kalai et al., 2022), can in fact do much more. Namely, the same protocols can be used for certifying a qubit, a building-block that stands at the heart of applications such as certifiable randomness and classical delegation of quantum computation. Certifying qubits was previously only known to be possible based on the hardness of the Learning with Errors problem and the use of adaptive hardcore (Brakerski et al., 2018). Our framework allows certification of qubits based only on the existence of post-quantum trapdoor claw-free functions, or on quantum fully homomorphic encryption. These can be instantiated, for example, from Ring Learning with Errors. On the technical side, we show that the quantum soundness of any such protocol can be reduced to proving a bound on a simple algorithmic task: informally, answering ``two challenges simultaneously'' in the protocol. Our reduction formalizes the intuition that these protocols demonstrate quantumness by leveraging the impossibility of rewinding a general quantum prover. This allows us to prove tight bounds on the quantum soundness of (Kahanamoku-Meyer et al., 2021) and (Kalai et al., 2022), showing that no quantum polynomial-time prover can succeed with probability larger than $\cos^2 \frac{\pi}{8}\approx 0.853$. Previously, only an upper bound on the success probability of classical provers, and a lower bound on the success probability of quantum provers, were known. We then extend this proof of quantum soundness to show that provers that approach the quantum soundness bound must perform almost anti-commuting measurements. This certifies that the prover holds a qubit.
翻訳日:2023-03-03 14:02:00 公開日:2023-03-02
# 敵対的コントラスト学習におけるデータ強化の効果の再考

Rethinking the Effect of Data Augmentation in Adversarial Contrastive Learning ( http://arxiv.org/abs/2303.01289v1 )

ライセンス: Link先を確認
Rundong Luo, Yifei Wang, Yisen Wang(参考訳) 近年の研究では, 自己指導型学習が, 対人訓練(AT)と統合された場合, 顕著な堅牢性を実現することが示されている。 しかし, 教師付きAT(sup-AT)と自己監督型AT(self-AT)との堅牢性ギャップは依然として大きい。 この観察に動機づけられ、既存のセルフアット法を再検討し、自己アットの堅牢性に影響を与える固有のジレンマを発見する: 強いデータ拡張または弱いデータ拡張は自己アットに有害であり、中間強度はギャップを橋渡しするのに不十分である。 このジレンマを解決するために,DYNACL(Dynamic Adversarial Contrastive Learning)というシンプルな治療法を提案する。 特に,強い増補から弱い増補へと徐々にアニールし,双方の極端な事例から恩恵を受ける増補スケジュールを提案する。 さらに、下流タスクに適応するために、高速な後処理ステージを採用しています。 CIFAR-10データセットにおいて、DYNACLはAuto-Attackの下で8.84%の最先端の自己ATロバスト性を向上でき、バニラ監督型対人訓練を初めて上回る結果となった。 私たちのコードは \url{https://github.com/PKU-ML/DYNACL} で利用可能です。

Recent works have shown that self-supervised learning can achieve remarkable robustness when integrated with adversarial training (AT). However, the robustness gap between supervised AT (sup-AT) and self-supervised AT (self-AT) remains significant. Motivated by this observation, we revisit existing self-AT methods and discover an inherent dilemma that affects self-AT robustness: either strong or weak data augmentations are harmful to self-AT, and a medium strength is insufficient to bridge the gap. To resolve this dilemma, we propose a simple remedy named DYNACL (Dynamic Adversarial Contrastive Learning). In particular, we propose an augmentation schedule that gradually anneals from a strong augmentation to a weak one to benefit from both extreme cases. Besides, we adopt a fast post-processing stage for adapting it to downstream tasks. Through extensive experiments, we show that DYNACL can improve state-of-the-art self-AT robustness by 8.84% under Auto-Attack on the CIFAR-10 dataset, and can even outperform vanilla supervised adversarial training for the first time. Our code is available at \url{https://github.com/PKU-ML/DYNACL}.
翻訳日:2023-03-03 14:01:22 公開日:2023-03-02
# 歪曲ランドウ準位におけるスピン軌道相互作用からの発散吸収

Divergent absorption from spin-orbit interaction in distorted Landau levels ( http://arxiv.org/abs/2303.01286v1 )

ライセンス: Link先を確認
Dominik Sidler, Michael Ruggenthaler and Angel Rubio(参考訳) 半径対称で不均一な1/r$-磁場を受ける2次元電子ガスに対するスピン軌道(およびダーウィン)相互作用の効果を摂動的および非摂動的方法で解析的に検討した。 この目的のために、スピン軌道結合によってのみ相互作用する2d電子ガスに垂直な追加の均質な電界摂動から生じる放射状のホール伝導性を調べる。 吸収スピン軌道スペクトルの数値計算により、理想的なinsb電子ガスが歪んだランダウ準位の局所(原子)部分によって支配される挙動を示す。 しかし対照的に、熱力学極限における電離エネルギーに近いフェルミエネルギーに対して(非局所的な)発散静的応答が生じることも解析的に見出した。 発散線形応答は、外部電場が誘導された放射状スピン軌道電流によって完全に吸収され、誘導される流れ方向は材料の有効$g^*$-factorに依存することを意味する。 より詳しくは、分岐電流は$g^*_c=2$で臨界挙動を示し、そこで突然方向を切り替える。 観測されたスピン軌道吸収は、不均質な配置の半径対称性によって課される許容選択規則を持つ縮退エネルギーの存在に依存している。 これらの対称性に従う離散的ライドバーグ状バンド構造の出現を解析的に示す。 最後に,1/(mc)^2$という値まで拡張されたディラック方程式を解析的に解いて,印加磁場のゆるやかな変動に対するスペクトルのロバスト性について検討する。 時間に依存した磁場変動からのスピン軌道相互作用は静的な不均一性を持ち上げられないこと、すなわち1/r$-磁場の遅い変化に対して縮退状態が保護されることが判明した。

The effect of spin-orbit (and Darwin) interaction on a 2D electron gas subject to a radial symmetric, inhomogeneous $1/r$-magnetic field is discussed analytically in a perturbative and non-perturbative manner. For this purpose, we investigate the radial Hall conductivity that emerges from an additional homogeneous electric field perturbation perpendicular to the 2D electron gas, which solely interacts via spin-orbit coupling. Numerical calculation of the absorptive spin-orbit spectra show for an ideal InSb electron gas a behaviour that is dominated by the localized (atomic) part of the distorted Landau levels. In contrast, however, we also find analytically that a (non-local) divergent static response emerges for Fermi energies close to the ionization energy in the thermodynamic limit. The divergent linear response implies that the external electric field is entirely absorbed by induced radial spin-orbit currents, where the induced flow direction depends on the effective $g^*$-factor of the material. In more detail, the divergent currents show a critical behaviour at $g^*_c=2$, where it abruptly switches direction. The observed diverging spin-orbit absorption relies on the presence of degenerate energies with allowed selection rules that are imposed by the radial symmetry of our inhomogeneous setup. We show analytically the emergence of a discrete Rydberg-like band structure that obeys these symmetry properties. In a last step, we investigate the robustness of the spectra with respect to slow variations of the applied magnetic field, by solving analytically the Dirac equation expanded up to order $1/(mc)^2$. We find that the spin-orbit interaction from the time-dependent field variations cannot lift the static degeneracies, i.e., the degenerate states are protected with respect to slow changes of the $1/r$-magnetic field.
翻訳日:2023-03-03 14:01:01 公開日:2023-03-02
# 不均衡医用画像分類のためのクラスタガイド半監督領域適応

Cluster-Guided Semi-Supervised Domain Adaptation for Imbalanced Medical Image Classification ( http://arxiv.org/abs/2303.01283v1 )

ライセンス: Link先を確認
Shota Harada, Ryoma Bise, Kengo Araki, Akihiko Yoshizawa, Kazuhiro Terada, Mariyo Kurata, Naoki Nakajima, Hiroyuki Abe, Tetsuo Ushiku, Seiichi Uchida(参考訳) 半教師付きドメイン適応は、多くの未ラベルサンプルとターゲットドメインからの少数のラベル付きサンプルを使用して、別の(ソース)ドメインの分類器を変更することによって、ターゲットドメインの分類器を構築する技術である。 本稿では,医用画像分類に共通するクラス不均衡な状況に頑健な半教師付き領域適応法を開発した。 高純度クラスタを得るための弱教師付きクラスタリングパイプラインを提案し、ドメイン適応のための表現学習にクラスタを利用する。 提案手法は,高度にクラスバランスの取れない病理画像パッチを用いた実験において最先端のパフォーマンスを示した。

Semi-supervised domain adaptation is a technique to build a classifier for a target domain by modifying a classifier in another (source) domain using many unlabeled samples and a small number of labeled samples from the target domain. In this paper, we develop a semi-supervised domain adaptation method, which has robustness to class-imbalanced situations, which are common in medical image classification tasks. For robustness, we propose a weakly-supervised clustering pipeline to obtain high-purity clusters and utilize the clusters in representation learning for domain adaptation. The proposed method showed state-of-the-art performance in the experiment using severely class-imbalanced pathological image patches.
翻訳日:2023-03-03 14:00:30 公開日:2023-03-02
# 能動学習は注意に基づく複数インスタンス学習による病理組織像全体の分類を促進する

Active Learning Enhances Classification of Histopathology Whole Slide Images with Attention-based Multiple Instance Learning ( http://arxiv.org/abs/2303.01342v1 )

ライセンス: Link先を確認
Ario Sadafi, Nassir Navab, Carsten Marr(参考訳) 多くの病理組織学的課題において、標本分類は、最大倍率でのみ見える組織または単細胞の形態的詳細に依存する。 病理学者にとっては、これは面倒なズームインとアウトを意味し、一方、計算決定支援アルゴリズムでは、スライド画像全体(WSI)あたりの多数の小さな画像パッチの分析につながる。 注意に基づく多重インスタンス学習 (mil) は, 注意度推定を弱い教師付きで学習するが, 計算病理学ではうまく適用できたが, 多数の無関係パッチに挑戦され, 精度が低下している。 本稿では,この問題に対するアクティブラーニング手法を提案する。 WSI に関心のある領域をアノテートするよう専門家に問い合わせると、MIL の高アテンション領域の形成が導かれる。 我々は、注意に基づくMILをトレーニングし、データセット内の各画像に対する信頼度を算出し、専門家のアノテーションに対して最も不確実なWSIを選択する。 CAMELYON17データセットを用いて乳癌転移リンパ節領域の分類を行った。 新たな注意誘導損失により、各クラスにアノテートされた領域がほとんどないトレーニングモデルの精度が向上する。 したがって、アクティブな学習はWSIの分類精度を改善し、より速くより堅牢な収束をもたらし、アノテーションのプロセスを高速化します。 将来的には、病理組織学における癌分類の臨床的に関連する文脈において、MILモデルのトレーニングに重要な貢献をする可能性がある。

In many histopathology tasks, sample classification depends on morphological details in tissue or single cells that are only visible at the highest magnification. For a pathologist, this implies tedious zooming in and out, while for a computational decision support algorithm, it leads to the analysis of a huge number of small image patches per whole slide image (WSI). Attention-based multiple instance learning (MIL), where attention estimation is learned in a weakly supervised manner, has been successfully applied in computational histopathology, but it is challenged by large numbers of irrelevant patches, reducing its accuracy. Here, we present an active learning approach to the problem. Querying the expert to annotate regions of interest in a WSI guides the formation of high-attention regions for MIL. We train an attention-based MIL and calculate a confidence metric for every image in the dataset to select the most uncertain WSIs for expert annotation. We test our approach on the CAMELYON17 dataset classifying metastatic lymph node sections in breast cancer. With a novel attention guiding loss, this leads to an accuracy boost of the trained models with few regions annotated for each class. Active learning thus improves WSIs classification accuracy, leads to faster and more robust convergence, and speeds up the annotation process. It may in the future serve as an important contribution to train MIL models in the clinically relevant context of cancer classification in histopathology.
翻訳日:2023-03-03 13:54:20 公開日:2023-03-02
# マッチングに基づく患者問合せ理解のための事前学習

Matching-based Term Semantics Pre-training for Spoken Patient Query Understanding ( http://arxiv.org/abs/2303.01341v1 )

ライセンス: Link先を確認
Zefa Hu, Xiuyi Chen, Haoran Wu, Minglun Han, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu(参考訳) 医療スロットフィリング(MSF)タスクは、医療クエリを構造化情報に変換することを目的としており、診断対話システムにおいて重要な役割を果たす。 しかし、十分な用語意味学習の欠如は、既存のアプローチが医学的会話における用語の意味的に同一だが口語的な表現を捉えるのを困難にしている。 本研究では,msfをマッチング問題に形式化し,用語と問合せを入力とし,それらの意味的相互作用をモデル化する用語セマンティクス事前学習型マッチングネットワーク(tspmn)を提案する。 用語意味論をより良く学ぶために、コントラスト項識別(ctd)とマッチングに基づくマスク項モデリング(mmtm)の2つの自己教師付き目的を更に設計する。 CTDは、それが各項の対話におけるマスク項であるか否かを判断し、MMTMはマスク項を直接予測する。 2つの中国のベンチマーク実験の結果、TSPMNは特にショット数で強いベースラインを上回ります。

Medical Slot Filling (MSF) task aims to convert medical queries into structured information, playing an essential role in diagnosis dialogue systems. However, the lack of sufficient term semantics learning makes existing approaches hard to capture semantically identical but colloquial expressions of terms in medical conversations. In this work, we formalize MSF into a matching problem and propose a Term Semantics Pre-trained Matching Network (TSPMN) that takes both terms and queries as input to model their semantic interaction. To learn term semantics better, we further design two self-supervised objectives, including Contrastive Term Discrimination (CTD) and Matching-based Mask Term Modeling (MMTM). CTD determines whether it is the masked term in the dialogue for each given term, while MMTM directly predicts the masked ones. Experimental results on two Chinese benchmarks show that TSPMN outperforms strong baselines, especially in few-shot settings.
翻訳日:2023-03-03 13:53:53 公開日:2023-03-02
# AdvRain: カメラベースのスマートビジョンシステムを攻撃する逆降雨

AdvRain: Adversarial Raindrops to Attack Camera-based Smart Vision Systems ( http://arxiv.org/abs/2303.01338v1 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, and Muhammad Shafique(参考訳) 視覚ベースの知覚モジュールは多くのアプリケーション、特に自律走行車やインテリジェントロボットにますます導入されている。 これらのモジュールは周囲に関する情報を取得し、障害物を特定するために使用されている。 したがって、正確な検出と分類は適切な判断に達し、常に適切かつ安全な行動を取るために不可欠である。 最近の研究では、物理的敵攻撃として知られる「印刷された敵攻撃」が、物体検出器や画像分類器のような知覚モデルを誤認することに成功した。 しかし、これらの物理的攻撃のほとんどは、人目やテストドライブで特定・検出できるような、発生した摂動に対する目視パターンと目視パターンに基づいている。 本稿では,同じクラスのすべてのオブジェクトに対して,カメラベースの認識システムを騙すことができる,カメラベースの不明瞭な敵攻撃(\textbf{AdvRain})を提案する。 マスクベースのフェイクウェザー攻撃は、基盤となるコンピュータハードウェアやイメージメモリへのアクセスを必要とするが、この攻撃は、カメラのレンズの上に外部に配置される半透明のステッカーに印刷できる自然の気象条件(雨滴)の効果を模倣することに基づいている。 これを実現するために、重要位置を特定することを目的としたランダム探索を行い、目標分類器に対して変換が逆方向であることを確認するための反復的なプロセスを提案する。 この変換は,雨滴がカバーする領域に対応する撮像画像のぼやけた部分に基づいて行う。 平均モデルの精度は、ImageNetのVGG19とCaltech-101のResnet34で、それぞれ$45\%以上、$40\%以上、それぞれ$20$の降水量で低下します。

Vision-based perception modules are increasingly deployed in many applications, especially autonomous vehicles and intelligent robots. These modules are being used to acquire information about the surroundings and identify obstacles. Hence, accurate detection and classification are essential to reach appropriate decisions and take appropriate and safe actions at all times. Current studies have demonstrated that "printed adversarial attacks", known as physical adversarial attacks, can successfully mislead perception models such as object detectors and image classifiers. However, most of these physical attacks are based on noticeable and eye-catching patterns for generated perturbations making them identifiable/detectable by human eye or in test drives. In this paper, we propose a camera-based inconspicuous adversarial attack (\textbf{AdvRain}) capable of fooling camera-based perception systems over all objects of the same class. Unlike mask based fake-weather attacks that require access to the underlying computing hardware or image memory, our attack is based on emulating the effects of a natural weather condition (i.e., Raindrops) that can be printed on a translucent sticker, which is externally placed over the lens of a camera. To accomplish this, we provide an iterative process based on performing a random search aiming to identify critical positions to make sure that the performed transformation is adversarial for a target classifier. Our transformation is based on blurring predefined parts of the captured image corresponding to the areas covered by the raindrop. We achieve a drop in average model accuracy of more than $45\%$ and $40\%$ on VGG19 for ImageNet and Resnet34 for Caltech-101, respectively, using only $20$ raindrops.
翻訳日:2023-03-03 13:53:35 公開日:2023-03-02
# モデル非依存なメタ学習手法

Model agnostic methods meta-learn despite misspecifications ( http://arxiv.org/abs/2303.01335v1 )

ライセンス: Link先を確認
Oguz Yuksel and Etienne Boursier and Nicolas Flammarion(参考訳) ショット分類と強化学習での経験的成功により、メタラーニングは最近多くの関心を集めている。 メタ学習は、データ制限にもかかわらず、以前のタスクからのデータを活用して、新しいタスクを素早く学習する。 特にモデルに依存しない手法は、勾配降下が新しいタスクに迅速に適応する初期化点を探す。 このような手法は訓練中に良い共有表現を学ぶことを実証的に示唆されているが、そのような行動の強い理論的証拠はない。 さらに重要なことは、これらの手法が本当にモデル非依存なのか、すなわち、アーキテクチャのミスセグメンテーションにもかかわらず共有構造を学習しているかどうかは不明である。 このギャップを埋めるために、この研究は、線形2層ネットワークアーキテクチャで最初にアニルを注文する無限個のタスクの限界を示し、線形共有表現をうまく学習する。 共有表現の隠蔽次元に対して広い幅を持つことは、アルゴリズムの性能を損なうものではない。 学習パラメータは、新しいタスクに単一の勾配ステップを施した後、小さなテスト損失を得ることができる。 全体としてこれは、モデル非依存のメソッドが(未知の)モデル構造にどのように適応できるかを示している。

Due to its empirical success on few shot classification and reinforcement learning, meta-learning recently received a lot of interest. Meta-learning leverages data from previous tasks to quickly learn a new task, despite limited data. In particular, model agnostic methods look for initialisation points from which gradient descent quickly adapts to any new task. Although it has been empirically suggested that such methods learn a good shared representation during training, there is no strong theoretical evidence of such behavior. More importantly, it is unclear whether these methods truly are model agnostic, i.e., whether they still learn a shared structure despite architecture misspecifications. To fill this gap, this work shows in the limit of an infinite number of tasks that first order ANIL with a linear two-layer network architecture successfully learns a linear shared representation. Moreover, this result holds despite misspecifications: having a large width with respect to the hidden dimension of the shared representation does not harm the algorithm performance. The learnt parameters then allow to get a small test loss after a single gradient step on any new task. Overall this illustrates how well model agnostic methods can adapt to any (unknown) model structure.
翻訳日:2023-03-03 13:53:03 公開日:2023-03-02
# 虚血性脳卒中障害に対するセルフ・スーパービジョンFew-Shot Learning

Self-Supervised Few-Shot Learning for Ischemic Stroke Lesion Segmentation ( http://arxiv.org/abs/2303.01332v1 )

ライセンス: Link先を確認
Luca Tomasetti and Stine Hansen and Mahdieh Khanmohammadi and Kjersti Engan and Liv Jorunn H{\o}llesli and Kathinka D{\ae}hli Kurz and Michael Kampffmeyer(参考訳) 脳梗塞の診断と治療計画を改善する上で,虚血性病変の精密分割は重要な役割を担っている。 この問題に対処するために、近年、多くのディープニューラルネットワークアプローチが提案されているが、これらの方法はトレーニング中に大量の注釈付き領域を必要とする。 治療として,トレーニング中に1つの注記標本のみを用いて,虚血性病変の分節に対するプロトタイプ的数発分節法を提案する。 提案手法は,ct灌流スキャンから生成されたカラーコードパラメトリックマップを活用し,脳卒中脳梗塞分節の課題に合わせた新しい自己教師付き訓練機構を活用している。 我々は,提案するトレーニング機構の利点を説明することにより,マイナショット環境でのパフォーマンスが大幅に向上することを示す。 注記1例につき平均Diceスコア0.58が虚血性病変の分節に対して達成される。

Precise ischemic lesion segmentation plays an essential role in improving diagnosis and treatment planning for ischemic stroke, one of the prevalent diseases with the highest mortality rate. While numerous deep neural network approaches have recently been proposed to tackle this problem, these methods require large amounts of annotated regions during training, which can be impractical in the medical domain where annotated data is scarce. As a remedy, we present a prototypical few-shot segmentation approach for ischemic lesion segmentation using only one annotated sample during training. The proposed approach leverages a novel self-supervised training mechanism that is tailored to the task of ischemic stroke lesion segmentation by exploiting color-coded parametric maps generated from Computed Tomography Perfusion scans. We illustrate the benefits of our proposed training mechanism, leading to considerable improvements in performance in the few-shot setting. Given a single annotated patient, an average Dice score of 0.58 is achieved for the segmentation of ischemic lesions.
翻訳日:2023-03-03 13:52:42 公開日:2023-03-02
# ロボット操作のための汎用オブジェクト記述子としてのカノニカルマッピング

Canonical mapping as a general-purpose object descriptor for robotic manipulation ( http://arxiv.org/abs/2303.01331v1 )

ライセンス: Link先を確認
Benjamin Joffe and Konrad Ahlin(参考訳) 知覚は半構造化環境におけるロボット操作の重要な部分である。 従来のアプローチは、他のタスクに適応できず、変形可能なオブジェクトに不適合な、狭いタスク固有の予測(例えば、オブジェクトの6dポーズ)を生成する。 本稿では,準ユニバーサルでフレキシブルなオブジェクト記述子としてカノニカルマッピングを提案する。 一般的なオブジェクト表現は、事前学習された単一の標準マッピングモデルから導出され、自動化されたデータ生成とトレーニングパイプラインを使用して、最小限の手動作業で生成できることを実証する。 2つのロボットアームを用いた多段階実験を行い、認識アプローチの堅牢性と、それが操作戦略に通知する方法を示し、汎用ロボット操作の強力な基盤として機能する。

Perception is an essential part of robotic manipulation in a semi-structured environment. Traditional approaches produce a narrow task-specific prediction (e.g., object's 6D pose), that cannot be adapted to other tasks and is ill-suited for deformable objects. In this paper, we propose using canonical mapping as a near-universal and flexible object descriptor. We demonstrate that common object representations can be derived from a single pre-trained canonical mapping model, which in turn can be generated with minimal manual effort using an automated data generation and training pipeline. We perform a multi-stage experiment using two robot arms that demonstrate the robustness of the perception approach and the ways it can inform the manipulation strategy, thus serving as a powerful foundation for general-purpose robotic manipulation.
翻訳日:2023-03-03 13:52:22 公開日:2023-03-02
# 責任あるAI生成コンテンツへの道

A Pathway Towards Responsible AI Generated Content ( http://arxiv.org/abs/2303.01325v1 )

ライセンス: Link先を確認
Chen Chen, Jie Fu, Lingjuan Lyu(参考訳) AI生成コンテンツ(AIGC)は、画像、テキスト、オーディオ、ビデオなどを含むコンテンツとともに、ここ数年で大きな注目を集めています。 一方、AIGCは二刃の剣となり、最近その責任ある使用について多くの批判を受けた。 本稿では、プライバシ、偏見、毒性、誤情報、知的財産権(IP)のリスクを含む、AIGCの健全な開発と展開を妨げる3つの主要な懸念に焦点を当てる。 既知の潜在的なリスクとAIGCのあらゆる誤用シナリオを文書化することによって、潜在的なリスクや誤用に注意を向け、社会が障害を排除し、より倫理的で安全なAIGCの展開を促進することを目指している。 さらに,これらのリスクに取り組むための有望な方向性について,生成モデルを構築しながら考察し,aigcを社会の利益に役立てるために活用することを可能にする。

AI Generated Content (AIGC) has received tremendous attention within the past few years, with content ranging from image, text, to audio, video, etc. Meanwhile, AIGC has become a double-edged sword and recently received much criticism regarding its responsible usage. In this vision paper, we focus on three main concerns that may hinder the healthy development and deployment of AIGC in practice, including risks from privacy, bias, toxicity, misinformation, and intellectual property (IP). By documenting known and potential risks, as well as any possible misuse scenarios of AIGC, the aim is to draw attention to potential risks and misuse, help society to eliminate obstacles, and promote the more ethical and secure deployment of AIGC. Additionally, we provide insights into the promising directions for tackling these risks while constructing generative models, enabling AIGC to be used responsibly to benefit society.
翻訳日:2023-03-03 13:52:09 公開日:2023-03-02
# 量子置換パッドを用いた擬似量子ランダム数生成器

Pseudo Quantum Random Number Generator with Quantum Permutation Pad ( http://arxiv.org/abs/2303.01315v1 )

ライセンス: Link先を確認
Randy Kuang and Dafu Lou and Alex He and Chris McKenzie and Michael Redding(参考訳) 暗号乱数生成は、量子安全な暗号には不可欠である。 いくつかの量子過程の自然な不確かさに基づいて、様々な量子乱数生成器やqrngが物理量子プロセスで作成されている。 一般に、予測不能なランダム性を持つ乱数を生成する。 もちろん、物理的なQRNGは高価で、コンピューティングシステムと物理的に統合する必要がある。 本稿では、量子置換空間の高エントロピーを利用した量子置換パッド(QPP)と呼ばれる量子アルゴリズムを用いた擬似量子乱数生成法を提案する。 情報空間が n ビット系に対して 2n であるブール代数とは異なり、n ビットの量子置換空間は 2n! の量子置換行列で構成され、n ビットの計算基底上の全ての量子置換ゲートを表す。 この置換空間は、等価なシャノン情報エントロピーlog_2(2^n! qppは、任意の古典的な計算システムや、品質の決定論的乱数生成のためのアプリケーションと直接統合できる疑似qrngまたはpqrngを作成するのに使うことができる。 64個の8ビットの置換行列を持つQPPパッドを用いて、pQRNGは擬似乱数生成のために107,776ビットのエントロピーを持ち、Linux/dev/randomの4096ビットのエントロピーと比較する。 他のPRNGの決定論的PRNGまたはエントロピーブースターとして使用できる。 また、QRNGを含むハードウェア乱数生成器の物理バイアスビットを捨てることなく、ホワイトニングアルゴリズムとして使用できる。

Cryptographic random number generation is critical for any quantum safe encryption. Based on the natural uncertainty of some quantum processes, variety of quantum random number generators or QRNGs have been created with physical quantum processes. They generally generate random numbers with good unpredictable randomness. Of course, physical QRNGs are costic and require physical integrations with computing systems. This paper proposes a pseudo quantum random number generator with a quantum algorithm called quantum permutation pad or QPP, leveraging the high entropy of quantum permutation space its bijective transformation. Unlike the Boolean algebra where the size of information space is 2n for an n-bit system, an n-bit quantum permutation space consists of 2n! quantum permutation matrices, representing all quantum permutation gates over an n-bit computational basis. This permutation space holds an equivalent Shannon information entropy log_2(2^n!). A QPP can be used to create a pseudo QRNG or pQRNG capable integrated with any classical computing system or directly with any application for good quality deterministic random number generation. Using a QPP pad with 64 8-bit permuation matrices, pQRNG holds 107,776 bits of entropy for the pseudo random number generation, comparing with 4096 bits of entropy in Linux /dev/random. It can be used as a deterministic PRNG or entropy booster of other PRNGs. It can also be used as a whitening algorithm for any hardware random number generator including QRNG without discarding physical bias bits.
翻訳日:2023-03-03 13:51:53 公開日:2023-03-02
# 事前誘導バイレベル表現学習による弱教師付きHOI検出

Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning ( http://arxiv.org/abs/2303.01313v1 )

ライセンス: Link先を確認
Bo Wan, Yongfei Liu, Desen Zhou, Tinne Tuytelaars, Xuming He(参考訳) ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。 HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。 これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。 これらの課題に対処する有望な戦略は、大規模な事前訓練されたモデル(例えばクリップ)からの知識を活用することであるが、直接知識蒸留戦略~\citep{liao2022gen} は、弱い教師付き設定ではうまく機能しない。 対照的に、画像レベルとHOIインスタンスレベルの両方で事前の知識を取り入れたCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。 HICO-DET と V-COCO による実験結果から,本手法は従来よりも大きなマージンを達成し,HOI 表現の有効性を示した。

Human object interaction (HOI) detection plays a crucial role in human-centric scene understanding and serves as a fundamental building-block for many vision tasks. One generalizable and scalable strategy for HOI detection is to use weak supervision, learning from image-level annotations only. This is inherently challenging due to ambiguous human-object associations, large search space of detecting HOIs and highly noisy training signal. A promising strategy to address those challenges is to exploit knowledge from large-scale pretrained models (e.g., CLIP), but a direct knowledge distillation strategy~\citep{liao2022gen} does not perform well on the weakly-supervised setting. In contrast, we develop a CLIP-guided HOI representation capable of incorporating the prior knowledge at both image level and HOI instance level, and adopt a self-taught mechanism to prune incorrect human-object associations. Experimental results on HICO-DET and V-COCO show that our method outperforms the previous works by a sizable margin, showing the efficacy of our HOI representation.
翻訳日:2023-03-03 13:51:31 公開日:2023-03-02
# 少数体系におけるユニタリ相互作用幾何学

Unitary interaction geometries in few-body systems ( http://arxiv.org/abs/2303.01312v1 )

ライセンス: Link先を確認
Lorenzo Contessi, Johannes Kirscher, Manuel Pavon Valderrama(参考訳) 粒子-粒子相互作用の特定の部分集合のみが共鳴性を持つ少数体系を考える。 それぞれの部分集合を、頂点が区別可能な粒子とエッジ共振2体相互作用を表すような単位グラフで特徴づける。 ユニタリグラフが連結された身体系は、反発的な3体相互作用を含まない限り崩壊する。 グラフの2つのカテゴリは、関連するシステムの安定化に必要な3体反発の種類によって区別される。 木のようなグラフ(ループを含むグラフ)では、これらを再正規化する3体力は、2つの(3つの)共鳴相互作用を持つ3体系と同じである。 この予想が4体の場合といくつかの5体構成において正しいことを数値的に示す。 この結果は、4体セクターで定性的に説明され、波動関数の関連するファドデエフ・ヤクボフスキー–分解にベーテ・ピエルス境界条件を課す。

We consider few-body systems in which only a certain subset of the particle-particle interactions is resonant. We characterize each subset by a {\it unitary graph} in which the vertices represent distinguishable particles and the edges resonant 2-body interactions. Few-body systems whose unitary graph is connected will collapse unless a repulsive 3-body interaction is included. We find two categories of graphs, distinguished by the kind of 3-body repulsion necessary to stabilize the associated system. Each category is characterized by whether the graph contains a loop or not: for tree-like graphs (graphs containing a loop) the 3-body force renormalizing them is the same as in the 3-body system with two (three) resonant interactions. We show numerically that this conjecture is correct for the 4-body case as well as for a few 5-body configurations. We explain this result in the 4-body sector qualitatively by imposing Bethe-Peierls boundary conditions on the pertinent Faddeev-Yakubovsky~decomposition of the wave function.
翻訳日:2023-03-03 13:51:09 公開日:2023-03-02
# 半古典周期軌道をカオス多体ハミルトニアンに埋め込む

Embedding semiclassical periodic orbits into chaotic many-body Hamiltonians ( http://arxiv.org/abs/2303.01359v1 )

ライセンス: Link先を確認
Andrew Hallam, Jean-Yves Desaules, Zlatko Papi\'c(参考訳) カオス環境からコヒーレント量子力学を保護することは、脆弱な多体現象の実現とその量子技術への応用の鍵となる。 我々は、望ましい周期軌道を非可積分多体ハミルトニアンの族に埋め込むことを可能にする一般的な構成を示す。 我々の構成は、量子力学を低エンタングル状態の多様体に投影する時間依存変分原理に基づいており、量子多体スカーとして知られる非熱固有状態を熱化スペクトルに埋め込む初期のアプローチを一般化している。 変動多様体の外側の力学の「推論」を抑える用語を設計することにより、駆動されたAffleck-Kennedy-Lieb-Tasakiモデルと近年の超伝導量子ビット鎖における傷跡の実験的実現を例示して、正確な傷跡を包含するFloquetモデルのファミリを設計する。

Protecting coherent quantum dynamics from a chaotic environment is key to realizations of fragile many-body phenomena and their applications in quantum technology. We present a general construction that allows to embed a desired periodic orbit into a family of non-integrable many-body Hamiltonians, whose dynamics is otherwise chaotic. Our construction is based on time dependent variational principle that projects quantum dynamics onto a manifold of low-entangled states, and it generalizes the earlier approaches for embedding non-thermal eigenstates, known as quantum many-body scars, into thermalizing spectra. By designing terms that suppress "leakage" of the dynamics outside the variational manifold, we engineer families of Floquet models that host exact scarred dynamics, as we illustrate using a driven Affleck-Kennedy-Lieb-Tasaki model and a recent experimental realization of scars in a dimerized superconducting qubit chain.
翻訳日:2023-03-03 13:45:17 公開日:2023-03-02
# 密度-ポテンシャルマッピングの構造 第二部:磁場を含めて

The structure of the density-potential mapping. Part II: Including magnetic fields ( http://arxiv.org/abs/2303.01357v1 )

ライセンス: Link先を確認
Markus Penz, Erik I. Tellgren, Mih\'aly A. Csirik, Michael Ruggenthaler, Andre Laestadius(参考訳) 密度汎関数理論(DFT)のホヘンベルク・コーンの定理は、一体粒子密度だけで電子系の基底状態における完全な特徴づけの基礎として広く考えられている。 一連の2つの論文のパート~IIでは、磁場を含むDFTの異なる拡張におけるこの定理の状況を明らかにすることを目的としている。 特に、電流密度汎関数理論(CDFT)について論じ、従来の常磁性CDFTやいくつかの非標準代替品を含む文献で知られている異なる定式化について検討する。 前者にとって、ホーエンベルク=コーンの定理は反例のためにもはや有効ではないことが知られている。 それでも、常磁性CDFTは標準DFTに最も近い数学的枠組みを持ち、標準DFTと同様に、密度汎関数の非微分性はモロー・ヨシダ正則化によって緩和することができる。 興味深い洞察は、Maxwell-Schr\"odinger DFTと量子電気力学DFTの両方から得ることができる。

The Hohenberg-Kohn theorem of density-functional theory (DFT) is broadly considered the conceptual basis for a full characterization of an electronic system in its ground state by just the one-body particle density. In this Part~II of a series of two articles, we aim at clarifying the status of this theorem within different extensions of DFT including magnetic fields. We will in particular discuss current-density-functional theory (CDFT) and review the different formulations known in the literature, including the conventional paramagnetic CDFT and some non-standard alternatives. For the former, it is known that the Hohenberg-Kohn theorem is no longer valid due to counterexamples. Nonetheless, paramagnetic CDFT has the mathematical framework closest to standard DFT and, just like in standard DFT, non-differentiability of the density functional can be mitigated through Moreau-Yosida regularization. Interesting insights can be drawn from both Maxwell-Schr\"odinger DFT and quantum-electrodynamical DFT, which are also discussed here.
翻訳日:2023-03-03 13:44:55 公開日:2023-03-02
# 定常密度汎関数理論を持つ多端子量子熱機械の熱電効率

Thermoelectric efficiency in multi-terminal quantum thermal machines with steady-state density functional theory ( http://arxiv.org/abs/2303.01355v1 )

ライセンス: Link先を確認
Nahual Sobrino, Roberto D'Agosta, Stefan Kurth(参考訳) 電子・熱輸送(iq-DFT)の記述のための定常密度汎関数理論の多項一般化について述べる。 フレームワークの線形応答機構は、多体輸送係数と熱電効率の正確な表現を、フレームワークにアクセスできる量の観点から純粋に導き出す。 この理論は、交換相関カーネル行列の正確なパラメトリゼーションが与えられるクーロン遮断系における多端子相互作用量子ドットに適用される。 多端子系の熱電効率と出力パワーについて検討した。 驚くべきことに、これらの量の強い相互作用限界は、相互作用しないものの観点から理解することができる。

The multi-terminal generalization of the steady-state density functional theory for the description of electronic and thermal transport (iq-DFT) is presented. The linear response regime of the framework is developed leading to exact expressions for the many-body transport coefficients and thermoelectric efficiency purely in terms of quantities accessible to the framework. The theory is applied to a multi-terminal interacting quantum dot in the Coulomb blockade regime for which accurate parametrizations of the exchange-correlation kernel matrix are given. The thermoelectric efficiency and output power of the multi-terminal system are studied. Surprisingly, the strong-interaction limit of these quantities can be understood in terms of the non-interacting one.
翻訳日:2023-03-03 13:44:34 公開日:2023-03-02
# 一対の回転ナノ構造における放射熱伝達の制御

Control of the Radiative Heat Transfer in a Pair of Rotating Nanostructures ( http://arxiv.org/abs/2303.01354v1 )

ライセンス: Link先を確認
Juan R. Deop-Ruano and Alejandro Manjavacas(参考訳) 電磁場のゆらぎは、ナノ構造間の近接場放射熱伝達と、それらが互いに作用するカシミール力とトルクの起源である。 ここでは、ゆらぎ電磁力学の定式化の中で、一対の回転ナノ構造におけるエネルギーと角運動量の同時移動について検討する。 ナノ構造の回転により, ナノ構造の温度差によってのみ決定される回転のない転移に対して, 放射熱伝達を増大, 減少, あるいは逆転させることができることを示した。 この研究は、一対の回転ナノ構造におけるエネルギーと角運動量の同時移動から生じる直感的な現象を解明する。

The fluctuations of the electromagnetic field are at the origin of the near-field radiative heat transfer between nanostructures, as well as the Casimir forces and torques that they exert on each other. Here, working within the formalism of fluctuational electrodynamics, we investigate the simultaneous transfer of energy and angular momentum in a pair of rotating nanostructures. We demonstrate that, due to the rotation of the nanostructures, the radiative heat transfer between them can be increased, decreased, or even reversed with respect to the transfer that occurs in absence of rotation, which is solely determined by the difference in the temperature of the nanostructures. This work unravels the unintuitive phenomena arising from the simultaneous transfer of energy and angular momentum in pairs of rotating nanostructures.
翻訳日:2023-03-03 13:44:26 公開日:2023-03-02
# 標準正規化におけるバイアスの緩和はスパーシリティを強制する

Penalising the biases in norm regularisation enforces sparsity ( http://arxiv.org/abs/2303.01353v1 )

ライセンス: Link先を確認
Etienne Boursier and Nicolas Flammarion(参考訳) パラメータのノルムを制御することは、ニューラルネットワークのトレーニング時によく一般化される。 単純な直観以外にも、パラメータのノルムと得られた推定値の関係は理論的には誤解されている。 一次元データを持つ1つの隠れReLU層ネットワークに対して、この研究は関数を表すのに必要な最小パラメータのノルムが、その2階微分の総変分によって与えられることを示す。 比較として、この$\sqrt{1+x^2}$重み付けはバイアス項のノルムが無視されるときに消える。 この重み付けは、最小ノルム補間器の特異性と疎度(キンク数)を強制するためにこの研究で示されるため、非常に重要である。 一方、バイアスのノルムを省略することは非スパース解を可能にする。 正規化におけるバイアス項を明示的にまたは暗黙的に解析すると、スパース推定器が生じる。 このスパーシティは、経験的に観察されるニューラルネットワークの優れた一般化に寄与する可能性がある。

Controlling the parameters' norm often yields good generalisation when training neural networks. Beyond simple intuitions, the relation between parameters' norm and obtained estimators theoretically remains misunderstood. For one hidden ReLU layer networks with unidimensional data, this work shows the minimal parameters' norm required to represent a function is given by the total variation of its second derivative, weighted by a $\sqrt{1+x^2}$ factor. As a comparison, this $\sqrt{1+x^2}$ weighting disappears when the norm of the bias terms are ignored. This additional weighting is of crucial importance, since it is shown in this work to enforce uniqueness and sparsity (in number of kinks) of the minimal norm interpolator. On the other hand, omitting the bias' norm allows for non-sparse solutions. Penalising the bias terms in the regularisation, either explicitly or implicitly, thus leads to sparse estimators. This sparsity might take part in the good generalisation of neural networks that is empirically observed.
翻訳日:2023-03-03 13:44:14 公開日:2023-03-02
# aparate: 自律ナビゲーションのためのcnnに基づく単眼深度推定のための適応逆パッチ

APARATE: Adaptive Adversarial Patch for CNN-based Monocular Depth Estimation for Autonomous Navigation ( http://arxiv.org/abs/2303.01351v1 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, and Muhammad Shafique(参考訳) 近年では、畳み込みニューラルネットワーク(CNN)により、単眼深度推定(MDE)が大幅に改善されている。 しかし、cnnは敵の攻撃に弱いため、安全クリティカルでセキュリティに敏感なシステムには深刻な懸念がある。 特に、自律運転やロボットナビゲーションなどの応用におけるシーン理解の重要性から、敵対的攻撃はMDEに壊滅的な影響を及ぼす可能性がある。 CNNに基づく深度予測手法の脆弱性を物理的に評価するために、最近の研究はMDEに対する敵パッチを設計しようとしている。 しかし、これらの手法は、システム的に脅かされる方法でビジョンシステムを完全に騙すほど強力ではない。 実際、それらの影響は部分的かつ局所的に限られており、対象物のサイズ、形状、位置に関わらず、入力画像と重なり合う領域のみの深さ予測を誤解させる。 本稿では,敵パッチに対するMDE脆弱性をより包括的に調査する。 本稿では,推定距離を乱すか,あるいは自律系で消失した物体を単に示すことによって,mdeを選択的に危うくすることができる新しい適応逆境パッチ(aparate)を提案する。 具体的には、aparateは形状とスケールアウェアに最適化されており、その影響は近くのものに限らずターゲットオブジェクトに適応する。 提案したパッチは,平均深度推定誤差が14〜ms以上で,対象領域の99.%が影響を受ける。 我々は、この研究がMDEの文脈における敵対的攻撃の脅威を強調していると信じており、この攻撃の現実的な潜在的害をコミュニティに警告し、自律ロボットのより堅牢で適応的な防御について調査する動機になることを期待している。

In recent years, monocular depth estimation (MDE) has witnessed a substantial performance improvement due to convolutional neural networks (CNNs). However, CNNs are vulnerable to adversarial attacks, which pose serious concerns for safety-critical and security-sensitive systems. Specifically, adversarial attacks can have catastrophic impact on MDE given its importance for scene understanding in applications like autonomous driving and robotic navigation. To physically assess the vulnerability of CNN-based depth prediction methods, recent work tries to design adversarial patches against MDE. However, these methods are not powerful enough to fully fool the vision system in a systemically threatening manner. In fact, their impact is partial and locally limited; they mislead the depth prediction of only the overlapping region with the input image regardless of the target object size, shape and location. In this paper, we investigate MDE vulnerability to adversarial patches in a more comprehensive manner. We propose a novel adaptive adversarial patch (APARATE) that is able to selectively jeopardize MDE by either corrupting the estimated distance, or simply manifesting an object as disappeared for the autonomous system. Specifically, APARATE is optimized to be shape and scale-aware, and its impact adapts to the target object instead of being limited to the immediate neighborhood. Our proposed patch achieves more than $14~meters$ mean depth estimation error, with $99\%$ of the target region being affected. We believe this work highlights the threat of adversarial attacks in the context of MDE, and we hope it would alert the community to the real-life potential harm of this attack and motivate investigating more robust and adaptive defenses for autonomous robots.
翻訳日:2023-03-03 13:43:56 公開日:2023-03-02
# シミュレートアニーリングによるトポロジカルカラーコードのための高精度デコーダ

Highly accurate decoder for topological color codes with simulated annealing ( http://arxiv.org/abs/2303.01348v1 )

ライセンス: Link先を確認
Yugo Takada, Yusaku Takeuchi, Keisuke Fujii(参考訳) 量子誤り訂正は理論的に証明可能な量子スピードアップのための信頼性の高い量子計算に不可欠な要素である。 量子誤り訂正符号の1つであるトポロジカルカラー符号は、すべてのクリフォードゲートを横方向に実装できるという点で、表面符号に対して有利である。 しかし、復号化の難しさにより、カラーコードは量子誤り訂正を実験的に実現可能な実装の最適候補には適さない。 本稿では,シミュレートアニーリングを用いたカラーコードの高精度復号方式を提案する。 このスキームでは、安定化作用素を古典的なスピン変数に写像し、シンドロームを満たす誤差を表す。 次に、誤り数を数え、デコード問題をシミュレートされたアニーリングによって解くイジング・ハミルトンのエネルギー最小化問題として定式化するイジング・ハミルトン多様体を構築する。 4.8.8)格子上の数値シミュレーションでは、ビットフリップノイズモデルの誤差閾値が10.36(5)%、非分極ノイズモデルが18.47(5)%、現象論的ノイズモデルが2.90(4)%であり、いずれも既存の効率的な復号アルゴリズムの閾値よりも高い。 さらに, 復号時間の少ないcplexによる厳密な最適化によって得られるものとほぼ同値であるという意味で, 論理誤差率がほぼ最適であることを検証した。 復号化は性能解析のボトルネックとなっているため,提案手法はトポロジカルカラーコードの可能性のさらなる探究に有用である。

Quantum error correction is an essential ingredient for reliable quantum computation for theoretically provable quantum speedup. Topological color codes, one of the quantum error correction codes, have an advantage against the surface codes in that all Clifford gates can be implemented transversely. However, the hardness of decoding makes the color codes not suitable as the best candidate for experimentally feasible implementation of quantum error correction. Here we propose a highly accurate decoding scheme for the color codes using simulated annealing. In this scheme, we map stabilizer operators to classical spin variables to represent an error satisfying the syndrome. Then we construct an Ising Hamiltonian that counts the number of errors and formulate the decoding problem as an energy minimization problem of an Ising Hamiltonian, which is solved by simulated annealing. In numerical simulations on the (4.8.8) lattice, we find an error threshold of 10.36(5)% for bit-flip noise model, 18.47(5)% for depolarizing noise model, and 2.90(4)% for phenomenological noise model, all of which are higher than the thresholds of existing efficient decoding algorithms. Furthermore, we verify that the achieved logical error rates are almost optimal in the sense that they are almost the same as those obtained by exact optimizations by CPLEX with smaller decoding time in many cases. Since the decoding process has been a bottleneck for performance analysis, the proposed decoding method is useful for further exploration of the possibility of the topological color codes.
翻訳日:2023-03-03 13:43:26 公開日:2023-03-02
# Letz Translate:Luxembourgish用の低リソース機械翻訳

Letz Translate: Low-Resource Machine Translation for Luxembourgish ( http://arxiv.org/abs/2303.01347v1 )

ライセンス: Link先を確認
Yewei Song, Saad Ezzini, Jacques Klein, Tegawende Bissyande, Cl\'ement Lefebvre and Anne Goujon(参考訳) 低リソース言語(LRL)の自然言語処理は、データ不足によってしばしば問題となる。 したがって、低リソース環境での正確な機械翻訳(MT)の実現は、実用的な解決策を必要とする真の問題である。 多言語モデルの研究により、いくつかのLRLがそのようなモデルで扱えることが示されている。 しかし、その大きなサイズと計算上のニーズは、制約のある環境(モバイル/IoTデバイスやリミテッド/旧サーバなど)での使用を非現実的にしている。 本稿では,知識蒸留を用いた大規模多言語MTモデルのパワーを活用することで,この問題に対処する。 知識蒸留は、大規模で複雑な教師モデルからよりシンプルで小さな学生モデルに知識を伝達することができる。 また、ターゲットLRLと同じ言語ルーツを関連づけたり、共有したりした高リソース言語も利用しています。 我々はルクセンブルク語をドイツ語といくつかのルーツと性質を共有するLRLとみなす。 我々は、ドイツ語に基づく複数の資源効率モデル、多言語No Languageleft Behind(NLLB)モデルからの知識蒸留、擬翻訳を構築。 従来のNLLBモデルと比較して,効率のよいモデルの方が30\%以上高速で,4\%以下しか動作しないことがわかった。

Natural language processing of Low-Resource Languages (LRL) is often challenged by the lack of data. Therefore, achieving accurate machine translation (MT) in a low-resource environment is a real problem that requires practical solutions. Research in multilingual models have shown that some LRLs can be handled with such models. However, their large size and computational needs make their use in constrained environments (e.g., mobile/IoT devices or limited/old servers) impractical. In this paper, we address this problem by leveraging the power of large multilingual MT models using knowledge distillation. Knowledge distillation can transfer knowledge from a large and complex teacher model to a simpler and smaller student model without losing much in performance. We also make use of high-resource languages that are related or share the same linguistic root as the target LRL. For our evaluation, we consider Luxembourgish as the LRL that shares some roots and properties with German. We build multiple resource-efficient models based on German, knowledge distillation from the multilingual No Language Left Behind (NLLB) model, and pseudo-translation. We find that our efficient models are more than 30\% faster and perform only 4\% lower compared to the large state-of-the-art NLLB model.
翻訳日:2023-03-03 13:43:00 公開日:2023-03-02
# 微分形式的タスク制約を用いた協調学習計画と制御方略

Co-learning Planning and Control Policies Using Differentiable Formal Task Constraints ( http://arxiv.org/abs/2303.01346v1 )

ライセンス: Link先を確認
Zikang Xiong, Joe Eappen, Daniel Lawson, Ahmed H. Qureshi, Suresh Jagannathan(参考訳) 本稿では,信号時間論理に制約された階層的強化学習アルゴリズムを提案する。 論理制約強化学習における従来の研究は、これらの制約を報酬関数でエンコードすることを考慮し、ポリシー更新をサンプルベースのポリシー勾配で制限する。 しかし、こうした手法は正確な政策勾配を得るのに必要なサンプルがかなり多いため、しばしば非効率である。 本稿では,サンプルに基づく政策勾配による政策探索を暗黙的に制限する代わりに,形式的制約を緩和することで,政策探索を直接的に制約する。 階層的政策の利用は、タスク制約を伴う強化学習の重要な要素として認識されている。 ポリシー更新を安定的に制約することで、異なるレベルのポリシーを同時に学習することができ、個別にトレーニングするよりも優れたパフォーマンスが得られることを示す。 実世界のディファレンシャルドライブロボット(TurtleBot3)とシミュレーションされた高次元ロボットの動作実験により,5種類のタスク制約に対するアプローチの有効性が示された。 デモビデオ、コード、モデルは、プロジェクトのwebサイト(https://sites.google.com/view/dscrl.com)で見ることができる。

This paper presents a hierarchical reinforcement learning algorithm constrained by differentiable signal temporal logic. Previous work on logic-constrained reinforcement learning consider encoding these constraints with a reward function, constraining policy updates with a sample-based policy gradient. However, such techniques oftentimes tend to be inefficient because of the significant number of samples required to obtain accurate policy gradients. In this paper, instead of implicitly constraining policy search with sample-based policy gradients, we directly constrain policy search by backpropagating through formal constraints, enabling training hierarchical policies with substantially fewer training samples. The use of hierarchical policies is recognized as a crucial component of reinforcement learning with task constraints. We show that we can stably constrain policy updates, thus enabling different levels of the policy to be learned simultaneously, yielding superior performance compared with training them separately. Experiment results on several simulated high-dimensional robot dynamics and a real-world differential drive robot (TurtleBot3) demonstrate the effectiveness of our approach on five different types of task constraints. Demo videos, code, and models can be found at our project website: https://sites.google.com/view/dscrl
翻訳日:2023-03-03 13:42:37 公開日:2023-03-02
# planet-pick:潜在動的計画に基づく布のフラット化

PlaNet-Pick: Effective Cloth Flattening Based on Latent Dynamic Planning ( http://arxiv.org/abs/2303.01345v1 )

ライセンス: Link先を確認
Halid Abdulrahim Kadi and Kasim Terzic(参考訳) PlaNetのようなリカレントステートスペースモデルは、なぜ布の操作に失敗するのか? 近年の研究では、観測のぼやけた再構成が原因で、潜在空間で直接計画することが困難になっている。 そこで本研究では,PlaNetを布地平ら化領域に適用することで,その背景を考察する。 記事の輪郭における遷移関数の急激な不連続性は、正確な潜在動的モデルを学ぶのを困難にしている。 学習損失におけるklバランスと潜在的オーバーシューティングを採用し,布の最も近い部分に計画的なピッキング位置を調整することにより,最新のプラネットピックモデルが,潜在的mpcアルゴリズムを用いたシミュレーションで最先端のパフォーマンスを達成できることを示す。

Why do Recurrent State Space Models such as PlaNet fail at cloth manipulation tasks? Recent work has attributed this to the blurry reconstruction of the observation, which makes it difficult to plan directly in the latent space. This paper explores the reasons behind this by applying PlaNet in the pick-and-place cloth-flattening domain. We find that the sharp discontinuity of the transition function on the contour of the article makes it difficult to learn an accurate latent dynamic model. By adopting KL balancing and latent overshooting in the training loss and adjusting the planned picking position to the closest part of the cloth, we show that the updated PlaNet-Pick model can achieve state-of-the-art performance using latent MPC algorithms in simulation.
翻訳日:2023-03-03 13:42:19 公開日:2023-03-02
# 安静時脳波によるパーキンソン病の機械学習による検出 : 多施設共同研究

Machine Learning-Based Detection of Parkinson's Disease From Resting-State EEG: A Multi-Center Study ( http://arxiv.org/abs/2303.01389v1 )

ライセンス: Link先を確認
Anna Kurbatskaya, Alberto Jaramillo-Jimenez, John Fredy Ochoa-Gomez, Kolbj{\o}rn Br{\o}nnick, Alvaro Fernandez-Quilez(参考訳) 安静時脳波(rs-EEG)はパーキンソン病(PD)の診断に有効である。 特に,低周波帯({\delta} と {\theta} )と高周波帯({\alpha} と \b{eta} )のパワースペクトル密度(PSD)は,PD (non-PD) を有さない患者と比較して有意に異なることが示されている。 しかし、rs−EEG特徴抽出及びその解釈は時間集約的であり、検査者の多様性が低下する。 機械学習(ML)は、RS-EEG記録の分析を自動化し、臨床医が作業負荷を緩和するための支援ツールを提供する。 本研究では,異なるセンターで得られた4つのデータセットから,84 PDのRS-EEG記録と85 PDの非PD被験者を用いた。 そこで本研究では, 臨床で検証された周波数帯域からpsd特徴を抽出し, 特徴選択を行った後, mlアルゴリズムで特徴の分類能力を評価し, pdと非pdを分類する。 さらに,データセットのマルチセンター特性を考慮すると,特徴調和の効果を評価する。 検証の結果,特徴の調和によるロジスティック回帰によるpd検出能力の改善 (69.6% 対 75.5% の精度) と不平等な特徴選択 (k = 202 特徴) が得られた。 最終結果は、調査に含まれる全センターで平均72.2%の精度で、それぞれ60.6%、68.7%、77.7%、82.2%である。

Resting-state EEG (rs-EEG) has been demonstrated to aid in Parkinson's disease (PD) diagnosis. In particular, the power spectral density (PSD) of low-frequency bands ({\delta} and {\theta}) and high-frequency bands ({\alpha} and \b{eta}) has been shown to be significantly different in patients with PD as compared to subjects without PD (non-PD). However, rs-EEG feature extraction and the interpretation thereof can be time-intensive and prone to examiner variability. Machine learning (ML) has the potential to automatize the analysis of rs-EEG recordings and provides a supportive tool for clinicians to ease their workload. In this work, we use rs-EEG recordings of 84 PD and 85 non-PD subjects pooled from four datasets obtained at different centers. We propose an end-to-end pipeline consisting of preprocessing, extraction of PSD features from clinically validated frequency bands, and feature selection before evaluating the classification ability of the features via ML algorithms to stratify between PD and non-PD subjects. Further, we evaluate the effect of feature harmonization, given the multi-center nature of the datasets. Our validation results show, on average, an improvement in PD detection ability (69.6% vs. 75.5% accuracy) by logistic regression when harmonizing the features and performing univariate feature selection (k = 202 features). Our final results show an average global accuracy of 72.2% with balanced accuracy results for all the centers included in the study: 60.6%, 68.7%, 77.7%, and 82.2%, respectively.
翻訳日:2023-03-03 13:35:32 公開日:2023-03-02
# 強化ラベル:多元深部強化学習による点特徴ラベル配置

Reinforced Labels: Multi-Agent Deep Reinforcement Learning for Point-feature Label Placement ( http://arxiv.org/abs/2303.01388v1 )

ライセンス: Link先を確認
Petr Bob\'ak, Ladislav \v{C}mol\'ik, Martin \v{C}ad\'ik(参考訳) ここ数年、Reinforcement LearningとDeep Learningの技術が組み合わさって、ロボット工学、自動運転車、金融、ゲームなど、さまざまな分野の複雑な問題を解決することに成功した。 本稿では,Reinforcement Learning(RL)を別のドメインに導入する。 提案手法は,人手による既存の手作りアルゴリズムとは対照的な,機械学習によるラベル付け手法であるマルチエージェントディープ強化学習(MADRL)を用いてラベルの配置戦略を学習する。 rl学習パラダイムを容易にするために,エージェントがラベルのプロキシとして振る舞う環境や,地理地図やイラスト,技術図などの可視化を補助する短いテキストアノテーションを開発した。 提案手法により訓練された戦略は,未学習エージェントのランダムな戦略を著しく上回り,完全性(配置ラベル数)において人間専門家が設計した手法よりも優れていることを示す。 トレードオフは計算時間の増加であり、提案手法は比較法よりも遅い。 しかし,本手法は事前にラベル付けを計算できる状況において理想的であり,地図地図,技術図面,医療アトラスなどの完全性は不可欠である。 また,性能評価のためのユーザ調査を行った。 その結果,提案手法は他の検査方法よりも有意に優れていると考えられた。 この結果から,完全性の向上は定量的指標だけでなく,主観的評価にも反映されることが示唆された。

Over the past few years, Reinforcement Learning combined with Deep Learning techniques has successfully proven to solve complex problems in various domains including robotics, self-driving cars, finance, and gaming. In this paper, we are introducing Reinforcement Learning (RL) to another domain - visualization. Our novel point-feature label placement method utilizes Multi-Agent Deep Reinforcement Learning (MADRL) to learn label placement strategy, which is the first machine-learning-driven labeling method in contrast to existing hand-crafted algorithms designed by human experts. To facilitate the RL learning paradigm, we developed an environment where an agent acts as a proxy for a label, a short textual annotation that augments visualizations like geographical maps, illustrations, and technical drawings. Our results demonstrate that the strategy trained by our method significantly outperforms the random strategy of an untrained agent and also performs superior to the compared methods designed by human experts in terms of completeness (i.e., the number of placed labels). The trade-off is increased computation time, making the proposed method slower than compared methods. Nevertheless, our method is ideal for situations where the labeling can be computed in advance, and completeness is essential, such as cartographic maps, technical drawings, and medical atlases. Additionally, we conducted a user study to assess the perceived performance. The outcomes revealed that the participants considered the proposed method to be significantly better than the other examined methods. This indicates that the improved completeness is not just reflected in the quantitative metrics but also in the subjective evaluation of the participants.
翻訳日:2023-03-03 13:35:02 公開日:2023-03-02
# DAVA: 逆転変分オートエンコーダ

DAVA: Disentangling Adversarial Variational Autoencoder ( http://arxiv.org/abs/2303.01384v1 )

ライセンス: Link先を確認
Benjamin Estermann and Roger Wattenhofer(参考訳) 相反表現の使用は、サンプル効率の向上やより良い解釈可能性など、下流タスクに多くの利点をもたらす。 しかし、非絡み合った解釈の質は、しばしばデータセット固有のハイパーパラメータの選択、特に正規化強度に大きく依存する。 そこで本研究では,変分自動エンコーダの新しいトレーニング手法であるDAVAを紹介する。 DAVAはハイパーパラメータ選択の問題を完全に緩和する。 DAVAを最適なハイパーパラメータを持つモデルと比較する。 ハイパーパラメータチューニングがなければ、DAVAはさまざまな一般的なデータセットで競合する。 DAVAの下では, PIPEと呼ばれる非教師なしの絡み合いに必要条件を見いだす。 抽象的推論において, PIPEが下流モデルの性能を肯定的に予測できることを示す。 また、既存の教師なしおよび教師なしのメトリクスとの相関関係を徹底的に調査する。 コードはhttps://github.com/besterma/davaで入手できる。

The use of well-disentangled representations offers many advantages for downstream tasks, e.g. an increased sample efficiency, or better interpretability. However, the quality of disentangled interpretations is often highly dependent on the choice of dataset-specific hyperparameters, in particular the regularization strength. To address this issue, we introduce DAVA, a novel training procedure for variational auto-encoders. DAVA completely alleviates the problem of hyperparameter selection. We compare DAVA to models with optimal hyperparameters. Without any hyperparameter tuning, DAVA is competitive on a diverse range of commonly used datasets. Underlying DAVA, we discover a necessary condition for unsupervised disentanglement, which we call PIPE. We demonstrate the ability of PIPE to positively predict the performance of downstream models in abstract reasoning. We also thoroughly investigate correlations with existing supervised and unsupervised metrics. The code is available at https://github.com/besterma/dava.
翻訳日:2023-03-03 13:34:37 公開日:2023-03-02
# セマンティックに富んだデータサイエンスのビジョン

A Vision for Semantically Enriched Data Science ( http://arxiv.org/abs/2303.01378v1 )

ライセンス: Link先を確認
Udayan Khurana, Kavitha Srinivas, Sainyam Galhotra, Horst Samulowitz(参考訳) 最近の機械学習やデータサイエンスの自動化の取り組みは、ハイパーパラメータ最適化やモデル選択など、さまざまなタスクで成功を収めている。 しかし、ドメイン知識やデータセマンティクスを利用するといった重要な領域は、ほとんど自動化されていない分野です。 データサイエンティストは、予測モデルを構築するためのデータを理解し、強化するために、常識推論とドメイン知識を長い間活用してきた。 本稿では,現在のデータサイエンスと機械学習ソリューションの重要な欠点について述べる。 データの理解と推論をデータサイエンスの自動化のための新しいツールと組み合わせることで、一貫性と説明可能なデータの拡張と変換にどのように役立つかを想像する。 さらに,機械学習における信頼やバイアス,説明可能性といった課題に対処することで,意味論がデータサイエンティストを新たな方法で支援する方法について論じる。 セマンティックアノテーションは、巨大なデータソースの探索と整理に役立つ。

The recent efforts in automation of machine learning or data science has achieved success in various tasks such as hyper-parameter optimization or model selection. However, key areas such as utilizing domain knowledge and data semantics are areas where we have seen little automation. Data Scientists have long leveraged common sense reasoning and domain knowledge to understand and enrich data for building predictive models. In this paper we discuss important shortcomings of current data science and machine learning solutions. We then envision how leveraging "semantic" understanding and reasoning on data in combination with novel tools for data science automation can help with consistent and explainable data augmentation and transformation. Additionally, we discuss how semantics can assist data scientists in a new manner by helping with challenges related to trust, bias, and explainability in machine learning. Semantic annotation can also help better explore and organize large data sources.
翻訳日:2023-03-03 13:34:26 公開日:2023-03-02
# BEL: トランスフォーマー用のバッグ埋め込み損失により、複数インスタンスのスライド画像分類が強化される

BEL: A Bag Embedding Loss for Transformer enhances Multiple Instance Whole Slide Image Classification ( http://arxiv.org/abs/2303.01377v1 )

ライセンス: Link先を確認
Daniel Sens and Ario Sadafi, Francesco Paolo Casale, Nassir Navab, Carsten Marr(参考訳) 複数インスタンス学習 (mil) は,gigapixel histopathology whole slide images (wsis) における分類タスクの主流となっている。 milフレームワーク内では、単一のwsis(bags)がパッチ(インスタンス)に分解され、wsiレベルのアノテーションのみが利用できる。 最近のMILアプローチは、インスタンス間の依存関係をモデル化するトランスフォーマーアーキテクチャの能力を利用して、非常に有意義なバッグレベル表現を生成する。 しかし、高倍率データセットに適用すると、大量のインスタンスと弱い監視学習信号が原因で問題が発生する。 そこで本研究では,新しいBag Embedding Loss (BEL) を用いたトランスフォーマーのトレーニングを提案する。 BELは、同一クラスのバッグ埋め込み間の距離を最小化し、異なるクラス間の距離を最大化することにより、識別可能なバッグレベルの表現をモデルに学習させる。 我々は,Transformer アーキテクチャの TransMIL を用いて,BRACS と CAMELYON17 の2つの病理組織学的データセットを用いて BEL を評価する。 BELでは,TransMILは両データセットのベースラインモデルよりも優れており,臨床上高い関連性を有するAIベースの病理組織学的疾患の分類に寄与している。

Multiple Instance Learning (MIL) has become the predominant approach for classification tasks on gigapixel histopathology whole slide images (WSIs). Within the MIL framework, single WSIs (bags) are decomposed into patches (instances), with only WSI-level annotation available. Recent MIL approaches produce highly informative bag level representations by utilizing the transformer architecture's ability to model the dependencies between instances. However, when applied to high magnification datasets, problems emerge due to the large number of instances and the weak supervisory learning signal. To address this problem, we propose to additionally train transformers with a novel Bag Embedding Loss (BEL). BEL forces the model to learn a discriminative bag-level representation by minimizing the distance between bag embeddings of the same class and maximizing the distance between different classes. We evaluate BEL with the Transformer architecture TransMIL on two publicly available histopathology datasets, BRACS and CAMELYON17. We show that with BEL, TransMIL outperforms the baseline models on both datasets, thus contributing to the clinically highly relevant AI-based tumor classification of histological patient material.
翻訳日:2023-03-03 13:34:13 公開日:2023-03-02
# エネルギー保存結合軌道混合量子古典力学

Energy-Conserving Coupled Trajectory Mixed Quantum Classical Dynamics ( http://arxiv.org/abs/2303.01376v1 )

ライセンス: Link先を確認
Evaristo Villaseco Arribas and Neepa T. Maitra(参考訳) 正確な分解法から導かれた結合軌道混合量子古典法(CTMQC)は、多くの興味深い分子における光化学力学の予測に成功し、第一原理からの集団移動と脱コヒーレンスを捉えた。 しかし、近似により、CTMQCはエネルギー保存を保証していない。 我々は,結合軌道項の積分力を再定義してエネルギー保存を回復する改良アルゴリズム CTMQC-E を提案し,タリーの拡張結合領域モデルにおける散乱の精度と網膜色調モデルにおける光異性化の精度を示す。

The coupled-trajectory mixed quantum classical method (CTMQC), derived from the exact factorization approach, has successfully predicted photo-chemical dynamics in a number of interesting molecules, capturing population transfer and decoherence from first-principles. However, due to the approximations made, CTMQC does not guarantee energy conservation. We propose a modified algorithm, CTMQC-E, which redefines the integrated force in the coupled-trajectory term so to restore energy conservation, and demonstrate its accuracy on scattering in Tully's extended coupling region model and photoisomerization in a retinal chromophore model.
翻訳日:2023-03-03 13:33:53 公開日:2023-03-02
# 大域的モノポール時空における hulth\'{e}n ポテンシャルを持つ schr\"{o}dinger 方程式の近似解析解

Approximate analytical solutions of the Schr\"{o}dinger equation with Hulth\'{e}n potential in the global monopole spacetime ( http://arxiv.org/abs/2303.01375v1 )

ライセンス: Link先を確認
Saulo S. Alves, M\'arcio M. Cunha, Hassan Hassanabadi, Edilberto O. Silva(参考訳) 本稿では、トポロジカル欠陥を含む時空における電子の非相対論的量子力学について検討する。 また、電子はHulth\'{e}nポテンシャルの影響を受けていると考える。 特に、大域単極子の存在下でのシュルンディンガー方程式(Schr\"{o}dinger equation)を扱う。 この問題に対する近似解を求め,散乱位相シフトと$s$行列を決定し,境界状態の解析を行う。

In this paper, we study the nonrelativistic quantum mechanics of an electron in a spacetime containing a topological defect. We also consider that the electron is influenced by the Hulth\'{e}n potential. In particular, we deal with the Schr\"{o}dinger equation in the presence of a global monopole. We obtain approximate solutions for the problem, determine the scattering phase shift and the $S$-matrix, and analyze bound states.
翻訳日:2023-03-03 13:33:42 公開日:2023-03-02
# ランダム投影を用いた線形回帰のための二重降下の高次元解析

High-dimensional analysis of double descent for linear regression with random projections ( http://arxiv.org/abs/2303.01372v1 )

ライセンス: Link先を確認
Francis Bach (SIERRA)(参考訳) そこでは, ランダム行列理論に基づく高次元解析を用いて, 固定予測問題に対する二重降下曲線を確実に示す。 まずリッジ回帰推定子を考察し,非パラメトリック統計,すなわち自由度,あるいは有効次元の古典的概念を用いて,先行結果を再解釈する。 特に,特定の正規化パラメータを持つリッジ回帰のランダムな設計性能は,より簡単な固定化解析から得られる古典バイアスと分散式と一致するが,他の大きな暗黙的正規化パラメータに対しては一致しないことを示す。 次に、ランダム射影に適合する最小ノルム最小二乗の一般化性能の漸近同値(バイアスと分散の観点から)を計算し、二重降下現象の簡単な表現を与える。

We consider linear regression problems with a varying number of random projections, where we provably exhibit a double descent curve for a fixed prediction problem, with a high-dimensional analysis based on random matrix theory. We first consider the ridge regression estimator and re-interpret earlier results using classical notions from non-parametric statistics, namely degrees of freedom, also known as effective dimensionality. In particular, we show that the random design performance of ridge regression with a specific regularization parameter matches the classical bias and variance expressions coming from the easier fixed design analysis but for another larger implicit regularization parameter. We then compute asymptotic equivalents of the generalization performance (in terms of bias and variance) of the minimum norm least-squares fit with random projections, providing simple expressions for the double descent phenomenon.
翻訳日:2023-03-03 13:33:35 公開日:2023-03-02
# Deep-NFA:小さなオブジェクト検出のためのDeep $\textit{a contrario}$ Framework

Deep-NFA: a Deep $\textit{a contrario}$ Framework for Small Object Detection ( http://arxiv.org/abs/2303.01363v1 )

ライセンス: Link先を確認
Alina Ciocarlan, Sylvie Le Hegarat-Mascle, Sidonie Lefebvre and Arnaud Woiselle(参考訳) 小型物体の検出はコンピュータビジョンにおいて難しい課題である。 従来の物体検出手法は、高い検出と低い誤報率のバランスを見つけるのに困難である。 文献では、背景要素によって引き起こされる誤報の数に関して堅牢性を保証することなく、特徴マップ応答を増強することでこの問題に対処した手法がいくつかある。 この問題に対処するために,学習プロセスに$\textit{a contrario}$決定基準を導入して,小さなオブジェクトの予期せぬ性質を考慮に入れる。 この統計基準は、偽アラームの数(NFA)を制御しながら特徴マップ応答を高め、任意のセグメンテーションニューラルネットワークに統合することができる。 我々のアドオンNFAモジュールは、それぞれ小さなターゲットとひび割れ検出タスクの競合結果を得るだけでなく、より堅牢で解釈可能な結果をもたらす。

The detection of small objects is a challenging task in computer vision. Conventional object detection methods have difficulty in finding the balance between high detection and low false alarm rates. In the literature, some methods have addressed this issue by enhancing the feature map responses, but without guaranteeing robustness with respect to the number of false alarms induced by background elements. To tackle this problem, we introduce an $\textit{a contrario}$ decision criterion into the learning process to take into account the unexpectedness of small objects. This statistic criterion enhances the feature map responses while controlling the number of false alarms (NFA) and can be integrated into any semantic segmentation neural network. Our add-on NFA module not only allows us to obtain competitive results for small target and crack detection tasks respectively, but also leads to more robust and interpretable results.
翻訳日:2023-03-03 13:33:08 公開日:2023-03-02
# 生成前駆体としての人間の運動拡散

Human Motion Diffusion as a Generative Prior ( http://arxiv.org/abs/2303.01418v1 )

ライセンス: Link先を確認
Yonatan Shafir, Guy Tevet, Roy Kapon and Amit H. Bermano(参考訳) 近年,モーションジェネレーションに拡散モデルが導入されたことで,新たな進歩が見られた。 しかし、この分野の主なギャップは、データの可用性の低いままである。 さらに、高価な動きの獲得プロセスは、既に控えめなデータを短い1人のシーケンスに偏らせる。 このような不足により、より精巧な生成作業が残されている。 本稿では,このギャップを生成前として事前学習した拡散ベースモデルを用いて緩和できることを示す。 我々は、前者は微調整、数秒間、さらにはゼロショット方式で効果的であることを示した。 ゼロショット設定では、長いシーケンス生成の課題に取り組む。 提案手法は,10秒世代に訓練された先行手法を用いて,最大10分間のインパルス・インターバルのアニメーションと,その有意義かつ制御されたトランジションを再現する推論時間法である。 少数の設定では、2人の世代を考える。 2つの固定された先行と1ダース程度の訓練例を用いて、スリムな通信ブロックであるComMDMを学習し、2つの動作間の相互作用を注入する。 最後に、微調整を用いて、単一の所定の関節から意味的に完全な動作を事前に訓練する。 次に, 拡散ブレイディングを用いて, 個々の制御信号の組み合わせによく対応し, 細粒度, 軌道レベルの制御および編集を可能にする1つのモデルに, そのモデルをいくつかブレンドする。 既往の動作拡散モデル(SOTA)を先行として, 上記の3事例に対するアプローチを評価し, それらの課題のために設計, 訓練されたSOTAモデルより一貫して優れていることを示す。

In recent months, we witness a leap forward as denoising diffusion models were introduced to Motion Generation. Yet, the main gap in this field remains the low availability of data. Furthermore, the expensive acquisition process of motion biases the already modest data towards short single-person sequences. With such a shortage, more elaborate generative tasks are left behind. In this paper, we show that this gap can be mitigated using a pre-trained diffusion-based model as a generative prior. We demonstrate the prior is effective for fine-tuning, in a few-, and even a zero-shot manner. For the zero-shot setting, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we demonstrate up to 10-minute long animations of prompted intervals and their meaningful and controlled transition, using the prior that was trained for 10-second generations. For the few-shot setting, we consider two-person generation. Using two fixed priors and as few as a dozen training examples, we learn a slim communication block, ComMDM, to infuse interaction between the two resulting motions. Finally, using fine-tuning, we train the prior to semantically complete motions from a single prescribed joint. Then, we use our DiffusionBlending to blend a few such models into a single one that responds well to the combination of the individual control signals, enabling fine-grained joint- and trajectory-level control and editing. Using an off-the-shelf state-of-the-art (SOTA) motion diffusion model as a prior, we evaluate our approach for the three mentioned cases and show that we consistently outperform SOTA models that were designed and trained for those tasks.
翻訳日:2023-03-03 13:27:27 公開日:2023-03-02
# ImageNetによる3次元画像生成

3D generation on ImageNet ( http://arxiv.org/abs/2303.01416v1 )

ライセンス: Link先を確認
Ivan Skorokhodov, Aliaksandr Siarohin, Yinghao Xu, Jian Ren, Hsin-Ying Lee, Peter Wonka, Sergey Tulyakov(参考訳) 既存の3D-from-2Dジェネレータは通常、すべてのオブジェクトが(ほぼ)同じスケール、3D位置、方向を持ち、カメラは常にシーンの中央を指している、よく計算された単一カテゴリのデータセットのために設計されている。 これにより、任意のカメラのポーズからレンダリングされた、調整不能なシーンの多様で幅の広いデータセットには適用できない。 本研究では, トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークであるGeneric Priors(3DGP)を用いた3Dジェネレータを開発し, ImageNetのような非常に困難なデータセットにスケール可能であることを示す。 私たちのモデルは3つの新しいアイデアに基づいている。 まず、不正確なオフザシェルフ深度推定器を特別な深度適応モジュールを介して3D GANトレーニングに組み込んで、精度を抑える。 そして、トレーニング中にその分布パラメータを学習するために、柔軟なカメラモデルと正規化戦略を作成します。 最後に, 予め訓練された分類器からgansへ知識を移すという最近の考え方を拡張し, 単純な蒸留法に基づく手法を識別器の上に用いた。 既存の方法よりも安定したトレーニングを達成し、収束を少なくとも40%高速化する。 SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットでモデルを探索し, テクスチャと幾何学の両面で最近の最先端の3DGPが優れていることを示す。 コードと視覚化: https://snap-research.github.io/3dgp。

Existing 3D-from-2D generators are typically designed for well-curated single-category datasets, where all the objects have (approximately) the same scale, 3D location, and orientation, and the camera always points to the center of the scene. This makes them inapplicable to diverse, in-the-wild datasets of non-alignable scenes rendered from arbitrary camera poses. In this work, we develop a 3D generator with Generic Priors (3DGP): a 3D synthesis framework with more general assumptions about the training data, and show that it scales to very challenging datasets, like ImageNet. Our model is based on three new ideas. First, we incorporate an inaccurate off-the-shelf depth estimator into 3D GAN training via a special depth adaptation module to handle the imprecision. Then, we create a flexible camera model and a regularization strategy for it to learn its distribution parameters during training. Finally, we extend the recent ideas of transferring knowledge from pre-trained classifiers into GANs for patch-wise trained models by employing a simple distillation-based technique on top of the discriminator. It achieves more stable training than the existing methods and speeds up the convergence by at least 40%. We explore our model on four datasets: SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, and ImageNet 256x256, and demonstrate that 3DGP outperforms the recent state-of-the-art in terms of both texture and geometry quality. Code and visualizations: https://snap-research.github.io/3dgp.
翻訳日:2023-03-03 13:27:00 公開日:2023-03-02
# 因果効果推定におけるハイパーパラメータチューニングとモデル評価

Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation ( http://arxiv.org/abs/2303.01412v1 )

ライセンス: Link先を確認
Damian Machlanski, Spyridon Samothrakis, Paul Clarke(参考訳) ほとんどの因果効果推定器の性能は観測データの高次元非線形関数の正確な予測に依存する。 現代の機械学習(ML)メソッドの顕著な柔軟性は、このタスクに完全に適しています。 しかし、ML手法のデータ駆動型ハイパーパラメータチューニングは、因果推定における大きな誤差を避けるために効果的なモデル評価を必要とする。 近年,複数の評価基準が提案されており,どの因果推定器,ML学習者,ハイパーパラメータを選択するか,あるいはどの評価基準を使用するかという複雑な決定を行なわなければならない。 本稿では,因果効果推定のためのモデル評価の4つの異なる側面の相互作用について検討する。 我々は、多くの一般的な因果推定器、ml法、評価手法を含む包括的な実験的なセットアップを開発し、4つのよく知られた因果推論ベンチマークデータセットに適用する。 この結果から,機械学習学習者の最適ハイパーパラメータチューニングは,推定値や学習者に関わらず,効果推定における最先端性能に到達するのに十分であることが示唆された。 その結果,ほとんどの因果推定器は十分に調整された場合,ほぼ同等性能であることがわかった。 また,ハイパーパラメータのチューニングやモデル評価は,因果推定器やML手法よりもはるかに重要であることも確認した。 最後に, 最適モデル選択法と比較して, 一般的な評価指標の推定性能に有意な差があることから, 因果モデル評価のさらなる研究を求め, 現状の手順で提供されていない最適性能を解き放つ。

The performance of most causal effect estimators relies on accurate predictions of high-dimensional non-linear functions of the observed data. The remarkable flexibility of modern Machine Learning (ML) methods is perfectly suited to this task. However, data-driven hyperparameter tuning of ML methods requires effective model evaluation to avoid large errors in causal estimates, a task made more challenging because causal inference involves unavailable counterfactuals. Multiple performance-validation metrics have recently been proposed such that practitioners now not only have to make complex decisions about which causal estimators, ML learners and hyperparameters to choose, but also about which evaluation metric to use. This paper, motivated by unclear recommendations, investigates the interplay between the four different aspects of model evaluation for causal effect estimation. We develop a comprehensive experimental setup that involves many commonly used causal estimators, ML methods and evaluation approaches and apply it to four well-known causal inference benchmark datasets. Our results suggest that optimal hyperparameter tuning of ML learners is enough to reach state-of-the-art performance in effect estimation, regardless of estimators and learners. We conclude that most causal estimators are roughly equivalent in performance if tuned thoroughly enough. We also find hyperparameter tuning and model evaluation are much more important than causal estimators and ML methods. Finally, from the significant gap we find in estimation performance of popular evaluation metrics compared with optimal model selection choices, we call for more research into causal model evaluation to unlock the optimum performance not currently being delivered even by state-of-the-art procedures.
翻訳日:2023-03-03 13:26:34 公開日:2023-03-02
# アルゴリズム的ランダム性と確率法則

Algorithmic Randomness and Probabilistic Laws ( http://arxiv.org/abs/2303.01411v1 )

ライセンス: Link先を確認
Jeffrey A. Barrett and Eddy Keming Chen(参考訳) 確率則を特徴付けるためにアルゴリズム的ランダム性を用いる方法が2つある。 1つ目は生成可能性*法則である。 このような法則はチャンスの非標準概念を含む。 2つ目は確率的*制約法です。 このような法則は、全ての物理的に可能な世界が満たさなければならない相対周波数およびランダム性制約を課す。 それぞれの概念には美徳があるが、後者は前者より優れていると主張する。 非ヒュームの法則を統一的に管理し、ヒュームの最高システムに関する問題に対する独立して動機付けられた解決策を提供する。 どちらの概念も、確率的法則とそれに対応する可能な世界の集合との間にはより密接な関係がある。 伝統的な確率論的法則によって許される特定の歴史は、物理的に不可能であるとして除外される。 その結果、このような法則は経験的下決定の1つの種類を避けるが、このアプローチは一般的に見過ごされる他の種類の下決定の亜種を明らかにする。

We consider two ways one might use algorithmic randomness to characterize a probabilistic law. The first is a generative chance* law. Such laws involve a nonstandard notion of chance. The second is a probabilistic* constraining law. Such laws impose relative frequency and randomness constraints that every physically possible world must satisfy. While each notion has virtues, we argue that the latter has advantages over the former. It supports a unified governing account of non-Humean laws and provides independently motivated solutions to issues in the Humean best-system account. On both notions, we have a much tighter connection between probabilistic laws and their corresponding sets of possible worlds. Certain histories permitted by traditional probabilistic laws are ruled out as physically impossible. As a result, such laws avoid one variety of empirical underdetermination, but the approach reveals other varieties of underdetermination that are typically overlooked.
翻訳日:2023-03-03 13:26:09 公開日:2023-03-02
# NLP Workbench:最先端テキストマイニングツールの効率的で拡張可能な統合

NLP Workbench: Efficient and Extensible Integration of State-of-the-art Text Mining Tools ( http://arxiv.org/abs/2303.01410v1 )

ライセンス: Link先を確認
Peiran Yao, Matej Kosmajac, Abeer Waheed, Kostyantyn Guzhva, Natalie Hervieux, Denilson Barbosa(参考訳) NLP WorkbenchはテキストマイニングのためのWebベースのプラットフォームで、専門家でないユーザが最先端のテキストマイニングモデルを使用して大規模コーパスの意味的理解を得ることができる。 プラットフォームは、エンティティリンク、感情分析、意味解析、関係抽出を含む意味分析機能を提供する、学界の最新の事前学習されたモデルとオープンソースシステム上に構築されている。 その拡張可能な設計により、研究者や開発者は既存のモデルをスムーズに置き換えたり、新しいモデルを統合できる。 高速化のために,アクセラレーションハードウェアの割り当てと計算の並列化を容易にするマイクロサービスアーキテクチャを採用している。 本稿では,NLP Workbenchのアーキテクチャを概説し,その設計に直面する課題について論じる。 また、NLP Workbenchの多様なユースケースや、他のアプローチに対する利用メリットについても論じる。 プラットフォームは現在開発中で、ソースコードはMITライセンスで公開されている。 当社のプラットフォームをデモするWebサイトやショートビデオも利用可能です。

NLP Workbench is a web-based platform for text mining that allows non-expert users to obtain semantic understanding of large-scale corpora using state-of-the-art text mining models. The platform is built upon latest pre-trained models and open source systems from academia that provide semantic analysis functionalities, including but not limited to entity linking, sentiment analysis, semantic parsing, and relation extraction. Its extensible design enables researchers and developers to smoothly replace an existing model or integrate a new one. To improve efficiency, we employ a microservice architecture that facilitates allocation of acceleration hardware and parallelization of computation. This paper presents the architecture of NLP Workbench and discusses the challenges we faced in designing it. We also discuss diverse use cases of NLP Workbench and the benefits of using it over other approaches. The platform is under active development, with its source code released under the MIT license. A website and a short video demonstrating our platform are also available.
翻訳日:2023-03-03 13:25:56 公開日:2023-03-02
# 弱い依存下でのスパースペナル化深部ニューラルネットワーク推定器

Sparse-penalized deep neural networks estimator under weak dependence ( http://arxiv.org/abs/2303.01406v1 )

ライセンス: Link先を確認
William Kengne and Modou Wade(参考訳) 我々は,$\psi$-weakly 依存プロセスの非パラメトリック回帰と分類問題を考える。 この弱依存構造は、混合、結合、$\ldots$のような条件よりも一般的である。 スパース深層ニューラルネットワークのペナルティ化推定を行う。 非パラメトリック回帰と二値分類の両問題において、スパースペナル化ディープニューラルネットワーク推定器の過剰リスクに対するオラクルの不等式を確立する。 これらの推定器の過剰なリスクの収束率も導出される。 シミュレーションの結果, 提案した推定器は, 非罰則推定器よりも総合的に有効であることがわかった。

We consider the nonparametric regression and the classification problems for $\psi$-weakly dependent processes. This weak dependence structure is more general than conditions such as, mixing, association, $\ldots$. A penalized estimation method for sparse deep neural networks is performed. In both nonparametric regression and binary classification problems, we establish oracle inequalities for the excess risk of the sparse-penalized deep neural networks estimators. Convergence rates of the excess risk of these estimators are also derived. The simulation results displayed show that, the proposed estimators overall work well than the non penalized estimators.
翻訳日:2023-03-03 13:25:41 公開日:2023-03-02
# iART:LSTMを用いたロボット治療のためのデモから学ぶ

iART: Learning from Demonstration for Assisted Robotic Therapy Using LSTM ( http://arxiv.org/abs/2303.01403v1 )

ライセンス: Link先を確認
Shrey Pareek and Thenkurussi Kesavadas(参考訳) 本稿では,3Dトラジェクトリトラッキングタスク中にロボット支援を行う,インテリジェントなロボットセラピーアシスタント(iART)を提案する。 本稿では,セラピストの援助行動の模倣を目的とした,LSTMに基づく新しいロボット学習手法を提案する。 iARTは1つの軌跡から任意の3次元形状への学習挙動を一般化できる軌道に依存しないLfDルーチンを提供する。 セラピストの行動が学習されると、iartは患者の好みに応じてこの行動を変更することができる。 システムはたった2分間のデモンストレーションしか必要とせず、予測において平均91.41%の精度を示し、したがってセラピストの補助行動を模倣する。 このシステムは、リアルタイムに安定した支援を提供し、様々な種類の援助行動をうまく再現する。

In this paper, we present an intelligent Assistant for Robotic Therapy (iART), that provides robotic assistance during 3D trajectory tracking tasks. We propose a novel LSTM-based robot learning from demonstration (LfD) paradigm to mimic a therapist's assistance behavior. iART presents a trajectory agnostic LfD routine that can generalize learned behavior from a single trajectory to any 3D shape. Once the therapist's behavior has been learned, iART enables the patient to modify this behavior as per their preference. The system requires only a single demonstration of 2 minutes and exhibits a mean accuracy of 91.41% in predicting, and hence mimicking a therapist's assistance behavior. The system delivers stable assistance in realtime and successfully reproduces different types of assistance behaviors.
翻訳日:2023-03-03 13:25:33 公開日:2023-03-02
# シュワルツシルトブラックホール近傍における真空絡み合いのレンズ化

Lensing of Vacuum Entanglement near Schwarzschild Black Holes ( http://arxiv.org/abs/2303.01402v1 )

ライセンス: Link先を確認
Jo\~ao G. A. Carib\'e, Robert H. Jonsson, Marc Casals, Achim Kempf, Eduardo Mart\'in-Mart\'inez(参考訳) シュワルツシルト時空の重要な特徴は、軌道上のヌル測地線とコースティックの存在であり、その存在は強い重力レンズ効果を意味する。 ここでは,この重力レンズが真空中においても現れるか,すなわち真空中における絡み合いの分布をレンズで観察する。 この可能性を探るために、当初は絡み合わなかった局所量子系が、異なる場所で一時的に場に結合される絡み合い収穫法を用いる。 3+1次元シュワルツシルト時空におけるBoulware, Hartle-Hawking, Unruh vacuaに対して, エンタングルメント収穫は, 因果近くでのレンズリングのような効果により著しく増幅されている。

An important feature of Schwarzschild spacetime is the presence of orbiting null geodesics and caustics, whose presence implies strong gravitational lensing effects. Here, we investigate whether this gravitational lensing manifests itself even in the vacuum, namely by lensing the distribution of entanglement in the vacuum. To explore this possibility, we use the method of entanglement harvesting, where initially unentangled localized quantum systems are temporarily coupled to the field at different locations. We find that for the Boulware, Hartle-Hawking and Unruh vacua in 3+1 dimensional Schwarzschild spacetime, entanglement harvesting is indeed greatly amplified due to a lensing-like effect near caustics.
翻訳日:2023-03-03 13:25:20 公開日:2023-03-02
# mlanet: 連続視覚言語ナビゲーションのためのサブインストラクションを備えたマルチレベルアテンションネットワーク

MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation ( http://arxiv.org/abs/2303.01396v1 )

ライセンス: Link先を確認
Zongtao He, Liuyi Wang, Shu Li, Qingqing Yan, Chengju Liu and Qijun Chen(参考訳) vision-and-language navigation (vln) は、言語と視覚の監督を通してのみ見えない環境をナビゲートするインテリジェントエージェントを開発することを目的としている。 最近提案されたcontinuous settings(continuous vln)では、エージェントはフリーな3d空間で動作しなければならず、リアルタイム実行、複雑な命令理解、長いアクションシーケンス予測といった難しい課題に直面している。 連続VLNの性能向上のために,マルチレベル命令理解手順を設計し,新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。 MLANetの最初のステップは、効率的にサブ命令を生成することである。 本研究では,素命令をサブインストラクションに分割する高速サブインストラクションアルゴリズム (FSA) を設計し,新たなサブインストラクションデータセットである ``FSASub を生成する。 FSAは、現在のメソッドよりも70倍高速でアノテーションのないため、連続VLNのリアルタイム要求に適合する。 複雑な命令理解問題を解決するために、MLANetは命令と観察のグローバルな認識を必要とする。 本研究では,タスクの動的かつ大域的な理解を含む機能を生成するマルチレベルアテンション(mla)モジュールを提案する。 MLAはまた、ノイズワードの悪影響を軽減し、命令の堅牢な理解を確保する。 長い軌道でアクションを正確に予測するには、MLANetはステップ毎にサブ命令が実行されることに集中する必要がある。 本稿では,現在のサブ命令の柔軟かつ適応的な選択を改善するために,ピーク注意損失(PAL)を提案する。 PALは、ナビゲーションエージェントがローカル情報に注意を集中することにより、最も適切な行動を予測するのに役立つ。 標準ベンチマークでMLANetをトレーニングし、テストします。 実験の結果、MLANetはベースラインをかなり上回ります。

Vision-and-Language Navigation (VLN) aims to develop intelligent agents to navigate in unseen environments only through language and vision supervision. In the recently proposed continuous settings (continuous VLN), the agent must act in a free 3D space and faces tougher challenges like real-time execution, complex instruction understanding, and long action sequence prediction. For a better performance in continuous VLN, we design a multi-level instruction understanding procedure and propose a novel model, Multi-Level Attention Network (MLANet). The first step of MLANet is to generate sub-instructions efficiently. We design a Fast Sub-instruction Algorithm (FSA) to segment the raw instruction into sub-instructions and generate a new sub-instruction dataset named ``FSASub". FSA is annotation-free and faster than the current method by 70 times, thus fitting the real-time requirement in continuous VLN. To solve the complex instruction understanding problem, MLANet needs a global perception of the instruction and observations. We propose a Multi-Level Attention (MLA) module to fuse vision, low-level semantics, and high-level semantics, which produce features containing a dynamic and global comprehension of the task. MLA also mitigates the adverse effects of noise words, thus ensuring a robust understanding of the instruction. To correctly predict actions in long trajectories, MLANet needs to focus on what sub-instruction is being executed every step. We propose a Peak Attention Loss (PAL) to improve the flexible and adaptive selection of the current sub-instruction. PAL benefits the navigation agent by concentrating its attention on the local information, thus helping the agent predict the most appropriate actions. We train and test MLANet in the standard benchmark. Experiment results show MLANet outperforms baselines by a significant margin.
翻訳日:2023-03-03 13:25:04 公開日:2023-03-02
# カオスにおけるラダー:政策経路トリミングとブースティングによる一般DRLアルゴリズムの簡易かつ効果的な改善

The Ladder in Chaos: A Simple and Effective Improvement to General DRL Algorithms by Policy Path Trimming and Boosting ( http://arxiv.org/abs/2303.01391v1 )

ライセンス: Link先を確認
Hongyao Tang, Min Zhang, Jianye Hao(参考訳) ポリシーの学習ダイナミクスを知ることは強化学習(rl)の謎を明らかにする上で重要である。 特にDeep RLにとって、サンプルの非効率性や学習不安定性といった悪名高い問題に対処することは、非常に難しい。 本稿では,典型的なDRLエージェントのポリシーネットワークが学習過程でどのように進化するかを,各ポリシーパラメータの時間的変化を実証的に検討する。 典型的な MuJoCo および DeepMind Control Suite (DMC) ベンチマークでは、TD3 および RAD エージェントに共通する現象が見つかる。 1)政策ネットワークパラメータの活性は高度に非対称であり,政策ネットワークは極めて少数の主要なパラメータ方向に沿って単調に進行する。 2) パラメータ更新時に重大な輪郭が出現し, すべてのマイナーパラメータ方向に対して高調波的な変化が観測される。 ポリシー学習経路に沿って新しい時間的SVDを実行することにより、主パラメータ方向と小パラメータ方向を、それぞれ支配的および重要でない特異値に関連付けられた右ユニタリ行列の列として識別する。 上記の発見に触発されて,drlアルゴリズムの一般的なプラグイン改善として,ポリシパストリミング・ブースティング(pptb)と呼ばれる,簡便で効果的な手法を提案する。 PPTBの鍵となる考え方は、政策更新を小さなパラメータの方向でキャンセルし、主要な方向に進むことを奨励して学習経路を強化することで、政策学習経路を定期的にトリムすることである。 実験では, PPTB と TD3 と RAD を組み合わせた MuJoCo および DMC 環境において, PPTB がもたらす全般的および重要な性能改善を実証した。

Knowing the learning dynamics of policy is significant to unveiling the mysteries of Reinforcement Learning (RL). It is especially crucial yet challenging to Deep RL, from which the remedies to notorious issues like sample inefficiency and learning instability could be obtained. In this paper, we study how the policy networks of typical DRL agents evolve during the learning process by empirically investigating several kinds of temporal change for each policy parameter. On typical MuJoCo and DeepMind Control Suite (DMC) benchmarks, we find common phenomena for TD3 and RAD agents: 1) the activity of policy network parameters is highly asymmetric and policy networks advance monotonically along very few major parameter directions; 2) severe detours occur in parameter update and harmonic-like changes are observed for all minor parameter directions. By performing a novel temporal SVD along policy learning path, the major and minor parameter directions are identified as the columns of right unitary matrix associated with dominant and insignificant singular values respectively. Driven by the discoveries above, we propose a simple and effective method, called Policy Path Trimming and Boosting (PPTB), as a general plug-in improvement to DRL algorithms. The key idea of PPTB is to periodically trim the policy learning path by canceling the policy updates in minor parameter directions, while boost the learning path by encouraging the advance in major directions. In experiments, we demonstrate the general and significant performance improvements brought by PPTB, when combined with TD3 and RAD in MuJoCo and DMC environments respectively.
翻訳日:2023-03-03 13:24:32 公開日:2023-03-02
# コヒーレント状態を用いた連続可変ゲートの量子プロセストモグラフィ

Quantum process tomography of continuous-variable gates using coherent states ( http://arxiv.org/abs/2303.01451v1 )

ライセンス: Link先を確認
Mikael Kervinen, Shahnawaz Ahmed, Marina Kudra, Axel Eriksson, Fernando Quijandr\'ia, Anton Frisk Kockum, Per Delsing, Simone Gasparinetti(参考訳) 量子情報を調和振動子の複数のフォック状態の重ね合わせにエンコーディングすることは、エラーに対する保護をもたらすが、複数のフォック状態を同時に扱う必要のあるより複雑な量子ゲートを必要とするコストが伴う。 したがって、これらのゲートの量子過程の忠実性もより困難になる。 本稿では,コヒーレント状態量子プロセストモグラフィ(csqpt)のボソニックモード超電導回路への応用を示す。 csqptは、任意の入力状態の量子演算を完全に特徴付けるために、量子過程の入力プローブとしてコヒーレント状態を使用する。 符号化量子ビット上の変位とSNAP演算を用いて構築した論理量子ゲートを特徴付けることにより,本手法の結果を示す。 csqptでは、論理部分空間に制限されるのではなく、より大きなヒルベルト空間のクラウス作用素を再構築することができる。 これにより、ゲート不忠実性につながる異なるエラーメカニズムをより正確に決定することができる。

Encoding quantum information into superpositions of multiple Fock states of a harmonic oscillator can provide protection against errors, but it comes with the cost of requiring more complex quantum gates that need to address multiple Fock states simultaneously. Therefore, characterizing the quantum process fidelity of these gates also becomes more challenging. Here, we demonstrate the use of coherent-state quantum process tomography (csQPT) for a bosonic-mode superconducting circuit. CsQPT uses coherent states as input probes for the quantum process in order to completely characterize the quantum operation for an arbitrary input state. We show results for this method by characterizing a logical quantum gate constructed using displacement and SNAP operations on an encoded qubit. With csQPT, we are able to reconstruct the Kraus operators for the larger Hilbert space rather than being limited to the logical subspace. This allows for a more accurate determination of the different error mechanisms that lead to the gate infidelity.
翻訳日:2023-03-03 13:17:23 公開日:2023-03-02
# Q-Profile: 量子近似最適化アルゴリズムに適用した量子制御スタックのプロファイリングツール

Q-Profile: Profiling Tool for Quantum Control Stacks applied to the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2303.01450v1 )

ライセンス: Link先を確認
Koen J. Mesman, Francesco Battistel, Edgar Reehuis, Damaz de Jong, Marijn J. Tiggelman, Jordy Gloudemans, Jules C. van Oven, Cornelis C. Bultink(参考訳) 量子ビット数をスケールアップし、量子アルゴリズムの実行をスピードアップすることは、量子アドバンテージに到達するための重要なステップである。 パルスをより多くの制御チャネルに分散させる必要があり、変分アルゴリズムは量子計算と古典計算を迅速にインターリーブする必要がある。 したがって、制御スタックのボトルネックを評価することは、量子優位に達する準備が整うための鍵となる。 しかし、既存のベンチマークスイートは制御ハードウェアへの間接アクセスのために詳細が不足している。 本稿では、ホストCPUから制御スタックへの直接接続を利用して、これらの問題を回避するための量子制御スタックをプロファイルするツールであるQ-Profileについて述べる。 仮想4ビットから14ビットのトランスモンシステムのためのQblox Cluster上でQuantum Approximate Optimization Algorithm (QAOA)をベンチマークすることで,我々のツールの利用を実証する。 その結果、受動量子ビットリセットと通信オーバーヘッドの主な実行ボトルネックが明らかになった。 我々は、パッシブリセットの代わりにアクティブキュービットリセットを用いて、全実行時の1.40x~スピードアップを推定し、制御モジュールの並列初期化によりさらに1.37xのスピードアップを示す。 提示されたプロファイリング方法は、他のコントロールスタックプロバイダや、他のベンチマークにも適用でき、単一のメトリックを超えた詳細な情報を提供する。 拡張によって、このツールは将来の量子加速のボトルネックを特定し、排除することができる。 このプロファイリングツールは、オープンソースのquantify量子制御ソフトウェアに含まれており、複数のバックエンドをサポートすることができる。

Scaling up the number of qubits and speeding up the execution of quantum algorithms are important steps towards reaching quantum advantage. This poses heavy demands particularly on the control stack, as pulses need to be distributed to an increasing number of control channels and variational algorithms require rapid interleaving of quantum and classical computation. Assessing the bottlenecks in the control stack is therefore key to making it ready for reaching quantum advantage. However, existing benchmark suites suffer from lack of detail due to indirect access to the control hardware. In this work, we present Q-Profile, a tool to profile quantum control stacks that circumvents these issues by utilizing a direct connection from the host CPU to the control stack, providing fine accuracy in measuring the runtime and allowing to identify performance bottlenecks. We demonstrate the use of our tool by benchmarking the Quantum Approximate Optimization Algorithm (QAOA) on a Qblox Cluster for a virtual 4 to 14-qubit transmon system. Our results identify the major execution bottlenecks in the passive qubit reset and communication overhead. We estimate a 1.40x~speedup with respect to the total runtime by using an active qubit reset, instead of passive reset, and demonstrate a further speedup of 1.37x by parallel initialization of the control modules. The presented method of profiling is applicable to other control-stack providers, as well as to other benchmarks, while still providing detailed information beyond a single metric. By extension, this tool will enable identifying and eliminating bottlenecks for future quantum acceleration. The profiling tool is included in the open-source Quantify quantum control software, which allows support for multiple back-ends.
翻訳日:2023-03-03 13:17:08 公開日:2023-03-02
# 高速単光子検出器による100km水中光ファイバ上の量子鍵分布

Quantum Key Distribution over 100 km underwater optical fiber assisted by a Fast-Gated Single-Photon Detector ( http://arxiv.org/abs/2303.01449v1 )

ライセンス: Link先を確認
Domenico Ribezzo, Mujtaba Zahidy, Gianmarco Lemmi, Antoine Petitjean, Claudia De Lazzari, Ilaria Vagniluca, Enrico Conca, Alberto Tosi, Tommaso Occhipinti, Leif K. Oxenl{\o}we, Andr\`e Xuereb, Davide Bacco and Alessandro Zavatta(参考訳) 現在、量子鍵分布は最も成熟した量子技術であり、複数の国と民間機関が量子ネットワークを構築している。 しかし、QKDデバイスは、すべての人の手の届く範囲で製品を表現するには程遠い。 実際、既存の通信インフラとの互換性の限界や、非極低温検出システムを用いた秘密鍵レートの制限は依然として重要である。 本研究では,2種類の単一光子アバランシェダイオード(spad)検出器を用いて,シチリア(イタリア)とマルタ間の量子鍵分配リンクを実装した。 標準の商用SPADの性能は、パッケージ(SiP)SPADにおける高速ゲートシステム(英語版)の新たなプロトタイプにより達成された結果と比較され、SiP検出器は20dBの損失を示すチャネル上の商用装置と比較して14倍のキーレートを達成できることが示されている。

Nowadays Quantum Key Distribution represents the most mature quantum technology, and multiple countries as well as private institutions are building their quantum network. However, QKD devices are still far from representing a product within everyone's reach. Indeed, limitations in terms of compatibility with existing telecom infrastructure and limited performances in terms of secret key rate, using non-cryogenic detection systems, are still critical. In this work, we implemented a quantum key distribution link between Sicily (Italy) and Malta utilizing two different Single-Photon Avalanche Diode (SPAD) detectors. The performances of a standard commercial SPAD have been compared with the results achieved with a new prototype of fast-gated System in a Package (SiP) SPAD; the SiP detector has shown to be able to accomplish a fourteen times higher key rate compared with the commercial device over the channel showing 20 dB of losses.
翻訳日:2023-03-03 13:16:41 公開日:2023-03-02
# QBism、次は?

QBism, Where Next? ( http://arxiv.org/abs/2303.01446v1 )

ライセンス: Link先を確認
Christopher A. Fuchs(参考訳) 本論文は,数名の現象学哲学者がQB主義に関わり始めて以来の,新鮮な空気の呼吸を表現している。 新たな議論の結果として、この展示の目的は、qbismの構造をできるだけ明確にその聴衆に示すことである。 その過程では、QB主義の8つの段階にたどり着きます。 1) 量子状態はエージェントの個人的判断である。 2) 量子測定は、その外界に対するエージェントの作用である。 3) 量子測定の結果は、その作用を行うエージェントに個人的なものである。 4) 量子形式論は記述よりも規範的である。 5)ユニタリ進化はエージェントの信念の程度も表現する。 6) 確率1の割り当てでさえ、オンティックな内容のない判断である。 7) 結果の主観的確実性は、未達成の測定結果がないことを否定しない。 そして 8) 量子論は,私たち一人ひとりのユーザ理論である。 次に、ウィグナーの友人の思考実験を8つの点から分析し、さらに拡張された分析が量子理論の規範構造の下でのオントロジーを明らかにするためのQBismの確実な道であることを示している。 我々はモーリス・メルロー=ポンティの哲学がこの探求にどのように関係するかという小さな議論で結論付けた。

This paper expresses what a breath of fresh air it has been since a few phenomenological philosophers have started to engage with QBism. In service of the newfound discussion, the aim of this exposition is to lay out the structure of QBism as clearly as possible for that audience. In the process, we arrive at eight tenets for QBism: 1) A quantum state is an agent's personal judgment. 2) A quantum measurement is an agent's action upon its external world. 3) Quantum measurement outcomes are personal to the agent performing the action. 4) The quantum formalism is normative rather than descriptive. 5) Unitary evolution too expresses an agent's degrees of belief. 6) Even probability-one assignments are judgments without ontic content. 7) Subjective certainty about what an outcome will be does not negate that unperformed measurements have no outcomes. And, 8) quantum theory is a single-user theory for each of us. We then analyze the Wigner's friend thought experiment in light of the eight tenets and indicate that a still more extended analysis is potentially QBism's surest path to uncovering an ontology under quantum theory's normative structure. We conclude with a small discussion of how the philosophy of Maurice Merleau-Ponty may be relevant to this quest.
翻訳日:2023-03-03 13:16:28 公開日:2023-03-02
# 機械学習モデルは常識を学ぶか?

Do Machine Learning Models Learn Common Sense? ( http://arxiv.org/abs/2303.01433v1 )

ライセンス: Link先を確認
Aaditya Naik, Yinjun Wu, Mayur Naik, Eric Wong(参考訳) 機械学習モデルは、大量のデータに簡単に隠れる基本的なエラーを作ることができる。 このような誤りは、しばしば「常識」と呼ばれる人間の直観に逆らう。 これにより、データ駆動モデルにおける常識を特徴付け、モデルが常識を学習した程度を定量化する。 本稿では,モデルの学習データから共通感覚ルールを導出するために,統計的推論と論理ベースの手法を統合するフレームワークを提案する。 さらに,テスト時にモデルを適用し,常識規則違反を低減し,より一貫性のある予測を行う方法を示す。 3つの異なるドメインのデータセットとモデルに関するフレームワークを評価する。 これらのデータセットに対して約250~300万のルールを生成し、各データセットの最先端モデルによる1.5万から26万のルール違反を明らかにする。 テストタイム適応は、モデル全体の精度に影響を与えることなく、これらの違反を最大38%削減する。

Machine learning models can make basic errors that are easily hidden within vast amounts of data. Such errors often run counter to human intuition referred to as "common sense". We thereby seek to characterize common sense for data-driven models, and quantify the extent to which a model has learned common sense. We propose a framework that integrates logic-based methods with statistical inference to derive common sense rules from a model's training data without supervision. We further show how to adapt models at test-time to reduce common sense rule violations and produce more coherent predictions. We evaluate our framework on datasets and models for three different domains. It generates around 250 to 300k rules over these datasets, and uncovers 1.5k to 26k violations of those rules by state-of-the-art models for the respective datasets. Test-time adaptation reduces these violations by up to 38% without impacting overall model accuracy.
翻訳日:2023-03-03 13:16:09 公開日:2023-03-02
# WiCE:ウィキペディアにおける主張の現実的エンターテイメント

WiCE: Real-World Entailment for Claims in Wikipedia ( http://arxiv.org/abs/2303.01432v1 )

ライセンス: Link先を確認
Ryo Kamoi, Tanya Goyal, Juan Diego Rodriguez, Greg Durrett(参考訳) テキストによる補足のためのモデルは、ファクトチェック、質問応答における前提検証、生成モデルの出力がソースに忠実であることの検証といった設定にますます適用されている。 しかし、そのようなアプリケーションは既存のデータセットが構築されている設定からかなり遠い。 テキストによるクレームの検証を中心に,wikipedia上の実世界クレームとエビデンスに細かなアノテーションを付加した,新たなテキストインテリメントデータセットであるwiceを提案する。 ウィキペディアで1つ以上のウェブページを引用する文を収集し、そのページ上のコンテンツがそれらの文を含んでいるかどうかを注釈する。 否定的な例は、テキストのわずかな誤解から、証拠に証明されていない文の小さな側面まで自然に現れる。 我々のアノテーションは仮説のサブ文単位の上にあり、GPT-3によって自動的に分解され、それぞれに元文書からの証拠文のサブセットがラベル付けされる。 データセット内の実際のクレームには検証の問題が伴うことを示し、このデータセットに既存のアプローチをベンチマークします。 さらに, gpt-3 によるクレーム分解によるクレームの複雑さの低減は, 様々な領域におけるモデル追従性能を向上させることができることを示す。

Models for textual entailment have increasingly been applied to settings like fact-checking, presupposition verification in question answering, and validating that generation models' outputs are faithful to a source. However, such applications are quite far from the settings that existing datasets are constructed in. We propose WiCE, a new textual entailment dataset centered around verifying claims in text, built on real-world claims and evidence in Wikipedia with fine-grained annotations. We collect sentences in Wikipedia that cite one or more webpages and annotate whether the content on those pages entails those sentences. Negative examples arise naturally, from slight misinterpretation of text to minor aspects of the sentence that are not attested in the evidence. Our annotations are over sub-sentence units of the hypothesis, decomposed automatically by GPT-3, each of which is labeled with a subset of evidence sentences from the source document. We show that real claims in our dataset involve challenging verification problems, and we benchmark existing approaches on this dataset. In addition, we show that reducing the complexity of claims by decomposing them by GPT-3 can improve entailment models' performance on various domains.
翻訳日:2023-03-03 13:15:56 公開日:2023-03-02
# インクリメンタル層デロストによる最適転送プロトコル

Optimal transfer protocol by incremental layer defrosting ( http://arxiv.org/abs/2303.01429v1 )

ライセンス: Link先を確認
Federica Gerace, Diego Doimo, Stefano Sarao Mannelli, Luca Saglietti, Alessandro Laio(参考訳) 転送学習は、限られた量のデータでモデルトレーニングを可能にする強力なツールである。 この技術は、データ可用性が深刻な制限である実世界の問題に特に有用である。 最も単純な転送学習プロトコルは、データ豊富なソースタスクで事前トレーニングされたネットワークの機能抽出層を ``freezing' し、最後の層だけをデータポーアターゲットタスクに適応させる。 このワークフローは、事前トレーニングされたモデルのフィーチャーマップが、ターゲットタスクの十分なデータで学習されたものと定性的に似ているという仮定に基づいている。 本稿では,このプロトコルが最適ではない場合が多く,事前学習したネットワークの小さな部分が凍結された場合,最大性能向上を達成できることを示す。 特に,制御されたフレームワークを用いて最適な転送深度を同定し,利用可能なトレーニングデータ量とソースとターゲットのタスク相関度に非自明に依存することが判明した。 次に、複数の類似度尺度を用いて、ソースとターゲットタスクのスクラッチから訓練された2つのネットワークの内部表現を解析することにより、転送最適性を特徴づける。

Transfer learning is a powerful tool enabling model training with limited amounts of data. This technique is particularly useful in real-world problems where data availability is often a serious limitation. The simplest transfer learning protocol is based on ``freezing" the feature-extractor layers of a network pre-trained on a data-rich source task, and then adapting only the last layers to a data-poor target task. This workflow is based on the assumption that the feature maps of the pre-trained model are qualitatively similar to the ones that would have been learned with enough data on the target task. In this work, we show that this protocol is often sub-optimal, and the largest performance gain may be achieved when smaller portions of the pre-trained network are kept frozen. In particular, we make use of a controlled framework to identify the optimal transfer depth, which turns out to depend non-trivially on the amount of available training data and on the degree of source-target task correlation. We then characterize transfer optimality by analyzing the internal representations of two networks trained from scratch on the source and the target task through multiple established similarity measures.
翻訳日:2023-03-03 13:15:35 公開日:2023-03-02
# 再帰型DRAGによるクロス共振ゲートのコヒーレント誤差の抑制

Suppression of coherent errors in Cross-Resonance gates via recursive DRAG ( http://arxiv.org/abs/2303.01427v1 )

ライセンス: Link先を確認
Boxi Li, Tommaso Calarco, Felix Motzoi(参考訳) 量子論理演算の高精度制御は、量子プロセッサの回路深度を増大させ、有用な量子アルゴリズムを実装し、フォールトトレラントなスケーラブルアーキテクチャに達するための前提条件である。 ゲートの絡み合いに使用されるユビキタスなアプローチは超伝導量子ビットの全てのマイクロウェーブ制御であり、主にクロス共振2量子ビットゲートを使用している。 ここでは,クロスリゾナンスゲートのフィダリティを著しく向上させ,制御量子ビット上の3つのオフリゾナント遷移と位相誤差を抑制する解析スキームを導出する。 これにより、研究対象のパラメータの総コヒーレント誤差を1桁から2桁に効果的に削減できる。 提案手法では,対応する2レベル部分空間のスプリアスカップリングとターゲット量子ビットのキャンセルトーンに対して,ドラッグパルスの単純な再帰的構成を用い,追加の制御ハードウェアを必要としない。

The high-precision control of quantum logical operations is a prerequisite to increasing circuit depths in quantum processors, implementing useful quantum algorithms, and reaching fault-tolerant scalable architectures. A ubiquitous approach used for entangling gates has been all-microwave control of superconducting qubits, primarily using the Cross-Resonance two-qubit gate, however, fidelities are still limited by control imperfections. Here, we derive an analytical scheme that significantly improves fidelities in Cross-Resonance gates, suppressing both the three off-resonant transitions on the control qubit and the phase errors. It effectively reduces the total coherent errors by one to two orders of magnitude across all parameter regimes studied. Our approach uses a simple recursive composition of DRAG pulses derived for each spurious coupling in the corresponding two-level subspace and a cancellation tone on the target qubit, requiring no additional control hardware.
翻訳日:2023-03-03 13:15:16 公開日:2023-03-02
# 設計に基づく等角予測

Design-based conformal prediction ( http://arxiv.org/abs/2303.01422v1 )

ライセンス: Link先を確認
Jerzy Wieczorek(参考訳) 共形予測(conformal prediction)は、ほぼ任意の予測モデルに対して分布のない予測間隔や集合を生成するための仮定-リーンなアプローチである。 共形メソッドは統計学や機械学習において活発な研究テーマであるが、最近になって非交換可能データに拡張された。 本稿では,調査手法学者に共形法の利用と貢献を依頼する。 本稿では, 有限集団に対する設計ベース推論の枠組みの下で, 共形予測が, 複雑なサンプル調査の設計から得られるデータにどのように適用できるかを紹介するとともに, 調査方法論者が有益に適用できるギャップを指摘する。 シミュレーションは有限サンプルカバレッジの理論的な保証を実証し,実データを用いて複雑なサンプル調査データに対してコンフォーメーション予測が適用可能であることを示す。

Conformal prediction is an assumption-lean approach to generating distribution-free prediction intervals or sets, for nearly arbitrary predictive models, with guaranteed finite-sample coverage. Conformal methods are an active research topic in statistics and machine learning, but only recently have they been extended to non-exchangeable data. In this paper, we invite survey methodologists to begin using and contributing to conformal methods. We introduce how conformal prediction can be applied to data from several common complex sample survey designs, under a framework of design-based inference for a finite population, and we point out gaps where survey methodologists could fruitfully apply their expertise. Our simulations empirically bear out the theoretical guarantees of finite-sample coverage, and our real-data example demonstrates how conformal prediction can be applied to complex sample survey data in practice.
翻訳日:2023-03-03 13:14:56 公開日:2023-03-02
# 半パラメトリック言語モデルはスケーラブルな連続学習者である

Semiparametric Language Models Are Scalable Continual Learners ( http://arxiv.org/abs/2303.01421v1 )

ライセンス: Link先を確認
Guangyue Peng, Tao Ge, Si-Qing Chen, Furu Wei, Houfeng Wang(参考訳) 半パラメトリック言語モデル(LM)は、パラメータ化されたニューラルLMと成長可能な非パラメトリックメモリを組み合わせて新しいコンテンツを記憶することで、新しいテキストデータから継続的に学習することを示す。 しかし,非パラメトリックメモリは時間とともに学習するデータ量とともに線形に成長するので,ストリーミングデータによる連続的な学習に適用された場合,従来のセミパラメトリックLMは計算と記憶が禁じられるようになる。 スケーラビリティの問題に対処するため、我々はsemem(selective memorization)と呼ばれるシンプルで直感的なアプローチを提示します。 We demonstrate that SeMem improves the scalability of semiparametric LMs for continual learning over streaming data in two ways: (1) data-wise scalability: as the model becomes stronger through continual learning, it will encounter fewer difficult cases that need to be memorized, causing the growth of the non-parametric memory to slow down over time rather than growing at a linear rate with the size of training data; (2) model-wise scalability: SeMem allows a larger model to memorize fewer samples than its smaller counterpart because it is rarer for a larger model to encounter incomprehensible cases, resulting in a non-parametric memory that does not scale linearly with model size. 本稿では,SeMemの結果をテストするために,言語モデリングと下流タスクの広範な実験を行い,セミパラメトリックLMを,ほとんど忘れずに拡張性のある連続学習者として実現できることを実証した。

Semiparametric language models (LMs) have shown promise in continuously learning from new text data by combining a parameterized neural LM with a growable non-parametric memory for memorizing new content. However, conventional semiparametric LMs will finally become prohibitive for computing and storing if they are applied to continual learning over streaming data, because the non-parametric memory grows linearly with the amount of data they learn from over time. To address the issue of scalability, we present a simple and intuitive approach called Selective Memorization (SeMem), which only memorizes difficult samples that the model is likely to struggle with. We demonstrate that SeMem improves the scalability of semiparametric LMs for continual learning over streaming data in two ways: (1) data-wise scalability: as the model becomes stronger through continual learning, it will encounter fewer difficult cases that need to be memorized, causing the growth of the non-parametric memory to slow down over time rather than growing at a linear rate with the size of training data; (2) model-wise scalability: SeMem allows a larger model to memorize fewer samples than its smaller counterpart because it is rarer for a larger model to encounter incomprehensible cases, resulting in a non-parametric memory that does not scale linearly with model size. We conduct extensive experiments in language modeling and downstream tasks to test SeMem's results, showing SeMem enables a semiparametric LM to be a scalable continual learner with little forgetting.
翻訳日:2023-03-03 13:14:40 公開日:2023-03-02
# 量子ハミルトンの降下

Quantum Hamiltonian Descent ( http://arxiv.org/abs/2303.01471v1 )

ライセンス: Link先を確認
Jiaqi Leng, Ethan Hickman, Joseph Li, Xiaodi Wu(参考訳) 勾配降下は連続最適化の理論と実践の両方において基本的なアルゴリズムである。 量子対向体を同定することは、理論的および実用的な量子アプリケーションの両方にアピールするだろう。 最適化における量子スピードアップの従来のアプローチは、アルゴリズム全体の軌道と解の質を保ちながら、古典的アルゴリズムの中間ステップの量子加速度に依存する。 本稿では、古典勾配勾配アルゴリズムの連続時間制限に言及した力学系の経路積分から導かれる量子ハミルトニアン Descent (QHD) を、古典的に禁止された軌道からの寄与が非凸最適化におけるQHDの性能を大幅に向上させる古典勾配法の真に量子的手法として提案する。 さらに、qhdはデジタル量子コンピュータとアナログ量子コンピュータの両方で効率的にシミュラブルなハミルトン進化として記述される。 いわゆる量子イジングマシン(D-Waveなどを含む)の進化にQHDのダイナミクスを組み込むことにより、D-Waveで実装されたQHDは、最先端の勾配に基づく古典的解法と標準量子アディバティックアルゴリズムの選択を最大75次元の非凸制約2次プログラミングインスタンスで上回っていることを実証的に観察する。 最後に,qhdの挙動,特に量子断熱アルゴリズムとの違いを説明するための「三相図」を提案する。

Gradient descent is a fundamental algorithm in both theory and practice for continuous optimization. Identifying its quantum counterpart would be appealing to both theoretical and practical quantum applications. A conventional approach to quantum speedups in optimization relies on the quantum acceleration of intermediate steps of classical algorithms, while keeping the overall algorithmic trajectory and solution quality unchanged. We propose Quantum Hamiltonian Descent (QHD), which is derived from the path integral of dynamical systems referring to the continuous-time limit of classical gradient descent algorithms, as a truly quantum counterpart of classical gradient methods where the contribution from classically-prohibited trajectories can significantly boost QHD's performance for non-convex optimization. Moreover, QHD is described as a Hamiltonian evolution efficiently simulatable on both digital and analog quantum computers. By embedding the dynamics of QHD into the evolution of the so-called Quantum Ising Machine (including D-Wave and others), we empirically observe that the D-Wave-implemented QHD outperforms a selection of state-of-the-art gradient-based classical solvers and the standard quantum adiabatic algorithm, based on the time-to-solution metric, on non-convex constrained quadratic programming instances up to 75 dimensions. Finally, we propose a "three-phase picture" to explain the behavior of QHD, especially its difference from the quantum adiabatic algorithm.
翻訳日:2023-03-03 13:09:49 公開日:2023-03-02
# 一貫性モデル

Consistency Models ( http://arxiv.org/abs/2303.01469v1 )

ライセンス: Link先を確認
Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever(参考訳) 拡散モデルは、画像、オーディオ、ビデオ生成において大きなブレークスルーをもたらしたが、サンプリング速度を遅くし、リアルタイムアプリケーションにその可能性をもたらす反復生成プロセスに依存している。 この制限を克服するために, 対角的トレーニングを伴わずに, 高い品質を達成できる新しい生成モデルである一貫性モデルを提案する。 設計による高速なワンステップ生成をサポートする一方で、サンプル品質のために計算を交換する数少ないサンプリングも可能である。 また、画像のインペイント、色付け、超解像度といったゼロショットデータ編集もサポートし、これらのタスクを明示的にトレーニングする必要がない。 一貫性モデルは、事前訓練された拡散モデルを蒸留する方法や、独立した生成モデルとして訓練することができる。 実験により, 1段階および数段階の拡散モデルにおいて, 既存の蒸留技術より優れていることを示す。 例えば、CIFAR-10では3.55、ImageNet 64x64では6.20の最先端FIDを1ステップ生成で実現しています。 スタンドアロン生成モデルとしてトレーニングされた場合、一貫性モデルはcifar-10、imagenet 64x64、lsun 256x256のような標準ベンチマークで、シングルステップ、非競合生成モデルよりも優れている。

Diffusion models have made significant breakthroughs in image, audio, and video generation, but they depend on an iterative generation process that causes slow sampling speed and caps their potential for real-time applications. To overcome this limitation, we propose consistency models, a new family of generative models that achieve high sample quality without adversarial training. They support fast one-step generation by design, while still allowing for few-step sampling to trade compute for sample quality. They also support zero-shot data editing, like image inpainting, colorization, and super-resolution, without requiring explicit training on these tasks. Consistency models can be trained either as a way to distill pre-trained diffusion models, or as standalone generative models. Through extensive experiments, we demonstrate that they outperform existing distillation techniques for diffusion models in one- and few-step generation. For example, we achieve the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for one-step generation. When trained as standalone generative models, consistency models also outperform single-step, non-adversarial generative models on standard benchmarks like CIFAR-10, ImageNet 64x64 and LSUN 256x256.
翻訳日:2023-03-03 13:09:24 公開日:2023-03-02
# カメラを用いた心拍推定のためのデータセット作成パイプライン

Dataset Creation Pipeline for Camera-Based Heart Rate Estimation ( http://arxiv.org/abs/2303.01468v1 )

ライセンス: Link先を確認
Mohamed Moustafa, Amr Elrasad, Joseph Lemley, Peter Corcoran(参考訳) 心拍数(Heart rate)は、様々な人間の生理的、心理的情報に対する直感を調査し得る最も重要な健康指標の1つである。 接触型センサーの制約なしに心拍数を推定することは、幅広いシナリオで良好なモニタリングを可能にするため、非常に魅力的な研究分野である。 その結果,従来型画像処理から畳み込み型ディープラーニングモデルやアーキテクチャまで,カメラを用いた心拍数推定手法が開発されている。 このような研究の核心にあるのは、健康とビジュアルデータの取得、クリーニング、トランスフォーメーション、アノテーションです。 本稿では、顔領域の画像から心拍数推定のためのアルゴリズムや機械学習モデルを開発し、テストするタスクのためのデータの作成方法について述べる。 準備されたデータは、カメラフレームと、心電図センサーからのセンサー読み取りを含む。 提案するパイプラインは, 故障データの除去, フレームと心電図のタイムスタンプのデジッタリング, 信号のデノイングとフィルタリング, フレームアノテーション生成の4つのステップに分けられる。 我々は,健康センサとカメラタイムスタンプからジッタを除去する新しい手法と,他のセンサにも応用可能な視覚フレームと心電図センサデータの調整を高精度に行う手法を提案する。

Heart rate is one of the most vital health metrics which can be utilized to investigate and gain intuitions into various human physiological and psychological information. Estimating heart rate without the constraints of contact-based sensors thus presents itself as a very attractive field of research as it enables well-being monitoring in a wider variety of scenarios. Consequently, various techniques for camera-based heart rate estimation have been developed ranging from classical image processing to convoluted deep learning models and architectures. At the heart of such research efforts lies health and visual data acquisition, cleaning, transformation, and annotation. In this paper, we discuss how to prepare data for the task of developing or testing an algorithm or machine learning model for heart rate estimation from images of facial regions. The data prepared is to include camera frames as well as sensor readings from an electrocardiograph sensor. The proposed pipeline is divided into four main steps, namely removal of faulty data, frame and electrocardiograph timestamp de-jittering, signal denoising and filtering, and frame annotation creation. Our main contributions are a novel technique of eliminating jitter from health sensor and camera timestamps and a method to accurately time align both visual frame and electrocardiogram sensor data which is also applicable to other sensor types.
翻訳日:2023-03-03 13:09:05 公開日:2023-03-02
# MoSFPAD: 指紋提示攻撃検出のためのMobileNetとサポートベクトル分類器のエンドツーエンドアンサンブル

MoSFPAD: An end-to-end Ensemble of MobileNet and Support Vector Classifier for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2303.01465v1 )

ライセンス: Link先を確認
Anuj Rai, Somnath Dey, Pradeep Patidar, Prakhar Rai(参考訳) 自動指紋認識システムは、プレゼンテーション攻撃に弱いが、個人認証において最も広く使われているシステムである。 様々な素材の助けを借りて作られた人工アーティファクトは、これらのシステムを欺き、指紋ベースのアプリケーションのセキュリティを脅かしている。 本稿では,指紋提示攻撃を検出する新しいエンドツーエンドモデルを提案する。 提案モデルでは,MobileNetを特徴抽出器として,Support Vector Classifierを分類器として組み込んで,クロスマテリアルおよびクロスセンサーのパラダイムにおける提示攻撃を検出する。 特徴抽出器のパラメータは、サポートベクトル分類器によって生成された損失から学習される。 提案モデルでは,他の静的ハイブリッドアーキテクチャとは異なり,中間データ作成手順の必要性を排除している。 提案モデルの性能は、ベンチマークlivdet 2011、2013、2015、2017、2019のデータベースで検証され、これらのデータベースでそれぞれ98.64%、99.50%、97.23%、95.06%、95.20%の全体的な精度が達成されている。 提案モデルの性能は最先端の手法と比較し,提案手法は平均分類誤差の観点から,クロスマテリアルおよびクロスセンサーのパラダイムにおいて優れる。

Automatic fingerprint recognition systems are the most extensively used systems for person authentication although they are vulnerable to Presentation attacks. Artificial artifacts created with the help of various materials are used to deceive these systems causing a threat to the security of fingerprint-based applications. This paper proposes a novel end-to-end model to detect fingerprint Presentation attacks. The proposed model incorporates MobileNet as a feature extractor and a Support Vector Classifier as a classifier to detect presentation attacks in cross-material and cross-sensor paradigms. The feature extractor's parameters are learned with the loss generated by the support vector classifier. The proposed model eliminates the need for intermediary data preparation procedures, unlike other static hybrid architectures. The performance of the proposed model has been validated on benchmark LivDet 2011, 2013, 2015, 2017, and 2019 databases, and overall accuracy of 98.64%, 99.50%, 97.23%, 95.06%, and 95.20% is achieved on these databases, respectively. The performance of the proposed model is compared with state-of-the-art methods and the proposed method outperforms in cross-material and cross-sensor paradigms in terms of average classification error.
翻訳日:2023-03-03 13:08:43 公開日:2023-03-02
# オンライン関数近似を用いた逆文脈mdpの効率的なレート最適後悔

Efficient Rate Optimal Regret for Adversarial Contextual MDPs Using Online Function Approximation ( http://arxiv.org/abs/2303.01464v1 )

ライセンス: Link先を確認
Orin Levy, Alon Cohen, Asaf Cassel, Yishay Mansour(参考訳) 我々は,敵対的文脈 MDP における後悔最小化のためのOMG-CMDP!アルゴリズムを提案する。 このアルゴリズムは、実現可能な関数クラスとオンライン最小二乗およびログロス回帰オラクルへのアクセスの最小仮定の下で動作する。 我々のアルゴリズムは効率的であり(効率的なオンライン回帰オラクルを仮定する)、近似誤差に対して単純で堅牢である。 これは$\widetilde{O}(H^{2.5} \sqrt{T|S|A| ( \mathcal{R}(\mathcal{O})) + H \log(\delta^{-1}) )})$ regret guarantee, with $T$ is the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, $\mathcal{R}(\mathcal{O}) = \mathcal{R}(\mathcal{O}_{\mathrm{sq}}^\mathcal{F}) + \mathcal{R}(\mathcal{O}_{\mathrm{log}}^\mathcal{P})$$ $T$は、それぞれ退行の和であり、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的。 私たちの知る限りでは、オンライン関数近似の最小標準仮定の下で動作する敵cmdpに対する、最初の効率的なレート最適後悔最小化アルゴリズムである。

We present the OMG-CMDP! algorithm for regret minimization in adversarial Contextual MDPs. The algorithm operates under the minimal assumptions of realizable function class and access to online least squares and log loss regression oracles. Our algorithm is efficient (assuming efficient online regression oracles), simple and robust to approximation errors. It enjoys an $\widetilde{O}(H^{2.5} \sqrt{ T|S||A| ( \mathcal{R}(\mathcal{O}) + H \log(\delta^{-1}) )})$ regret guarantee, with $T$ being the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon and $\mathcal{R}(\mathcal{O}) = \mathcal{R}(\mathcal{O}_{\mathrm{sq}}^\mathcal{F}) + \mathcal{R}(\mathcal{O}_{\mathrm{log}}^\mathcal{P})$ is the sum of the regression oracles' regret, used to approximate the context-dependent rewards and dynamics, respectively. To the best of our knowledge, our algorithm is the first efficient rate optimal regret minimization algorithm for adversarial CMDPs that operates under the minimal standard assumption of online function approximation.
翻訳日:2023-03-03 13:08:03 公開日:2023-03-02
# マージン最大化のためのKKT条件からの線形分類器と漏洩ReLUネットワークの優位オーバーフィッティング

Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from KKT Conditions for Margin Maximization ( http://arxiv.org/abs/2303.01462v1 )

ライセンス: Link先を確認
Spencer Frei and Gal Vardi and Peter L. Bartlett and Nathan Srebro(参考訳) 線形分類器およびロジスティック損失上の勾配流によって訓練されたリークReLUネットワークは、マージン最大化のためにKKT条件を満たす解に対して暗黙の偏りを持つ。 本研究では,これらのKKT条件の満足度が線形分類器や2層リークReLUネットワークにおける良性オーバーフィットを意味するような多くの設定を確立する。 この設定には、以前の研究で考慮されたノイズの多いクラス条件ガウスの変種と、良性オーバーフィッティングがこれまで観測されなかった新しい分布設定が含まれる。 本証明の鍵となる要素は、トレーニングデータがほぼ直交である場合、各マージン最大化問題に対するKKT条件を満たす線形分類器とリークReLUネットワークの両方が、トレーニング例のほぼ一様平均として振る舞うことである。

Linear classifiers and leaky ReLU networks trained by gradient flow on the logistic loss have an implicit bias towards solutions which satisfy the Karush--Kuhn--Tucker (KKT) conditions for margin maximization. In this work we establish a number of settings where the satisfaction of these KKT conditions implies benign overfitting in linear classifiers and in two-layer leaky ReLU networks: the estimators interpolate noisy training data and simultaneously generalize well to test data. The settings include variants of the noisy class-conditional Gaussians considered in previous work as well as new distributional settings where benign overfitting has not been previously observed. The key ingredient to our proof is the observation that when the training data is nearly-orthogonal, both linear classifiers and leaky ReLU networks satisfying the KKT conditions for their respective margin maximization problems behave like a nearly uniform average of the training examples.
翻訳日:2023-03-03 13:07:02 公開日:2023-03-02
# イジングスピンモデルにおける古典データ表現における創発的秩序

Emergent Order in Classical Data Representations on Ising Spin Models ( http://arxiv.org/abs/2303.01461v1 )

ライセンス: Link先を確認
Jorja J. Kirk and Matthew D. Jackson and Daniel J.M. King and Philip Intallura and Mekena Metcalf(参考訳) 量子スピンハミルトニアン上の古典的なデータを符号化すると、二進分類のためのデータ型を識別するために使われる順序付けられたスピン基底状態が得られる。 イジング・ハミルトニアン(Ising Hamiltonian)は、古典的なデータを量子ビットに符号化する典型的なスピンモデルである。 2種類のデータを含む3つのデータセットで符号化されたイジング・ハミルトニアンの基底状態を評価する。 符号化されたイジングハミルトニアンの基底状態を用いて、あるデータクラスを予測する新しい手法を提案する。 基底状態観測は量子コンピュータ上で量子シミュレーションによって得られ、期待値は状態空間上の古典的な確率分布を構築するために用いられる。 我々のアプローチは指数関数的に大きい特徴空間の低次元表現である。 反強磁性基底状態は、1次元鎖格子と2次元二乗格子の安定な基底状態である。 フラストレーションはデータで符号化された三角格子上の一意な順序状態を引き起こし、モデルの基礎となる位相図の可能性を示す。 データスケーリングとデータノイズによる順序安定性について検討する。

Encoding classical data on quantum spin Hamiltonians yields ordered spin ground states which are used to discriminate data types for binary classification. The Ising Hamiltonian is a typical spin model to encode classical data onto qubits, known as the ZZ feature map. We assess the ground states of the Ising Hamiltonian encoded with three separate data sets containing two classes of data. A new methodology is proposed to predict a certain data class using the ground state of the encoded Ising Hamiltonian. Ground state observables are obtained through quantum simulation on a quantum computer, and the expectation values are used to construct a classical probability distribution on the state space. Our approach is a low dimensional representation of the exponentially large feature space. The antiferromagnetic ground state is the stable ground state for the one dimensional chain lattice and the 2D square lattice. Frustration induces unique ordered states on the triangle lattice encoded with data, hinting at the possibility for an underlying phase diagram for the model. We examine order stability with data scaling and data noise.
翻訳日:2023-03-03 13:06:43 公開日:2023-03-02
# 入射バイアスの二重刃刀:ReLUネットワークにおける一般化対ロバストネス

The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness in ReLU Networks ( http://arxiv.org/abs/2303.01456v1 )

ライセンス: Link先を確認
Spencer Frei and Gal Vardi and Peter L. Bartlett and Nathan Srebro(参考訳) 本研究では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角ロバスト性に与える影響について検討する。 我々は,クラスタを構成するデータとクラスタ平均間の相関が小さい設定に注目し,2層reluネットワークでは勾配フローが一般化する解に対して偏っているが,逆の例には非常に弱いことを示す。 ネットワークがトレーニング例よりも多くのパラメータを持つ場合にも結果が得られます。 このような過パラメータ設定において有害な過剰フィッティングの可能性にもかかわらず、勾配流の暗黙のバイアスがそれを防ぐことを証明している。 しかし、暗黙のバイアスは、データに適合するロバストなネットワークが存在するにもかかわらず、非ロバスト解(小さな敵である$\ell_2$-perturbation)につながる。

In this work, we study the implications of the implicit bias of gradient flow on generalization and adversarial robustness in ReLU networks. We focus on a setting where the data consists of clusters and the correlations between cluster means are small, and show that in two-layer ReLU networks gradient flow is biased towards solutions that generalize well, but are highly vulnerable to adversarial examples. Our results hold even in cases where the network has many more parameters than training examples. Despite the potential for harmful overfitting in such overparameterized settings, we prove that the implicit bias of gradient flow prevents it. However, the implicit bias also leads to non-robust solutions (susceptible to small adversarial $\ell_2$-perturbations), even though robust networks that fit the data exist.
翻訳日:2023-03-03 13:06:26 公開日:2023-03-02
# 群衆における接触型ナビゲーションの学習

Learning Contact-based Navigation in Crowds ( http://arxiv.org/abs/2303.01455v1 )

ライセンス: Link先を確認
Kyle Morgenstein, Junfeng Jiao, Luis Sentis(参考訳) 衝突のない社会ナビゲーションはよく研究されている問題だが、密集した環境での人間との接触(すなわち「接触に基づく」社会ナビゲーション)を意図的に取り入れるナビゲーション戦略はほとんど探索されていない。 従来の社会ナビゲーションフレームワークでは、衝突が差し迫ったときにロボットが突然停止するか「凍結」する必要がある。 このパラダイムは2つの問題をもたらします 1)群集を案内しながら凍らせると、人々がロボットを乗り越えたり転んだりする可能性があり、衝突自体よりも害が高まる。 2)衝突が避けられない非常に密集した社会環境では,このような制御スキームによってロボットの移動が不可能になり,人間がロボットをこれらの環境に組み込む方法を研究する機会が妨げられる。 しかし、もしロボットが混雑した街路、地下鉄、店舗、その他の人口密集地などの社会空間に有意義に含まれているなら、衝突をゼロにできる軌道は存在しないかもしれない。 したがって、これらの環境におけるロボットの採用は、連絡先を安全に計画し対応できる最小限の破壊的なナビゲーションプランの開発を必要とする。 本研究では,全方向移動ロボットの安全な接触を利用して,密集した社会環境をナビゲートする学習型モーションプランナと制御手法を提案する。 このプランナーは、1平方メートルあたり0.0から1.6人の群衆密度が変化する360回の試験で評価される。 私たちのナビゲーションスキームは、以前報告されたよりも高い密度の群衆を安全にナビゲートするためにコンタクトを利用することができます。

Navigation strategies that intentionally incorporate contact with humans (i.e. "contact-based" social navigation) in crowded environments are largely unexplored even though collision-free social navigation is a well studied problem. Traditional social navigation frameworks require the robot to stop suddenly or "freeze" whenever a collision is imminent. This paradigm poses two problems: 1) freezing while navigating a crowd may cause people to trip and fall over the robot, resulting in more harm than the collision itself, and 2) in very dense social environments where collisions are unavoidable, such a control scheme would render the robot unable to move and preclude the opportunity to study how humans incorporate robots into these environments. However, if robots are to be meaningfully included in crowded social spaces, such as busy streets, subways, stores, or other densely populated locales, there may not exist trajectories that can guarantee zero collisions. Thus, adoption of robots in these environments requires the development of minimally disruptive navigation plans that can safely plan for and respond to contacts. We propose a learning-based motion planner and control scheme to navigate dense social environments using safe contacts for an omnidirectional mobile robot. The planner is evaluated in simulation over 360 trials with crowd densities varying between 0.0 and 1.6 people per square meter. Our navigation scheme is able to use contact to safely navigate in crowds of higher density than has been previously reported, to our knowledge.
翻訳日:2023-03-03 13:06:10 公開日:2023-03-02
# 専門家による学習のための空間境界の改善

Improved Space Bounds for Learning with Experts ( http://arxiv.org/abs/2303.01453v1 )

ライセンス: Link先を確認
Anders Aamand, Justin Y. Chen, Huy L\^e Nguyen, and Sandeep Silwal(参考訳) 私たちは空間間のトレードオフを改善し、専門家のアドバイスでオンライン学習に後悔しています。 空間予算が$n^{\delta}$ for $\delta \in (0,1)$を与えられた場合、[PZ23] の最近の研究において、後悔すべき$\tilde{O}(n^2 T^{1/(1+\delta)})$に対して、後悔すべき$\tilde{O}(n^2 T^{2/(2+\delta)})$を改善するアルゴリズムを提供する。 この改善は、我々のアルゴリズムの後悔が、スペース制限のない標準オンライン設定における$T$依存と一致する$\tilde{O}_n(\sqrt{T})$に近づく体制において特に有益である。

We give improved tradeoffs between space and regret for the online learning with expert advice problem over $T$ days with $n$ experts. Given a space budget of $n^{\delta}$ for $\delta \in (0,1)$, we provide an algorithm achieving regret $\tilde{O}(n^2 T^{1/(1+\delta)})$, improving upon the regret bound $\tilde{O}(n^2 T^{2/(2+\delta)})$ in the recent work of [PZ23]. The improvement is particularly salient in the regime $\delta \rightarrow 1$ where the regret of our algorithm approaches $\tilde{O}_n(\sqrt{T})$, matching the $T$ dependence in the standard online setting without space restrictions.
翻訳日:2023-03-03 13:05:45 公開日:2023-03-02
# 真のラベルを用いた言語多様性の識別

Language Variety Identification with True Labels ( http://arxiv.org/abs/2303.01490v1 )

ライセンス: Link先を確認
Marcos Zampieri, Kai North, Tommi Jauhiainen, Mariano Felice, Neha Kumari, Nishant Nair, Yash Bangera(参考訳) 言語識別は多くのIRおよびNLPアプリケーションにおいて重要な第一歩である。 しかし、ほとんどの公開言語識別データセットは、各インスタンスのゴールドラベルがテキストの取得場所によって決定されるという仮定の下でコンパイルされる。 これは特に、非常に類似した言語(クロアチア語やセルビア語など)や、ブラジル語やヨーロッパ・ポルトガル語など)において問題となる仮定であり、テキストには特定の言語や品種の識別マーカーが含まれていない可能性がある。 この重要な制限を克服するために,本論文では,言語多様性識別のための最初の人間アノテーション付き多言語データセットであるDSL-TLを提案する。 dsl-tlは、ポルトガル語で12,900件、ポルトガル語とブラジルポルトガル語で分割、スペイン語でアルゼンチン語とカスティーリャ語に分割、英語でアメリカ英語とイギリス英語に分割されている。 我々はこれらの言語品種を識別するために複数のモデルを訓練し、その結果を詳細に提示した。 本論文で提示されたデータとモデルは,頑健で公平な言語多様性識別システムの開発に向けた,信頼性の高いベンチマークを提供する。 DSL-TLを研究コミュニティに無償で提供します。

Language identification is an important first step in many IR and NLP applications. Most publicly available language identification datasets, however, are compiled under the assumption that the gold label of each instance is determined by where texts are retrieved from. Research has shown that this is a problematic assumption, particularly in the case of very similar languages (e.g., Croatian and Serbian) and national language varieties (e.g., Brazilian and European Portuguese), where texts may contain no distinctive marker of the particular language or variety. To overcome this important limitation, this paper presents DSL True Labels (DSL-TL), the first human-annotated multilingual dataset for language variety identification. DSL-TL contains a total of 12,900 instances in Portuguese, split between European Portuguese and Brazilian Portuguese; Spanish, split between Argentine Spanish and Castilian Spanish; and English, split between American English and British English. We trained multiple models to discriminate between these language varieties, and we present the results in detail. The data and models presented in this paper provide a reliable benchmark toward the development of robust and fairer language variety identification systems. We make DSL-TL freely available to the research community.
翻訳日:2023-03-03 12:59:27 公開日:2023-03-02
# 自己改善型ロボット: エンドツーエンドの自律型バイスモータ強化学習

Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning ( http://arxiv.org/abs/2303.01488v1 )

ライセンス: Link先を確認
Archit Sharma, Ahmed M. Ahmed, Rehaan Ahmad, Chelsea Finn(参考訳) 模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。 目的は、人間による最小限の監督や監視との自律的な相互作用から、自分自身で学び、改善できるロボットを構築することである。 このようなロボットは、より大きなデータセットを収集し、訓練することで、より堅牢でパフォーマンスの高いポリシーを学ぶことができる。 強化学習は、試行錯誤による自律学習のためのフレームワークを提供するが、実用的な実現には、報酬機能設計のための広範な人間の監督が必要となり、対話のエピソード間の環境の再設定が繰り返される。 本研究は,自己改善型ロボットシステムのための新しい設計であるMEDAL++を提案する。ロボットは,当初,少数の専門家によるデモンストレーションを前提として,タスクの実施と解除を学習することでタスクを自律的に実行し,同時にデモンストレーションから報酬関数を推定する。 ポリシーと報酬関数は高次元視覚入力からエンドツーエンドに学習され、前処理で使用される視覚エンコーダの明示的な状態推定やタスク固有の事前学習の必要性を回避している。 我々はまず,提案アルゴリズムをシミュレーションされた非エポゾディックベンチマークEARLで評価し,MEDAL++の方がデータ効率が良く,最先端のビジョンベース手法に比べて30%高い結果を得た。 実ロボット実験の結果,desald++は従来の作業よりも大きな環境における操作問題に適用可能であり,自律的自己改善は,専門家データのみを用いた行動クローンよりも30~70%向上することが示された。 コード、トレーニング、評価ビデオと簡単な概要は、https://architsharma97.github.io/self-improving-robots/で見ることができる。

In imitation and reinforcement learning, the cost of human supervision limits the amount of data that robots can be trained on. An aspirational goal is to construct self-improving robots: robots that can learn and improve on their own, from autonomous interaction with minimal human supervision or oversight. Such robots could collect and train on much larger datasets, and thus learn more robust and performant policies. While reinforcement learning offers a framework for such autonomous learning via trial-and-error, practical realizations end up requiring extensive human supervision for reward function design and repeated resetting of the environment between episodes of interactions. In this work, we propose MEDAL++, a novel design for self-improving robotic systems: given a small set of expert demonstrations at the start, the robot autonomously practices the task by learning to both do and undo the task, simultaneously inferring the reward function from the demonstrations. The policy and reward function are learned end-to-end from high-dimensional visual inputs, bypassing the need for explicit state estimation or task-specific pre-training for visual encoders used in prior work. We first evaluate our proposed algorithm on a simulated non-episodic benchmark EARL, finding that MEDAL++ is both more data efficient and gets up to 30% better final performance compared to state-of-the-art vision-based methods. Our real-robot experiments show that MEDAL++ can be applied to manipulation problems in larger environments than those considered in prior work, and autonomous self-improvement can improve the success rate by 30-70% over behavior cloning on just the expert data. Code, training and evaluation videos along with a brief overview is available at: https://architsharma97.github.io/self-improving-robots/
翻訳日:2023-03-03 12:59:07 公開日:2023-03-02
# quAssert: 量子アサーションの自動生成

quAssert: Automatic Generation of Quantum Assertions ( http://arxiv.org/abs/2303.01487v1 )

ライセンス: Link先を確認
Hasini Witharana, Daniel Volya and Prabhat Mishra(参考訳) 量子計算中にエラーを検出するには機能検証が必要である。 実行時アサーションを使用して量子回路をデバッグする、有望な方法がある。 しかし、既存のアプローチは検証エンジニアの専門知識に頼り、適切な場所にアサーションを手動で設計し挿入する。 本稿では,量子回路の静的解析とランダムサンプリングに基づく量子アサーションの自動生成と配置を提案する。 具体的には,二つの重要な貢献を述べる。 我々は、純粋古典状態、重ね合わせ状態、および絡み合った状態などの量子回路の特殊特性を統計的手法で自動的に発見する。 また、機能カバレッジを最大化し、ハードウェアオーバーヘッドを最小限に抑えるために、量子アサーションの自動配置も行います。 shorのファクタリングアルゴリズムやgroverの検索アルゴリズムを含む一連の量子ベンチマークを用いて、エラー検出における生成されたアサーションの有効性を実証する。

Functional validation is necessary to detect any errors during quantum computation. There are promising avenues to debug quantum circuits using runtime assertions. However, the existing approaches rely on the expertise of the verification engineers to manually design and insert the assertions in suitable locations. In this paper, we propose automated generation and placement of quantum assertions based on static analysis and random sampling of quantum circuits. Specifically, this paper makes two important contributions. We automatically uncover special properties of a quantum circuit, such as purely classical states, superposition states, and entangled states using statistical methods. We also perform automated placement of quantum assertions to maximize the functional coverage as well as minimize the hardware overhead. We demonstrate the effectiveness of the generated assertions in error detection using a suite of quantum benchmarks, including Shor's factoring algorithm and Grover's search algorithm.
翻訳日:2023-03-03 12:58:34 公開日:2023-03-02
# ニューラルネットワークにおける可塑性の理解

Understanding plasticity in neural networks ( http://arxiv.org/abs/2303.01486v1 )

ライセンス: Link先を確認
Clare Lyle, Zeyu Zheng, Evgenii Nikishin, Bernardo Avila Pires, Razvan Pascanu, Will Dabney(参考訳) 深層強化学習システムの適応性と頑健性には,ニューラルネットワークが新たな情報に応答して予測を迅速に変化させる能力である可塑性が不可欠である。 深層ニューラルネットワークは、比較的単純な学習問題であっても、トレーニングの過程で可塑性を失うことが知られているが、この現象を駆動するメカニズムはまだよく分かっていない。 本稿では, 可塑性損失の系統的解析を行い, この現象を機械的に理解し, 対象とするソリューションの今後の発展を導くことを目的とする。 可塑性の損失は、損失ランドスケープの曲率の変化と深く結びついているが、通常は飽和単位や分岐勾配の基準が存在しない場合に発生する。 この知見に基づいて、ネットワークがトレーニングの過程で可塑性をよりよく維持できるようなパラメータ化と最適化設計の選択肢を多数特定する。 アーケード学習環境を訓練した深層RLエージェントに対して,最も優れた介入,層正規化を適用して,大規模学習問題におけるこれらの知見の有用性を検証する。

Plasticity, the ability of a neural network to quickly change its predictions in response to new information, is essential for the adaptability and robustness of deep reinforcement learning systems. Deep neural networks are known to lose plasticity over the course of training even in relatively simple learning problems, but the mechanisms driving this phenomenon are still poorly understood. This paper conducts a systematic empirical analysis into plasticity loss, with the goal of understanding the phenomenon mechanistically in order to guide the future development of targeted solutions. We find that loss of plasticity is deeply connected to changes in the curvature of the loss landscape, but that it typically occurs in the absence of saturated units or divergent gradient norms. Based on this insight, we identify a number of parameterization and optimization design choices which enable networks to better preserve plasticity over the course of training. We validate the utility of these findings in larger-scale learning problems by applying the best-performing intervention, layer normalization, to a deep RL agent trained on the Arcade Learning Environment.
翻訳日:2023-03-03 12:58:21 公開日:2023-03-02
# 毎日の物体を聴くための運動計画予測

Predicting Motion Plans for Articulating Everyday Objects ( http://arxiv.org/abs/2303.01484v1 )

ライセンス: Link先を確認
Arjun Gupta, Max E. Shepherd, Saurabh Gupta(参考訳) ドアを開いたり、引き出しを開けたり、トイレの蓋を持ち上げたりといった移動操作は、環境やタスクの制約の下でエンドエフェクタの動作を制限する必要がある。 これは、新しい環境における部分的な情報と組み合わさって、テスト時に古典的な動き計画手法を採用することが困難になる。 我々の重要な洞察は、同様の計画問題の解決における過去の経験を活用して、新しい状況下でのモバイル操作タスクの動作計画を直接予測することである。 そこで我々は,実場面に配置した調音物体をシミュレートするシミュレータartobjsimを開発した。 次に、動き計画の高速かつ柔軟な表現であるSeqIK+$\theta_0$を紹介する。 最後に、SeqIK+$\theta_0$を使用して、テスト時に新しいオブジェクトを記述するための動きプランを迅速に予測するモデルを学習する。 実験評価の結果, 純粋探索法や純粋学習法よりも, 運動計画生成の速度と精度が向上した。

Mobile manipulation tasks such as opening a door, pulling open a drawer, or lifting a toilet lid require constrained motion of the end-effector under environmental and task constraints. This, coupled with partial information in novel environments, makes it challenging to employ classical motion planning approaches at test time. Our key insight is to cast it as a learning problem to leverage past experience of solving similar planning problems to directly predict motion plans for mobile manipulation tasks in novel situations at test time. To enable this, we develop a simulator, ArtObjSim, that simulates articulated objects placed in real scenes. We then introduce SeqIK+$\theta_0$, a fast and flexible representation for motion plans. Finally, we learn models that use SeqIK+$\theta_0$ to quickly predict motion plans for articulating novel objects at test time. Experimental evaluation shows improved speed and accuracy at generating motion plans than pure search-based methods and pure learning methods.
翻訳日:2023-03-03 12:58:04 公開日:2023-03-02
# Koopman Observablesとしての補助関数:動的システムのデータ駆動多項式最適化

Auxiliary Functions as Koopman Observables: Data-Driven Polynomial Optimization for Dynamical Systems ( http://arxiv.org/abs/2303.01483v1 )

ライセンス: Link先を確認
Jason J. Bramburger and Giovanni Fantuzzi(参考訳) 本稿では,明示的なモデル発見を必要としない動的システム解析のための柔軟なデータ駆動手法を提案する。 この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。 この手法は決定論的あるいは確率的なプロセスによってデータが生成されるかどうかを知らないため、これらのシナリオに対応するためにユーザが事前に調整する必要はない。 厳密な収束の結果は、この方法の適用性を正当化すると同時に、文献全体から同様の結果を拡張および統一する。 Lyapunov関数の発見や、決定論的および確率的力学のエルゴード最適化の例は、これらの収束結果を例示し、その手法の性能を示す。

We present a flexible data-driven method for dynamical system analysis that does not require explicit model discovery. The method is rooted in well-established techniques for approximating the Koopman operator from data and is implemented as a semidefinite program that can be solved numerically. The method is agnostic of whether data is generated through a deterministic or stochastic process, so its implementation requires no prior adjustments by the user to accommodate these different scenarios. Rigorous convergence results justify the applicability of the method, while also extending and uniting similar results from across the literature. Examples on discovering Lyapunov functions and on performing ergodic optimization for both deterministic and stochastic dynamics exemplify these convergence results and demonstrate the performance of the method.
翻訳日:2023-03-03 12:57:48 公開日:2023-03-02
# fluxonium qubits のフリップチップパッケージング

Flip-Chip Packaging of Fluxonium Qubits ( http://arxiv.org/abs/2303.01481v1 )

ライセンス: Link先を確認
Aaron Somoroff, Patrick Truitt, Adam Weis, Jacob Bernhardt, Daniel Yohannes, Jason Walter, Konstantin Kalashnikov, Raymond A. Mencia, Igor V. Vernik, Oleg Mukhanov, Maxim G. Vavilov, and Vladimir E. Manucharyan(参考訳) 量子情報プロセッサの実装には,フラックスニウム超伝導回路固有の強いアンハーモニック性と高いコヒーレンスタイムが有効である。 高品質な物理キュービットを必要とすることに加えて、クロストークとデコヒーレンスを低減する方法で量子プロセッサを組み立てる必要がある。 本稿では,flip-chipアーキテクチャでパッケージ化されたfluxonium qubitsについて報告する。 ここで、フラックスニウム量子ビットはマルチチップモジュール(mcm)に埋め込まれ、量子チップに古典的な制御および読み出しチップがバンプ結合される。 モジュラーアプローチにより、キュービットと制御/読み出し要素間の接続性が向上し、別々の製造プロセスが可能になる。 この構成はフラキソニウム量子ビット性能を劣化させることなく, 報告結果を改善するための主要なデコヒーレンス機構を同定する。

The strong anharmonicity and high coherence times inherent to fluxonium superconducting circuits are beneficial for implementing quantum information processors. In addition to requiring high-quality physical qubits, a quantum processor needs to be assembled in a manner that reduces crosstalk and decoherence. In this letter, we report work on fluxonium qubits packaged in a flip-chip architecture. Here, the fluxonium qubits are embedded in a multi-chip module (MCM), where a classical control and readout chip is bump-bonded to the quantum chip. The modular approach allows for improved connectivity between qubits and control/readout elements, and separate fabrication processes. We demonstrate that this configuration does not degrade the fluxonium qubit performance, and identify the main decoherence mechanisms to improve on the reported results.
翻訳日:2023-03-03 12:57:34 公開日:2023-03-02
# 任意モードセマンティックセマンティックセグメンテーションの提供

Delivering Arbitrary-Modal Semantic Segmentation ( http://arxiv.org/abs/2303.01480v1 )

ライセンス: Link先を確認
Jiaming Zhang, Ruiping Liu, Hao Shi, Kailun Yang, Simon Rei{\ss}, Kunyu Peng, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen(参考訳) マルチモーダル融合はセマンティックセグメンテーションをより堅牢にする。 しかし、任意の数のモダリティを融合することは未定である。 この問題を解決するために、DeLiVERの任意のモーダルセグメンテーションベンチマークを作成し、Depth、LiDAR、複数ビュー、イベント、RGBをカバーする。 これとは別に、このデータセットを4つの厳しい気象条件と5つのセンサー故障事例で提供し、相互補完性を活用し、部分的停止を解決する。 これを可能にするために、任意のクロスモーダルセグメンテーションモデルCMNeXtを提案する。 自己クエリハブ(SQ-Hub)は、その後のRGB表現との融合のために任意のモダリティから有効情報を抽出し、追加のモダリティに対して無視可能な量のパラメータ(~0.01M)のみを追加するように設計されている。 さらに, 補助的モダリティから識別的手がかりを効率的かつ柔軟に抽出するために, 単純並列プーリングミキサー(ppx)を提案する。 CMNeXtは、合計6つのベンチマークに関する広範な実験により、DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF、MCubeSデータセットの最先端のパフォーマンスを実現し、1から81のモダリティのスケールを可能にします。 新たに収集されたデリーバーでは、クアッドモーダルCMNeXtはmIoUで66.30%まで上昇し、モノモーダルベースラインに比べて+9.10%上昇した。 DeLiVERのデータセットとコードは以下のとおりです。

Multimodal fusion can make semantic segmentation more robust. However, fusing an arbitrary number of modalities remains underexplored. To delve into this problem, we create the DeLiVER arbitrary-modal segmentation benchmark, covering Depth, LiDAR, multiple Views, Events, and RGB. Aside from this, we provide this dataset in four severe weather conditions as well as five sensor failure cases to exploit modal complementarity and resolve partial outages. To make this possible, we present the arbitrary cross-modal segmentation model CMNeXt. It encompasses a Self-Query Hub (SQ-Hub) designed to extract effective information from any modality for subsequent fusion with the RGB representation and adds only negligible amounts of parameters (~0.01M) per additional modality. On top, to efficiently and flexibly harvest discriminative cues from the auxiliary modalities, we introduce the simple Parallel Pooling Mixer (PPX). With extensive experiments on a total of six benchmarks, our CMNeXt achieves state-of-the-art performance on the DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF, and MCubeS datasets, allowing to scale from 1 to 81 modalities. On the freshly collected DeLiVER, the quad-modal CMNeXt reaches up to 66.30% in mIoU with a +9.10% gain as compared to the mono-modal baseline. The DeLiVER dataset and our code are at: https://jamycheung.github.io/DELIVER.html.
翻訳日:2023-03-03 12:57:21 公開日:2023-03-02
# ゼロノレッジ証明からのオブリベージ変換、またはラウンドオプティマイズ量子オブリベージ変換とゼロノレッジ証明の量子状態への実現方法

Oblivious Transfer from Zero-Knowledge Proofs, or How to Achieve Round-Optimal Quantum Oblivious Transfer and Zero-Knowledge Proofs on Quantum States ( http://arxiv.org/abs/2303.01476v1 )

ライセンス: Link先を確認
L\'eo Colisson, Garazi Muguruza and Florian Speelman(参考訳) 従来のZero-Knowledge(ZK)プロトコルを構成可能な(量子)オブリバストトランスファー(OT)プロトコルに変換する汎用的な構成を提供し、ZKプロトコルのラウンドコンプレクティリティ特性とセキュリティ保証(プレーンモデル/統計セキュリティ/非構造化関数...)を、結果のOTプロトコルに変換する。 このような構成は、MinicryptとCryptomaniaが異なるため、古典的には存在しない。 特に、Non-Interactive ZK (NIZK) を用いて構成をインスタンス化することにより、ランダムオラクルモデルにセキュアな第1ラウンド最適(2メッセージ)量子OTプロトコルと、文字列およびk-out-n OTへのラウンド最適拡張を提供する。 私たちの構築の核心には、適切な古典的zkプロトコルを使用する場合であっても、非対話的な方法でも、あるいは統計的な保証を持っても、受信した量子状態のプロパティを明かさずに証明できる新しい方法があります。 特に、ある状態が部分的に測定されたことを証明することができる(測定された量子ビットの集合に任意の制約を課す)。 この概念はZKの量子状態への類似と見なすことができ、ZKstateQIP と ZKstateQMA という2つの新しい複雑性クラスで示されるように、複雑性理論を量子言語に拡張することで、独立した関心を持つものと期待できる。

We provide a generic construction to turn any classical Zero-Knowledge (ZK) protocol into a composable (quantum) oblivious transfer (OT) protocol, mostly lifting the round-complexity properties and security guarantees (plain-model/statistical security/unstructured functions...) of the ZK protocol to the resulting OT protocol. Such a construction is unlikely to exist classically as Cryptomania is believed to be different from Minicrypt. In particular, by instantiating our construction using Non-Interactive ZK (NIZK), we provide the first round-optimal (2-message) quantum OT protocol secure in the random oracle model, and round-optimal extensions to string and k-out-of-n OT. At the heart of our construction lies a new method that allows us to prove properties on a received quantum state without revealing (too much) information on it, even in a non-interactive way and/or with statistical guarantees when using an appropriate classical ZK protocol. We can notably prove that a state has been partially measured (with arbitrary constraints on the set of measured qubits), without revealing any additional information on this set. This notion can be seen as an analog of ZK to quantum states, and we expect it to be of independent interest as it extends complexity theory to quantum languages, as illustrated by the two new complexity classes we introduce, ZKstateQIP and ZKstateQMA.
翻訳日:2023-03-03 12:56:52 公開日:2023-03-02
# Mixup May Hurt Generalizationによるオーバートレーニング

Over-training with Mixup May Hurt Generalization ( http://arxiv.org/abs/2303.01475v1 )

ライセンス: Link先を確認
Zixuan Liu, Ziqiao Wang, Hongyu Guo, Yongyi Mao(参考訳) ランダムなサンプルペアを線形補間することで合成トレーニングインスタンスを生成するMixupは、SGDでトレーニングされた深層モデルの性能を高めるための、シンプルで効果的な正規化手法である。 本研究では,Mixupトレーニングにおいてこれまで観測されていなかった現象を報告する。多くの標準データセットにおいて,Mixupトレーニングモデルの性能は,多数のエポックに対するトレーニング後に低下し,U字型一般化曲線が生じる。 この挙動は、元のデータセットのサイズが小さくなるとさらに悪化する。 このようなミックスアップの挙動を理解するために,ミックスアップ学習が不要なデータ依存ラベルノイズを合成データに導入することを理論的に示す。 ランダムな特徴モデルを用いて最小二乗回帰問題を解析することにより、ノイズラベルがU字曲線を生じさせる理由を説明できる: 混合は、初期のトレーニング段階でクリーンパターンを適合させることにより一般化を改善するが、訓練が進むにつれて、混合は合成データのノイズに過度に適合する。 様々なベンチマークデータセットで広範な実験が行われ、この説明を検証する。

Mixup, which creates synthetic training instances by linearly interpolating random sample pairs, is a simple and yet effective regularization technique to boost the performance of deep models trained with SGD. In this work, we report a previously unobserved phenomenon in Mixup training: on a number of standard datasets, the performance of Mixup-trained models starts to decay after training for a large number of epochs, giving rise to a U-shaped generalization curve. This behavior is further aggravated when the size of original dataset is reduced. To help understand such a behavior of Mixup, we show theoretically that Mixup training may introduce undesired data-dependent label noises to the synthesized data. Via analyzing a least-square regression problem with a random feature model, we explain why noisy labels may cause the U-shaped curve to occur: Mixup improves generalization through fitting the clean patterns at the early training stage, but as training progresses, Mixup becomes over-fitting to the noise in the synthetic data. Extensive experiments are performed on a variety of benchmark datasets, validating this explanation.
翻訳日:2023-03-03 12:56:20 公開日:2023-03-02
# FeatAug-DETR:機能拡張によるDETRの1対1マッチング強化

FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature Augmentation ( http://arxiv.org/abs/2303.01503v1 )

ライセンス: Link先を確認
Rongyao Fang, Peng Gao, Aojun Zhou, Yingjie Cai, Si Liu, Jifeng Dai, Hongsheng Li(参考訳) 1対1のマッチングは、DETRのようなオブジェクト検出フレームワークにおいて重要な設計である。 これにより、DETRはエンドツーエンド検出を行うことができる。 しかし、ポジティブなサンプル監視や収束速度の遅い問題にも直面している。 いくつかの最近の研究で、トレーニングを加速し、検出性能を向上する1対1のマッチング機構が提案されている。 我々は、これらのメソッドを再検討し、オブジェクトクエリを補完する統一フォーマットでモデル化する。 本稿では,画像や画像の特徴の異なる視点から一対多マッチングを実現する2つの手法を提案する。 最初の方法は、データ拡張(dataaug-detr)による1対1のマッチングである。 空間的に画像を変換し、同じトレーニングバッチで各イメージの複数の拡張バージョンを含む。 このような単純な拡張戦略はすでに1対1のマッチングを実現しており、DETRの性能は驚くほど向上している。 第2の方法は、機能拡張(feataug-detr)による1対1のマッチングである。 DataAug-DETRとは異なり、元のイメージの代わりにイメージ機能を拡張し、同じバッチに複数の拡張機能を備え、ワンツーマンマッチングを実現する。 FeatAug-DETRはDETRトレーニングを著しく加速し、推論速度を一定に保ちながら検出性能を向上させる。 我々は,DAB-DETR,Deformable-DETR,H-Deformable-DETRなど,提案手法の有効性を評価するための広範囲な実験を行った。 FeatAug-DETRは追加のトレーニングデータなしで、Deformable-DETRのトレーニング収束期間を24時間に短縮し、Swin-LをバックボーンとするCOCO val2017上で58.3 APを達成した。

One-to-one matching is a crucial design in DETR-like object detection frameworks. It enables the DETR to perform end-to-end detection. However, it also faces challenges of lacking positive sample supervision and slow convergence speed. Several recent works proposed the one-to-many matching mechanism to accelerate training and boost detection performance. We revisit these methods and model them in a unified format of augmenting the object queries. In this paper, we propose two methods that realize one-to-many matching from a different perspective of augmenting images or image features. The first method is One-to-many Matching via Data Augmentation (denoted as DataAug-DETR). It spatially transforms the images and includes multiple augmented versions of each image in the same training batch. Such a simple augmentation strategy already achieves one-to-many matching and surprisingly improves DETR's performance. The second method is One-to-many matching via Feature Augmentation (denoted as FeatAug-DETR). Unlike DataAug-DETR, it augments the image features instead of the original images and includes multiple augmented features in the same batch to realize one-to-many matching. FeatAug-DETR significantly accelerates DETR training and boosts detection performance while keeping the inference speed unchanged. We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and H-Deformable-DETR. Without extra training data, FeatAug-DETR shortens the training convergence periods of Deformable-DETR to 24 epochs and achieves 58.3 AP on COCO val2017 set with Swin-L as the backbone.
翻訳日:2023-03-03 12:51:26 公開日:2023-03-02
# 心の理論を用いた計算言語獲得

Computational Language Acquisition with Theory of Mind ( http://arxiv.org/abs/2303.01502v1 )

ライセンス: Link先を確認
Andy Liu, Hao Zhu, Emmy Liu, Yonatan Bisk, Graham Neubig(参考訳) 現在の最先端の言語モデルとは異なり、幼児は周囲の環境や介護者との交流を通じて積極的に言語を習得する。 言語学習に批判的であると論じられた1つのメカニズムは、社会環境における他のエージェントの精神状態を推測する能力である、とpremack & woodruff (1978) が提唱した「心の理論」(tom) である。 我々は,Rabinowitz et al. (2018) とZhu et al. (2021) で実装された現代のToMからインスピレーションを得て,ToMを組み込んだ言語学習エージェントを構築し,その学習プロセスへの影響を測定した。 我々は、話者エージェントに話者と一緒に訓練され、潜在的な発話を再現するために使用される内部リスナーモデルを与えることで、ToMをモデル化する。 我々は、モデルがより複雑な言語を取得し、より強い環境圧力に適応すると仮定して、様々なタスク困難を実験する。 高度に重み付けされたtom listenerコンポーネントを持つトレーニングスピーカーは、イメージ参照ゲーム設定のパフォーマンス向上につながることが分かりました。 また,学習過程におけるタスクの難易度が高まると,より流動的で正確な発話が得られた。 このことは、ToMをさらに活用し、児童言語習得の他の洞察を言語習得の計算モデルに組み込む可能性を示している。

Unlike current state-of-the-art language models, young children actively acquire language through interactions with their surrounding environment and caretakers. One mechanism that has been argued to be critical to language learning is the ability to infer the mental states of other agents in social environments, coined Theory of Mind (ToM) by Premack & Woodruff (1978). Drawing inspiration from the modern operationalized versions of ToM implemented in Rabinowitz et al. (2018) and Zhu et al. (2021), we build language-learning agents equipped with ToM, and measure its effects on the learning process. We model ToM by giving the speaker agent an internal listener model that is trained alongside the speaker and used to rerank potential utterances. We experiment with varying task difficulty, hypothesizing that models will acquire more complex language to adapt to stronger environmental pressures. We find that training speakers with a highly weighted ToM listener component leads to performance gains in our image referential game setting. We also find some evidence that increasing task difficulty in the training process results in more fluent and precise utterances in evaluation. This suggests the potential utility of further incorporating ToM, as well as other insights from child language acquisition, into computational models of language acquisition.
翻訳日:2023-03-03 12:51:02 公開日:2023-03-02
# Delaunay-Rips錯体を用いた永続ホモロジーの安定性と機械学習応用

Stability and Machine Learning Applications of Persistent Homology Using the Delaunay-Rips Complex ( http://arxiv.org/abs/2303.01501v1 )

ライセンス: Link先を確認
Amish Mishra and Francis C. Motta(参考訳) 本稿では、ユークリッド点雲データの持続的ホモロジーを計算するための簡素な複素構造を定義・実装・検討し、これをdelaunay-rips complex (dr) と呼ぶ。 ヴィエトリス・リップス重みを単純化に割り当てると、DRは点雲のデラウネー三角測量に現れる単純さのみを考慮し、永続性計算におけるスピードアップを経験する。 DRのPython実装と、永続化図を生成するための単純な複雑な構造を文書化し比較する。 点クラウドデータに十分な条件を課すことで,点クラウドのデラウネー三角測量が点の摂動下で変化するとき,drで生成した永続図の安定性を理論的に正当化することができる。 実世界のデータが我々の安定性条件を満たすことは保証できないので、機械学習アプリケーションにおける他の単純複体と比較して、永続的ホモロジーに対するdrの実用的な堅牢性を示す。 実験の結果,ML-TDAパイプラインにDRを用いることは,他の単純な複素構造と同様に比較的よく動作することがわかった。

In this paper we define, implement, and investigate a simplicial complex construction for computing persistent homology of Euclidean point cloud data, which we call the Delaunay-Rips complex (DR). Assigning the Vietoris-Rips weights to simplices, DR experiences speed-up in the persistence calculations by only considering simplices that appear in the Delaunay triangulation of the point cloud. We document and compare a Python implementation of DR with other simplicial complex constructions for generating persistence diagrams. By imposing sufficient conditions on point cloud data, we are able to theoretically justify the stability of the persistence diagrams produced using DR. When the Delaunay triangulation of the point cloud changes under perturbations of the points, we prove that DR-produced persistence diagrams exhibit instability. Since we cannot guarantee that real-world data will satisfy our stability conditions, we demonstrate the practical robustness of DR for persistent homology in comparison with other simplicial complexes in machine learning applications. We find in our experiments that using DR for an ML-TDA pipeline performs comparatively well as using other simplicial complex constructions.
翻訳日:2023-03-03 12:50:37 公開日:2023-03-02
# ドロップアウトは不適合を減らす

Dropout Reduces Underfitting ( http://arxiv.org/abs/2303.01500v1 )

ライセンス: Link先を確認
Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell(参考訳) hintonらによって2012年に紹介されたdropoutは、ニューラルネットワークの過剰フィッティングを防ぐためのレギュレータとして、時間テストに耐えてきた。 本研究では,トレーニング開始時に使用した場合,ドロップアウトが不適合を軽減できることを実証する。 初期段階では、ドロップアウトはミニバッチ間の勾配の方向分散を減少させ、データセット全体の勾配とミニバッチ勾配の整合を支援する。 これにより、SGDの確率性に反し、個々のバッチがモデルトレーニングに与える影響を制限することができる。 この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。 早期ドロップアウトを備えたモデルは、ドロップアウトのないモデルに比べて最終トレーニング損失が低い。 さらに、オーバーフィッティングモデルの正則化のための対称的手法として、早期イテレーションではドロップアウトが使用されず、トレーニングの後半でのみアクティブになる、レイトドロップアウトについて検討する。 ImageNetと様々な視覚タスクの実験は,我々の手法が常に一般化精度を向上していることを示す。 その結果,深層学習における正規化の理解に関するさらなる研究が促進され,特に大規模データの時代において,今後のニューラルネットワークトレーニングに有用な手法となることが期待される。 コードはhttps://github.com/facebookresearch/dropoutで入手できる。

Introduced by Hinton et al. in 2012, dropout has stood the test of time as a regularizer for preventing overfitting in neural networks. In this study, we demonstrate that dropout can also mitigate underfitting when used at the start of training. During the early phase, we find dropout reduces the directional variance of gradients across mini-batches and helps align the mini-batch gradients with the entire dataset's gradient. This helps counteract the stochasticity of SGD and limit the influence of individual batches on model training. Our findings lead us to a solution for improving performance in underfitting models - early dropout: dropout is applied only during the initial phases of training, and turned off afterwards. Models equipped with early dropout achieve lower final training loss compared to their counterparts without dropout. Additionally, we explore a symmetric technique for regularizing overfitting models - late dropout, where dropout is not used in the early iterations and is only activated later in training. Experiments on ImageNet and various vision tasks demonstrate that our methods consistently improve generalization accuracy. Our results encourage more research on understanding regularization in deep learning and our methods can be useful tools for future neural network training, especially in the era of large data. Code is available at https://github.com/facebookresearch/dropout .
翻訳日:2023-03-03 12:50:17 公開日:2023-03-02
# ABAW: 評価・評価・表現認識・行動単位検出・感情反応強度推定の課題

ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit Detection & Emotional Reaction Intensity Estimation Challenges ( http://arxiv.org/abs/2303.01498v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Panagiotis Tzirakis and Alice Baird and Alan Cowen and Stefanos Zafeiriou(参考訳) 第5回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催されるABAWワークショップの一部である。 第5回ABAWコンペティションは、ECCV 2022、IEEE CVPR 2022、ICCV 2021、IEEE FG 2020、CVPR 2017コンペティションで開催されるコンペティションの継続であり、自動的に影響を分析することを目的としている。 今年のコンペティションには2つのコーパスがあります。 i) Aff-Wild2データベースの拡張版及び ii)hume-reactionデータセット。 前者のデータベースは,約3Mフレームの約600本のビデオのオーディオヴィジュアルであり,次の2つの連続的影響次元 -valence(人がどのように肯定的/否定的であるか)とarousal(人がどのように活動的/受動的であるか)-に対して注釈付けされている。 b) 基本表現(例えば、幸福、悲しみ、中立状態)及び c) 原子性顔面筋活動(即ち作用単位) 後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。 第5回ABAWコンクールは4つの課題を含む。 i)単タスクのヴァレンス・覚醒推定 二 ユニタスク表現の分類 三 単タスク動作単位の検出及び iv) 感情反応強度の推定。 本稿では,これらの課題をコーパスとともに概説し,評価指標を概説し,ベースラインシステムを紹介し,得られた性能について述べる。

The fifth Affective Behavior Analysis in-the-wild (ABAW) Competition is part of the respective ABAW Workshop which will be held in conjunction with IEEE Computer Vision and Pattern Recognition Conference (CVPR), 2023. The 5th ABAW Competition is a continuation of the Competitions held at ECCV 2022, IEEE CVPR 2022, ICCV 2021, IEEE FG 2020 and CVPR 2017 Conferences, and is dedicated at automatically analyzing affect. For this year's Competition, we feature two corpora: i) an extended version of the Aff-Wild2 database and ii) the Hume-Reaction dataset. The former database is an audiovisual one of around 600 videos of around 3M frames and is annotated with respect to:a) two continuous affect dimensions -valence (how positive/negative a person is) and arousal (how active/passive a person is)-; b) basic expressions (e.g. happiness, sadness, neutral state); and c) atomic facial muscle actions (i.e., action units). The latter dataset is an audiovisual one in which reactions of individuals to emotional stimuli have been annotated with respect to seven emotional expression intensities. Thus the 5th ABAW Competition encompasses four Challenges: i) uni-task Valence-Arousal Estimation, ii) uni-task Expression Classification, iii) uni-task Action Unit Detection, and iv) Emotional Reaction Intensity Estimation. In this paper, we present these Challenges, along with their corpora, we outline the evaluation metrics, we present the baseline systems and illustrate their obtained performance.
翻訳日:2023-03-03 12:49:56 公開日:2023-03-02
# 魚にロボットを教える:1分間のデモから多彩な模倣

Teach a Robot to FISH: Versatile Imitation from One Minute of Demonstrations ( http://arxiv.org/abs/2303.01497v1 )

ライセンス: Link先を確認
Siddhant Haldar, Jyothish Pari, Anant Rai, Lerrel Pinto(参考訳) 模倣学習はロボットを訓練するための効率的なツールキットを提供しますが、環境変化に頑健な学習スキルは依然として大きな課題です。 現在のアプローチでは、環境変動にまたがる大量のデモンストレーションや、状態推定を必要とする手作りの報酬関数に頼ることで、この問題に対処している。 どちらの方向も高速模倣にはスケーラブルではない。 本研究では,人間の実演の1分未満で,堅牢な視覚スキルを学習できる新しい模倣学習手法であるFast Imitation of Skills from Humans(FISH)を提案する。 デモのオフライン模倣によって訓練された弱いベース・ポリシーが与えられると、フィッシュはロボットの行動とデモの「一致」に対応する報酬を計算する。 これらの報酬は、基本政策に追加される残留ポリシーを適応的に更新するために使用される。 すべてのタスクにまたがって、fishはデモで見られなかったオブジェクト構成のデモンストレーションを模倣するために、少なくとも20分間のインタラクティブな学習を必要とします。 重要なことに、FISHは汎用性を持つように設計されており、ロボット形態(xArm、Allegro、Stretchなど)やカメラ構成(三人称、目印など)にまたがって使用することができる。 9つの異なる課題に対する実験評価の結果,魚は平均成功率93%に達し,従来の方法よりも約3.8倍高い値を示した。

While imitation learning provides us with an efficient toolkit to train robots, learning skills that are robust to environment variations remains a significant challenge. Current approaches address this challenge by relying either on large amounts of demonstrations that span environment variations or on handcrafted reward functions that require state estimates. Both directions are not scalable to fast imitation. In this work, we present Fast Imitation of Skills from Humans (FISH), a new imitation learning approach that can learn robust visual skills with less than a minute of human demonstrations. Given a weak base-policy trained by offline imitation of demonstrations, FISH computes rewards that correspond to the "match" between the robot's behavior and the demonstrations. These rewards are then used to adaptively update a residual policy that adds on to the base-policy. Across all tasks, FISH requires at most twenty minutes of interactive learning to imitate demonstrations on object configurations that were not seen in the demonstrations. Importantly, FISH is constructed to be versatile, which allows it to be used across robot morphologies (e.g. xArm, Allegro, Stretch) and camera configurations (e.g. third-person, eye-in-hand). Our experimental evaluations on 9 different tasks show that FISH achieves an average success rate of 93%, which is around 3.8x higher than prior state-of-the-art methods.
翻訳日:2023-03-03 12:49:25 公開日:2023-03-02
# 点の集合としてのイメージ

Image as Set of Points ( http://arxiv.org/abs/2303.01494v1 )

ライセンス: Link先を確認
Xu Ma, Yuqian Zhou, Huan Wang, Can Qin, Bin Sun, Chang Liu, Yun Fu(参考訳) イメージとは何か、潜在機能をどのように抽出するか? 畳み込みネットワーク(ConvNets)は、画像を長方形に整理したピクセルとみなし、局所的な畳み込み操作によって特徴を抽出する。 本稿では,視覚的表現のための単純かつ有望なパラダイム,すなわちコンテキストクラスタについて述べる。 コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。 詳細は、各点が生の特徴(例えば色)と位置情報(例えば座標)を含み、単純化されたクラスタリングアルゴリズムを使用して、階層的に深い特徴をグループ化し抽出する。 われわれのCoCは畳み込みと無注意で、空間相互作用のためのクラスタリングアルゴリズムのみに依存している。 単純な設計のため,クラスタ化プロセスの可視化により,cocsは満足できる解釈性を示す。 私たちのCoCは、画像と視覚表現に関する新しい視点を提供することを目標としています。 sotaのパフォーマンスを目標としていないが、cocsはいくつかのベンチマークでconvnetやvitsと同等あるいはそれ以上のパフォーマンスを達成している。 コードは、https://github.com/ma-xu/Context-Cluster.comで入手できる。

What is an image and how to extract latent features? Convolutional Networks (ConvNets) consider an image as organized pixels in a rectangular shape and extract features via convolutional operation in local region; Vision Transformers (ViTs) treat an image as a sequence of patches and extract features via attention mechanism in a global range. In this work, we introduce a straightforward and promising paradigm for visual representation, which is called Context Clusters. Context clusters (CoCs) view an image as a set of unorganized points and extract features via simplified clustering algorithm. In detail, each point includes the raw feature (e.g., color) and positional information (e.g., coordinates), and a simplified clustering algorithm is employed to group and extract deep features hierarchically. Our CoCs are convolution- and attention-free, and only rely on clustering algorithm for spatial interaction. Owing to the simple design, we show CoCs endow gratifying interpretability via the visualization of clustering process. Our CoCs aim at providing a new perspective on image and visual representation, which may enjoy broad applications in different domains and exhibit profound insights. Even though we are not targeting SOTA performance, COCs still achieve comparable or even better results than ConvNets or ViTs on several benchmarks. Codes are available at: https://github.com/ma-xu/Context-Cluster.
翻訳日:2023-03-03 12:48:59 公開日:2023-03-02
# 高速かつフレキシブルな量子状態シミュレータの設計

Designing a Fast and Flexible Quantum State Simulator ( http://arxiv.org/abs/2303.01493v1 )

ライセンス: Link先を確認
Saveliy Yusufov, Charlee Stefanski, Constantin Gonciulea(参考訳) 本稿では,量子ゲートを応用した量子システムの状態進化のための高速で柔軟なシミュレータであるSpinozaの設計と実装について述べる。 中心となる設計原理は、標的量子ビットに適用された単一量子ビットゲートが、目標量子ビットでのみ異なる測定結果に対応する振幅のペアの確率を保存するという事実である。 この原則により、複数のプロセスやスレッドにペアを分割することで、ゲートのアプリケーションを簡単に並列化できる。 しかし,本稿ではシングルスレッド実装に注目した。 振幅の更新性能は、ゲートの種類、適用対象、その他の要因に依存するため、ペアの振幅を選択するための複数の戦略が利用可能である。 したがって、特定のゲートタイプと特定のターゲットキュービットに対して特定の最適化が実装される。 パフォーマンスと保守性のために、SpinozaはRustで実装されている。

This paper describes the design and implementation of Spinoza, a fast and flexible simulator for the evolution of the state of a quantum system by applying quantum gates to it. The core design principle is the fact that a single-qubit gate applied to a target qubit preserves the probability of pairs of amplitudes corresponding to measurement outcomes that differ only in the target qubit. This principle allows for easy parallelization of the application of a gate by partitioning pairs across multiple processes or threads. However, this paper focused on the single-threaded implementation. Multiple strategies for selecting pairs of amplitudes are available, as the performance of updating amplitudes depends on the type of gate, the target of its application, and other factors. Therefore, specific optimizations are implemented for certain gate types and certain target qubits. For performance and maintainability reasons, Spinoza is implemented in Rust.
翻訳日:2023-03-03 12:48:38 公開日:2023-03-02
# 量子機械学習のための古典特異値変換の改良

An Improved Classical Singular Value Transformation for Quantum Machine Learning ( http://arxiv.org/abs/2303.01492v1 )

ライセンス: Link先を確認
Ainesh Bakshi and Ewin Tang(参考訳) 量子機械学習(QML)は、計算集約線形代数タスクのための大きな量子スピードアップを導入することで、量子コンピュータのキラー応用を生み出す大きな可能性を示している。 Gily\'en, Su, Low, Wiebeによって導入された量子特異値変換(QSVT)は、QMLアルゴリズムを得るための統一フレームワークである。 そこで本研究では,QSVTの性能を,多項式オーバーヘッドを小さくする古典的アルゴリズムを提案する。 特に、有界行列 $a\in\mathbb{c}^{m\times n}$、ベクトル $b\in\mathbb{c}^{n}$、および有界次数-$d$多項式 $p$ が与えられると、qsvt は$o(d\|a\|_f )$ time における$|p(a)b\rangle$ の状態から測定値を出力することができる。 任意の$\epsilon > 0$ に対して、ベクトル $v$ を$\|v-p(A)b\|\le\epsilon$ in $O(d^9\|A\|_F^4/\epsilon^2)$ が線形時間前処理の後に出力できることを示す。 これは最もよく知られた古典的アルゴリズム [cgl+'20] によって改善され、これには$o(d^{22}\|a\|_f^6/\epsilon^6)$時間が必要である。 アルゴリズムを異なる多項式でインスタンス化し,回帰・行列反転,レコメンデーションシステム,ハミルトニアンシミュレーションのための高速量子インスパイアアルゴリズムを得る。 cgl+'20,sm'21,gst'22,cch+'22},[tan'19,cgl+'20,cch+'22]などの特定の問題に特化した最近の論文を改善した。 我々の重要な洞察は、行列多項式の反復的計算法であるクレンショー繰り返しと、QSVTを古典的にシミュレートするスケッチ技法を組み合わせることである。 私たちが紹介するツールは (a)双線型形式をほぼ保存するための非聖書行列スケッチ (b)$\ell_2^2$サンプリングに基づく非聖書非対称近似行列のスケッチ (c)クレンショー再発に対する新しい安定性解析、及び (d) 有界関数のチェビシェフ展開に現れる係数の算術的進行を有界化する新しい手法。

Quantum machine learning (QML) has shown great potential to produce killer applications of quantum computers by introducing the possibility of large quantum speedups for computationally intensive linear algebra tasks. The quantum singular value transformation (QSVT), introduced by Gily\'en, Su, Low and Wiebe, is a unifying framework to obtain QML algorithms. We provide a classical algorithm that matches the performance of QSVT, up to a small polynomial overhead. In particular, given a bounded matrix $A\in\mathbb{C}^{m\times n}$, a vector $b\in\mathbb{C}^{n}$, and a bounded degree-$d$ polynomial $p$, QSVT can output a measurement from the state $|p(A)b\rangle$ in $O(d\|A\|_F )$ time. We show that for any $\epsilon >0$, we can output a vector $v$ such that $\|v-p(A)b\|\le\epsilon$ in $O(d^9\|A\|_F^4/\epsilon^2)$ time after linear-time pre-processing. This improves upon the best known classical algorithm [CGL+'20], which requires $O(d^{22}\|A\|_F^6/\epsilon^6)$ time. Instantiating our algorithm with different polynomials, we obtain fast quantum-inspired algorithms for regression/matrix inversion, recommendation systems and Hamiltonian simulation. We improve upon several recent papers specialized to specific problems, including [CGL+'20,SM'21,GST'22,CCH+'22} for regression, and [Tan'19,CGL+'20,CCH+'22] for recommendation systems. Our key insight is to combine the Clenshaw recurrence, an iterative method for computing matrix polynomials, with sketching techniques to simulate QSVT classically. The tools we introduce include (a) a non-oblivious matrix sketch for approximately preserving bi-linear forms, (b) a non-oblivious asymmetric approximate matrix product sketch based on $\ell_2^2$ sampling, (c) a new stability analysis for the Clenshaw recurrence, and (d) a new technique to bound arithmetic progressions of the coefficients appearing in the Chebyshev expansion of bounded functions.
翻訳日:2023-03-03 12:48:29 公開日:2023-03-02
# 位置符号化スライスモデルによる自然画像から3次元MRIへの移動モデル

Transferring Models Trained on Natural Images to 3D MRI via Position Encoded Slice Models ( http://arxiv.org/abs/2303.01491v1 )

ライセンス: Link先を確認
Umang Gupta, Tamoghna Chattopadhyay, Nikhil Dhinagar, Paul M. Thompson, Greg Ver Steeg, The Alzheimer's Disease Neuroimaging Initiative (ADNI)(参考訳) 転送学習はコンピュータビジョンを著しく改善した。 これらの進歩は、トレーニングセットのサイズがしばしば小さいニューロイメージングの改善も約束している。 しかし、自然画像に事前訓練されたモデルをMRIなどの放射線画像に適用する際の様々な困難が生じる。 特に、入力空間におけるミスマッチ(2D画像対3DMRI)はモデルの直接転送を制限し、しばしば少数のMRIスライスのみを入力として考慮せざるを得ない。 この目的のために、Gupta et al.(2021)の2D-Slice-CNNアーキテクチャを活用し、MRIスライスを2Dエンコーダ(2D画像入力を受信するニューラルネットワーク)に埋め込んで、置換不変層を介してそれらを結合する。 トレーニング済みモデルが2Dエンコーダとして機能する、という洞察を得て、2DエンコーダをImageNetで初期化し、2つのニューロイメージングタスク(英国バイオバンクデータセットの脳年齢予測とADNIデータセットのアルツハイマー病検出)で初期化およびトレーニングされたタスクを上回る2Dエンコーダを初期化する。 さらに,位置埋め込みによる空間情報を取り込むことにより,2次元スライスモデルのモデリング能力を向上させることで,性能を向上させることができる。

Transfer learning has remarkably improved computer vision. These advances also promise improvements in neuroimaging, where training set sizes are often small. However, various difficulties arise in directly applying models pretrained on natural images to radiologic images, such as MRIs. In particular, a mismatch in the input space (2D images vs. 3D MRIs) restricts the direct transfer of models, often forcing us to consider only a few MRI slices as input. To this end, we leverage the 2D-Slice-CNN architecture of Gupta et al. (2021), which embeds all the MRI slices with 2D encoders (neural networks that take 2D image input) and combines them via permutation-invariant layers. With the insight that the pretrained model can serve as the 2D encoder, we initialize the 2D encoder with ImageNet pretrained weights that outperform those initialized and trained from scratch on two neuroimaging tasks -- brain age prediction on the UK Biobank dataset and Alzheimer's disease detection on the ADNI dataset. Further, we improve the modeling capabilities of 2D-Slice models by incorporating spatial information through position embeddings, which can improve the performance in some cases.
翻訳日:2023-03-03 12:47:43 公開日:2023-03-02