このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230411となっている論文です。

PDF登録状況(公開日: 20230411)

TitleAuthorsAbstract論文公表日・翻訳日
# テンソル空間における基底からのテンソルPCA

Tensor PCA from basis in tensor space ( http://arxiv.org/abs/2305.02803v1 )

ライセンス: Link先を確認
Claudio Turchetti(参考訳) 本研究の目的は,テンソルPCAの数学的枠組みを提案することである。 提案手法は,最適化問題を反復的に解くことで,低次元部分空間を抽出する従来の手法の限界を克服することができる。 提案手法の核心は、実自己共役テンソル作用素からテンソル空間の基底を導出することであり、したがって基底を固有値問題へと導出する問題を減少させる。 3つの異なる事例が研究されている。 一 自己随伴テンソル演算子からの基礎 ii) ランク1の基準 三 部分空間の基底 特に、実自己共役テンソル作用素に対する固有値方程式と標準行列固有値方程式との同値性が証明されている。 考慮された3つのケースすべてに対して、テンソルPCAを導出するための部分空間アプローチが採用されている。 画像データセットの実験は、提案された数学的枠組みを検証する。

The aim of this paper is to present a mathematical framework for tensor PCA. The proposed approach is able to overcome the limitations of previous methods that extract a low dimensional subspace by iteratively solving an optimization problem. The core of the proposed approach is the derivation of a basis in tensor space from a real self-adjoint tensor operator, thus reducing the problem of deriving a basis to an eigenvalue problem. Three different cases have been studied to derive: i) a basis from a self-adjoint tensor operator; ii) a rank-1 basis; iii) a basis in a subspace. In particular, the equivalence between eigenvalue equation for a real self-adjoint tensor operator and standard matrix eigenvalue equation has been proven. For all the three cases considered, a subspace approach has been adopted to derive a tensor PCA. Experiments on image datasets validate the proposed mathematical framework.
翻訳日:2023-05-07 15:55:29 公開日:2023-04-11
# アクティブRIS支援EH-NOMAネットワーク:深層強化学習アプローチ

Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2304.12184v1 )

ライセンス: Link先を確認
Zhaoyuan Shi, Huabing Lu, Xianzhong Xie, Helin Yang, Chongwen Huang, Jun Cai, and Zhiguo Ding(参考訳) 非直交多重アクセス(NOMA)を用いてスペクトル効率を向上し,エネルギ収穫(EH)により能動RISを駆動する能動再構成可能な多ユーザダウンリンク通信システム(RIS)について検討した。 risの増幅行列と位相シフト行列の結合制御の問題は、ユーザのqos(quality of service)要求、動的通信状態、risの動的利用可能なエネルギーを考慮して通信成功率を最大化するために定式化されている。 この非凸問題に対処するために、長い短期記憶深度決定性ポリシー勾配(LSTM-DDPG)というカスケード深層学習アルゴリズムを設計する。 まず、ユーザの動的通信状態を予測するための高度なLSTMベースのアルゴリズムを開発した。 そして,この予測結果に基づいて,RISの増幅行列と位相シフト行列を結合制御するDDPGに基づくアルゴリズムを提案する。 最後に,提案したLSTMアルゴリズムの精度をシミュレーションにより検証し,LSTM-DDPGアルゴリズムが他のベンチマークアルゴリズムに比べて通信成功率のパフォーマンスにおいて有意な優位性を有することを示す。

An active reconfigurable intelligent surface (RIS)-aided multi-user downlink communication system is investigated, where non-orthogonal multiple access (NOMA) is employed to improve spectral efficiency, and the active RIS is powered by energy harvesting (EH). The problem of joint control of the RIS's amplification matrix and phase shift matrix is formulated to maximize the communication success ratio with considering the quality of service (QoS) requirements of users, dynamic communication state, and dynamic available energy of RIS. To tackle this non-convex problem, a cascaded deep learning algorithm namely long short-term memory-deep deterministic policy gradient (LSTM-DDPG) is designed. First, an advanced LSTM based algorithm is developed to predict users' dynamic communication state. Then, based on the prediction results, a DDPG based algorithm is proposed to joint control the amplification matrix and phase shift matrix of the RIS. Finally, simulation results verify the accuracy of the prediction of the proposed LSTM algorithm, and demonstrate that the LSTM-DDPG algorithm has a significant advantage over other benchmark algorithms in terms of communication success ratio performance.
翻訳日:2023-04-30 07:48:29 公開日:2023-04-11
# ChatGPTはサブサハラの職業教育を脱植民地化するために必要なもの

ChatGPT is all you need to decolonize sub-Saharan Vocational Education ( http://arxiv.org/abs/2304.13728v1 )

ライセンス: Link先を確認
Isidora Tourni, Georgios Grigorakis, Isidoros Marougkas, Konstantinos Dafnis, Vassiliki Tassopoulou(参考訳) 過去数年間のインタラクティブな機能を備えたジェネレーティブAIモデルの進歩は、社会経済的モビリティのユニークな機会を提供する。 スケーラビリティ、アクセシビリティ、手頃な価格、パーソナライズ、利便性に対する彼らの潜在能力は、貧困を抱える国々が教育秩序を適応し、近代化する第一級の機会となる。 本研究は,サハラ以南のアフリカ諸国において,学術教育よりも職業訓練と技術訓練を優先することで,この転換を成功させる教育政策の枠組みを提示するものである。 我々は,それぞれの文化的背景やニーズに合わせてつくられた,大規模言語モデルの実質的な応用を強調し,その体系的なデコロン化を強化する。 最後に、サハラ以南のアフリカ諸国に先導する提案を裏付けるため、社会経済変革の基本的な段階において、多様な国家がこのような政策をうまく実施した具体的な歴史的事例を示す。

The advances of Generative AI models with interactive capabilities over the past few years offer unique opportunities for socioeconomic mobility. Their potential for scalability, accessibility, affordability, personalizing and convenience sets a first-class opportunity for poverty-stricken countries to adapt and modernize their educational order. As a result, this position paper makes the case for an educational policy framework that would succeed in this transformation by prioritizing vocational and technical training over academic education in sub-Saharan African countries. We highlight substantial applications of Large Language Models, tailor-made to their respective cultural background(s) and needs, that would reinforce their systemic decolonization. Lastly, we provide specific historical examples of diverse states successfully implementing such policies in the elementary steps of their socioeconomic transformation, in order to corroborate our proposal to sub-Saharan African countries to follow their lead.
翻訳日:2023-04-30 07:10:16 公開日:2023-04-11
# 乳腺腫瘍分類のためのエンサンブルCNN

Ensemble CNNs for Breast Tumor Classification ( http://arxiv.org/abs/2304.13727v1 )

ライセンス: Link先を確認
Muhammad Umar Farooq (1), Zahid Ullah (1), Jeonghwan Gwak (1) ((1) Korea National University of Transportation)(参考訳) 本研究では,マンモグラフィ画像間の乳房集団分類の認識能力を向上させるため,最先端の分類ネットワークを探索し,アンサンブル機構を開発する。 まず、関心領域(ROI)が元のデータセットから取得され、XceptionNet、DenseNet、EfficientNetの3つのモデルが個別にトレーニングされる。 トレーニング後、各ネットワークから出力される確率を合計して機構をアンサンブルし、性能を最大5%向上させる。 このスキームはパブリックデータセット上で検証され,それぞれ88%,85%,76%の精度,正確性,リコールを達成した。

To improve the recognition ability of computer-aided breast mass classification among mammographic images, in this work we explore the state-of-the-art classification networks to develop an ensemble mechanism. First, the regions of interest (ROIs) are obtained from the original dataset, and then three models, i.e., XceptionNet, DenseNet, and EfficientNet, are trained individually. After training, we ensemble the mechanism by summing the probabilities outputted from each network which enhances the performance up to 5%. The scheme has been validated on a public dataset and we achieved accuracy, precision, and recall 88%, 85%, and 76% respectively.
翻訳日:2023-04-30 07:10:01 公開日:2023-04-11
# SamurAI: イベント駆動のWake-Upと組込みMLアクセラレーションを備えた多機能IoTノード

SamurAI: A Versatile IoT Node With Event-Driven Wake-Up and Embedded ML Acceleration ( http://arxiv.org/abs/2304.13726v1 )

ライセンス: Link先を確認
Ivan Miro-Panades (LSTA), Benoit Tain (LECA), Jean-Frederic Christmann (LFIM), David Coriat (LIIM), Romain Lemaire (LIIM), Clement Jany, Baudouin Martineau (DSYS), Fabrice Chaix (DSYS), Guillaume Waltener (DSYS), Emmanuel Pluchart (LSTA), Jean-Philippe Noel (LFIM), Adam Makosiej, Maxime Montoya, Simone Bacles-Min (LIIM), David Briand (LIAE), Jean-Marc Philippe, Yvain Thonnart (LFIM), Alexandre Valentian (LSTA), Frederic Heitzmann (DSYS), Fabien Clermidy (DSCIN)(参考訳) IoTアプリケーションでは、認識や自己適応性などの機能向上が求められている。 IoTノードの消費電力は、これらのアプリケーションにとって大きな関心事であるが、連続的なセンサや無線ネットワーク上の画像データ転送により、クラウドベースの処理は持続不可能になりつつある。 したがって、最適化されたML機能とデータ転送はIoTノードに統合されるべきである。 さらに、IoTアプリケーションは、散発的なデータロギングとエネルギー消費データ処理(画像分類など)の間で破れています。 したがって、ノードの汎用性は、この幅広いエネルギーと処理ニーズに対処する上で鍵となる。 本稿では,低消費電力,クロックレス,イベント駆動型常時応答(ar)部分と,エネルギー効率のよいオンデマンド(od)部分の2つのオンチップサブシステムを活用して,処理とエネルギーのギャップを埋める汎用iotノードである samuraiを提案する。 arには1.7mopsのイベント駆動、非同期起動コントローラ(wuc)、散発的コンピューティングに最適化された207nsの起動時間、odは36gopsまでの複雑なタスクのために深いsleep risc-v cpuと1.3tops/w機械学習(ml)を組み合わせている。 このアーキテクチャのパーティショニングは、ピーク性能からアイドルパワー比といったクラス多元性メトリクスで最高の結果を得る。 適用可能な分類シナリオでは、クラウドベースの処理と比較して3.5倍のシステムパワー向上を示し、バッテリー寿命を延ばす。

Increased capabilities such as recognition and self-adaptability are now required from IoT applications. While IoT node power consumption is a major concern for these applications, cloud-based processing is becoming unsustainable due to continuous sensor or image data transmission over the wireless network. Thus optimized ML capabilities and data transfers should be integrated in the IoT node. Moreover, IoT applications are torn between sporadic data-logging and energy-hungry data processing (e.g. image classification). Thus, the versatility of the node is key in addressing this wide diversity of energy and processing needs. This paper presents SamurAI, a versatile IoT node bridging this gap in processing and in energy by leveraging two on-chip sub-systems: a low power, clock-less, event-driven Always-Responsive (AR) part and an energy-efficient On-Demand (OD) part. AR contains a 1.7MOPS event-driven, asynchronous Wake-up Controller (WuC) with a 207ns wake-up time optimized for sporadic computing, while OD combines a deep-sleep RISC-V CPU and 1.3TOPS/W Machine Learning (ML) for more complex tasks up to 36GOPS. This architecture partitioning achieves best in class versatility metrics such as peak performance to idle power ratio. On an applicative classification scenario, it demonstrates system power gains, up to 3.5x compared to cloud-based processing, and thus extended battery lifetime.
翻訳日:2023-04-30 07:09:48 公開日:2023-04-11
# 多モード融合と非線形相関学習による脳腫瘍再発位置の予測

Prediction of brain tumor recurrence location based on multi-modal fusion and nonlinear correlation learning ( http://arxiv.org/abs/2304.13725v1 )

ライセンス: Link先を確認
Tongxue Zhou, Alexandra Noeuveglise, Romain Modzelewski, Fethi Ghazouani, S\'ebastien Thureau, Maxime Fontanilles and Su Ruan(参考訳) 脳腫瘍はがん死の主要な原因の1つである。 高次脳腫瘍は標準的な治療後でも再発しやすい。 そのため、治療計画において脳腫瘍再発位置を予測する方法の開発が重要な役割を担っており、患者の生存時間を延ばす可能性がある。 この問題に対処する作業はまだほとんどありません。 本稿では,深層学習に基づく脳腫瘍再発位置予測ネットワークを提案する。 データセットは通常小さいため、予測を改善するために転送学習を使うように提案する。 まず、公開データセットbrats 2021上で、マルチモーダル脳腫瘍セグメンテーションネットワークを訓練する。 そして、トレーニング済みのエンコーダをプライベートデータセットに転送して、リッチなセマンティックな特徴を抽出します。 次に,マルチチャネル特徴融合モデルと非線形相関学習モジュールを開発し,効果的な特徴を学習する。 マルチチャネル特徴間の相関は非線形方程式によってモデル化される。 あるモダリティの原点の分布と他のモダリティの予測された相関特徴との類似性を測定するために、kullback-leibler divergence を用いることを提案する。 この分散に基づいて,2つの特徴分布の類似性を最大化する相関損失関数を設計する。 最後に、2つのデコーダにより、現在の脳腫瘍を共同で分割し、将来の再発部位を予測する。 我々の知る限りでは、これが、現在ある腫瘍を分類し、同時に将来の腫瘍再発位置を予測できる最初の研究であり、治療計画がより効率的で正確なものになる。 実験により, 限られたデータセットから脳腫瘍再発位置を予測する手法の有効性が示された。

Brain tumor is one of the leading causes of cancer death. The high-grade brain tumors are easier to recurrent even after standard treatment. Therefore, developing a method to predict brain tumor recurrence location plays an important role in the treatment planning and it can potentially prolong patient's survival time. There is still little work to deal with this issue. In this paper, we present a deep learning-based brain tumor recurrence location prediction network. Since the dataset is usually small, we propose to use transfer learning to improve the prediction. We first train a multi-modal brain tumor segmentation network on the public dataset BraTS 2021. Then, the pre-trained encoder is transferred to our private dataset for extracting the rich semantic features. Following that, a multi-scale multi-channel feature fusion model and a nonlinear correlation learning module are developed to learn the effective features. The correlation between multi-channel features is modeled by a nonlinear equation. To measure the similarity between the distributions of original features of one modality and the estimated correlated features of another modality, we propose to use Kullback-Leibler divergence. Based on this divergence, a correlation loss function is designed to maximize the similarity between the two feature distributions. Finally, two decoders are constructed to jointly segment the present brain tumor and predict its future tumor recurrence location. To the best of our knowledge, this is the first work that can segment the present tumor and at the same time predict future tumor recurrence location, making the treatment planning more efficient and precise. The experimental results demonstrated the effectiveness of our proposed method to predict the brain tumor recurrence location from the limited dataset.
翻訳日:2023-04-30 07:09:20 公開日:2023-04-11
# ニューラルネットワークのスパリティはプライバシーを高める

Sparsity in neural networks can increase their privacy ( http://arxiv.org/abs/2304.07234v1 )

ライセンス: Link先を確認
Antoine Gonon (DANTE, ARIC), L\'eon Zheng (DANTE, LIP), Cl\'ement Lalanne (ENS Lyon, DANTE), Quoc-Tung Le (DANTE, LIP), Guillaume Lauga (DANTE), Can Pouliquen(参考訳) 本稿は、ニューラルネットワークがメンバーシップ推論攻撃に対していかに堅牢になるかを測る。 得られた実験結果から,ネットワークの疎結合性はネットワークのプライバシを向上し,手前のタスクに匹敵する性能を保っていることが示された。 この実証研究は、既存の文学を完成し、拡張する。

This article measures how sparsity can make neural networks more robust to membership inference attacks. The obtained empirical results show that sparsity improves the privacy of the network, while preserving comparable performances on the task at hand. This empirical study completes and extends existing literature.
翻訳日:2023-04-23 04:33:50 公開日:2023-04-11
# 遅延破壊結果:ネットワーク侵入検出のためのスケーラブルで効率的な超次元計算

Late Breaking Results: Scalable and Efficient Hyperdimensional Computing for Network Intrusion Detection ( http://arxiv.org/abs/2304.06728v1 )

ライセンス: Link先を確認
Junyao Wang, Hanning Chen, Mariam Issa, Sitao Huang, Mohsen Imani(参考訳) サイバーセキュリティは業界にとって重要な課題となっている。 セキュリティの複雑さが大きいため、高度なディープラーニングモデルは、エッジデバイス上でのサイバー脅威のタイムリーな検出に失敗することが多い。 脳にインスパイアされた超次元コンピューティング(HDC)がこの問題に対処するための有望な解決策として紹介されている。 しかし、既存のhdcアプローチは静的エンコーダを使用し、妥当な精度を達成するために非常に高い次元と数百のトレーニングイテレーションを必要とする。 これにより、学習効率が著しく低下し、攻撃を検出するのに巨大な遅延が発生する。 本稿では,非常に低次元のサイバー脅威の複雑なパターンを捉えるために,重要次元を特定し再生する革新的なHDC学習フレームワークであるCyberHDを提案する。 さらに、高次元空間におけるパターンのホログラフィック分布は、cyberhdに特にハードウェアエラーに対する高い堅牢性を提供する。

Cybersecurity has emerged as a critical challenge for the industry. With the large complexity of the security landscape, sophisticated and costly deep learning models often fail to provide timely detection of cyber threats on edge devices. Brain-inspired hyperdimensional computing (HDC) has been introduced as a promising solution to address this issue. However, existing HDC approaches use static encoders and require very high dimensionality and hundreds of training iterations to achieve reasonable accuracy. This results in a serious loss of learning efficiency and causes huge latency for detecting attacks. In this paper, we propose CyberHD, an innovative HDC learning framework that identifies and regenerates insignificant dimensions to capture complicated patterns of cyber threats with remarkably lower dimensionality. Additionally, the holographic distribution of patterns in high dimensional space provides CyberHD with notably high robustness against hardware errors.
翻訳日:2023-04-23 04:33:05 公開日:2023-04-11
# コーパスに基づくLin Yutangの涙と娘の自己翻訳の時間的変化の分析

A Corpus-based Analysis of Attitudinal Changes in Lin Yutang's Self-translation of Between Tears and Laughter ( http://arxiv.org/abs/2304.08173v1 )

ライセンス: Link先を確認
Zhiping Bai(参考訳) 姿勢はほとんどあらゆる種類のテキストで表される。 自己翻訳における対位シフトに関する関連する研究はまだない。 中国語版『涙と娘』は、最初の11章は林陽の自訳であり、最後の12章はXu Chengbinによる自訳と共訳の稀な例である。 最近の研究では、本書の英語版と中国語版をliwcとantconcで単語頻度分析し、lin yutangのアッティトゥディナル変化の比較研究を行った。 その結果、リンの自己翻訳(M=0.7755, SD=0.2775)における怒りは、英語の原語の最初の11章(M=1.1036, SD=0.3861)よりも少ない(t=2.2892, p=0.0331)。 この位置変化は、怒りの言葉を含むn-gramの翻訳にも反映されている。 対照的に、xuの共訳と元の「アンガー」における部分との間に有意な差はない(t=1.88, p=0.07)。 本稿では,コーパスツールが翻訳者の態度を安定させるのに役立つと考えている。

Attitude is omnipresent in almost every type of text. There has yet to be any relevant research on attitudinal shifts in self-translation. The Chinese version of Between Tears and Laughter is a rare case of self-translation and co-translation in that the first 11 chapters are self-translated by Lin Yutang, and the last 12 chapters by Xu Chengbin. The current study conducted a word frequency analysis of this book's English and Chinese versions with LIWC and AntConc, and made comparative research into Lin Yutang's attitudinal changes. The results show that due to different writing purposes and readerships, there is less anger in Lin's self-translation (M=0.7755, SD=0.2775) than in the first 11 chapters of the English original (M=1.1036, SD=0.3861), which is a significant difference (t=2.2892, p=0.0331). This attitudinal change is also reflected in the translations of some n-grams containing anger words. In contrast, there is no significant difference (t=1.88, p=0.07) between Xu's co-translation and the corresponding part of the original in attitude "anger". This paper believes that corpus tools can help co-translators keep their translation consistent in attitude.
翻訳日:2023-04-23 04:24:52 公開日:2023-04-11
# ガウス機構を用いた推薦システムのプライバシー保護マトリックス因子化

Privacy-Preserving Matrix Factorization for Recommendation Systems using Gaussian Mechanism ( http://arxiv.org/abs/2304.09096v1 )

ライセンス: Link先を確認
Sohan Salahuddin Mugdho, Hafiz Imtiaz(参考訳) レコメンデーションシステムを構築するには、ユーザーデータを分析することが含まれる。 ユーザーデータの匿名化は、ユーザーのプライバシーを守るのに十分ではないことが多い。 そこで本研究では,差分プライバシーフレームワークと行列分解に基づくプライバシ保護レコメンデーションシステムを提案する。 差分プライバシーは、プライバシを保存する機械学習アルゴリズムを設計するための強力で堅牢な数学的フレームワークであるため、敵が公開情報(補助情報)を持っている場合でも、敵が機密情報を抽出するのを防ぐことができる。 ガウシアン機構による差分プライバシーを出力摂動の形で実装し、プライバシ定義を満たすユーザプロファイルをリリースする。 我々はr\'enyi differential privacyを採用し、全体的なプライバシー損失の厳格な特徴付けを行っている。 我々は,提案アルゴリズムが厳密なプライバシーを確保しつつ,パラメータ選択に優れたユーティリティを提供できることを示すために,実データに対する広範な実験を行う。

Building a recommendation system involves analyzing user data, which can potentially leak sensitive information about users. Anonymizing user data is often not sufficient for preserving user privacy. Motivated by this, we propose a privacy-preserving recommendation system based on the differential privacy framework and matrix factorization, which is one of the most popular algorithms for recommendation systems. As differential privacy is a powerful and robust mathematical framework for designing privacy-preserving machine learning algorithms, it is possible to prevent adversaries from extracting sensitive user information even if the adversary possesses their publicly available (auxiliary) information. We implement differential privacy via the Gaussian mechanism in the form of output perturbation and release user profiles that satisfy privacy definitions. We employ R\'enyi Differential Privacy for a tight characterization of the overall privacy loss. We perform extensive experiments on real data to demonstrate that our proposed algorithm can offer excellent utility for some parameter choices, while guaranteeing strict privacy.
翻訳日:2023-04-23 04:17:11 公開日:2023-04-11
# 会話レコメンデーションのための記述グラフによる項目・文脈理解の改善

Improving Items and Contexts Understanding with Descriptive Graph for Conversational Recommendation ( http://arxiv.org/abs/2304.09093v1 )

ライセンス: Link先を確認
Huy Dao, Dung D. Le, Cuong Chu(参考訳) 会話型レコメンデーションシステム(crs)における最先端手法は,外部知識を活用して項目表現と文脈語表現の両方を強化し,高品質なレコメンデーションと応答生成を実現する。 しかしながら、アイテムと単語の表現は通常、2つの分離されたセマンティック空間でモデル化されるため、それら間のミスアライメントの問題が発生する。 これにより、CRSは、特にユーザの入力から十分な情報が不足している場合に、サブ最適ランキングのパフォーマンスしか達成しない。 従来の作業の限界に対処するために、アイテムと関連するコンテキストを同じ意味空間内で共同でモデル化する新しいCRSフレームワークKLEVERを提案する。 特に,項目記述やカテゴリといったリッチアイテムのテキスト特徴から項目記述グラフを構築する。 構築された記述グラフに基づいて、KLEVERは単語や項目の埋め込みを共同で学習し、レコメンダおよびダイアログ生成モジュールの強化を行う。 CRSデータセットのベンチマークに関する大規模な実験は、KLEVERが優れたパフォーマンスを達成していることを示している。

State-of-the-art methods on conversational recommender systems (CRS) leverage external knowledge to enhance both items' and contextual words' representations to achieve high quality recommendations and responses generation. However, the representations of the items and words are usually modeled in two separated semantic spaces, which leads to misalignment issue between them. Consequently, this will cause the CRS to only achieve a sub-optimal ranking performance, especially when there is a lack of sufficient information from the user's input. To address limitations of previous works, we propose a new CRS framework KLEVER, which jointly models items and their associated contextual words in the same semantic space. Particularly, we construct an item descriptive graph from the rich items' textual features, such as item description and categories. Based on the constructed descriptive graph, KLEVER jointly learns the embeddings of the words and items, towards enhancing both recommender and dialog generation modules. Extensive experiments on benchmarking CRS dataset demonstrate that KLEVER achieves superior performance, especially when the information from the users' responses is lacking.
翻訳日:2023-04-23 04:16:53 公開日:2023-04-11
# ADI:垂直的フェデレーション学習システムにおける敵対的支配入力

ADI: Adversarial Dominating Inputs in Vertical Federated Learning Systems ( http://arxiv.org/abs/2201.02775v3 )

ライセンス: Link先を確認
Qi Pang, Yuanyuan Yuan, Shuai Wang, Wenting Zheng(参考訳) VFL(Vertical Federated Learning)システムは近年,データ集中化を必要とせず,複数のソースに分散したデータを処理する概念として注目されている。 複数の参加者は、プライバシを認識した方法で、ローカルデータに基づいてモデルを協調的にトレーニングする。 これまでVFLは、組織間のモデルを安全に学習し、個人のプライバシーを損なうことなく知識を共有するためのデファクトソリューションになっています。 vflシステムの繁栄にもかかわらず、adversarial dominating inputs(adis)と呼ばれる参加者の特定の入力が、敵の意志の方向に向かって共同推論を支配し、他の(決定的な)参加者に無視できる貢献を強制し、連合学習シナリオにおける貢献の重要性に関する報酬を失うことを発見した。 まず,典型的なvflシステムにおけるadisの存在を実証し,adisの系統的研究を行う。 次に、様々なフォーマットのADIを合成し、一般的なVFLシステムを利用する勾配に基づく手法を提案する。 さらに, <victim' 参加者の正当性スコアに導かれるグレイボックスファジテストを開始し, 敵が制御する入力を妨害し, プライバシー保護の方法でVFL攻撃面を体系的に探索する。 我々は、ADIの合成における臨界パラメータと設定の影響について詳細な研究を行う。 本研究では,新たなvfl攻撃の機会を明らかにし,侵入前に未知の脅威を特定し,よりセキュアなvflシステムを構築する。

Vertical federated learning (VFL) system has recently become prominent as a concept to process data distributed across many individual sources without the need to centralize it. Multiple participants collaboratively train models based on their local data in a privacy-aware manner. To date, VFL has become a de facto solution to securely learn a model among organizations, allowing knowledge to be shared without compromising privacy of any individuals. Despite the prosperous development of VFL systems, we find that certain inputs of a participant, named adversarial dominating inputs (ADIs), can dominate the joint inference towards the direction of the adversary's will and force other (victim) participants to make negligible contributions, losing rewards that are usually offered regarding the importance of their contributions in federated learning scenarios. We conduct a systematic study on ADIs by first proving their existence in typical VFL systems. We then propose gradient-based methods to synthesize ADIs of various formats and exploit common VFL systems. We further launch greybox fuzz testing, guided by the saliency score of ``victim'' participants, to perturb adversary-controlled inputs and systematically explore the VFL attack surface in a privacy-preserving manner. We conduct an in-depth study on the influence of critical parameters and settings in synthesizing ADIs. Our study reveals new VFL attack opportunities, promoting the identification of unknown threats before breaches and building more secure VFL systems.
翻訳日:2023-04-14 20:52:51 公開日:2023-04-11
# スクイーズと励磁によるスウィントランスを用いた表情認識

Facial Expression Recognition using Squeeze and Excitation-powered Swin Transformers ( http://arxiv.org/abs/2301.10906v6 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 顔の感情の認識は人間のコミュニケーションの重要な側面であり、個人は表情や声のトーンによって伝えられる感情を理解することができる。 顔の感情認識(fer)の分野は、コンピュータビジョンと人工知能の分野で非常に重要であり、セキュリティ、広告、エンターテイメントといった分野において、商業的および学術的な潜在力を持つ。 本研究では,Swin Vision Transformers (SwinT) とSwin Vision Transformers (SE) を併用したFERフレームワークを提案する。 このアプローチでは、アテンション機構を備えたトランスフォーマーモデル、SE、SAMを使用して、トランスフォーマーが大量のデータを必要とする場合が多いため、モデルの効率を改善する。 我々の焦点は、最小限のデータを使って顔の感情を認識できるSwinTアーキテクチャに基づく効率的なFERモデルを作ることであった。 ハイブリッドデータセット上でモデルをトレーニングし,impactnetデータセット上での性能評価を行い,f1-score 0.5420を達成し,eccv(european conference on computer vision)2022で開かれた野生動物行動分析(abaw)の勝者を抜いた。

The recognition of facial emotions is an essential aspect of human communication, allowing individuals to understand emotions conveyed by facial expressions and vocal tones. The field of Facial Emotion Recognition (FER) is of great significance in the areas of computer vision and artificial intelligence, with vast commercial and academic potential in fields such as security, advertising, and entertainment. We propose a FER framework that employs Swin Vision Transformers (SwinT) and squeeze and excitation block (SE) to address vision tasks. The approach uses a transformer model with an attention mechanism, SE, and SAM to improve the efficiency of the model, as transformers often require a large amount of data. Our focus was to create an efficient FER model based on SwinT architecture that can recognize facial emotions using minimal data. We trained our model on a hybrid dataset and evaluated its performance on the AffectNet dataset, achieving an F1-score of 0.5420, which surpassed the winner of the Affective Behavior Analysis in the Wild (ABAW) Competition held at the European Conference on Computer Vision (ECCV) 2022
翻訳日:2023-04-14 17:17:33 公開日:2023-04-11
# コヒーレント重ね合わせ量子状態の非古典性と非ガウス性の検出

Detecting nonclassicality and non-Gaussianity of a coherent superposed quantum state ( http://arxiv.org/abs/2304.06046v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 本稿では、フィールド消滅(a$)と生成(a^\dagger$)演算子のコヒーレント重ね合わせ(a^\dagger$)を古典的コヒーレント状態(|\alpha\rangle$)に適用することにより得られるコヒーレント重畳量子状態(CSQS)の非古典性と非ガウスシアン性について検討する。 このような操作は古典的な文字を持つ状態に適用されると、強い非古典性をもたらす。 我々は異なる基準を用いて、考慮された量子状態の非古典性と非ガウス性をチェックする。 CSQSのウィグナー関数をまず計算する。 考慮された状態の非古典性を研究するために (i)線形エントロピー(LE) (ii)wigner logarithmic negativity(wln)及び (iii)スキュー情報に基づく尺度。 相対エントロピーに基づく尺度は、CSQSの非ガウス性の変化を分析するものであると考えられる。 最後に、光子損失チャネルの下で進化するウィグナー関数のダイナミクスに対処し、ノイズが非古典性およびCSQSの非ガウス性に与える影響を探索する。

In this paper, we investigate the nonclassicality and non-Gaussianity of a coherent superposed quantum state (CSQS) which is obtained by applying a coherent superposition of field annihilation ($a$) and creation ($a^\dagger$) operators, $N(ta+ra^\dagger)$ to a classical coherent state $|\alpha\rangle$, where $t$ and $r$ are scalars with $t^2+r^2=1$. Such an operation, when applied on states having classical characters, introduces strong nonclassicality. We use different criteria to check the nonclassicality and non-Gaussianity of the considered quantum state. We first compute the Wigner function of CSQS. To study the nonclassicality of the considered state we further use (i) linear entropy (LE) (ii) Wigner logarithmic negativity (WLN) and (iii) skew information based measure. Relative entropy based measure is considered to analyze the variation in non-Gaussianity of CSQS. Finally, the dynamics of the Wigner function evolving under the photon loss channel is addressed to probe the effect of noise on nonclassicality as well as non-Gaussianity of CSQS.
翻訳日:2023-04-14 16:58:53 公開日:2023-04-11
# 転位Fock状態チャネルを用いた実効連続可変量子テレポーテーション

Realistic continuous-variable quantum teleportation using a displaced Fock state channel ( http://arxiv.org/abs/2304.06045v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 絡み合ったフォック状態資源を用いて,理想的かつ非理想的連続変動型量子テレポーテーションプロトコルについて検討する。 特性関数定式化は、スクイーズ状態およびコヒーレント状態のテレポーティングのための変位フォック状態の相対性能を測定するために適用される。 このような単一モードの入力フィールドでは、平均忠実度が古典的閾値に留まり、変位フォック状態がテレポーテーションに有利でないことを示唆する。 また,ベル計測の不正確さと光子損失がファイバーチャネルを経由する光電界の伝播に与える影響についても検討した。 テレポーテーションの忠実度の変化は、利得係数(g$)、反射率(R$)、モード減衰(\tau$)、熱光子の数(n_\mathrm{th}$)を調整することで説明される。 テレポーテーションの成功の可能性は、これらの現実的なパラメータを修正することで最適化できる。

We investigate ideal and non-ideal continuous-variable quantum teleportation protocols realized by using an entangled displaced Fock state resource. The characteristic function formulation is applied to measure the relative performance of displaced Fock state for teleporting squeezed and coherent states. It is found that for such single-mode input fields, the average fidelity remains at the classical threshold, suggesting that the displaced Fock states are not advantageous for teleportation. We also discuss the major decoherence effects, caused by the inaccuracy in Bell measurements and photon losses for the propagation of optical fields via fibre channels. The changes in the teleportation fidelity are described by adjusting the gain factor ($g$), reflectivity ($R$), mode damping ($\tau$), and the number of thermal photons ($n_\mathrm{th}$). The possibility of successful teleportation can be optimized by fixing these realistic parameters.
翻訳日:2023-04-14 16:58:29 公開日:2023-04-11
# ニューラルネットワーク制御器から決定木制御器への実行・費用効果自動変換

Exact and Cost-Effective Automated Transformation of Neural Network Controllers to Decision Tree Controllers ( http://arxiv.org/abs/2304.06049v1 )

ライセンス: Link先を確認
Kevin Chang, Nathan Dahlin, Rahul Jain and Pierluigi Nuzzo(参考訳) 過去10年間で、ニューラルネットワーク(NN)ベースのコントローラは、さまざまな意思決定タスクにおいて顕著な効果を示してきた。 しかしながら、彼らのブラックボックスの性質と予期せぬ行動や驚くべき結果のリスクは、正確性と安全性の保証が強い現実世界システムへの展開に挑戦する。 NNベースのコントローラを等価なソフト決定木(SDT)ベースのコントローラに変換することとその妥当性への影響を調べることで、これらの制限に対処する。 従来の手法とは違って,正規化線形ユニット(ReLU)アクティベーション関数やargmax演算を含む離散出力NNコントローラに注目する。 次に、冗長分岐を自動的に実行できるように、正確だが費用効率のよい変換アルゴリズムを考案する。 OpenAI Gym環境からの2つのベンチマークによるアプローチの評価を行った。 以上の結果から,SDT変換は,MountainCar-v0とCartPole-v0のランタイムを最大21倍,2倍改善したことを示す。

Over the past decade, neural network (NN)-based controllers have demonstrated remarkable efficacy in a variety of decision-making tasks. However, their black-box nature and the risk of unexpected behaviors and surprising results pose a challenge to their deployment in real-world systems with strong guarantees of correctness and safety. We address these limitations by investigating the transformation of NN-based controllers into equivalent soft decision tree (SDT)-based controllers and its impact on verifiability. Differently from previous approaches, we focus on discrete-output NN controllers including rectified linear unit (ReLU) activation functions as well as argmax operations. We then devise an exact but cost-effective transformation algorithm, in that it can automatically prune redundant branches. We evaluate our approach using two benchmarks from the OpenAI Gym environment. Our results indicate that the SDT transformation can benefit formal verification, showing runtime improvements of up to 21x and 2x for MountainCar-v0 and CartPole-v0, respectively.
翻訳日:2023-04-14 16:46:33 公開日:2023-04-11
# RELS-DQN: 組合せ最適化のためのロバストで効率的なローカル検索フレームワーク

RELS-DQN: A Robust and Efficient Local Search Framework for Combinatorial Optimization ( http://arxiv.org/abs/2304.06048v1 )

ライセンス: Link先を確認
Yuanhang Shao, Tonmoy Dey, Nikola Vuckovic, Luke Van Popering, Alan Kuhnle(参考訳) Combinatorial Optimization(CO)は、統計物理学からソーシャルメディアマーケティングまで、NPハード問題に対する最良の解決策を効率的に見つけることを目的としている。 広い範囲のCOアプリケーションは、強欲なポリシーに対する可逆的な行動を可能にするため、局所的な検索手法の恩恵を受けることができる。 メッセージパッシングニューラルネットワーク(MPNN)を用いた深層Q-learning(DQN)は、局所的な検索行動を複製し、局所的な検索アルゴリズムに匹敵する結果を得るという約束を示す。 しかし、メッセージパッシングの繰り返しにおける過度な平滑化と情報損失は、アプリケーション間の堅牢性を制限し、大きなメッセージベクトルはメモリの効率を損なう。 本稿では,実用的なスケーラビリティを提供しながら,局所的な検索動作を示す軽量なdqnフレームワークであるrels-dqnについて紹介する。 1つのアプリケーションでトレーニングされたRELS-DQNモデルを使用することで、ローカル検索アルゴリズムと既存のDQNモデルの両方と同等以上のソリューション値を提供しながら、実行時およびメモリ上で効率を保ちながら、様々なアプリケーションに一般化することができる。

Combinatorial optimization (CO) aims to efficiently find the best solution to NP-hard problems ranging from statistical physics to social media marketing. A wide range of CO applications can benefit from local search methods because they allow reversible action over greedy policies. Deep Q-learning (DQN) using message-passing neural networks (MPNN) has shown promise in replicating the local search behavior and obtaining comparable results to the local search algorithms. However, the over-smoothing and the information loss during the iterations of message passing limit its robustness across applications, and the large message vectors result in memory inefficiency. Our paper introduces RELS-DQN, a lightweight DQN framework that exhibits the local search behavior while providing practical scalability. Using the RELS-DQN model trained on one application, it can generalize to various applications by providing solution values higher than or equal to both the local search algorithms and the existing DQN models while remaining efficient in runtime and memory.
翻訳日:2023-04-14 16:46:16 公開日:2023-04-11
# 変形した原子空洞状態の非古典的性質

Nonclassical properties of a deformed atom-cavity field state ( http://arxiv.org/abs/2304.06047v1 )

ライセンス: Link先を確認
Naveen Kumar, Deepak and Arpita Chatterjee(参考訳) ここでは、原子空洞相互作用によって生成される非古典状態を分析する。 2レベル原子は単モード電磁キャビティ場を通過する。 場演算子を変形させ、古典的Jaynes-Cummingsモデルに非線形性を導入することにより、非線形ハミルトニアンに関して系を探索する。 原子が励起状態にあり、磁場が最初にコヒーレント状態にあると仮定すると、系状態ベクトル全体の状態ベクトルの解析式が得られる。 導出状態ベクトルの助けを借りて、光子数分布、マンデルの$q_m$パラメータ、ウィグナー関数、アンチバンチング、スクイージング特性、$q$関数などを計算する。

We analyze here a nonclassical state produced by an atom-cavity field interaction. The two-level atom is passed through the single-mode electromagnetic cavity field. By deforming the field operators and introducing nonlinearity to the classic Jaynes-Cummings model, we explore the system in respect of a nonlinear Hamiltonian. Assuming that the atom is in an excited state and the field is in a coherent state initially, the analytic expression for the state vector of the entire system state vector is obtained. With the help of the derived state vector, we calculate the photon number distribution, Mandel's $Q_M$ parameter, Wigner function, anti-bunching, squeezing properties and $Q$ function etc.
翻訳日:2023-04-14 16:45:55 公開日:2023-04-11
# 微小管における量子デコヒーレンス

Quantum decoherence in Microtubules ( http://arxiv.org/abs/2304.06518v1 )

ライセンス: Link先を確認
Kaushik Naskar and Parthasarathi Joarder(参考訳) 生物の全ての活動は古典力学によって説明できるわけではない。 生物学における量子物理学の応用は、細胞の説明できない現象を研究するのに役立つ。 生物学における量子物理学の介入の概念を否定するよりも、より詳細な研究研究が必要である。 ここでは、hameroff、penrose \cite{hamer}、およびいくつかの量子モデルによって導入された概念を用いて、ニューロンの量子デコヒーレンスを示す。 微小管内のダイマーの量子重ね合わせを仮定し、その環境と2種類の相互作用を個別に提示した。 ボソニック環境との相互作用について,デコヒーレンス時間スケールは相互作用係数とスペクトル密度の振幅に依存する定数係数に依存することを示した。 スピン環境との相互作用のために,ダイマーのコヒーレント重畳状態が環境誘起デコヒーレンスに対して生存できるほど強い場合を指摘した。

Not all activities in living creatures can be explained by classical dynamics. Application of quantum physics in biology helps to study the unexplained phenomena in cells. More detailed research work is needed rather than rejecting the concept of intervention of quantum physics in biology. Here we have used some concepts introduced by Hameroff, Penrose \cite{hamer} and some quantum models to show the quantum decoherence in neurons. Assuming a quantum superposition of dimers in microtubules we have separately presented two types of interaction with its environment. For interaction with bosonic environment we have shown that the decoherence time scale depends on a constant factor which depends on the interaction coefficients and amplitude of spectral density. For interaction with spin environment we have pointed out one case where the coherent superposition state of dimer is strong enough to survive against the environmental induced decoherence.
翻訳日:2023-04-14 14:26:14 公開日:2023-04-11
# SqueezeとExcitation Networkの変動

Variations of Squeeze and Excitation networks ( http://arxiv.org/abs/2304.06502v1 )

ライセンス: Link先を確認
Mahendran(参考訳) 畳み込みニューラルネットワークは、空間的特徴を学習し、カーネル内で強くリンクされる。 SEモジュールは、結果全体を次のレイヤに渡す従来のニューラルネットワークの経路を壊した。 代わりにseは、swish and excitation (se)モジュールで学ぶべき重要な機能のみをパスする。 本稿では, スクイーズとエキサイティングのプロセスを即興で実現し, 性能を向上させるseモジュールのバリエーションを提案する。 提案されたスキューズまたはエキサイティングな層は、層重みの滑らかな遷移を可能にする。 これらのバリエーションはseモジュールの特性も保持する。 実験結果は残余ネットワーク上で行われ、その結果は集計される。

Convolutional neural networks learns spatial features and are heavily interlinked within kernels. The SE module have broken the traditional route of neural networks passing the entire result to next layer. Instead SE only passes important features to be learned with its squeeze and excitation (SE) module. We propose variations of the SE module which improvises the process of squeeze and excitation and enhances the performance. The proposed squeezing or exciting the layer makes it possible for having a smooth transition of layer weights. These proposed variations also retain the characteristics of SE module. The experimented results are carried out on residual networks and the results are tabulated.
翻訳日:2023-04-14 14:25:41 公開日:2023-04-11
# 電気ネットワークとしてのリカレントニューラルネットワーク,形式化

Recurrent Neural Networks as Electrical Networks, a formalization ( http://arxiv.org/abs/2304.06487v1 )

ライセンス: Link先を確認
Mariano Caruso, Cecilia Jarne(参考訳) 1980年代以降、特にホップフィールドモデルでは、リカレントニューラルネットワーク(英語版)やRNNが大きな関心を集めている。 ニューラルネットワークの最初の研究は、アナログ電子回路を通してシミュレーションされた少数のニューロンの単純なシステムで構成された。 方程式から回路への通過は正当化やその後の形式化なしに直接行われた。 本研究は、アナログ回路とニューラルネットワークの等価性を正式に取得し、両方のシステム間の接続を形式化する方法を示す。 また、これらの電気ネットワークが満たさなければならない特性についても示す。 回路の項による表現は、ネットワークを表す方程式と数学的に等価であると確信することができる。

Since the 1980s, and particularly with the Hopfield model, recurrent neural networks or RNN became a topic of great interest. The first works of neural networks consisted of simple systems of a few neurons that were commonly simulated through analogue electronic circuits. The passage from the equations to the circuits was carried out directly without justification and subsequent formalisation. The present work shows a way to formally obtain the equivalence between an analogue circuit and a neural network and formalizes the connection between both systems. We also show which are the properties that these electrical networks must satisfy. We can have confidence that the representation in terms of circuits is mathematically equivalent to the equations that represent the network.
翻訳日:2023-04-14 14:25:16 公開日:2023-04-11
# 因子パワーのパワー:(確率的)最適化のための新しいパラメータ設定

The Power of Factorial Powers: New Parameter settings for (Stochastic) Optimization ( http://arxiv.org/abs/2006.01244v3 )

ライセンス: Link先を確認
Aaron Defazio and Robert M. Gower(参考訳) 凸最適化法と非凸最適化法の収束率は、ステップサイズ、リアプノフ関数定数、運動量定数を含む定数のホストの選択に依存する。 本研究では,収束証明に現れる定数を定義するための柔軟なツールとして,因子の力を用いることを提案する。 これらの列が楽しむ多くの顕著な特性をリストアップし、モーメント法、加速度勾配、確率分散低減法(SVRG)の収束率を単純化または改善するために収束証明に適用する方法を示す。

The convergence rates for convex and non-convex optimization methods depend on the choice of a host of constants, including step sizes, Lyapunov function constants and momentum constants. In this work we propose the use of factorial powers as a flexible tool for defining constants that appear in convergence proofs. We list a number of remarkable properties that these sequences enjoy, and show how they can be applied to convergence proofs to simplify or improve the convergence rates of the momentum method, accelerated gradient and the stochastic variance reduced method (SVRG).
翻訳日:2023-04-13 20:23:46 公開日:2023-04-11
# ベイズニューラルネットワークによる地震破断の不確実性の推定

Estimating uncertainty of earthquake rupture using Bayesian neural network ( http://arxiv.org/abs/1911.09660v2 )

ライセンス: Link先を確認
Sabber Ahamed and Md Mesbah Uddin(参考訳) ベイズニューラルネットワーク(BNN)は、ニューラルネットワーク(NN)と確率過程の両方の強度を組み合わせた確率モデルである。 結果として、BNNは、データが制限されているアプリケーションにおいて、過度に適合し、うまく機能する。 地震の破壊研究はデータが不十分であるような問題であり、科学者は多くの試行錯誤の数値モデルや物理モデルに頼る必要がある。 資源の不足と計算費用は、しばしば地震発生の背景にある理由を特定することが困難になる。 本研究では,(1)小規模データ問題に対処し,(2)地震発生の原因となるパラメータの組み合わせを明らかにするため,(3)地震発生に伴う不確かさを推定するために,bnnが用いられている。 モデルのトレーニングとテストには、2千の破壊シミュレーションが使用される。 単純な2次元破壊幾何学では、断層の中央にガウス幾何学的異質性があり、各シミュレーションで8つのパラメータが変化する。 BNN(0.8334)のテストF1スコアは、通常のNNスコアよりも2.34%高い。 その結果, 破断伝播のパラメータは破断停止よりも高い不確実性を示した。 通常の応力は破断伝播を決定する上で重要な役割を担い、次いで動的摩擦係数が続く不確実性の最も高い源でもある。 せん断応力は適度な役割を持つが、断層の幅や高さなどの幾何学的特徴は最も重要で不確実である。

Bayesian neural networks (BNN) are the probabilistic model that combines the strengths of both neural network (NN) and stochastic processes. As a result, BNN can combat overfitting and perform well in applications where data is limited. Earthquake rupture study is such a problem where data is insufficient, and scientists have to rely on many trial and error numerical or physical models. Lack of resources and computational expenses, often, it becomes hard to determine the reasons behind the earthquake rupture. In this work, a BNN has been used (1) to combat the small data problem and (2) to find out the parameter combinations responsible for earthquake rupture and (3) to estimate the uncertainty associated with earthquake rupture. Two thousand rupture simulations are used to train and test the model. A simple 2D rupture geometry is considered where the fault has a Gaussian geometric heterogeneity at the center, and eight parameters vary in each simulation. The test F1-score of BNN (0.8334), which is 2.34% higher than plain NN score. Results show that the parameters of rupture propagation have higher uncertainty than the rupture arrest. Normal stresses play a vital role in determining rupture propagation and are also the highest source of uncertainty, followed by the dynamic friction coefficient. Shear stress has a moderate role, whereas the geometric features such as the width and height of the fault are least significant and uncertain.
翻訳日:2023-04-13 20:23:06 公開日:2023-04-11
# 最適ルックアヘッドバイアスと分散トレードオフに対するwasserstein補間による時系列インプテーション

Time-Series Imputation with Wasserstein Interpolation for Optimal Look-Ahead-Bias and Variance Tradeoff ( http://arxiv.org/abs/2102.12736v2 )

ライセンス: Link先を確認
Jose Blanchet, Fernando Hernandez, Viet Anh Nguyen, Markus Pelger, Xuhui Zhang(参考訳) 時系列データの欠落が現実的な問題である。 時系列データにおける計算方法は、ダウンストリーム・アウト・オブ・サンプルタスクのモデルをトレーニングするために、全パネルデータに適用されることが多い。 例えば金融では、ポートフォリオ最適化モデルをトレーニングする前に、リターン不足の計算を適用することができる。 残念なことに、このプラクティスは下流タスクの今後のパフォーマンスに先見バイアスをもたらす可能性がある。 インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。 時間的に明らかにされた情報の層を接続することにより、計算における分散とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布を提案する。 我々は、合成データと実際の財務データの両方において、我々の方法論の利点を実証する。

Missing time-series data is a prevalent practical problem. Imputation methods in time-series data often are applied to the full panel data with the purpose of training a model for a downstream out-of-sample task. For example, in finance, imputation of missing returns may be applied prior to training a portfolio optimization model. Unfortunately, this practice may result in a look-ahead-bias in the future performance on the downstream task. There is an inherent trade-off between the look-ahead-bias of using the full data set for imputation and the larger variance in the imputation from using only the training data. By connecting layers of information revealed in time, we propose a Bayesian posterior consensus distribution which optimally controls the variance and look-ahead-bias trade-off in the imputation. We demonstrate the benefit of our methodology both in synthetic and real financial data.
翻訳日:2023-04-13 19:40:23 公開日:2023-04-11
# 混合モデルによる大域的制約に拘わらず因果推論

Causal Inference Despite Limited Global Confounding via Mixture Models ( http://arxiv.org/abs/2112.11602v4 )

ライセンス: Link先を確認
Spencer L. Gordon, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman(参考訳) ベイジアンネットワーク(英: Bayesian Network)は、$n$の確率変数(頂点)の集合上の有向非巡回グラフ(DAG)であり、ベイジアンネットワーク分布(BND)は、グラフ上のマルコビアンである確率変数上の確率分布である。 そのようなモデルの有限 $k$-mixture は、追加の "hidden" (または "latent") 確率変数 $u$ を持ち、$\{1,\ldots,k\}$ と、$u$ から他のすべての頂点への有向辺を持つ大きなグラフによってグラフィカルに表現される。 このタイプのモデルは因果推論の基本であり、$u$ は観測可能なdagの因果関係を欠く複数の集団の観測不能な共起効果をモデル化する。 混合問題の解法と$U$上の結合確率分布の復元により、伝統的に同定不可能な因果関係が同定可能となる。 空グラフ上のよりよく研究された「積」ケースへの還元を用いて、空でないDAGの混合を学習する最初のアルゴリズムを与える。

A Bayesian Network is a directed acyclic graph (DAG) on a set of $n$ random variables (the vertices); a Bayesian Network Distribution (BND) is a probability distribution on the random variables that is Markovian on the graph. A finite $k$-mixture of such models is graphically represented by a larger graph which has an additional "hidden" (or "latent") random variable $U$, ranging in $\{1,\ldots,k\}$, and a directed edge from $U$ to every other vertex. Models of this type are fundamental to causal inference, where $U$ models an unobserved confounding effect of multiple populations, obscuring the causal relationships in the observable DAG. By solving the mixture problem and recovering the joint probability distribution on $U$, traditionally unidentifiable causal relationships become identifiable. Using a reduction to the more well-studied "product" case on empty graphs, we give the first algorithm to learn mixtures of non-empty DAGs.
翻訳日:2023-04-13 19:34:04 公開日:2023-04-11
# MDPFuzz:マルコフ決定プロセスを解くテストモデル

MDPFuzz: Testing Models Solving Markov Decision Processes ( http://arxiv.org/abs/2112.02807v4 )

ライセンス: Link先を確認
Qi Pang, Yuanyuan Yuan, Shuai Wang(参考訳) マルコフ決定プロセス(markov decision process, mdp)は、逐次的な意思決定問題をモデル化するための数学的枠組みを提供する。 人工知能研究の急速な発展は、ディープニューラルネットワーク(DNN)、強化学習(RL)、模倣学習(IL)などのMDPを解決する効率的な方法を生み出している。 しかし、MDPを解くこれらの一般的なモデルは、徹底的にテストしたり、厳格に信頼できるものではない。 MDPを解くモデルのための最初のブラックボックスファジテストフレームワークであるMDPFuzzを紹介する。 MDPFuzzは、ターゲットモデルが異常状態と危険な状態に入るかどうかを確認することで、オークルをテストする。 ファジング中、MDPFuzzは、累積報酬を減らしたり、新しい状態列を形成することができるかどうかを測定することによって、どの変異状態を保持するかを決定する。 ガウス混合モデル(GMM)と動的期待最大化(DynEM)を用いて状態列の「フレッシュネス」を定量化する効率的な手法を設計する。 また,対象モデルの局所的感度を状態よりも推定することにより,クラッシュを顕在化する可能性の高い状態を優先する。 MDPFuzzは、教師付きDNN、RL、IL、マルチエージェントRLを含む5つの最先端モデルで評価される。 我々の評価には、自律走行のシナリオ、航空機衝突回避、RLのベンチマークによく使用される2つのゲームが含まれる。 12時間実行中に、各モデルに80以上のクラッシュトリガ状態シーケンスが見られます。 クラッシュトリガー状態は正常に見えるものの、正常な状態と比較して異なるニューロンの活性化パターンを誘発する。 さらに, 評価されたモデルをすべて強化し, MDPFuzzの発見で修復し, 精度を犠牲にすることなくその堅牢性を著しく向上する異常な挙動検出装置を開発した。

The Markov decision process (MDP) provides a mathematical framework for modeling sequential decision-making problems, many of which are crucial to security and safety, such as autonomous driving and robot control. The rapid development of artificial intelligence research has created efficient methods for solving MDPs, such as deep neural networks (DNNs), reinforcement learning (RL), and imitation learning (IL). However, these popular models solving MDPs are neither thoroughly tested nor rigorously reliable. We present MDPFuzz, the first blackbox fuzz testing framework for models solving MDPs. MDPFuzz forms testing oracles by checking whether the target model enters abnormal and dangerous states. During fuzzing, MDPFuzz decides which mutated state to retain by measuring if it can reduce cumulative rewards or form a new state sequence. We design efficient techniques to quantify the "freshness" of a state sequence using Gaussian mixture models (GMMs) and dynamic expectation-maximization (DynEM). We also prioritize states with high potential of revealing crashes by estimating the local sensitivity of target models over states. MDPFuzz is evaluated on five state-of-the-art models for solving MDPs, including supervised DNN, RL, IL, and multi-agent RL. Our evaluation includes scenarios of autonomous driving, aircraft collision avoidance, and two games that are often used to benchmark RL. During a 12-hour run, we find over 80 crash-triggering state sequences on each model. We show inspiring findings that crash-triggering states, though they look normal, induce distinct neuron activation patterns compared with normal states. We further develop an abnormal behavior detector to harden all the evaluated models and repair them with the findings of MDPFuzz to significantly enhance their robustness without sacrificing accuracy.
翻訳日:2023-04-13 19:33:14 公開日:2023-04-11
# 後継表現を用いた強化学習における時間的抽象化

Temporal Abstraction in Reinforcement Learning with the Successor Representation ( http://arxiv.org/abs/2110.05740v3 )

ライセンス: Link先を確認
Marlos C. Machado and Andre Barreto and Doina Precup and Michael Bowling(参考訳) 時間的抽象化の複数のレベルでの推論は、インテリジェンスの重要な特性の1つである。 強化学習では、オプションと呼ばれる時間的に拡張されたアクションのコースを通じてモデル化されることが多い。 オプションによってエージェントは予測を行い、環境内のさまざまなレベルの抽象化で操作できる。 それでも、option frameworkに基づくアプローチは、合理的なオプションセットが事前に知られているという仮定から始めることが多い。 もしそうでなければ、どの選択肢を検討するべきか決定的な答えはありません。 本稿では,国家訪問のパターンに基づいて状態を符号化した後継表現 (SR) を,時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。 我々の主張を支持するために、我々は最近の成果を概観し、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示した。 我々はこれらの結果を,エージェントの表現を用いて有用なオプションを識別し,その表現をさらに改善する,オプション発見のための一般的なフレームワークのインスタンス化として用いた。 この結果、表現とオプションの両方が互いに基づいて常に洗練される、厳密で絶え間ないサイクルがもたらされる。 オプション発見そのもの以外にも、SRによって、追加の学習なしに、組合せ的に大きな選択肢にオプションセットを拡張できる方法についても議論しています。 これは、以前に学習したオプションを組み合わせることで実現される。 私たちの経験的評価は、探査で発見されたオプションと、それらを組み合わせるためのsrの使用に焦点を当てています。 実験の結果,オプションの定義に関わる重要な設計上の決定に光を当て,固有オプションやオプションキーボードなど,SRに基づく異なる手法の相乗効果を実証した。

Reasoning at multiple levels of temporal abstraction is one of the key attributes of intelligence. In reinforcement learning, this is often modeled through temporally extended courses of actions called options. Options allow agents to make predictions and to operate at different levels of abstraction within an environment. Nevertheless, approaches based on the options framework often start with the assumption that a reasonable set of options is known beforehand. When this is not the case, there are no definitive answers for which options one should consider. In this paper, we argue that the successor representation (SR), which encodes states based on the pattern of state visitation that follows them, can be seen as a natural substrate for the discovery and use of temporal abstractions. To support our claim, we take a big picture view of recent results, showing how the SR can be used to discover options that facilitate either temporally-extended exploration or planning. We cast these results as instantiations of a general framework for option discovery in which the agent's representation is used to identify useful options, which are then used to further improve its representation. This results in a virtuous, never-ending, cycle in which both the representation and the options are constantly refined based on each other. Beyond option discovery itself, we also discuss how the SR allows us to augment a set of options into a combinatorially large counterpart without additional learning. This is achieved through the combination of previously learned options. Our empirical evaluation focuses on options discovered for exploration and on the use of the SR to combine them. The results of our experiments shed light on important design decisions involved in the definition of options and demonstrate the synergy of different methods based on the SR, such as eigenoptions and the option keyboard.
翻訳日:2023-04-13 19:31:16 公開日:2023-04-11
# 量子チャネルのシャドープロセストモグラフィ

Shadow process tomography of quantum channels ( http://arxiv.org/abs/2110.03629v4 )

ライセンス: Link先を確認
Jonathan Kunjummen, Minh C. Tran, Daniel Carney, Jacob M. Taylor(参考訳) 量子プロセストモグラフィーは、量子コンピュータの構築、量子ネットワークの実現、量子センサーの理解において重要な機能である。 量子状態トモグラフィーと同様に、任意の量子チャネルのプロセストモグラフィーは、影響を受ける量子ビット数に指数関数的にスケールする多くの測定を必要とする。 しかし、近年のシャドウトモグラフィーの分野は量子状態に適用され、多項式的に多くの測定しか行わない状態に関する鍵情報を抽出できることを実証している。 本研究では,影状態トモグラフィの概念を量子過程のキャラクタリゼーションの課題に適用する。 シャドウ状態トモグラフィからシャドウプロセストモグラフィへの厳密な境界を直接適用するためにchoi同型を用い、プロセストモグラフィに特有の測定値の数にさらなる境界を見つける。 シャドウプロセストモグラフィーを実装するアルゴリズムにより,チャネル結合の評価や,量子状態のシャドウへのチャネルの適用など,新たな手法が実現された。 これは大規模量子システムを理解するための劇的な改善をもたらす。

Quantum process tomography is a critical capability for building quantum computers, enabling quantum networks, and understanding quantum sensors. Like quantum state tomography, the process tomography of an arbitrary quantum channel requires a number of measurements that scale exponentially in the number of quantum bits affected. However, the recent field of shadow tomography, applied to quantum states, has demonstrated the ability to extract key information about a state with only polynomially many measurements. In this work, we apply the concepts of shadow state tomography to the challenge of characterizing quantum processes. We make use of the Choi isomorphism to directly apply rigorous bounds from shadow state tomography to shadow process tomography, and we find additional bounds on the number of measurements that are unique to process tomography. Our results, which include algorithms for implementing shadow process tomography enable new techniques including evaluation of channel concatenation and the application of channels to shadows of quantum states. This provides a dramatic improvement for understanding large-scale quantum systems.
翻訳日:2023-04-13 19:30:51 公開日:2023-04-11
# 自己教師付き音声認識における効率的なファインチューニングのための代表サブセット選択

Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition ( http://arxiv.org/abs/2203.09829v3 )

ライセンス: Link先を確認
Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza(参考訳) 自己教師付き音声認識モデルには、計算量と時間を要する自動音声認識(asr)のための高忠実度表現を学習するためのラベル付き学習データが必要である。 ASRのための自己教師型音声モデルにおいて、効率的な微調整のための最適なデータのサブセットを特定するタスクを検討する。 視覚タスクにおいて最も情報性の高いサンプルをサンプリングするために使用されるデータセットのプルーニング戦略は、微調整による自己教師付きASRにおけるランダムなサブセット選択よりは良くないことがわかった。 次に、自己教師付きASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。 CoWERAGEは,早期学習における単語誤り率(WER)のトレーニングに基づく実例のカバレッジ確保が,一般化性能の向上につながるという知見に基づいている。 TIMIT, Librispeech, LJSpeechデータセット上のwav2vec 2.0およびHuBERTモデルによる大規模な実験は、COWERAGEの有効性とモデル間の転送性を示し、既存のデータセットのプルーニング手法とランダムサンプリングよりも最大17%の相対的なWER改善を実現している。 また,war値の観点からの学習インスタンスのカバレッジは,音素に多様なサンプルを包含することを保証するため,自己教師付き音声認識モデルにおいて精度が向上することを示す。

Self-supervised speech recognition models require considerable labeled training data for learning high-fidelity representations for Automatic Speech Recognition (ASR) which is computationally demanding and time-consuming. We consider the task of identifying an optimal subset of data for efficient fine-tuning in self-supervised speech models for ASR. We discover that the dataset pruning strategies used in vision tasks for sampling the most informative examples do not perform better than random subset selection on fine-tuning self-supervised ASR. We then present the COWERAGE algorithm for representative subset selection in self-supervised ASR. COWERAGE is based on our finding that ensuring the coverage of examples based on training Word Error Rate (WER) in the early training epochs leads to better generalization performance. Extensive experiments with the wav2vec 2.0 and HuBERT model on TIMIT, Librispeech, and LJSpeech datasets show the effectiveness of COWERAGE and its transferability across models, with up to 17% relative WER improvement over existing dataset pruning methods and random sampling. We also demonstrate that the coverage of training instances in terms of WER values ensures the inclusion of phonemically diverse examples, leading to better test accuracy in self-supervised speech recognition models.
翻訳日:2023-04-13 19:24:51 公開日:2023-04-11
# エキスパート強化によるロバストハイブリッド学習

Robust Hybrid Learning With Expert Augmentation ( http://arxiv.org/abs/2202.03881v3 )

ライセンス: Link先を確認
Antoine Wehenkel, Jens Behrmann, Hsiang Hsu, Guillermo Sapiro, Gilles Louppe, J\"orn-Henrik Jacobsen(参考訳) ハイブリッドモデリングは、データから学んだ機械学習(ML)コンポーネントと組み合わせることで、専門家モデルの誤特定を減らす。 多くのMLアルゴリズムと同様に、ハイブリッドモデルの性能保証はトレーニング分布に制限される。 エキスパートモデルは通常、トレーニング領域外でも有効であるという知見を活用することで、‘textit{expert augmentation}’と呼ばれるハイブリッドデータ拡張戦略を導入することで、この制限を克服します。 ハイブリッドモデリングの確率論的形式化に基づき、既存のハイブリッドシステムに組み込まれるエキスパート拡張が一般化を改善できることを実証する。 常微分方程式と偏微分方程式の力学系をモデル化する3つの制御実験について,専門家の強化を実証的に検証した。 最後に,実二重振り子のデータセット上でのエキスパート拡張の可能性について検討する。

Hybrid modelling reduces the misspecification of expert models by combining them with machine learning (ML) components learned from data. Similarly to many ML algorithms, hybrid model performance guarantees are limited to the training distribution. Leveraging the insight that the expert model is usually valid even outside the training domain, we overcome this limitation by introducing a hybrid data augmentation strategy termed \textit{expert augmentation}. Based on a probabilistic formalization of hybrid modelling, we demonstrate that expert augmentation, which can be incorporated into existing hybrid systems, improves generalization. We empirically validate the expert augmentation on three controlled experiments modelling dynamical systems with ordinary and partial differential equations. Finally, we assess the potential real-world applicability of expert augmentation on a dataset of a real double pendulum.
翻訳日:2023-04-13 19:22:47 公開日:2023-04-11
# マクロな交通状態推定のためのハイブリッド物理機械学習手法

A Hybrid Physics Machine Learning Approach for Macroscopic Traffic State Estimation ( http://arxiv.org/abs/2202.01888v2 )

ライセンス: Link先を確認
Zhao Zhang, Ding Zhao, Xianfeng Terry Yang(参考訳) 高速道路におけるインテリジェントトランスポーテーションシステム(ITS)の運用の成功には、フルフィールドの交通状況情報(流れ、速度、密度など)が不可欠である。 しかし,ほとんどの地域では不十分な交通検知器から不完全な交通情報が直接収集される傾向にあり,ITSの普及の大きな障害となっている。 本稿では,トラヒック物理モデル(第2次マクロトラヒックフローモデルなど)を用いて,トラヒックセンサからの限られた情報を入力として使用し,高速道路システムのための高精度かつフルフィールドな推定トラヒック状態を構築できる,ハイブリッド回帰型機械学習手法(例えば,ニューラルネットワーク(ann),ランダムフォレスト(rf),サポートベクタマシン(svm))をハイブリッド化した,革新的なトラヒック状態推定(tse)フレームワークを提案する。 提案するTSEフレームワークの有効性を検討するため,ユタ州ソルトレイクシティのI-15高速道路から収集した実世界のデータセットについて実験的検討を行った。 実験の結果,提案手法は実地交通情報を正確に推定できることが証明された。 したがって,提案手法は高精度かつフルフィールドの交通情報を提供し,ITSの普及の基盤となる。

Full-field traffic state information (i.e., flow, speed, and density) is critical for the successful operation of Intelligent Transportation Systems (ITS) on freeways. However, incomplete traffic information tends to be directly collected from traffic detectors that are insufficiently installed in most areas, which is a major obstacle to the popularization of ITS. To tackle this issue, this paper introduces an innovative traffic state estimation (TSE) framework that hybrid regression machine learning techniques (e.g., artificial neural network (ANN), random forest (RF), and support vector machine (SVM)) with a traffic physics model (e.g., second-order macroscopic traffic flow model) using limited information from traffic sensors as inputs to construct accurate and full-field estimated traffic state for freeway systems. To examine the effectiveness of the proposed TSE framework, this paper conducted empirical studies on a real-world data set collected from a stretch of I-15 freeway in Salt Lake City, Utah. Experimental results show that the proposed method has been proved to estimate full-field traffic information accurately. Hence, the proposed method could provide accurate and full-field traffic information, thus providing the basis for the popularization of ITS.
翻訳日:2023-04-13 19:22:35 公開日:2023-04-11
# ニューラル最小デコーダの解釈

Interpreting Neural Min-Sum Decoders ( http://arxiv.org/abs/2205.10684v2 )

ライセンス: Link先を確認
Sravan Kumar Ankireddy and Hyeji Kim(参考訳) 線形ブロック符号の復号化において,Belief Propagation (BP)デコーダに学習可能なパラメータを導入することにより,顕著な信頼性向上が達成できることを示した。 これらの手法が成功したにも拘わらず、鍵となる問題は2つある。 1つは学習重量の解釈の欠如、もう1つは非AWGNチャネルの分析の欠如である。 本研究では,このギャップを埋めるために,学習した重みと,基礎となるコード構造との関連性に関する洞察を提供することを目的とする。 重み付けはコード内の短いサイクルの分布に大きく影響されていることを示す。 次に、非AWGNチャネルにおけるこれらのデコーダの性能について、合成チャネルとオーバーザエアチャネルの両方について検討し、複雑度と性能トレードオフについて検討し、パラメータの数の増加が複雑なチャネルにおいて著しく役立つことを示す。 最後に,学習重み付き復号器はガウス近似の下で解析的に最適化された重み付き復号器よりも信頼性が高いことを示す。

In decoding linear block codes, it was shown that noticeable reliability gains can be achieved by introducing learnable parameters to the Belief Propagation (BP) decoder. Despite the success of these methods, there are two key open problems. The first is the lack of interpretation of the learned weights, and the other is the lack of analysis for non-AWGN channels. In this work, we aim to bridge this gap by providing insights into the weights learned and their connection to the structure of the underlying code. We show that the weights are heavily influenced by the distribution of short cycles in the code. We next look at the performance of these decoders in non-AWGN channels, both synthetic and over-the-air channels, and study the complexity vs. performance trade-offs, demonstrating that increasing the number of parameters helps significantly in complex channels. Finally, we show that the decoders with learned weights achieve higher reliability than those with weights optimized analytically under the Gaussian approximation.
翻訳日:2023-04-13 19:14:57 公開日:2023-04-11
# 原子干渉計における長距離力のデコヒーレンス

Decoherence from Long-Range Forces in Atom Interferometry ( http://arxiv.org/abs/2205.03006v2 )

ライセンス: Link先を確認
Jonathan Kunjummen, Daniel Carney, and Jacob M. Taylor(参考訳) 原子干渉計は、より大局的な空間と時間の範囲で量子コヒーレント系を実現する強力な手段を提供する。 これらのシステムは、超薄暗いダークマターの探索や重力の修正の試験、長い落下時間、微小重力など、基礎物理学の様々な新しい実験の機会を提供する。 しかし、実験が長期間自由落下し、より小さな背景効果に敏感になるにつれて、将来の原子干渉計実験の基本的な限界について重要な疑問が浮かび上がる。 重力浴や荷電宇宙線などの長距離力を持つ環境粒子の浴槽による強画面背景からの原子コヒーレンスへの影響について検討した。 原子の動きのハイゼンベルク図における我々のアプローチは、実験装置を適切に包含することを可能にし、長距離力と好ましいフレームあいまいさをどう扱うかを明確に示します。 これらの潜在的な背景は次世代の干渉計では無視できない可能性があり、暗黒物質粒子の背景浴からの重力デコヒーレンスのアグレッシブな推定は、年の順にデコヒーレンスタイムスケールを与える。

Atom interferometers provide a powerful means of realizing quantum coherent systems with increasingly macroscopic extent in space and time. These systems provide an opportunity for a variety of novel tests of fundamental physics, including ultralight dark matter searches and tests of modifications of gravity, using long drop times, microgravity. However, as experiments operate with longer periods of free fall and become sensitive to smaller background effects, key questions start to emerge about the fundamental limits to future atom interferometery experiments. We study the effects on atomic coherence from hard-to-screen backgrounds due to baths of ambient particles with long-range forces, such as gravitating baths and charged cosmic rays. Our approach - working in the Heisenberg picture for the atomic motion - makes proper inclusion of the experimental apparatus feasible and clearly shows how to handle long-range forces and preferred frame ambiguities. We find that these potential backgrounds are likely negligible for the next generation of interferometers, as aggressive estimates for the gravitational decoherence from a background bath of dark matter particles gives a decoherence timescale on the order of years.
翻訳日:2023-04-13 19:14:38 公開日:2023-04-11
# Fiat-Shamir:共有絡みがあっても証明できない証明

Fiat-Shamir for Proofs Lacks a Proof Even in the Presence of Shared Entanglement ( http://arxiv.org/abs/2204.02265v3 )

ライセンス: Link先を確認
Fr\'ed\'eric Dupuis, Philippe Lamontagne, Louis Salvail(参考訳) 任意の共有物理リソースの暗号能力について検討する。 最も一般的なリソースは、プロトコルの実行開始時に、新しい絡み合った量子状態へのアクセスである。 これをCRQS(Common Reference Quantum State)モデルと呼び、よく知られたCommon Reference String(CRS)と類似しています。 CRQSモデルは、CRSモデルの自然な一般化であるが、より強力であるように見える: 二つの党構成では、CRQSは、互いに偏りのない多くの基底のうちの1つにおいて、最大に絡み合った状態を測定することによって、一度クエリされたランダムOracleに関連する性質を示すことがある。 我々は、この概念をWak One-Time Random Oracle (WOTRO) として定式化し、$m$-bitの出力だけを要求すれば、$n$-bitの入力で条件付けられたときにランダム性を持つ。 n-m\in\omega(\lg n)$の場合、crqsモデルにおけるwotroのプロトコルは(非効率な)敵に攻撃される。 さらに、我々の敵は効率的にシミュラブルであり、暗号ゲーム仮定へのブラックボックス還元によるスキームの計算安全性を証明する可能性を規定している。 一方、CRQ\$モデル(CRQS は EPR ペアのみからなる)における WOTRO を暗示するハッシュ関数に対して、非量子的な量子仮定を導入する。 最初に統計的にセキュアなWOTROプロトコルを構築し、$m=n$で出力をハッシュします。 WOTROの不可能性は以下の結果をもたらす。 まず,量子フィアット・シャミール変換のブラックボックス化不可能性を示し,ビタンスキーら (tcc '13) の不可能性結果をcrqsモデルに拡張する。 第2に、量子ボルトが新しいボルトを発生させずに変更できない追加パラメータを持つ量子稲妻(Zhandry, Eurocrypt '19)の強化版に対するブラックボックス不合理性結果を示す。

We explore the cryptographic power of arbitrary shared physical resources. The most general such resource is access to a fresh entangled quantum state at the outset of each protocol execution. We call this the Common Reference Quantum State (CRQS) model, in analogy to the well-known Common Reference String (CRS). The CRQS model is a natural generalization of the CRS model but appears to be more powerful: in the two-party setting, a CRQS can sometimes exhibit properties associated with a Random Oracle queried once by measuring a maximally entangled state in one of many mutually unbiased bases. We formalize this notion as a Weak One-Time Random Oracle (WOTRO), where we only ask of the $m$--bit output to have some randomness when conditioned on the $n$--bit input. We show that when $n-m\in\omega(\lg n)$, any protocol for WOTRO in the CRQS model can be attacked by an (inefficient) adversary. Moreover, our adversary is efficiently simulatable, which rules out the possibility of proving the computational security of a scheme by a black-box reduction to a cryptographic game assumption. On the other hand, we introduce a non-game quantum assumption for hash functions that implies WOTRO in the CRQ\$ model (where the CRQS consists only of EPR pairs). We first build a statistically secure WOTRO protocol where $m=n$, then hash the output. The impossibility of WOTRO has the following consequences. First, we show the black-box impossibility of a quantum Fiat-Shamir transform, extending the impossibility result of Bitansky et al. (TCC '13) to the CRQS model. Second, we show a black-box impossibility result for a strenghtened version of quantum lightning (Zhandry, Eurocrypt '19) where quantum bolts have an additional parameter that cannot be changed without generating new bolts.
翻訳日:2023-04-13 19:13:16 公開日:2023-04-11
# エネルギー独立な複素単体$P$-waves $NN$ potential from Marchenko equation

Energy-independent complex single $P$-waves $NN$ potential from Marchenko equation ( http://arxiv.org/abs/2204.00945v2 )

ライセンス: Link先を確認
N. A. Khokhlov(参考訳) 我々は、量子散乱理論の逆問題(マルケンコ理論、固定-$l$反転)を解く以前の結果を拡張する。 特に,マルテンコ方程式の入力核展開に対して,アイソスセル三角形パルス関数セットを分離可能な形で適用する。 分離可能な形式は、出力核拡大係数の線形方程式系へのマーケンコ方程式の還元を可能にする。 単一部分波の一般の場合、入力核の線形表現は、運動量の有限範囲の関数 $0\leq q\leq\pi/h$ [$s(q)$ が散乱行列であり、$l$ は角軌道運動量 $m=0,1,\dots,2l$] のフーリエ級数係数で得られる。 したがって、有限区間上の部分$S$-行列が$h$-stepの精度でポテンシャル関数を決定することを示す。 計算された部分ポテンシャルは、必要な精度で部分的な$s$-行列を記述する。部分的な$s$-行列は、非弾性のしきい値よりもユニタリで、非ユニタリな(吸収的)。 我々は,3GeVまで弾性散乱した$NN$の部分波解析(PWA)データに適用した。 エネルギー非依存な複素部分ポテンシャルは、1つの$p$-wavesのデータを記述する。

We extend our previous results of solving the inverse problem of quantum scattering theory (Marchenko theory, fixed-$l$ inversion). In particular, we apply an isosceles triangular-pulse function set for the Marchenko equation input kernel expansion in a separable form. The separable form allows a reduction of the Marchenko equation to a system of linear equations for the output kernel expansion coefficients. We show that in the general case of a single partial wave, a linear expression of the input kernel is obtained in terms of the Fourier series coefficients of $q^{1-m}(1-S(q))$ functions in the finite range of the momentum $0\leq q\leq\pi/h$ [$S(q)$ is the scattering matrix, $l$ is the angular orbital momentum, $m=0,1,\dots,2l$]. Thus, we show that the partial $S$--matrix on the finite interval determines a potential function with $h$-step accuracy. The calculated partial potentials describe a partial $S$--matrix with the required accuracy. The partial $S$--matrix is unitary below the threshold of inelasticity and non--unitary (absorptive) above the threshold. We developed a procedure and applied it to partial-wave analysis (PWA) data of $NN$ elastic scattering up to 3 GeV. We show that energy-independent complex partial potentials describe these data for single $P$-waves.
翻訳日:2023-04-13 19:12:14 公開日:2023-04-11
# XY鎖における絡み合いの証人:熱平衡と非平衡状態

Entanglement witnesses in the XY chain: Thermal equilibrium and postquench nonequilibrium states ( http://arxiv.org/abs/2207.04842v4 )

ライセンス: Link先を確認
Ferenc Igl\'oi and G\'eza T\'oth(参考訳) 熱平衡におけるXY鎖の絡み合いを検出するために絡み合い目撃者を用いて、状態が絡み合いとして検出される下限温度を決定する。 我々はハミルトニアンに基づく絡み合いの証人を考える。 そのような目撃者は、そのエネルギーが分離可能な状態のエネルギーよりも小さい場合に絡み合う状態を検出する。 また,国家の絡み合い否定性に関連する絡み合い証人の家族についても考察する。 無限系と有限系で証人をテストします 得られた温度境界が基底状態における量子相転移や障害線の影響について検討する。 準退化励起の存在により、非常に強い有限次元の補正が秩序相で観測される。 また,ハミルトニアンのパラメータが突然変化したときの熱力学的限界における熱力学的状態についても検討した。 アイジングモデルの場合、混合後レンチ状態が2つの方法によって絡み合うものとして検出されるのは、クエンチ前後のハミルトニアンのパラメータが互いに近接している場合である。 2人の証人は定性的に類似した結果を示し、エネルギーベースの絡み合いはスピン鎖の最も近い絡み合いを検出するのに効率的であることを示した。 他のXYモデルの場合、負性に基づく証人は、エネルギーに基づく証人が、特に、クエンチが常磁性相から強磁性相へと実行され、その逆の場合に、一部のパラメータ領域で状態を検出する。 エネルギーベースの証人が絡み合うと検出されたポストクエンチ状態に対応するパラメータ空間の領域を解析的に決定し,本手法の有用性をさらに強調する。

We use entanglement witnesses to detect entanglement in the XY chain in thermal equilibrium and determine the temperature bound below which the state is detected as entangled. We consider the entanglement witness based on the Hamiltonian. Such a witness detects a state as entangled if its energy is smaller than the energy of separable states. We also consider a family of entanglement witnesses related to the entanglement negativity of the state. We test the witnesses in infinite and finite systems. We study how the temperature bounds obtained are influenced by a quantum phase-transition or a disorder line in the ground state. Very strong finite-size corrections are observed in the ordered phase due to the presence of a quasi-degenerate excitation. We also study the postquench states in the thermodynamic limit after a quench when the parameters of the Hamiltonian are changed suddenly. In the case of the Ising model, we find that the mixed postquench state is detected as entangled by the two methods if the parameters of the Hamiltonian before and after the quench are close to each other. We find that the two witnesses give qualitatively similar results, showing that energy-based entanglement witnesses are efficient in detecting the nearest-neighbor entanglement in spin chains in various circumstances. For other XY models, we find that the negativity based witnesses also detect states in some parameter regions where the energy-based witness does not, in particular, if the quench is performed from the paramagnetic phase to the ferromagnetic phase and vice versa. The domains in parameter space corresponding to postquench states detected as entangled by the energy-based witness have been determined analytically, which stresses further the utility of our method.
翻訳日:2023-04-13 19:05:15 公開日:2023-04-11
# 二元分類における逆代理リスクの存在とミニマックス定理

Existence and Minimax Theorems for Adversarial Surrogate Risks in Binary Classification ( http://arxiv.org/abs/2206.09098v3 )

ライセンス: Link先を確認
Natalie S. Frank, Jonathan Niles-Weed(参考訳) 敵意訓練は、敵意攻撃に頑健な訓練方法の最も一般的な方法の1つであるが、理論的にはよく理解されていない。 我々は、逆代理リスクに対する証明と存在、正則性、およびミニマックス定理を行う。 本研究は,先行研究による敵のロバスト性に関する経験的観察を説明し,アルゴリズム開発における新たな方向性を示唆する。 さらに, 既知の存在と, 逆分類リスクに対するミニマックス定理を拡張し, リスクを推測した。

Adversarial training is one of the most popular methods for training methods robust to adversarial attacks, however, it is not well-understood from a theoretical perspective. We prove and existence, regularity, and minimax theorems for adversarial surrogate risks. Our results explain some empirical observations on adversarial robustness from prior work and suggest new directions in algorithm development. Furthermore, our results extend previously known existence and minimax theorems for the adversarial classification risk to surrogate risks.
翻訳日:2023-04-13 19:04:31 公開日:2023-04-11
# 分散ボース-アインシュタイン凝縮体の量子バックアクション限界

Quantum Back-action Limits in Dispersively Measured Bose-Einstein Condensates ( http://arxiv.org/abs/2209.04400v3 )

ライセンス: Link先を確認
Emine Altuntas and Ian B. Spielman(参考訳) 量子力学の基本的な理論は、測定がシステムの波動関数を、観測者がいなくても測定結果と最も一致するものに変化させることである。 弱測定はシステムの限られた情報のみを生成し、結果としてシステムの状態を最小限に変化させる。 ここでは、原子ボース・アインシュタイン凝縮における量子バックアクションと遠方共振レーザービームとの相互作用を理論的に実験的に特徴付ける。 この過程を,環境が散乱光を測定する量子軌道法を用いて理論的に記述し,理想的な光検出機構に基づく測定モデルを提案する。 ラムゼー干渉計のコントラストの観点で導波関数の変化を実験的に定量化し,測定過程に伴う寄生効果を制御した。 観測されたバックアクションは、我々の測定モデルとよく一致しており、この結果は、量子ガスの真の量子バックアクション制限測定を達成するために必要な前駆体である。

A fundamental tenet of quantum mechanics is that measurements change a system's wavefunction to that most consistent with the measurement outcome, even if no observer is present. Weak measurements produce only limited information about the system, and as a result only minimally change the system's state. Here, we theoretically and experimentally characterize quantum back-action in atomic Bose-Einstein condensates interacting with a far-from resonant laser beam. We theoretically describe this process using a quantum trajectories approach where the environment measures the scattered light and present a measurement model based on an ideal photodetection mechanism. We experimentally quantify the resulting wavefunction change in terms of the contrast of a Ramsey interferometer and control parasitic effects associated with the measurement process. The observed back-action is in good agreement with our measurement model; this result is a necessary precursor for achieving true quantum back-action limited measurements of quantum gases.
翻訳日:2023-04-13 18:56:02 公開日:2023-04-11
# コントラスト型視聴覚マスクオートエンコーダ

Contrastive Audio-Visual Masked Autoencoder ( http://arxiv.org/abs/2210.07839v4 )

ライセンス: Link先を確認
Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, James Glass(参考訳) 本稿では,最新のMasked Auto-Encoder(MAE)モデルを単一モーダルからオーディオ視覚多目的へ拡張する。 次に, コントラスト学習とマスキングデータモデリングを組み合わせることで, 協調学習と協調学習を実現するコントラスト音声視覚マスク自動エンコーダ (cav-mae) を提案する。 実験の結果, 音声-視覚対応学習の目的は, モデルが音声-視覚検索タスクを実行できるだけでなく, モデルがより優れた関節表現を学習するのに役立つことがわかった。 その結果、VGGSoundでは、完全自己教師付きCAV-MAEが65.9%の新しいSOTA精度を実現し、オーディオ-視覚イベント分類タスクにおけるAudioSetの教師付き事前訓練モデルに匹敵する結果となった。 コードと事前トレーニングされたモデルはhttps://github.com/yuangongnd/cav-maeにある。

In this paper, we first extend the recent Masked Auto-Encoder (MAE) model from a single modality to audio-visual multi-modalities. Subsequently, we propose the Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE) by combining contrastive learning and masked data modeling, two major self-supervised learning frameworks, to learn a joint and coordinated audio-visual representation. Our experiments show that the contrastive audio-visual correspondence learning objective not only enables the model to perform audio-visual retrieval tasks, but also helps the model learn a better joint representation. As a result, our fully self-supervised pretrained CAV-MAE achieves a new SOTA accuracy of 65.9% on VGGSound, and is comparable with the previous best supervised pretrained model on AudioSet in the audio-visual event classification task. Code and pretrained models are at https://github.com/yuangongnd/cav-mae.
翻訳日:2023-04-13 18:48:24 公開日:2023-04-11
# 学習概念の論理結合によるGNNのグローバル説明可能性

Global Explainability of GNNs via Logic Combination of Learned Concepts ( http://arxiv.org/abs/2210.07147v3 )

ライセンス: Link先を確認
Steve Azzolin, Antonio Longa, Pietro Barbiero, Pietro Li\`o, Andrea Passerini(参考訳) GNNのインスタンスレベルの説明は、多くのアプローチが開発されているよく研究されている問題であるが、解釈可能性やデバッグの可能性にもかかわらず、GNNの振る舞いに関するグローバルな説明は、はるかに少ない。 既存の解は、与えられたクラスの局所的な説明を単にリストアップするか、あるいは与えられたクラスの最大スコアを持つ合成原型グラフを生成し、GNNが学べる組合せ的な側面を全く欠いている。 本稿では、学習したグラフィカル概念の任意のブール結合として説明を生成できる最初のグローバル説明器であるglgexplainer(global logic-based gnn explaineder)を提案する。 glgexplainerは、ローカルな説明を入力として取り、それらをグラフィカルな概念の上に論理式に結合し、ローカルな説明のクラスタとして表現する、完全に微分可能なアーキテクチャである。 既存のソリューションとは対照的に、GLGExplainerは、(合成データにおいて)地道的な説明と完全に整合した正確で人間の解釈可能なグローバルな説明を提供する。 抽出された公式はモデル予測に忠実であり、モデルによって学習される時に誤ったルールに対する洞察を提供するため、glgexplainerは学習したgnnにとって有望な診断ツールとなる。

While instance-level explanation of GNN is a well-studied problem with plenty of approaches being developed, providing a global explanation for the behaviour of a GNN is much less explored, despite its potential in interpretability and debugging. Existing solutions either simply list local explanations for a given class, or generate a synthetic prototypical graph with maximal score for a given class, completely missing any combinatorial aspect that the GNN could have learned. In this work, we propose GLGExplainer (Global Logic-based GNN Explainer), the first Global Explainer capable of generating explanations as arbitrary Boolean combinations of learned graphical concepts. GLGExplainer is a fully differentiable architecture that takes local explanations as inputs and combines them into a logic formula over graphical concepts, represented as clusters of local explanations. Contrary to existing solutions, GLGExplainer provides accurate and human-interpretable global explanations that are perfectly aligned with ground-truth explanations (on synthetic data) or match existing domain knowledge (on real-world data). Extracted formulas are faithful to the model predictions, to the point of providing insights into some occasionally incorrect rules learned by the model, making GLGExplainer a promising diagnostic tool for learned GNNs.
翻訳日:2023-04-13 18:47:39 公開日:2023-04-11
# Decomposed Prompting: 複雑なタスクを解くためのモジュール的アプローチ

Decomposed Prompting: A Modular Approach for Solving Complex Tasks ( http://arxiv.org/abs/2210.02406v2 )

ライセンス: Link先を確認
Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, Ashish Sabharwal(参考訳) さまざまなタスクを解決するためにLLM(Large Language Models)を使用するには,驚くほど強力な方法だ。 しかし、タスクの複雑さが増大したり、タスク自体の個々の推論ステップが学ぶのが難しい場合、特に複雑なタスクに組み込まれている場合、このアプローチは困難である。 そこで本研究では,複雑なタスクを(プロンプトによって)より単純なサブタスクに分解し,それらのサブタスクに特化したプロンプトベースのllmのライブラリに委譲する,新しいアプローチであるdecomposed promptingを提案する。 このモジュール構造により、各プロンプトは特定のサブタスクに最適化され、必要に応じてさらに分解され、必要に応じてより効果的なプロンプト、トレーニングされたモデル、あるいはシンボリック関数に置き換えられる。 本稿では,分解プロンプティングの柔軟性とモジュラリティが,GPT3を用いたショットプロンプトの先行処理よりも優れていることを示す。 シンボリック推論タスクでは、llmが難しいサブタスクを、より単純な解決可能なサブタスクに分解することができる。 複雑性が入力長から生じると、再帰的にタスクを同じタスクに分解するが、入力を小さくすることができる。 長いコンテキストのマルチホップqaタスクでは、個別のサブタスクプロンプトを通じてサブタスクをより効果的に教えることができ、オープンドメインのマルチホップqaでは、分解フレームワークにシンボル情報検索を組み込むことができ、両方のタスクでパフォーマンスが向上します。 Datasets、Code、Promptsはhttps://github.com/allenai/DecomP.comで入手できる。

Few-shot prompting is a surprisingly powerful way to use Large Language Models (LLMs) to solve various tasks. However, this approach struggles as the task complexity increases or when the individual reasoning steps of the task themselves are hard to learn, especially when embedded in more complex tasks. To address this, we propose Decomposed Prompting, a new approach to solve complex tasks by decomposing them (via prompting) into simpler sub-tasks that can be delegated to a library of prompting-based LLMs dedicated to these sub-tasks. This modular structure allows each prompt to be optimized for its specific sub-task, further decomposed if necessary, and even easily replaced with more effective prompts, trained models, or symbolic functions if desired. We show that the flexibility and modularity of Decomposed Prompting allows it to outperform prior work on few-shot prompting using GPT3. On symbolic reasoning tasks, we can further decompose sub-tasks that are hard for LLMs into even simpler solvable sub-tasks. When the complexity comes from the input length, we can recursively decompose the task into the same task but with smaller inputs. We also evaluate our approach on textual multi-step reasoning tasks: on long-context multi-hop QA task, we can more effectively teach the sub-tasks via our separate sub-tasks prompts; and on open-domain multi-hop QA, we can incorporate a symbolic information retrieval within our decomposition framework, leading to improved performance on both tasks. Datasets, Code and Prompts available at https://github.com/allenai/DecomP.
翻訳日:2023-04-13 18:46:51 公開日:2023-04-11
# 量子極端学習マシンの可能性と限界について

On the potential and limitations of quantum extreme learning machines ( http://arxiv.org/abs/2210.00780v3 )

ライセンス: Link先を確認
Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Alessandro Ferraro, Mauro Paternostro, G. Massimo Palma(参考訳) 量子貯水池コンピュータ (QRC) と量子極端学習機械 (QELM) は、量子状態の性質の推定などの課題を解決するために、固定された(一般には校正されていない)量子デバイスの結果を効率的に後処理することを目的としている。 現在不足しているその可能性と制限の特性により、システム識別、デバイスパフォーマンスの最適化、状態やプロセスの再構築といった問題に対するアプローチの完全な展開が可能になる。 本稿では,QRCとQELMをモデル化するフレームワークを提案し,単一の有効測定によって簡潔に記述できることを示し,そのようなプロトコルで正確に検索可能な情報の明示的な特徴付けを提供する。 さらに、QELMのトレーニングプロセスと、そのデバイスを特徴付ける効果的な測定方法の再構築の類似点を見出した。 我々の分析は、QELMとQRCの両方の能力と限界をより深く理解する方法を示し、ノイズや不完全性に対してより耐性のある量子状態推定のための強力な測定パラダイムになる可能性がある。

Quantum reservoir computers (QRC) and quantum extreme learning machines (QELM) aim to efficiently post-process the outcome of fixed -- generally uncalibrated -- quantum devices to solve tasks such as the estimation of the properties of quantum states. The characterisation of their potential and limitations, which is currently lacking, will enable the full deployment of such approaches to problems of system identification, device performance optimization, and state or process reconstruction. We present a framework to model QRCs and QELMs, showing that they can be concisely described via single effective measurements, and provide an explicit characterisation of the information exactly retrievable with such protocols. We furthermore find a close analogy between the training process of QELMs and that of reconstructing the effective measurement characterising the given device. Our analysis paves the way to a more thorough understanding of the capabilities and limitations of both QELMs and QRCs, and has the potential to become a powerful measurement paradigm for quantum state estimation that is more resilient to noise and imperfections.
翻訳日:2023-04-13 18:46:00 公開日:2023-04-11
# ictal-interictal-injury continuumにおける脳波パターンの解釈可能な機械学習システム

Interpretable Machine Learning System to EEG Patterns on the Ictal-Interictal-Injury Continuum ( http://arxiv.org/abs/2211.05207v4 )

ライセンス: Link先を確認
Alina Jade Barnett, Zhicheng Guo, Jin Jing, Wendong Ge, Cynthia Rudin, M. Brandon Westover(参考訳) 集中治療室(ICUs)では、重度の脳損傷を防ぐために、重度の重症患者を脳波(EEGs)でモニターする。 モニターできる患者の数は、訓練を受けた医師が脳波を読むことができることによって制限され、脳波の解釈は主観的であり、サーバ間変動が起こりやすい。 脳波の自動ディープラーニングシステムは、人間のバイアスを減らし、診断プロセスを加速する。 しかし、ブラックボックスディープラーニングモデルは信頼性が低く、トラブルシュートが難しく、現実世界のアプリケーションでは説明責任が欠如しており、臨床医の信頼と採用が欠如している。 これらの課題に対処するため,我々は,有害な脳波パターンの存在を予測できるだけでなく,その決定に関する高品質なケースベース説明を提供する新しい解釈可能な深層学習モデルを提案する。 我々のモデルは解釈可能であることを制約されているにもかかわらず、対応するブラックボックスモデルよりも優れている。 学習された2次元埋め込み空間は、ictal-interictal-injury continuum brainwaveパターンの構造に関する最初のグローバルな概観を提供する。 私たちのモデルがどのように決定に至ったかを理解する能力は、臨床医が有害な脳活動の診断と治療をより正確に行うのに役立つだけでなく、臨床における機械学習モデルの信頼と採用を高めるのに役立つでしょう。

In intensive care units (ICUs), critically ill patients are monitored with electroencephalograms (EEGs) to prevent serious brain injury. The number of patients who can be monitored is constrained by the availability of trained physicians to read EEGs, and EEG interpretation can be subjective and prone to inter-observer variability. Automated deep learning systems for EEG could reduce human bias and accelerate the diagnostic process. However, black box deep learning models are untrustworthy, difficult to troubleshoot, and lack accountability in real-world applications, leading to a lack of trust and adoption by clinicians. To address these challenges, we propose a novel interpretable deep learning model that not only predicts the presence of harmful brainwave patterns but also provides high-quality case-based explanations of its decisions. Our model performs better than the corresponding black box model, despite being constrained to be interpretable. The learned 2D embedded space provides the first global overview of the structure of ictal-interictal-injury continuum brainwave patterns. The ability to understand how our model arrived at its decisions will not only help clinicians to diagnose and treat harmful brain activities more accurately but also increase their trust and adoption of machine learning models in clinical practice; this could be an integral component of the ICU neurologists' standard workflow.
翻訳日:2023-04-13 18:38:25 公開日:2023-04-11
# thzスピントロニクスにおけるスピン・電荷励起の量子古典的アプローチ--超高速ワイル反強磁性体mn$_3$snの例

Quantum-classical approach to spin and charge pumping and the ensuing radiation in THz spintronics: Example of ultrafast-light-driven Weyl antiferromagnet Mn$_3$Sn ( http://arxiv.org/abs/2211.03645v3 )

ライセンス: Link先を確認
Abhin Suresh, Branislav K. Nikolic(参考訳) fs光パルスと磁気材料との相互作用は、単一磁性層における超高速脱磁や2層からのthz放出を非磁性スピン軌道(so)材料と理解するために、20年以上にわたって激しく研究されてきた。 Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. 我々のQME+LLG+Jefimenko方式は、fs光パルスが直接スピンと電荷ポンプと電磁放射を後者によってどのように生成するかを理解することができる。 直接励起されたスピン電流は局所磁化にスピントルクを作用させ、そのダイナミクスはTHz範囲で放射される追加のスピンと電荷電流を励起する。 llgダイナミックスおよびsoカップリングをオン・オフすることで、その内部にmn$_3$snの局所磁化によるチャージポンプ機構が、隣り合う非磁性のsoカップリング材料におけるスピンポンプおよびその後のスピン・ツー・チャージ変換よりも極めて重要であることを解明する。

The interaction of fs light pulses with magnetic materials has been intensely studied for more than two decades in order to understand ultrafast demagnetization in single magnetic layers or THz emission from their bilayers with nonmagnetic spin-orbit (SO) materials. Here we develop a multiscale quantum-classical formalism -- where conduction electrons are described by quantum master equation of the Lindblad type; classical dynamics of local magnetization is described by the Landau-Lifshitz-Gilbert (LLG) equation; and incoming light is described by classical vector potential while outgoing electromagnetic radiation is computed using Jefimenko equations for retarded electric and magnetic fields -- and apply it a bilayer of antiferromagnetic Weyl semimetal Mn$_3$Sn with noncollinear local magnetization in contact with SO-coupled nonmagnetic material. Our QME+LLG+Jefimenko scheme makes it possible to understand how fs light pulse generates directly spin and charge pumping and electromagnetic radiation by the latter, including both odd and even high harmonics (of the pulse center frequency) up to order $n \le 7$. The directly pumped spin current then exert spin torque on local magnetization whose dynamics, in turn, pumps additional spin and charge currents radiating in the THz range. By switching on and off LLG dynamics and SO couplings, we unravel which microscopic mechanism contribute the most to emitted THz radiation -- charge pumping by local magnetization of Mn$_3$Sn in the presence of its intrinsic SO coupling is far more important than standardly assumed (for other types of magnetic layers) spin pumping and subsequent spin-to-charge conversion within the neighboring nonmagnetic SO-coupled material.
翻訳日:2023-04-13 18:38:03 公開日:2023-04-11
# 条件付きGANと拡散モデルに対する効率的な空間スパース推論

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models ( http://arxiv.org/abs/2211.02048v3 )

ライセンス: Link先を確認
Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan Zhu(参考訳) 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。 これは特にマイナーな編集操作において、計算のかなりの無駄につながる。 本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。 重要なのは、ユーザが入力イメージを徐々に変える傾向があることです。 これは、元のイメージの機能マップをキャッシュして再利用する動機となります。 編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。 さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。 約$1\%の領域編集でDDPMの計算量を$7.5\times$、Stable Diffusionを$8.2\times$、GauGANを$18\times$に減らす。 sigeでは、ddpmの推論時間をnvidia rtx 3090で3.0\times$、apple m1 pro cpuで6.6\times$、3090で7.2\times$、そして3090で5.6\times$、m1 pro cpuで14\times$で加速します。

During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to gradually change the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited areas. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With about $1\%$-area edits, our method reduces the computation of DDPM by $7.5\times$, Stable Diffusion by $8.2\times$, and GauGAN by $18\times$ while preserving the visual fidelity. With SIGE, we accelerate the inference time of DDPM by $3.0\times$ on NVIDIA RTX 3090 and $6.6\times$ on Apple M1 Pro CPU, Stable Diffusion by $7.2\times$ on 3090, and GauGAN by $5.6\times$ on 3090 and $14\times$ on M1 Pro CPU.
翻訳日:2023-04-13 18:37:33 公開日:2023-04-11
# マルチバンド非エルミタン系における例外的非アーベル位相

Exceptional Non-Abelian Topology in Multiband Non-Hermitian Systems ( http://arxiv.org/abs/2210.17031v2 )

ライセンス: Link先を確認
Cui-Xian Guo, Shu Chen, Kun Ding, and Haiping Hu(参考訳) 例外点 (ep) として知られる欠陥スペクトル縮退は、光学、音響、その他の非保存系の様々な興味をそそる現象の中心にある。 過去20年間にわたる広範な研究にもかかわらず、複数の例外点や線を含む「textit{collective}」の行動(例えば、消滅、合体、編曲など)とその相互作用はほとんど理解されていない。 ここでは、一般多バンド非エルミート系におけるこれらの集合的挙動を管理する普遍的非アーベル的保存則を提案し、いくつかの反直観的現象を明らかにする。 正反対の電荷を持つ2つのEPは、互いにどのように接近するかによって必ずしも消滅しないことを示した。 さらに,保存規則は許容可能な例外行構成に厳格な制約を課していることを明らかにした。 ホップリンクのような構造は除外するが、非可換例外直線からなる新しいスタッガー環を許す。 これらの興味深い現象は、結合音響共振器、光導波路、リング共振器のようなプラットフォームに容易に実装できるコンクリートモデルによって示される。 我々の発見は、非アベリア位相の包括的理解の基盤となり、非保守系における例外的退化に基づく汎用的な操作と応用に光を当てた。

Defective spectral degeneracy, known as exceptional point (EP), lies at the heart of various intriguing phenomena in optics, acoustics, and other nonconservative systems. Despite extensive studies in the past two decades, the \textit{collective} behaviors (e.g., annihilation, coalescence, braiding, etc.) involving multiple exceptional points or lines and their interplay have been rarely understood. Here we put forward a universal non-Abelian conservation rule governing these collective behaviors in generic multiband non-Hermitian systems and uncover several counterintuitive phenomena. We demonstrate that two EPs with opposite charges (even the pairwise created) do not necessarily annihilate, depending on how they approach each other. Furthermore, we unveil that the conservation rule imposes strict constraints on the permissible exceptional-line configurations. It excludes structures like Hopf link yet permits novel staggered rings composed of noncommutative exceptional lines. These intriguing phenomena are illustrated by concrete models which could be readily implemented in platforms like coupled acoustic cavities, optical waveguides, and ring resonators. Our findings lay the cornerstone for a comprehensive understanding of the exceptional non-Abelian topology and shed light on the versatile manipulations and applications based on exceptional degeneracies in nonconservative systems.
翻訳日:2023-04-13 18:36:51 公開日:2023-04-11
# 仮面言語モデルにおける性精神健康状態

Gendered Mental Health Stigma in Masked Language Models ( http://arxiv.org/abs/2210.15144v2 )

ライセンス: Link先を確認
Inna Wanyin Lin, Lucille Njoo, Anjalie Field, Ashish Sharma, Katharina Reinecke, Tim Althoff, Yulia Tsvetkov(参考訳) メンタルヘルスのスティグマは、多くの個人が適切なケアを受けるのを妨げ、社会心理学の研究は、メンタルヘルスが男性で見過ごされる傾向があることを示した。 本研究は,マスク型言語モデルにおけるジェンダー型メンタルヘルススティグマについて検討する。 心理学研究に基礎を置く枠組みを開発し,プロンプトのキュレーションに臨床心理学的文献を用い,モデルの適応性を評価し,ジェンダー化された単語を生成する。 マスキング言語モデルは、メンタルヘルスにおける性別に関する社会的な汚点を捉えている:モデルは、精神的な健康状態を持つという文において、男性よりも女性を予測しがちである(32%対19%)。 さらに,男性よりも精神的健康状態の女性の方が,怒りや非難,哀れといったステレオタイプを連想させることから,異なるモデルが男女のスティグマの次元を捉えていることがわかった。 モデルのジェンダー化されたメンタルヘルススティグマの複雑なニュアンスを示す中で,アイデンティティの文脈と重なり合う次元が,計算モデルの社会的バイアスを評価する上で重要な考慮事項であることを示す。

Mental health stigma prevents many individuals from receiving the appropriate care, and social psychology studies have shown that mental health tends to be overlooked in men. In this work, we investigate gendered mental health stigma in masked language models. In doing so, we operationalize mental health stigma by developing a framework grounded in psychology research: we use clinical psychology literature to curate prompts, then evaluate the models' propensity to generate gendered words. We find that masked language models capture societal stigma about gender in mental health: models are consistently more likely to predict female subjects than male in sentences about having a mental health condition (32% vs. 19%), and this disparity is exacerbated for sentences that indicate treatment-seeking behavior. Furthermore, we find that different models capture dimensions of stigma differently for men and women, associating stereotypes like anger, blame, and pity more with women with mental health conditions than with men. In showing the complex nuances of models' gendered mental health stigma, we demonstrate that context and overlapping dimensions of identity are important considerations when assessing computational models' social biases.
翻訳日:2023-04-13 18:35:56 公開日:2023-04-11
# 最小エントロピー結合を用いた完全安全ステガノグラフィ

Perfectly Secure Steganography Using Minimum Entropy Coupling ( http://arxiv.org/abs/2210.14889v3 )

ライセンス: Link先を確認
Christian Schroeder de Witt, Samuel Sokota, J. Zico Kolter, Jakob Foerster, Martin Strohmeier(参考訳) ステガノグラフィ(Steganography)とは、敵の第三者が隠された意味があることに気づかないような、秘密情報を無害な内容に符号化する実践である。 この問題は古典的にセキュリティ文献で研究されてきたが、生成モデルの最近の進歩は、スケーラブルなステガノグラフィ技術を開発するセキュリティ研究者と機械学習研究者の間で共通の関心を呼んでいる。 本研究では,1998年のカチン(Cachin)の情報理論モデルの下では,ステガノグラフィーが完全に安全であることが確認された。 さらに,完全安全な手順の中で,最小エントロピーカップリングによって引き起こされる場合に限り,手続きが最大効率であることが示される。 これらの洞察は、私たちの知る限りでは、非自明な効率で完全なセキュリティ保証を達成するための最初のステガノグラフィーアルゴリズムを生み出します。 GPT-2, WaveRNN, Image Transformer を通信チャネルとして用いて, 最小エントロピー結合に基づくアプローチを, パラメータ符号化, Meteor, 適応動的グループ化の3つの現代ベースラインと比較した。 最小エントロピー結合に基づくアプローチは、より強いセキュリティ制約にもかかわらず、より優れたエンコーディング効率を実現する。 これらの結果から, 最小エントロピー結合レンズを通して情報理論ステガノグラフィを見ることは自然である可能性が示唆された。

Steganography is the practice of encoding secret information into innocuous content in such a manner that an adversarial third party would not realize that there is hidden meaning. While this problem has classically been studied in security literature, recent advances in generative models have led to a shared interest among security and machine learning researchers in developing scalable steganography techniques. In this work, we show that a steganography procedure is perfectly secure under Cachin (1998)'s information theoretic-model of steganography if and only if it is induced by a coupling. Furthermore, we show that, among perfectly secure procedures, a procedure is maximally efficient if and only if it is induced by a minimum entropy coupling. These insights yield what are, to the best of our knowledge, the first steganography algorithms to achieve perfect security guarantees with non-trivial efficiency; additionally, these algorithms are highly scalable. To provide empirical validation, we compare a minimum entropy coupling-based approach to three modern baselines -- arithmetic coding, Meteor, and adaptive dynamic grouping -- using GPT-2, WaveRNN, and Image Transformer as communication channels. We find that the minimum entropy coupling-based approach achieves superior encoding efficiency, despite its stronger security constraints. In aggregate, these results suggest that it may be natural to view information-theoretic steganography through the lens of minimum entropy coupling.
翻訳日:2023-04-13 18:35:34 公開日:2023-04-11
# 光メカニカル誘起透明性を用いた単一スピン読み出しと量子センシング

Single-Spin Readout and Quantum Sensing using Optomechanically Induced Transparency ( http://arxiv.org/abs/2212.01481v2 )

ライセンス: Link先を確認
Martin Koppenh\"ofer, Carl Padgett, Jeffrey V. Cady, Viraj Dharod, Hyunseok Oh, Ania C. Bleszynski Jayich, and A. A. Clerk(参考訳) 固体スピン欠陥は、様々なセンサーターゲットのための量子センサーを約束している。 これらの欠陥のいくつかは、ホスト材料に歪みを生じさせる。 このひずみ結合を光学力学的に誘起される透過性測定により機械的に媒介する単発スピン読み出しに利用することを提案する。 驚くべきことに、ダイヤモンド中の負電荷のシリコン空隙欠陥の測定時間は、単発光蛍光読み出しのそれよりも桁違いに短い。 また,本手法は一般パラメータ推定法にも適用でき,連続位置検出を用いた従来の手法よりも感度が高い。

Solid-state spin defects are promising quantum sensors for a large variety of sensing targets. Some of these defects couple appreciably to strain in the host material. We propose to use this strain coupling for mechanically-mediated dispersive single-shot spin readout by an optomechanically-induced transparency measurement. Surprisingly, the estimated measurement times for negatively-charged silicon-vacancy defects in diamond are an order of magnitude shorter than those for single-shot optical fluorescence readout. Our scheme can also be used for general parameter-estimation metrology and offers a higher sensitivity than conventional schemes using continuous position detection.
翻訳日:2023-04-13 18:28:18 公開日:2023-04-11
# 複数音源画像による顔アニメーション

Face Animation with Multiple Source Images ( http://arxiv.org/abs/2212.00256v2 )

ライセンス: Link先を確認
Zhaoying Pan, Jinge Ma(参考訳) 顔アニメーションは、様々な将来性のある応用のために、近年、研究者から多くの注目を集めている。 光フローやディープニューラルネットワークに基づく多くの顔アニメーションモデルは大きな成功を収めている。 しかし、これらのモデルは大きなビュー変更を伴うアニメーションシナリオでは失敗する可能性があり、非現実的あるいは歪んだ顔になる。 考えられる理由の1つは、そのようなモデルが人間の顔に関する事前の知識を欠き、これまで見たことのない顔領域を想像できないためである。 本稿では,新たな学習をすることなく,顔アニメーションの性能を向上させるためのフレキシブルで汎用的な手法を提案する。 顔の事前知識の欠如に対する補償として,複数のソースイメージを入力として使用する。 本手法の有効性を実験的に検証し,提案手法がベースライン法を補うことに成功した。

Face animation has received a lot of attention from researchers in recent years due to its wide range of promising applications. Many face animation models based on optical flow or deep neural networks have achieved great success. However, these models are likely to fail in animated scenarios with significant view changes, resulting in unrealistic or distorted faces. One of the possible reasons is that such models lack prior knowledge of human faces and are not proficient to imagine facial regions they have never seen before. In this paper, we propose a flexible and generic approach to improve the performance of face animation without additional training. We use multiple source images as input as compensation for the lack of prior knowledge of faces. The effectiveness of our method is experimentally demonstrated, where the proposed method successfully supplements the baseline method.
翻訳日:2023-04-13 18:27:54 公開日:2023-04-11
# 意味的一貫性による大規模言語モデルの信頼性の測定

Measuring Reliability of Large Language Models through Semantic Consistency ( http://arxiv.org/abs/2211.05853v2 )

ライセンス: Link先を確認
Harsh Raj, Domenic Rosati, Subhabrata Majumdar(参考訳) 大規模事前学習型言語モデル(PLM)は、多くの自然言語タスクにおいて驚くほどの頻度と性能を示すが、近年の研究により、良好な性能のPLMは、それらへのプロンプトの供給に非常に敏感であることが示されている。 プロンプトが意味的に同一である場合でも、言語モデルは全く異なる答えを与える。 PLMの安全で信頼性の高いデプロイメントを検討する場合、アウトプットを同じ意味のプロンプトの下で一貫性のあるものにし、同じ意図を伝えたいと思っています。 最先端のPLMがこのニーズにどう対処するかを考察する研究もあるが、それらは単一の単語や複数単語の回答の語彙的等式のみの評価に限られており、生成的テキストシーケンスの整合性には対処していない。 テキスト生成環境下でのPLMの一貫性を理解するため,オープンなテキスト出力の比較を可能にする意味的一貫性尺度を開発した。 我々は,この整合性尺度のいくつかのバージョンを実装し,TruthfulQAデータセットにおける質問のパラフレーズ化バージョンにおける多くのPLMの性能評価を行い,提案手法は語彙整合性を具現化した従来の指標よりもかなり整合性があり,出力整合性の人間による評価と高次評価との相関性も見出した。

While large pretrained language models (PLMs) demonstrate incredible fluency and performance on many natural language tasks, recent work has shown that well-performing PLMs are very sensitive to what prompts are feed into them. Even when prompts are semantically identical, language models may give very different answers. When considering safe and trustworthy deployments of PLMs we would like their outputs to be consistent under prompts that mean the same thing or convey the same intent. While some work has looked into how state-of-the-art PLMs address this need, they have been limited to only evaluating lexical equality of single- or multi-word answers and do not address consistency of generative text sequences. In order to understand consistency of PLMs under text generation settings, we develop a measure of semantic consistency that allows the comparison of open-ended text outputs. We implement several versions of this consistency metric to evaluate the performance of a number of PLMs on paraphrased versions of questions in the TruthfulQA dataset, we find that our proposed metrics are considerably more consistent than traditional metrics embodying lexical consistency, and also correlate with human evaluation of output consistency to a higher degree.
翻訳日:2023-04-13 18:25:52 公開日:2023-04-11
# 画像変換が人間と機械に異なる影響

Extreme Image Transformations Affect Humans and Machines Differently ( http://arxiv.org/abs/2212.13967v2 )

ライセンス: Link先を確認
Girik Malik and Dakarai Crowder and Ennio Mingolla(参考訳) 最近の人工ニューラルネットワーク(ANN)では、霊長類の神経と人間のパフォーマンスデータの側面をモデル化している。 しかし、オブジェクト認識の成功は、人間がしない方法で視覚タスクを解決するために低レベルの機能を活用することに依存している。 結果として、ANNにとってアウト・オブ・ディストリビューションや逆入力はしばしば困難である。 人間は抽象的なパターンを学習し、多くの極端な画像歪みに影響されない。 神経生理学的な知見にインスパイアされた新しい画像変換のセットを導入し、物体認識タスクにおいて人間とANNを評価する。 機械は、特定の変換のために人間よりも優れた性能を示し、人間にとって容易な他者と同等の性能を発揮するのに苦労する。 我々は、人間と機械の精度の違いを定量化し、人間のデータに対する変換の難易度ランキングを求める。 また,人間の視覚処理の特徴が,難易度変換のためのANNの性能向上にどのように適応できるかを示唆する。

Some recent artificial neural networks (ANNs) claim to model aspects of primate neural and human performance data. Their success in object recognition is, however, dependent on exploiting low-level features for solving visual tasks in a way that humans do not. As a result, out-of-distribution or adversarial input is often challenging for ANNs. Humans instead learn abstract patterns and are mostly unaffected by many extreme image distortions. We introduce a set of novel image transforms inspired by neurophysiological findings and evaluate humans and ANNs on an object recognition task. We show that machines perform better than humans for certain transforms and struggle to perform at par with humans on others that are easy for humans. We quantify the differences in accuracy for humans and machines and find a ranking of difficulty for our transforms for human data. We also suggest how certain characteristics of human visual processing can be adapted to improve the performance of ANNs for our difficult-for-machines transforms.
翻訳日:2023-04-13 18:18:16 公開日:2023-04-11
# BaCO: 高速でポータブルなベイズコンパイラ最適化フレームワーク

BaCO: A Fast and Portable Bayesian Compiler Optimization Framework ( http://arxiv.org/abs/2212.11142v2 )

ライセンス: Link先を確認
Erik Hellsten, Artur Souza, Johannes Lenfers, Rubens Lacouture, Olivia Hsu, Adel Ejjeh, Fredrik Kjolstad, Michel Steuwer, Kunle Olukotun, Luigi Nardi(参考訳) 我々は、cpu、gpu、fpgaをターゲットにした現代のコンパイラのための汎用オートチューナーであるbayesian compiler optimization framework (baco)を紹介する。 BaCOは、現代的な自動チューニングタスクの要件を処理するために必要な柔軟性を提供する。 特に、既知のパラメータと未知のパラメータの制約とともに、置換、順序、連続パラメータの型を扱う。 これらのパラメータの型を推論し、高品質なコードを効率よく提供するために、BaCOは自動チューニングドメインに特化したベイズオプティミザオプションアルゴリズムを使用している。 本稿では,CPU,GPU,FPGA用のTACO,RISE,ELEVATE,HPVM2FPGAの3つの現代コンパイラシステムにおけるBaCOの有効性を示す。 これらの領域では、BaCOは平均1.36x-1.56倍の高速コードを提供し、専門家レベルのパフォーマンス2.9x-3.9倍に向上する。

We introduce the Bayesian Compiler Optimization framework (BaCO), a general purpose autotuner for modern compilers targeting CPUs, GPUs, and FPGAs. BaCO provides the flexibility needed to handle the requirements of modern autotuning tasks. Particularly, it deals with permutation, ordered, and continuous parameter types along with both known and unknown parameter constraints. To reason about these parameter types and efficiently deliver high-quality code, BaCO uses Bayesian optimiza tion algorithms specialized towards the autotuning domain. We demonstrate BaCO's effectiveness on three modern compiler systems: TACO, RISE & ELEVATE, and HPVM2FPGA for CPUs, GPUs, and FPGAs respectively. For these domains, BaCO outperforms current state-of-the-art autotuners by delivering on average 1.36x-1.56x faster code with a tiny search budget, and BaCO is able to reach expert-level performance 2.9x-3.9x faster.
翻訳日:2023-04-13 18:17:23 公開日:2023-04-11
# 単一局所散逸チャネルを有する量子配列におけるエンタングル量子ビット対の散逸安定化

Dissipative stabilization of entangled qubit pairs in quantum arrays with a single localized dissipative channel ( http://arxiv.org/abs/2212.05346v2 )

ライセンス: Link先を確認
Jacopo Angeletti, Stefano Zippilli, David Vitali(参考訳) 量子系の配列における絡み合い状態の散逸安定化について検討する。 具体的には、1つ以上のキャビティ(ボソニックモード)と相互作用する可能性のある量子ビット(スピン1/2)の状態に興味がある。 すべての場合、空洞またはキュービットのどちらかの1つの要素だけが損失があり、貯水池に不可逆的に結合される。 損失成分がキャビティである場合、圧縮された貯水池とキャビティの励起数を保存する相互作用のみを考える。 代わりに、損失元がクォービットであるとき、純粋な崩壊とXY-相互作用の適切に選択された構造が考慮される。 すべての場合、定常状態において、配列全体を覆う非間接的に相互作用する多くのキュービットのペアは、散逸と局所的な相互作用の相互作用によって、定常的に絡み合うことができる。

We study the dissipative stabilization of entangled states in arrays of quantum systems. Specifically, we are interested in the states of qubits (spin-1/2) which may or may not interact with one or more cavities (bosonic modes). In all cases only one element, either a cavity or a qubit, is lossy and irreversibly coupled to a reservoir. When the lossy element is a cavity, we consider a squeezed reservoir and only interactions which conserve the number of cavity excitations. Instead, when the lossy element is a qubit, pure decay and a properly selected structure of XY-interactions are taken into account. We show that in all cases, in the steady state, many pairs of distant, non-directly interacting qubits, which cover the whole array, can get entangled in a stationary way, by means of the interplay of dissipation and local interactions.
翻訳日:2023-04-13 18:16:54 公開日:2023-04-11
# Omniscient FollowerによるStackelbergゲームにおけるオンライン学習

Online Learning in Stackelberg Games with an Omniscient Follower ( http://arxiv.org/abs/2301.11518v2 )

ライセンス: Link先を確認
Geng Zhao, Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。 各ラウンドにおいて、リーダーはまず行動を起こし、続いてリーダーの動きを観察した後に行動を起こす従者が続く。 リーダーの目標は、対話の歴史に基づいて累積的な後悔を最小限に抑えることを学ぶことです。 繰り返し行われるスタックルバーグのゲームの伝統的な定式化から逸脱し、従者は全能であり、真の報酬を十分に知っており、常にリーダーの行動に最もよく対応していると仮定する。 この反復スタッケルバーグゲームにおける後悔の最小化のサンプル複雑性を分析した。 報酬構造により,全科学的従者の存在は,線形協調スタッケルバーグゲームにおいても,サンプル複雑性を定数から指数関数へと劇的に変化させる可能性がある。 これはリーダーの学習プロセスとその後の後悔の分析に特有の課題をもたらす。

We study the problem of online learning in a two-player decentralized cooperative Stackelberg game. In each round, the leader first takes an action, followed by the follower who takes their action after observing the leader's move. The goal of the leader is to learn to minimize the cumulative regret based on the history of interactions. Differing from the traditional formulation of repeated Stackelberg games, we assume the follower is omniscient, with full knowledge of the true reward, and that they always best-respond to the leader's actions. We analyze the sample complexity of regret minimization in this repeated Stackelberg game. We show that depending on the reward structure, the existence of the omniscient follower may change the sample complexity drastically, from constant to exponential, even for linear cooperative Stackelberg games. This poses unique challenges for the learning process of the leader and the subsequent regret analysis.
翻訳日:2023-04-13 18:10:13 公開日:2023-04-11
# 変圧器型カメラリンクモデルと時空間情報を用いたマルチターゲットマルチカメラ車両追跡

Multi-target multi-camera vehicle tracking using transformer-based camera link model and spatial-temporal information ( http://arxiv.org/abs/2301.07805v2 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jenq-Neng Hwang(参考訳) 車両のマルチターゲット・マルチカメラ・トラッキング(mtmct)、すなわち複数のカメラで車両を追跡することは、スマートシティとインテリジェントな交通システムを開発する上で重要な応用である。 車両のMTMCTの主な課題は、同一車両のクラス内変動と、異なる車両間のクラス間類似性、そして、大きな検索空間の下で異なるカメラ間で同じ車両を正確に関連付ける方法である。 MTMCTの従来の方法は、通常、クロスカメラアソシエーションを行うために軌道の階層的クラスタリングを使用する。 しかし、探索空間は巨大であり、空間的・時間的情報を考慮に入れない。 本稿では,クロスカメラ追跡を行うために,空間的および時間的フィルタリングを用いたトランスベースカメラリンクモデルを提案する。 nvidia cityflow v2データセットで73.68%のidf1を達成し、マルチターゲットマルチカメラトラッキングにおけるカメラリンクモデルの有効性を示した。

Multi-target multi-camera tracking (MTMCT) of vehicles, i.e. tracking vehicles across multiple cameras, is a crucial application for the development of smart city and intelligent traffic system. The main challenges of MTMCT of vehicles include the intra-class variability of the same vehicle and inter-class similarity between different vehicles and how to associate the same vehicle accurately across different cameras under large search space. Previous methods for MTMCT usually use hierarchical clustering of trajectories to conduct cross camera association. However, the search space can be large and does not take spatial and temporal information into consideration. In this paper, we proposed a transformer-based camera link model with spatial and temporal filtering to conduct cross camera tracking. Achieving 73.68% IDF1 on the Nvidia Cityflow V2 dataset test set, showing the effectiveness of our camera link model on multi-target multi-camera tracking.
翻訳日:2023-04-13 18:09:18 公開日:2023-04-11
# 新規スパース正規化剤

A Novel Sparse Regularizer ( http://arxiv.org/abs/2301.07285v2 )

ライセンス: Link先を確認
Hovig Tigran Bayandorian(参考訳) l_{0}$, $l_{1}$, $l_{2}$-norm正規化のような$l_{p}$-norm正則化スキームと、重量減衰やグループラッソのような$l_{p}$-norm正則化テクニックは、分離されたモデル重みに反則する量を計算する。 本稿では,$L_{p}$-normに基づいていない新しい正規化器について述べる。 L_{p}$-norm-based regularizationとは対照的に、この正規化器は重み行列内の重みの空間配置に関係している。 この正規化子は損失関数の加法語であり、微分可能で単純で高速で計算しやすく、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。 経験的に、この方法は与えられた精度のレベルでゼロでないモデルパラメータの数を約1桁改善する。

$L_{p}$-norm regularization schemes such as $L_{0}$, $L_{1}$, and $L_{2}$-norm regularization and $L_{p}$-norm-based regularization techniques such as weight decay and group LASSO compute a quantity which de pends on model weights considered in isolation from one another. This paper describes a novel regularizer which is not based on an $L_{p}$-norm. In contrast with $L_{p}$-norm-based regularization, this regularizer is concerned with the spatial arrangement of weights within a weight matrix. This regularizer is an additive term for the loss function and is differentiable, simple and fast to compute, scale-invariant, requires a trivial amount of additional memory, and can easily be parallelized. Empirically this method yields approximately a one order-of-magnitude improvement in the number of nonzero model parameters at a given level of accuracy.
翻訳日:2023-04-13 18:08:35 公開日:2023-04-11
# PIGEON:関係グラフニューラルネットワークのエンドツーエンドトレーニングと推論のためのCUDAコードジェネレータ最適化

PIGEON: Optimizing CUDA Code Generator for End-to-End Training and Inference of Relational Graph Neural Networks ( http://arxiv.org/abs/2301.06284v2 )

ライセンス: Link先を確認
Kun Wu, Mert Hidayeto\u{g}lu, Xiang Song, Sitao Huang, Da Zheng, Israt Nisa, Wen-mei Hwu(参考訳) 関係グラフニューラルネットワーク (relational graph neural network, rgnn) は、異種グラフにおける異なる種類のノードやエッジをモデル化する専用の構造を持つグラフニューラルネットワーク (gnns) である。 RGNNは、その汎用性と正確性から、多くの現実世界のアプリケーションで採用されているが、それら固有の計算パターン、プログラミングインターフェースとカーネルAPIのギャップ、およびデータレイアウトと不均一性との結合によるカーネルの最適化における重いプログラミングの取り組みにより、パフォーマンスとシステム設計上の課題を提起している。 これらの課題に体系的に対処するために、新しい2レベル中間表現(IR)とコードジェネレータフレームワークであるPigeonを提案する。 a)は、プログラミングインターフェースとカーネルAPIの間のギャップを埋めるために、RGNNモデルのキーとなる特性を表す。 (b)モデルセマンティクス、データレイアウト、演算子固有の最適化を分離し、プログラミングの労力を削減する。 c) 演算子間変換、データレイアウト、オペレータ固有のスケジュールにおける最適化の機会を表現し、活用する。 1つの汎用行列乗算(GEMM)テンプレートとノード/エッジトラバーサルテンプレート上に構築することで、Deep Graph Library(DGL)とOpen Graph Benchmark(OGB)が提供する異種グラフの実行時に、特定のモデルにおける最先端の公開システムと比較して、推論の7.8倍のスピードアップとトレーニングの5.6倍のスピードアップを達成する。 Pigeonはメモリ外エラー(OOM)も少なくする。 さらに, 最大2.2倍の加速を実現するために, 線形作用素融合とコンパクト化を提案する。

Relational graph neural networks (RGNNs) are graph neural networks (GNNs) with dedicated structures for modeling the different types of nodes and/or edges in heterogeneous graphs. While RGNNs have been increasingly adopted in many real-world applications due to their versatility and accuracy, they pose performance and system design challenges due to their inherent computation patterns, gap between the programming interface and kernel APIs, and heavy programming efforts in optimizing kernels caused by their coupling with data layout and heterogeneity. To systematically address these challenges, we propose Pigeon, a novel two-level intermediate representation (IR) and its code generator framework, that (a) represents the key properties of the RGNN models to bridge the gap between the programming interface and kernel APIs, (b) decouples model semantics, data layout, and operators-specific optimization from each other to reduce programming efforts, (c) expresses and leverages optimization opportunities in inter-operator transforms, data layout, and operator-specific schedules. By building on one general matrix multiply (GEMM) template and a node/edge traversal template, Pigeon achieves up to 7.8x speed-up in inference and 5.6x speed-up in training compared with the state-of-the-art public systems in select models, i.e., RGCN, RGAT, HGT, when running heterogeneous graphs provided by Deep Graph Library (DGL) and Open Graph Benchmark (OGB). Pigeon also triggers fewer out-of-memory (OOM) errors. In addition, we propose linear operator fusion and compact materialization to further accelerate the system by up to 2.2x.
翻訳日:2023-04-13 18:08:19 公開日:2023-04-11
# Mystique: 正確なAIベンチマークとスケーラブルな生成を実現する

Mystique: Enabling Accurate and Scalable Generation of Production AI Benchmarks ( http://arxiv.org/abs/2301.04122v3 )

ライセンス: Link先を確認
Mingyu Liang, Wenyin Fu, Louis Feng, Zhongyi Lin, Pavani Panakanti, Shengbao Zheng, Srinivas Sridharan, Christina Delimitrou(参考訳) 急速に成長するDLワークロードをサポートするために大規模なAIフリートを構築することは、現代のクラウドプロバイダにとって活発な研究トピックである。 正確なベンチマークを生成することは、この分野における迅速なソフトウェアとハードウェアソリューションの設計において重要な役割を果たす。 これをスケーラブルにするための2つの基本的な課題 (i)ワークロードの代表性と (ii)艦隊の変更をベンチマークに迅速に組み込む能力。 これらの問題を解決するために、我々は、AIベンチマーク生成の正確でスケーラブルなフレームワークであるMystiqueを提案する。 PyTorch実行トレース(ET)は、演算子の粒度でAIモデルの実行時情報を、メタデータとともにグラフ形式でキャプチャする新機能である。 ETをソーシングすることで、ポータブルで代表的なAIベンチマークを構築することができます。 Mystiqueは、ランタイムのオーバーヘッドとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。 ETコンポーザビリティは、ベンチマーク生成の柔軟な制御を可能にするため、適応性もある。 我々は,本手法を複数の実運用AIモデル上で評価し,Mystiqueで生成されたベンチマークが,実行時間とシステムレベルの指標の両方において,元のAIモデルとよく似ていることを示す。 また、プラットフォーム間で生成されたベンチマークのポータビリティを示し、実行トレースのきめ細かい構成性によって実現されたいくつかのユースケースを示す。

Building large AI fleets to support the rapidly growing DL workloads is an active research topic for modern cloud providers. Generating accurate benchmarks plays an essential role in designing the fast-paced software and hardware solutions in this space. Two fundamental challenges to make this scalable are (i) workload representativeness and (ii) the ability to quickly incorporate changes to the fleet into the benchmarks. To overcome these issues, we propose Mystique, an accurate and scalable framework for production AI benchmark generation. It leverages the PyTorch execution trace (ET), a new feature that captures the runtime information of AI models at the granularity of operators, in a graph format, together with their metadata. By sourcing fleet ETs, we can build AI benchmarks that are portable and representative. Mystique is scalable, due to its lightweight data collection, in terms of runtime overhead and instrumentation effort. It is also adaptive because ET composability allows flexible control on benchmark creation. We evaluate our methodology on several production AI models, and show that benchmarks generated with Mystique closely resemble original AI models, both in execution time and system-level metrics. We also showcase the portability of the generated benchmarks across platforms, and demonstrate several use cases enabled by the fine-grained composability of the execution trace.
翻訳日:2023-04-13 18:07:43 公開日:2023-04-11
# AIとAIの衝突: ソーシャルメディアで機械生成の偽レストランレビュー

Combat AI With AI: Counteract Machine-Generated Fake Restaurant Reviews on Social Media ( http://arxiv.org/abs/2302.07731v2 )

ライセンス: Link先を確認
Alessandro Gambetti, Qiwei Han(参考訳) GPTのような生成モデルの最近の進歩は、識別不能な偽の顧客レビューをはるかに低コストで作成するために使われる可能性があるため、ソーシャルメディアプラットフォームがこれらのマシン生成の偽のレビューを検出する上での課題を提起する。 Yelpが検証した高級レストランレビューを活用して、OpenAI GPTレビュー作成者から偽レビューを生成し、最終的にGPT出力検出器を微調整して、既存のソリューションを著しく上回る偽レビューを予測することを提案する。 さらに,非礼儀正しくないレビューの予測や,レビューやユーザやレストランの特徴,書き方など,複数の次元にわたるパターンの識別にモデルを適用する。 疑わしいレビューをフィルタリングする検出システムを実装する可能性があるが、ソーシャルメディアプラットフォームはマシン生成の偽レビューに継続的に挑戦している。

Recent advances in generative models such as GPT may be used to fabricate indistinguishable fake customer reviews at a much lower cost, thus posing challenges for social media platforms to detect these machine-generated fake reviews. We propose to leverage the high-quality elite restaurant reviews verified by Yelp to generate fake reviews from the OpenAI GPT review creator and ultimately fine-tune a GPT output detector to predict fake reviews that significantly outperform existing solutions. We further apply the model to predict non-elite reviews and identify the patterns across several dimensions, such as review, user and restaurant characteristics, and writing style. We show that social media platforms are continuously challenged by machine-generated fake reviews, although they may implement detection systems to filter out suspicious reviews.
翻訳日:2023-04-13 18:00:02 公開日:2023-04-11
# digital twin tracking dataset (dttd): 長距離オブジェクト追跡アプリケーションのための新しいrgb+depth 3dデータセット

Digital Twin Tracking Dataset (DTTD): A New RGB+Depth 3D Dataset for Longer-Range Object Tracking Applications ( http://arxiv.org/abs/2302.05991v2 )

ライセンス: Link先を確認
Weiyu Feng, Seth Z. Zhao, Chuanyu Pan, Adam Chang, Yichen Chen, Zekun Wang, Allen Y. Yang(参考訳) デジタルツイン(Digital twin)は、実際のオブジェクトをデジタルオブジェクトで拡張する問題である。 拡張現実(AR)、自律性、UI/UXにおいて、幅広いアプリケーションを支えることができる。 優れたデジタルツインシステムにおける重要なコンポーネントは、リアルタイムで正確な3Dオブジェクト追跡である。 既存のほとんどの研究は、ロボットグルーピングのレンズを通しての3Dオブジェクトのトラッキングを解決し、古い世代の深度センサーを採用し、ARのような他のデジタルツインアプリケーションには適用されないパフォーマンスメトリクスを測定している。 本研究では,この問題をさらに研究し,より長い範囲とmm位置推定精度に向けて潜在的なソリューションを拡張するために,新しいrgb-dデータセットであるdigital twin tracking dataset(dttd)を作成した。 入力源から点雲ノイズを低減するため、最新のMicrosoft Azure Kinectを最先端の飛行時間(ToF)カメラとして選択する。 総計103シーンは、多彩なテクスチャを持つ共通オフザシェルフオブジェクト103シーンを記録し、各フレームに画素ごとのセマンティックセグメンテーションと、商用モーションキャプチャーシステムによって提供される接地トラスポーズを付加する。 モデルレベルおよびデータセットレベルの分析による広範な実験を通じて、DTTDが将来のオブジェクト追跡手法の開発と新たな課題の分析に役立つことを実証する。 データセット、データ生成、アノテーション、モデル評価パイプラインはオープンソースコードとして、https://github.com/augcog/dttdv1で公開されている。

Digital twin is a problem of augmenting real objects with their digital counterparts. It can underpin a wide range of applications in augmented reality (AR), autonomy, and UI/UX. A critical component in a good digital-twin system is real-time, accurate 3D object tracking. Most existing works solve 3D object tracking through the lens of robotic grasping, employ older generations of depth sensors, and measure performance metrics that may not apply to other digital-twin applications such as in AR. In this work, we create a novel RGB-D dataset, called Digital Twin Tracking Dataset (DTTD), to enable further research of the problem and extend potential solutions towards longer ranges and mm localization accuracy. To reduce point cloud noise from the input source, we select the latest Microsoft Azure Kinect as the state-of-the-art time-of-flight (ToF) camera. In total, 103 scenes of 10 common off-the-shelf objects with rich textures are recorded, with each frame annotated with a per-pixel semantic segmentation and ground-truth object poses provided by a commercial motion capturing system. Through extensive experiments with model-level and dataset-level analysis, we demonstrate that DTTD can help researchers develop future object tracking methods and analyze new challenges. The dataset, data generation, annotation, and model evaluation pipeline are made publicly available as open source code at: https://github.com/augcog/DTTDv1.
翻訳日:2023-04-13 17:59:47 公開日:2023-04-11
# one-4-all:具体的ナビゲーションのための神経電位場

One-4-All: Neural Potential Fields for Embodied Navigation ( http://arxiv.org/abs/2303.04011v2 )

ライセンス: Link先を確認
Sacha Morin, Miguel Saavedra-Ruiz, Liam Paull(参考訳) ロボット工学の基本課題は、2つの場所をナビゲートすることだ。 特に、現実世界のナビゲーションには高次元RGB画像による長期計画が必要であり、エンドツーエンドの学習ベースアプローチでは大きな課題となる。 現在のセミパラメトリック法は、学習したモジュールと環境のトポロジカルメモリを組み合わせ、しばしば以前に収集した画像のグラフとして表されることによって、長い水平ナビゲーションを実現する。 しかし、実際にはこれらのグラフを使用すると、スプリアスエッジを避けるために多くのプラニングヒューリスティックをチューニングし、ランタイムメモリ使用を制限し、合理的に高速なグラフクエリを可能にする。 本研究では,自己教師型および多様体学習を利用した1-4-All(O4A)を用いて,目標を画像として指定したグラフフリーでエンドツーエンドなナビゲーションパイプラインを得る。 ナビゲーションは、O4A潜在空間上で連続的に定義されるポテンシャル関数を強引に最小化する。 rgbデータと制御の非熟練な探索シーケンスでオフラインで訓練され、深さや姿勢の測定は不要である。 我々は,8つの模擬ギブソン屋内環境において,O4Aが長距離目標に達することを示し,さらにジャカルUGVプラットフォームを用いた実世界のナビゲーションを成功させることを示す。

A fundamental task in robotics is to navigate between two locations. In particular, real-world navigation can require long-horizon planning using high-dimensional RGB images, which poses a substantial challenge for end-to-end learning-based approaches. Current semi-parametric methods instead achieve long-horizon navigation by combining learned modules with a topological memory of the environment, often represented as a graph over previously collected images. However, using these graphs in practice typically involves tuning a number of pruning heuristics to avoid spurious edges, limit runtime memory usage and allow reasonably fast graph queries. In this work, we present One-4-All (O4A), a method leveraging self-supervised and manifold learning to obtain a graph-free, end-to-end navigation pipeline in which the goal is specified as an image. Navigation is achieved by greedily minimizing a potential function defined continuously over the O4A latent space. Our system is trained offline on non-expert exploration sequences of RGB data and controls, and does not require any depth or pose measurements. We show that O4A can reach long-range goals in 8 simulated Gibson indoor environments, and further demonstrate successful real-world navigation using a Jackal UGV platform.
翻訳日:2023-04-13 17:50:40 公開日:2023-04-11
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性

Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v3 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart(参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。 このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。 平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。 勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。 勾配流の異なるエネルギー汎関数とメトリクスを選択することで、異なる収束特性を持つ異なるアルゴリズムが生じる。 本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。 この指標について,fisher-rao,wasserstein,steinメトリクスの変種に注目し,勾配流と対応する平均場モデルに対するアフィン不変性を導入し,与えられた計量がアフィン不変性をもたらすかどうかを判定し,そうでない場合はアフィン不変量にするように修正する。 確率密度空間とガウス空間の両方における勾配流の研究を行った。 ガウス空間内の流れは、流れのガウス近似として理解することができる。 計量とモーメント閉包に基づくガウス近似が一致することを示し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。

Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance.
翻訳日:2023-04-13 17:48:59 公開日:2023-04-11
# ビデオからの衝撃音合成のための物理駆動拡散モデル

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos ( http://arxiv.org/abs/2303.16897v2 )

ライセンス: Link先を確認
Kun Su, Kaizhi Qian, Eli Shlizerman, Antonio Torralba, Chuang Gan(参考訳) 実世界と仮想世界の没入的知覚経験には,物理物体の相互作用から発生する音のモデル化が重要である。 従来の衝撃音合成法では、物理シミュレーションを用いて音を表現・合成できる物理パラメータのセットを得る。 しかし、それらは実際の世界ではほとんど利用できず、一般的なビデオからの衝撃音の合成にも適用できない、物体のジオメトリと衝撃位置の両方の詳細な詳細を必要とする。 一方、既存のビデオ駆動深層学習に基づくアプローチは、物理知識が不足しているため、視覚内容と衝撃音との弱い対応を捉えることしかできなかった。 本研究では,サイレントビデオクリップに対して高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。 ビデオコンテンツに加えて, 衝撃音合成手順を導くために, 追加の物理計算を優先して用いることを提案する。 物理学の優先事項には、ノイズの多い実世界の衝撃音例から直接推定される物理パラメータと、ニューラルネットワークを介して音環境を解釈する学習された残留パラメータが含まれている。 さらに,物理の優先順位と視覚情報を結合して音響合成を行うための,具体的な学習と推論戦略を備えた新しい拡散モデルの実装を行った。 実験の結果, 本モデルが既存のシステムよりも現実的な衝撃音の生成に優れていることがわかった。 さらに重要なことに、物理ベースの表現は完全に解釈可能で透明なので、音の編集を柔軟に行える。

Modeling sounds emitted from physical object interactions is critical for immersive perceptual experiences in real and virtual worlds. Traditional methods of impact sound synthesis use physics simulation to obtain a set of physics parameters that could represent and synthesize the sound. However, they require fine details of both the object geometries and impact locations, which are rarely available in the real world and can not be applied to synthesize impact sounds from common videos. On the other hand, existing video-driven deep learning-based approaches could only capture the weak correspondence between visual content and impact sounds since they lack of physics knowledge. In this work, we propose a physics-driven diffusion model that can synthesize high-fidelity impact sound for a silent video clip. In addition to the video content, we propose to use additional physics priors to guide the impact sound synthesis procedure. The physics priors include both physics parameters that are directly estimated from noisy real-world impact sound examples without sophisticated setup and learned residual parameters that interpret the sound environment via neural networks. We further implement a novel diffusion model with specific training and inference strategies to combine physics priors and visual information for impact sound synthesis. Experimental results show that our model outperforms several existing systems in generating realistic impact sounds. More importantly, the physics-based representations are fully interpretable and transparent, thus enabling us to perform sound editing flexibly.
翻訳日:2023-04-13 17:32:05 公開日:2023-04-11
# 高次元応力場に対する確率モデリングと自動機械学習フレームワークの適用

Application of probabilistic modeling and automated machine learning framework for high-dimensional stress field ( http://arxiv.org/abs/2303.16869v2 )

ライセンス: Link先を確認
Lele Luan, Nesar Ramachandra, Sandipp Krishnan Ravi, Anindya Bhaduri, Piyush Pandita, Prasanna Balaprakash, Mihai Anitescu, Changjie Sun, Liping Wang(参考訳) 高度な数学的定式化を含む現代の計算手法は、複雑な物理現象のモデリング、鍵となる特性の予測、設計最適化など、いくつかのタスクを可能にする。 これらのコンピュータモデルの忠実度が高ければ高いほど、最適化のために数百回も問合せしやすくなり、予測精度と精度を損なうため、通常は単純化されたモデルに頼っている。 これに対して、データ駆動サーロゲートモデリング手法は、高価なコンピュータモデルの振る舞いをエミュレートする多くの可能性を示している。 しかし、そのような手法の大きなボトルネックは、高い入力次元を扱うことができないことと比較的大きなデータセットの必要性である。 このような問題に対して、興味の入出力量は高次元のテンソルである。 このような問題に対してよく用いられる代理モデリング手法は、不確実性定量化や統計解析のような他の数値的なタスクの実行を阻害する大量の計算評価のような要求に悩まされる。 本研究では,入力のような高次元画像を高次元あるいはその重要な統計量の出力にマッピングするエンドツーエンドアプローチを提案する。 私たちのアプローチは、3つのステップを実行する2つの主要なフレームワークを使用します。 a) 高次元空間から低次元空間へ入力と出力を減少させる b)低次元空間における入出力関係をモデル化し、 c) マスクとしてドメイン固有の物理的制約を組み込むことができる。 入力次元を減少させるタスクを達成するために、主成分分析を利用する。 a)ベイズハイブリッドモデリング、及び b) DeepHyperのディープニューラルネットワーク。 線形弾性応力場データの問題に対するアプローチの適用性を示す。

Modern computational methods, involving highly sophisticated mathematical formulations, enable several tasks like modeling complex physical phenomenon, predicting key properties and design optimization. The higher fidelity in these computer models makes it computationally intensive to query them hundreds of times for optimization and one usually relies on a simplified model albeit at the cost of losing predictive accuracy and precision. Towards this, data-driven surrogate modeling methods have shown a lot of promise in emulating the behavior of the expensive computer models. However, a major bottleneck in such methods is the inability to deal with high input dimensionality and the need for relatively large datasets. With such problems, the input and output quantity of interest are tensors of high dimensionality. Commonly used surrogate modeling methods for such problems, suffer from requirements like high number of computational evaluations that precludes one from performing other numerical tasks like uncertainty quantification and statistical analysis. In this work, we propose an end-to-end approach that maps a high-dimensional image like input to an output of high dimensionality or its key statistics. Our approach uses two main framework that perform three steps: a) reduce the input and output from a high-dimensional space to a reduced or low-dimensional space, b) model the input-output relationship in the low-dimensional space, and c) enable the incorporation of domain-specific physical constraints as masks. In order to accomplish the task of reducing input dimensionality we leverage principal component analysis, that is coupled with two surrogate modeling methods namely: a) Bayesian hybrid modeling, and b) DeepHyper's deep neural networks. We demonstrate the applicability of the approach on a problem of a linear elastic stress field data.
翻訳日:2023-04-13 17:31:42 公開日:2023-04-11
# 単純な高調波発振器を持つ系のシュレーディンガー方程式解としてのスピンの量子的測定における波動関数崩壊のモデル

A model of wave function collapse in a quantum measurement of spin as the Schroedinger equation solution of a system with a simple harmonic oscillator in a bath ( http://arxiv.org/abs/2304.03865v2 )

ライセンス: Link先を確認
Li Hua Yu(参考訳) 我々は,量子スピン計測プロセスにおける波動関数の崩壊を研究するために開発したモデルに対して,一連の正確なシステム解を提案する。 具体的には、磁場と相互作用する磁気モーメントと、調和振動子の浴である環境との結合により、スピン \frac{1}{2}の単純な調和振動子の波動関数の進化を計算した。 系の時間発展は、2つの独立ヒルベルト空間の直積によって記述される: 1つは減衰された単純調和振動子であり、そのポテンシャルはスピンに基づいて2つに分割され、もう1つはバスの効果、すなわちブラウン運動を表す。 この一連の波動関数の初期状態は、系の固有状態として定義される正則基底を形成する。 システムが最初これらの状態のいずれかにある場合、最終結果が予め決められ、すなわち、測定は決定論的である。 浴槽が最初に基底状態にあり、波動関数が最初に原点の波状パケットである場合、最初のスピンに依存する2つのポテンシャル井戸の1つに崩壊する。 初期スピンが磁場に平行でないブロッホ球面内のベクトルである場合、2つのポテンシャル井戸間の最終分布は、よく知られた基底状態幅を持つ初期スピン状態に適用されるボルン則によって与えられる。 したがって、結果も予め決められる。 我々はベルの定理[1]にその意味を論じる。 最後に,量子力学の統計的解釈の理解の意義について概説する。

We present a set of exact system solutions to a model we developed to study wave function collapse in the quantum spin measurement process. Specifically, we calculated the wave function evolution for a simple harmonic oscillator of spin \frac{1}{2}, with its magnetic moment in interaction with a magnetic field, coupled to an environment that is a bath of harmonic oscillators. The system's time evolution is described by the direct product of two independent Hilbert spaces: one that is defined by an effective Hamiltonian, which represents a damped simple harmonic oscillator with its potential well divided into two, based on the spin and the other that represents the effect of the bath, i.e., the Brownian motion. The initial states of this set of wave functions form an orthonormal basis, defined as the eigenstates of the system. If the system is initially in one of these states, the final result is predetermined, i.e., the measurement is deterministic. If the bath is initially in the ground state,and the wave function is initially a wave packet at the origin, it collapses into one of the two potential wells depending on the initial spin. If the initial spin is a vector in the Bloch sphere not parallel to the magnetic field, the final distribution among the two potential wells is given by the Born rule applied to the initial spin state with the well-known ground state width. Hence, the result is also predetermined. We discuss its implications to the Bell theorem[1]. We end with a summary of the implications for the understanding of the statistical interpretation of quantum mechanics.
翻訳日:2023-04-13 17:23:17 公開日:2023-04-11
# ヘイトスピーチ検出課題におけるショット選択のための社会文化的知識

Sociocultural knowledge is needed for selection of shots in hate speech detection tasks ( http://arxiv.org/abs/2304.01890v3 )

ライセンス: Link先を確認
Antonis Maronikolakis, Abdullatif K\"oksal, Hinrich Sch\"utze(参考訳) 我々は,ブラジル,ドイツ,インド,ケニアの国々において,モデルの学習と解釈を支援するために,スラリーとヘイトスピーチのターゲットであるヘイトレクシコンを紹介する。 モデル予測の解釈に我々の語彙をどのように利用できるかを示し、極端な音声を分類するために開発されたモデルは予測を行う際にターゲット語に大きく依存することを示した。 さらに,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。 数ショットの学習では、ショットの選択はモデルの性能において最重要となる。 本研究では,HASOCデータをトレーニング用として用い,Multilingual HateCheck (MHC) をベンチマークとして,ドイツ語とヒンディー語のいくつかの設定をシミュレートする。 我々は,我々のレキシコンに基づくショットの選択が,ランダムにサンプリングされたショットで訓練されたモデルよりも,MHCで優れた性能を示すことを示す。 したがって、いくつかのトレーニング例しか与えられていない場合、我々のレキシコンを使用して、より多くの社会文化的情報を含むショットを選択すると、より少ないパフォーマンスが得られます。

We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for the countries of Brazil, Germany, India and Kenya, to aid training and interpretability of models. We demonstrate how our lexicon can be used to interpret model predictions, showing that models developed to classify extreme speech rely heavily on target words when making predictions. Further, we propose a method to aid shot selection for training in low-resource settings via HATELEXICON. In few-shot learning, the selection of shots is of paramount importance to model performance. In our work, we simulate a few-shot setting for German and Hindi, using HASOC data for training and the Multilingual HateCheck (MHC) as a benchmark. We show that selecting shots based on our lexicon leads to models performing better on MHC than models trained on shots sampled randomly. Thus, when given only a few training examples, using our lexicon to select shots containing more sociocultural information leads to better few-shot performance.
翻訳日:2023-04-13 17:20:25 公開日:2023-04-11
# MONETデータセット: 農村シナリオで記録されたマルチモーダルドローン熱データセット

The MONET dataset: Multimodal drone thermal dataset recorded in rural scenarios ( http://arxiv.org/abs/2304.05417v1 )

ライセンス: Link先を確認
Luigi Riz, Andrea Caraffa, Matteo Bortolon, Mohamed Lamine Mekhalfi, Davide Boscani, Andr\'e Moura, Jos\'e Antunes, Andr\'e Dias, Hugo Silva, Andreas Leonidou, Christos Constantinides, Christos Keleshis, Dante Abate, Fabio Poiesi(参考訳) ドローンに搭載されたサーマルカメラを用いて、農村部を飛行し、人間と車両の活動を記録した新しいマルチモーダルデータセットであるmonetを提案する。 我々はMONETを捉え、大規模に変動し、異なる視点から記録される対象の物体の局所化と行動理解の問題を調べた。 ターゲット活動は2つの異なる土地で行われ、それぞれが独特の風景構造と散らかった背景を持つ。 MONETは162Kの注釈付きバウンディングボックスを備えた約53Kイメージで構成されている。 各画像は、姿勢、速度、高度、GPS座標に関する情報を含むドローンメタデータとタイムスタンプで一致している。 MONETは、従来の熱ドローンのデータセットとは異なる。それはマルチモーダルデータであり、人と車の両方のターゲットを含むサーマルカメラと、軌跡情報とメタデータを含む田舎のシーンをキャプチャする。 両サイト間の移動学習におけるデータセットの難易度を評価し,9つのオブジェクト検出アルゴリズムを評価し,このタイプのデータに関連するオープンな課題を同定した。 プロジェクトページ: https://github.com/fabiopoiesi/monet_dataset。

We present MONET, a new multimodal dataset captured using a thermal camera mounted on a drone that flew over rural areas, and recorded human and vehicle activities. We captured MONET to study the problem of object localisation and behaviour understanding of targets undergoing large-scale variations and being recorded from different and moving viewpoints. Target activities occur in two different land sites, each with unique scene structures and cluttered backgrounds. MONET consists of approximately 53K images featuring 162K manually annotated bounding boxes. Each image is timestamp-aligned with drone metadata that includes information about attitudes, speed, altitude, and GPS coordinates. MONET is different from previous thermal drone datasets because it features multimodal data, including rural scenes captured with thermal cameras containing both person and vehicle targets, along with trajectory information and metadata. We assessed the difficulty of the dataset in terms of transfer learning between the two sites and evaluated nine object detection algorithms to identify the open challenges associated with this type of data. Project page: https://github.com/fabiopoiesi/monet_dataset.
翻訳日:2023-04-13 17:14:14 公開日:2023-04-11
# メトロポリタンネットワーク上の光マッター絡み合いの伝達

Transmission of light-matter entanglement over a metropolitan network ( http://arxiv.org/abs/2304.05416v1 )

ライセンス: Link先を確認
Jelena V. Rakonjac and Samuele Grandi and S\"oren Wengerowsky and Dario Lago-Rivera and F\'elicien Appas and Hugues de Riedmatten(参考訳) 本稿では,多モード固体量子メモリを大都市圏に配置した光ファイバ上に絡み合った通信光子の伝送について報告する。 光子対は自発的にパラメトリックなダウンコンバージョンによって生成され、一方の光子はレアアースベースの量子メモリに格納され、もう一方は通信波長で光ファイバーの距離を移動し、まず実験室で、次にデプロイされたファイバーループで外部へ移動した。 保存された光子とテレコム光子の間では,25$\mu$sまでの貯蔵時間と,50kmまでの繊維分離において,非古典的な相関を測定した。 また、2量子ビットの忠実度が88$\%$の光マッターの絡み合いを報告し、全てのファイバー長のエラーバー内で一定であり、伝送中に通信キュービットがデコヒーレンスを被らないことを示した。 最後に、通信光子の検出段階を17km離れた別の場所に移し、2つの光子の非古典的相関を確認した。 本システムは,量子通信路上での正確な検出時間と同期信号の伝送に適応し,量子メモリと非古典状態を含む将来の量子ネットワークのための第一歩となった。

We report on the transmission of telecom photons entangled with a multimode solid-state quantum memory over a deployed optical fiber in a metropolitan area. Photon pairs were generated through spontaneous parametric down-conversion, with one photon stored in a rare earth-based quantum memory, and the other, at telecommunication wavelengths, traveling through increasing distances of optical fibre, first in the laboratory and then outside in a deployed fibre loop. We measured highly-non-classical correlations between the stored and the telecom photons for storage times up to 25 $\mu$s and for a fibre separation up to 50 km. We also report light-matter entanglement with a two-qubit fidelity up to 88$\%$, which remains constant within error bars for all fibre lengths, showing that the telecom qubit does not suffer decoherence during the transmission. Finally, we moved the detection stage of the telecom photons to a different location placed 17 km away, and confirmed the non-classical correlations between the two photons. Our system was adapted to provide the transmission of precise detection times and synchronization signals over long quantum communication channels, providing the first steps for a future quantum network involving quantum memories and non-classical states.
翻訳日:2023-04-13 17:13:56 公開日:2023-04-11
# 量子コンピュータ上のアンサンブル流体シミュレーション

Ensemble Fluid Simulations on Quantum Computers ( http://arxiv.org/abs/2304.05410v1 )

ライセンス: Link先を確認
Sauro Succi, Wael Itani, Katepalli R. Sreenivasan, Rene Steijl(参考訳) 量子コンピュータ上の流体流れのアンサンブルシミュレーションの実現可能性について考察する。 基本的な考え方は、フロー場構成の確率分布の関数的リウヴィル方程式を定式化し、その線型性により、そのような方程式は流体運動の方程式よりも原理上量子コンピューティングに適していると認識することである。 適切な周縁化と関連する閉包の後、リウヴィル法は数百の論理量子ビットを必要とすることが示され、したがって現在のノイズ補正と緩和技術において大きな推力が必要である。

We discuss the viability of ensemble simulations of fluid flows on quantum computers. The basic idea is to formulate a functional Liouville equation for the probability distribution of the flow field configuration and recognize that, due to its linearity, such an equation is in principle more amenable to quantum computing than the equations of fluid motion. After suitable marginalization and associated closure, the Liouville approach is shown to require several hundreds of logical qubits, hence calling for a major thrust in current noise correction and mitigation techniques.
翻訳日:2023-04-13 17:13:34 公開日:2023-04-11
# ニューラルネットワーク設計の効率的な自動化:微分可能なニューラルネットワーク探索に関する調査

Efficient Automation of Neural Network Design: A Survey on Differentiable Neural Architecture Search ( http://arxiv.org/abs/2304.05405v1 )

ライセンス: Link先を確認
Alexandre Heuillet, Ahmad Nasser, Hichem Arioui, Hedi Tabia(参考訳) 過去数年間、微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。 この上昇は主に、最初の主要なdnas法の一つであるダーツの人気によるものである。 強化学習(Reinforcement Learning)や進化的アルゴリズム(Evolutionary Algorithms)に基づく以前の研究とは対照的に、DNASは桁違いに高速で計算資源が少ない。 この包括的調査では、特にdnaに焦点をあて、この分野の最近のアプローチをレビューする。 さらに,dnas法を分類するための新しいチャレンジに基づく分類法を提案する。 また、近年のDNASへの貢献と、その世界的なNAS分野への影響についても論じる。 最後に,DNAS分野の今後の研究方向性について,いくつかの知見を提供する。

In the past few years, Differentiable Neural Architecture Search (DNAS) rapidly imposed itself as the trending approach to automate the discovery of deep neural network architectures. This rise is mainly due to the popularity of DARTS, one of the first major DNAS methods. In contrast with previous works based on Reinforcement Learning or Evolutionary Algorithms, DNAS is faster by several orders of magnitude and uses fewer computational resources. In this comprehensive survey, we focus specifically on DNAS and review recent approaches in this field. Furthermore, we propose a novel challenge-based taxonomy to classify DNAS methods. We also discuss the contributions brought to DNAS in the past few years and its impact on the global NAS field. Finally, we conclude by giving some insights into future research directions for the DNAS field.
翻訳日:2023-04-13 17:13:12 公開日:2023-04-11
# 視覚関係を用いた敵パッチのクロスタスク転送性の向上

Boosting Cross-task Transferability of Adversarial Patches with Visual Relations ( http://arxiv.org/abs/2304.05402v1 )

ライセンス: Link先を確認
Tony Ma, Songze Li, Yisong Xiao, Shunchang Liu(参考訳) 逆例の転送性は、特にブラックボックスシナリオにおいて、ディープラーニングシステムの堅牢性を評価する上で重要な側面である。 クロスモデル転送性を高めるためにいくつかの方法が提案されているが、異なるタスクにわたる逆例の転送性にはほとんど注意が払われていない。 この問題は、visual chatgptのような基礎的なマルチタスクaiシステムの出現に益々関連し、単一のタスクによって生成される敵対的なサンプルの実用性は比較的限られている。 さらに、これらのシステムは単に認識のようなタスク以上の推論機能を伴うことが多い。 このギャップに対処するために,視覚的質問応答や画像キャプションなどの視覚的推論に係わる様々な視覚的タスクの堅牢性を評価するために,VRAPと呼ばれる,視覚的関係に基づくクロスタスク・パッチ生成手法を提案する。 VRAPはシーングラフを用いて、オブジェクト認識に基づく偽装と述語に基づく関係の排除を組み合わせ、推論タスク間で共有される視覚的推論情報を妨害する。 広範にわたる実験により,VRAPは多様な視覚的推論タスクにおけるブラックボックス転送可能性において,従来の手法をはるかに上回っていることが示された。

The transferability of adversarial examples is a crucial aspect of evaluating the robustness of deep learning systems, particularly in black-box scenarios. Although several methods have been proposed to enhance cross-model transferability, little attention has been paid to the transferability of adversarial examples across different tasks. This issue has become increasingly relevant with the emergence of foundational multi-task AI systems such as Visual ChatGPT, rendering the utility of adversarial samples generated by a single task relatively limited. Furthermore, these systems often entail inferential functions beyond mere recognition-like tasks. To address this gap, we propose a novel Visual Relation-based cross-task Adversarial Patch generation method called VRAP, which aims to evaluate the robustness of various visual tasks, especially those involving visual reasoning, such as Visual Question Answering and Image Captioning. VRAP employs scene graphs to combine object recognition-based deception with predicate-based relations elimination, thereby disrupting the visual reasoning information shared among inferential tasks. Our extensive experiments demonstrate that VRAP significantly surpasses previous methods in terms of black-box transferability across diverse visual reasoning tasks.
翻訳日:2023-04-13 17:12:36 公開日:2023-04-11
# 2モード光子付加エンタングルコヒーレント状態とそのエンタングルメント特性

Two-mode photon-added entangled coherent states and their entanglement properties ( http://arxiv.org/abs/2304.05400v1 )

ライセンス: Link先を確認
Arpita Chatterjee(参考訳) 絡み合ったコヒーレント状態の各モードに局所光子励起を適用することにより、絡み合った量子状態を考える。 絡み合い特性は、絡み合いのエントロピーの観点から検討する。 光子付加を施すことで絡み合いの量を改善することが示されている。 また、パラメータの特定の領域において、光子励起が最小であるときに ||{\psi_1^-(\alpha, m, n)}\rangle$ が少なくとも絡み合っていることも研究されている。 このような状態の統計的性質を準確率関数を用いて研究する。

An entangled quantum state is considered by applying a local photon excitation to each mode of an entangled coherent state. The entanglement property is investigated in terms of the entropy of entanglement. It is shown that applying a photon addition can improve the amount of entanglement. It is also examined that in a specific region of parameters, the state $|{\psi_1^-(\alpha, m, n)}\rangle$ is least entangled when photon excitation is minimum. We study the statistical properties of such states by employing the quasi-probability functions.
翻訳日:2023-04-13 17:12:14 公開日:2023-04-11
# 子宮動脈ドプラ画像の自動誘導と品質評価システム

An Automatic Guidance and Quality Assessment System for Doppler Imaging of Umbilical Artery ( http://arxiv.org/abs/2304.05463v1 )

ライセンス: Link先を確認
Chun Kit Wong and Manxi Lin and Alberto Raheli and Zahra Bashir and Morten Bo S{\o}ndergaard Svendsen and Martin Gr{\o}nneb{\ae}k Tolsgaard and Aasa Feragen and Anders Nymark Christensen(参考訳) 胎児超音波検査では,帯状動脈ドプラ像は帯状動脈の血流のモニタリングに重要である。 しかし、超音波画像中の適切な位置にゲートを配置して血流波形を取得し、ドップラー波形の質を判定するなど、uaドップラー像を撮影するには、多くのステップを正しく行う必要がある。 どちらも操作者の経験に依拠している。 経験豊富なソノグラフィーの不足は機械支援の需要を生み出している。 このギャップを埋める自動システムを提案する。 修正されたFaster R-CNNを用いてドップラーフローゲート位置を提案するアルゴリズムを得る。 次にドップラー波形の品質を評価する。 国立超音波検診データベースから657件の検診を行い,本システムの有効性を検証した。 実験の結果, 本システムは, uaドップラー画像キャプチャと品質評価のための誘導操作に有用であることがわかった。

In fetal ultrasound screening, Doppler images on the umbilical artery (UA) are important for monitoring blood supply through the umbilical cord. However, to capture UA Doppler images, a number of steps need to be done correctly: placing the gate at a proper location in the ultrasound image to obtain blood flow waveforms, and judging the Doppler waveform quality. Both of these rely on the operator's experience. The shortage of experienced sonographers thus creates a demand for machine assistance. We propose an automatic system to fill this gap. Using a modified Faster R-CNN we obtain an algorithm that suggests Doppler flow gate locations. We subsequently assess the Doppler waveform quality. We validate the proposed system on 657 scans from a national ultrasound screening database. The experimental results demonstrate that our system is useful in guiding operators for UA Doppler image capture and quality assessment.
翻訳日:2023-04-13 17:04:16 公開日:2023-04-11
# 超対称量子力学、多光子代数とコヒーレント状態

Supersymmetric Quantum Mechanics, multiphoton algebras and coherent states ( http://arxiv.org/abs/2304.05461v1 )

ライセンス: Link先を確認
Juan D Garc\'ia-Mu\~noz and David J Fern\'andez C and F Vergara-M\'endez(参考訳) 無限離散スペクトルを持つ一次元ハミルトニアンに対する多光子代数とその関連するk次のSUSYパートナーについて研究する。 どちらの場合も、そのような代数は多光子消滅と生成作用素、および適当な数作用素の函数であるハミルトニアンによって生成される。 得られた代数は、以前に研究された対応する単光子代数の多項式変形であることが判明した。 消滅作用素の固有状態であるbarut-girardelloコヒーレント状態を求め、それらの不確かさ関係を関連する二次数を用いて探究する。

The multiphoton algebras for one-dimensional Hamiltonians with infinite discrete spectrum, and for their associated kth-order SUSY partners are studied. In both cases, such an algebra is generated by the multiphoton annihilation and creation operators, as well as by Hamiltonians which are functions of an appropriate number operator. The algebras obtained turn out to be polynomial deformations of the corresponding single-photon algebra previously studied. The Barut-Girardello coherent states, which are eigenstates of the annihilation operator, are obtained and their uncertainty relations are explored by means of the associated quadratures.
翻訳日:2023-04-13 17:04:03 公開日:2023-04-11
# ChatGPTを用いたゼロショット時間関係抽出

Zero-shot Temporal Relation Extraction with ChatGPT ( http://arxiv.org/abs/2304.05454v1 )

ライセンス: Link先を確認
Chenhan Yuan, Qianqian Xie, Sophia Ananiadou(参考訳) 時間的関係抽出の目標は、文書内の2つの事象の間の時間的関係を推測することである。 このタスクでは、教師付きモデルが支配的です。 本研究では,ゼロショット時間関係抽出におけるChatGPTの能力について検討する。 タスクを分解し、ChatGPTを評価するために、3つの異なるプロンプトテクニックを設計した。 実験の結果,chatgptの性能は教師あり手法と大きなギャップがあり,プロンプトの設計に大きく依存していることがわかった。 さらに、ChatGPTは教師付きメソッドよりも、より小さな関係クラスを正しく推論できることを示す。 本稿では,ChatGPTの時間的関係抽出における問題点についても論じる。 chatgptは時間的推論の間に一貫性を保ち得ず、アクティブな時間的推論では失敗することがわかった。

The goal of temporal relation extraction is to infer the temporal relation between two events in the document. Supervised models are dominant in this task. In this work, we investigate ChatGPT's ability on zero-shot temporal relation extraction. We designed three different prompt techniques to break down the task and evaluate ChatGPT. Our experiments show that ChatGPT's performance has a large gap with that of supervised methods and can heavily rely on the design of prompts. We further demonstrate that ChatGPT can infer more small relation classes correctly than supervised methods. The current shortcomings of ChatGPT on temporal relation extraction are also discussed in this paper. We found that ChatGPT cannot keep consistency during temporal inference and it fails in actively long-dependency temporal inference.
翻訳日:2023-04-13 17:03:52 公開日:2023-04-11
# 空洞内における原子の伝播による非古典性

Nonclassicality generated by propagation of atoms through a cavity field ( http://arxiv.org/abs/2304.05449v1 )

ライセンス: Link先を確認
Arpita Chatterjee(参考訳) 単モードキャビティフィールドを2つの$V$型3レベル原子を順次通過させる。 最初に古典状態にあるフィールドを考えると、疑似確率$q$関数、ウィグナー分布、マンデルの$q$パラメータ、結果フィールドの通常のスクイーズなど様々な統計特性を評価する。 原子の逐次交差は、純粋古典状態(コヒーレント場)の性格に非古典性をもたらすことに気づく。 最初の熱場はサブポアソニアンを示し、v$原子と相互作用した後に特性を絞る。

We successively pass two $V$-type three-level atoms through a single-mode cavity field. Considering the field to be initially in a classical state, we evaluate various statistical properties such as the quasiprobability $Q$ function, Wigner distribution, Mandel's $Q$ parameter and normal squeezing of the resulted field. We notice that the sequential crossing of atoms induces nonclassicality into the character of a pure classical state (coherent field). The initial thermal field shows sub-Poissonian as well as squeezing property after interacting with the $V$ atoms.
翻訳日:2023-04-13 17:03:41 公開日:2023-04-11
# 画像分割のための動的特徴スケーリングの償却学習

Amortized Learning of Dynamic Feature Scaling for Image Segmentation ( http://arxiv.org/abs/2304.05448v1 )

ライセンス: Link先を確認
Jose Javier Gonzalez Ortiz, John Guttag, Adrian Dalca(参考訳) 畳み込みニューラルネットワーク(CNN)は画像分割タスクの主要なモデルとなっている。 ほとんどのCNNセグメンテーションアーキテクチャは、空間コンテキストを集約するために2の固定係数で空間次元を縮小する。 最近の研究は、特定のアプリケーションのモデル精度を改善するために、他のサイズ要因を用いて検討されている。 しかし、適切な再スケーリング要因を見つけるには、多くの異なる要因に対して別々のネットワークをトレーニングし、各モデルの性能を比較することがほとんどである。 これらのモデルの計算負荷は、実際には滅多に行われず、いくつかの異なるスケーリング要因しか考慮されないことを意味する。 本研究では,再スケーリング係数が変化するにつれて,精度と効率のトレードオフのためのParetoフロンティアを容易かつ迅速に生成できるハイパーネットワーク戦略を提案する。 再スケーリング係数で条件付きCNNパラメータを生成する単一ハイパーネットワークのトレーニング方法を示す。 これにより、ユーザーは特定のニーズに対して精度と計算効率を適切にバランスさせる再スケーリング係数を素早く選択できる。 我々はイメージセグメンテーションタスクに焦点をあて、このアプローチの価値を様々な領域にわたって示す。 また、ある再スケーリング要因に対して、我々の単一のハイパーネットワークは、固定された再スケーリング要因でトレーニングされたCNNよりも優れています。

Convolutional neural networks (CNN) have become the predominant model for image segmentation tasks. Most CNN segmentation architectures resize spatial dimensions by a fixed factor of two to aggregate spatial context. Recent work has explored using other resizing factors to improve model accuracy for specific applications. However, finding the appropriate rescaling factor most often involves training a separate network for many different factors and comparing the performance of each model. The computational burden of these models means that in practice it is rarely done, and when done only a few different scaling factors are considered. In this work, we present a hypernetwork strategy that can be used to easily and rapidly generate the Pareto frontier for the trade-off between accuracy and efficiency as the rescaling factor varies. We show how to train a single hypernetwork that generates CNN parameters conditioned on a rescaling factor. This enables a user to quickly choose a rescaling factor that appropriately balances accuracy and computational efficiency for their particular needs. We focus on image segmentation tasks, and demonstrate the value of this approach across various domains. We also find that, for a given rescaling factor, our single hypernetwork outperforms CNNs trained with fixed rescaling factors.
翻訳日:2023-04-13 17:03:31 公開日:2023-04-11
# Co-MLを用いた家族による協調型機械学習モデルの構築

Collaborative Machine Learning Model Building with Families Using Co-ML ( http://arxiv.org/abs/2304.05444v1 )

ライセンス: Link先を確認
Tiffany Tseng, Jennifer King Chen, Mona Abdelrahman, Mary Beth Kery, Fred Hohman, Adriana Hilliard, R. Benjamin Shapiro(参考訳) 既存の初心者フレンドリーな機械学習(ml)モデリングツールは、単一のユーザエクスペリエンスを中心に、単一のユーザが自身のデータのみを収集してモデルを構築する。 しかし、単体モデリングの経験は、学習者が一緒に働くときに起こりうる代替のアイデアやアプローチに遭遇する貴重な機会を制限している。 この問題に対処するため、私たちはco-mlを開発した。これはタブレットベースのアプリで、学習者がエンドツーエンドの反復的なモデル構築プロセスを通じてmlイメージ分類器を共同構築する。 本稿では,家庭内導入型ml活動にco-mlを用いた家族(11歳,14歳,11歳,11歳)の詳細なケーススタディを行い,協調モデリングの実現可能性と潜在的豊かさについて述べる。 我々は、Co-MLシステム設計を共有し、コラボレーティブアクティビティにおけるCo-MLの使用によって、初心者がデータ多様性、クラス不均衡、データ品質といった以前の作業で不足していたデータセット設計の考察をまとめて行うことができるかについて議論する。 個人が異なるモデル構築責任を負う分散協調プロセスが、子供や大人がMLデータセット設計を学ぶためのリッチなコンテキストを提供する方法について論じる。

Existing novice-friendly machine learning (ML) modeling tools center around a solo user experience, where a single user collects only their own data to build a model. However, solo modeling experiences limit valuable opportunities for encountering alternative ideas and approaches that can arise when learners work together; consequently, it often precludes encountering critical issues in ML around data representation and diversity that can surface when different perspectives are manifested in a group-constructed data set. To address this issue, we created Co-ML -- a tablet-based app for learners to collaboratively build ML image classifiers through an end-to-end, iterative model-building process. In this paper, we illustrate the feasibility and potential richness of collaborative modeling by presenting an in-depth case study of a family (two children 11 and 14-years-old working with their parents) using Co-ML in a facilitated introductory ML activity at home. We share the Co-ML system design and contribute a discussion of how using Co-ML in a collaborative activity enabled beginners to collectively engage with dataset design considerations underrepresented in prior work such as data diversity, class imbalance, and data quality. We discuss how a distributed collaborative process, in which individuals can take on different model-building responsibilities, provides a rich context for children and adults to learn ML dataset design.
翻訳日:2023-04-13 17:03:13 公開日:2023-04-11
# PixelRNN: ニューラルネットワークを用いたエンドツーエンド最適化知覚のための画素内リカレントニューラルネットワーク

PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized Perception with Neural Sensors ( http://arxiv.org/abs/2304.05440v1 )

ライセンス: Link先を確認
Haley M. So, Laurie Bose, Piotr Dudek, and Gordon Wetzstein(参考訳) 従来のイメージセンサーは高速フレームレートで高解像度画像をデジタル化し、さらなる処理のためにセンサーから送信する必要がある大量のデータを生成する。 これはエッジデバイスで動作する知覚システムでは、通信が非効率で遅延を引き起こすため、難しい。 積み重ねられたイメージセンサー製造の革新によって、新しいセンサープロセッサは、プログラマビリティと最小限の処理能力をセンサーに直接提供する。 我々はこれらの機能を、純粋なバイナリ操作を使用してセンサーに時空間機能をエンコードする効率的なリカレントニューラルネットワークアーキテクチャであるPixelRNNを開発することで活用する。 PixelRNNは、従来のシステムと比較して、センサから送信されるデータ量を64倍に削減し、手ジェスチャー認識や唇読解タスクの競合精度を提供する。 SCAMP-5センサプロセッサプラットフォーム上でのプロトタイプ実装を用いてPixelRNNを実験的に検証する。

Conventional image sensors digitize high-resolution images at fast frame rates, producing a large amount of data that needs to be transmitted off the sensor for further processing. This is challenging for perception systems operating on edge devices, because communication is power inefficient and induces latency. Fueled by innovations in stacked image sensor fabrication, emerging sensor-processors offer programmability and minimal processing capabilities directly on the sensor. We exploit these capabilities by developing an efficient recurrent neural network architecture, PixelRNN, that encodes spatio-temporal features on the sensor using purely binary operations. PixelRNN reduces the amount of data to be transmitted off the sensor by a factor of 64x compared to conventional systems while offering competitive accuracy for hand gesture recognition and lip reading tasks. We experimentally validate PixelRNN using a prototype implementation on the SCAMP-5 sensor-processor platform.
翻訳日:2023-04-13 17:02:47 公開日:2023-04-11
# 効率の良いテンソルプログラム生成のための異種特徴間の転送学習

Transfer Learning Across Heterogeneous Features For Efficient Tensor Program Generation ( http://arxiv.org/abs/2304.05430v1 )

ライセンス: Link先を確認
Gaurav Verma, Siddhisanket Raskar, Zhen Xie, Abid M Malik, Murali Emani, Barbara Chapman(参考訳) チューニングテンソルプログラム生成は、テンソルプログラムの実行を最適化するために、ターゲットハードウェア上の所定のプログラムに対する様々なプログラム変換の組み合わせを探索する。 大規模な探索空間と指数的な変換の組み合わせにより、特に不均一なターゲットを持つ場合、自動チューニングテンソルプログラム生成がより困難になるため、すでに複雑なプロセスである。 本研究では,ニューラルネットワークとハードウェアの特徴を学習し,それらを新たなターゲットハードウェアに転送することで,これらの問題に対処する。 既存の最先端データセットであるtensetを広範囲に調査し,テスト分割戦略の比較分析を行い,データセットをpruneする手法を提案する。 ニューラルネットワークとハードウェア特有の機能を組み込むために,テンソルプログラムのチューニングに注意を引いたアプローチを採用する。 我々のアプローチは、Pairwise Comparison Accuracy (PCA) を妥協することなく、ベースラインの最大45倍のデータセットを作成できる。 さらに,提案手法は,ベースラインチューニング時間の25%~40%を異なるネットワークとターゲットハードウェアに分散して,平均推定時間をほぼあるいは改善することができる。

Tuning tensor program generation involves searching for various possible program transformation combinations for a given program on target hardware to optimize the tensor program execution. It is already a complex process because of the massive search space and exponential combinations of transformations make auto-tuning tensor program generation more challenging, especially when we have a heterogeneous target. In this research, we attempt to address these problems by learning the joint neural network and hardware features and transferring them to the new target hardware. We extensively study the existing state-of-the-art dataset, TenSet, perform comparative analysis on the test split strategies and propose methodologies to prune the dataset. We adopt an attention-inspired approach for tuning the tensor programs enabling them to embed neural network and hardware-specific features. Our approach could prune the dataset up to 45\% of the baseline without compromising the Pairwise Comparison Accuracy (PCA). Further, the proposed methodology can achieve on-par or improved mean inference time with 25%-40% of the baseline tuning time across different networks and target hardware.
翻訳日:2023-04-13 17:02:35 公開日:2023-04-11
# 格子材料の逆設計のための微分可能なグラフ構造モデル

Differentiable graph-structured models for inverse design of lattice materials ( http://arxiv.org/abs/2304.05422v1 )

ライセンス: Link先を確認
Dominik Dold, Derek Aranguren van Egmond(参考訳) 深宇宙の敵対的な環境条件にオンデマンドで適応する柔軟な物理化学的性質を持つ物質は、宇宙探査の未来を定義する上で必須となる。 環境特異的材料の設計にインスピレーションを与えるための有望な場所は、自然界で見られる複雑な微細構造と格子幾何学である。 しかし、そのような不規則なトポロジーによってカバーされる膨大な設計空間は、分析的に調査することが困難である。 そのため、ほとんどの合成格子材料は、その代わりに周期的アーキテクチャに基づいていた。 本稿では,正規および不規則な格子材料に対するグラフ表現を用いた計算手法を提案する。 本手法では, 微分可能なメッセージパッシングアルゴリズムを用いて機械的特性を計算し, 個々の格子要素の幾何学的構造と属性を自動微分により調整し, 所望の特性を有する材料を設計できる。 導入された手法は、他の種類の材料を含む異種グラフとして表現可能なシステムに適用できる。

Materials possessing flexible physico-chemical properties that adapt on-demand to the hostile environmental conditions of deep space will become essential in defining the future of space exploration. A promising venue for inspiration towards the design of environment-specific materials is in the intricate micro-architectures and lattice geometry found throughout nature. However, the immense design space covered by such irregular topologies is challenging to probe analytically. For this reason, most synthetic lattice materials have to date been based on periodic architectures instead. Here, we propose a computational approach using a graph representation for both regular and irregular lattice materials. Our method uses differentiable message passing algorithms to calculate mechanical properties, and therefore allows using automatic differentiation to adjust both the geometric structure and attributes of individual lattice elements to design materials with desired properties. The introduced methodology is applicable to any system representable as a heterogeneous graph, including other types of materials.
翻訳日:2023-04-13 17:02:17 公開日:2023-04-11
# 中性原子量子コンピュータ上の高忠実性並列絡み合いゲート

High-fidelity parallel entangling gates on a neutral atom quantum computer ( http://arxiv.org/abs/2304.05420v1 )

ライセンス: Link先を確認
Simon J. Evered, Dolev Bluvstein, Marcin Kalinowski, Sepehr Ebadi, Tom Manovitz, Hengyun Zhou, Sophie H. Li, Alexandra A. Geim, Tout T. Wang, Nishad Maskara, Harry Levine, Giulia Semeghini, Markus Greiner, Vladan Vuletic, Mikhail D. Lukin(参考訳) スケーラブルな方法で低いエラー率で量子演算を絡み合わせる能力は、有用な量子情報処理の中心的な要素である。 ニュートラル原子配列は、数百量子ビットのコヒーレントな制御と、フレキシブルで動的に再構成可能なアーキテクチャにおける任意のゲート接続を特徴とする、有望な量子コンピューティングプラットフォームとして最近登場した。 最大の課題は、Rydberg の相互作用を介するエンタングリング操作におけるエラーを減らすことである。 本稿では、最大60個の原子に99.5%の忠実度を持つ2量子ビットエンタングゲートを並列に実現し、誤差補正のための表面符号閾値を上回った。 提案手法では, 最適制御に基づく高速単一パルスゲート, 散乱低減のための原子暗黒状態, およびRydberg励起および原子冷却の改善を利用する。 我々は、繰り返しゲートアプリケーションに基づく複数の手法を用いて忠実度をベンチマークし、物理的エラー源を特徴付け、今後の改善について概説する。 最後に,より多数のキュービットを含む絡み合うゲートの設計法を一般化し,低エラー3キュービットゲートを実現することで実証する。 スケーラブルで高接続のシステムで高忠実な操作を可能にすることで、これらの進歩は量子アルゴリズム、誤り訂正回路、デジタルシミュレーションの大規模実装の基礎となった。

The ability to perform entangling quantum operations with low error rates in a scalable fashion is a central element of useful quantum information processing. Neutral atom arrays have recently emerged as a promising quantum computing platform, featuring coherent control over hundreds of qubits and any-to-any gate connectivity in a flexible, dynamically reconfigurable architecture. The major outstanding challenge has been to reduce errors in entangling operations mediated through Rydberg interactions. Here we report the realization of two-qubit entangling gates with 99.5% fidelity on up to 60 atoms in parallel, surpassing the surface code threshold for error correction. Our method employs fast single-pulse gates based on optimal control, atomic dark states to reduce scattering, and improvements to Rydberg excitation and atom cooling. We benchmark fidelity using several methods based on repeated gate applications, characterize the physical error sources, and outline future improvements. Finally, we generalize our method to design entangling gates involving a higher number of qubits, which we demonstrate by realizing low-error three-qubit gates. By enabling high-fidelity operation in a scalable, highly connected system, these advances lay the groundwork for large-scale implementation of quantum algorithms, error-corrected circuits, and digital simulations.
翻訳日:2023-04-13 17:02:04 公開日:2023-04-11
# カリキュラムを用いたユーザ適応型言語学習チャットボット

User Adaptive Language Learning Chatbots with a Curriculum ( http://arxiv.org/abs/2304.05489v1 )

ライセンス: Link先を確認
Kun Qian, Ryan Shea, Yu Li, Luke Kutszik Fryer and Zhou Yu(参考訳) 自然言語理解と生成のためのシステムの開発とともに、対話システムは言語学習と実践に広く採用されている。 現在の教育ダイアログシステムの多くは、生成されたコンテンツや語彙が制約されないchitchatを実行している。 しかし,学校環境の学習者にとって,授業内容に整合し,教科書語彙に焦点を合わせれば,ダイアログによる実践がより効果的である。 そこで我々は,語彙制約付きデコーディングをダイアログシステムに適用し,ダイアログシステムに対して,その生成した発話にカリキュラムに準拠した単語やフレーズを含めるよう促す。 生成ダイアログシステムであるBlenderBot3をバックボーンモデルとして採用し,中学生が英語を第二言語とするカリキュラムベースのダイアログシステムの評価を行った。 制約された単語と句は、彼らの英語教師が提案した教科書に由来する。 評価の結果,カリキュラム注入によるダイアログシステムにより,対象語に対する生徒の理解が向上し,英語実践への関心が高まることが示された。

Along with the development of systems for natural language understanding and generation, dialog systems have been widely adopted for language learning and practicing. Many current educational dialog systems perform chitchat, where the generated content and vocabulary are not constrained. However, for learners in a school setting, practice through dialog is more effective if it aligns with students' curriculum and focuses on textbook vocabulary. Therefore, we adapt lexically constrained decoding to a dialog system, which urges the dialog system to include curriculum-aligned words and phrases in its generated utterances. We adopt a generative dialog system, BlenderBot3, as our backbone model and evaluate our curriculum-based dialog system with middle school students learning English as their second language. The constrained words and phrases are derived from their textbooks, suggested by their English teachers. The evaluation result demonstrates that the dialog system with curriculum infusion improves students' understanding of target words and increases their interest in practicing English.
翻訳日:2023-04-13 16:56:11 公開日:2023-04-11
# 双対性ツイスト境界条件をもつ非可積分フロケイジングモデル

Non-integrable Floquet Ising model with duality twisted boundary conditions ( http://arxiv.org/abs/2304.05488v1 )

ライセンス: Link先を確認
Aditi Mitra, Hsiu-Chung Yeh, Fei Yan, and Achim Rosch(参考訳) 双対性ツイスト境界条件を持つフロッケイジング鎖に対して, 4-フェルミオン相互作用の形での弱可積分性の破れの役割を考慮に入れて, 結果が示される。 可積分の場合、単一の孤立マヨラナ零モードが存在し、これはフロケユニタリとフロケユニタリの$Z_2$対称性の両方で可換であるという意味で対称性である。 積分性が弱く、ともに$Z_2$対称性を保存または破る方法で破られるとき、マヨラナ零モードは小さなシステムサイズで保存される。 これは無限温度自己相関関数のダイナミクスに反映され、積分可能性破断項の強さによって制御される初期過渡関数の後、時間とともに崩壊しない台地に近づく。 高原の高さは、数値的に構築された保存量と一致し、システムサイズの増加とともに減少する。 台地の存在とより大きなシステムサイズに対する消滅は、積分可能性と破壊的相互作用によって引き起こされるフォック空間の局所的非局在化遷移と密接に関連していると論じられている。

Results are presented for a Floquet Ising chain with duality twisted boundary conditions, taking into account the role of weak integrability breaking in the form of four-fermion interactions. In the integrable case, a single isolated Majorana zero mode exists which is a symmetry in the sense that it commutes both with the Floquet unitary and the $Z_2$ symmetry of the Floquet unitary. When integrability is weakly broken, both in a manner so as to preserve or break the $Z_2$ symmetry, the Majorana zero mode is still found to be conserved for small system sizes. This is reflected in the dynamics of an infinite temperature autocorrelation function which, after an initial transient that is controlled by the strength of the integrability breaking term, approaches a plateau that does not decay with time. The height of the plateau agrees with a numerically constructed conserved quantity, and is found to decrease with increasing system sizes. It is argued that the existence of the plateau and its vanishing for larger system sizes is closely related to a localization-delocalization transition in Fock space triggered by the integrability-breaking interactions.
翻訳日:2023-04-13 16:55:54 公開日:2023-04-11
# 計算病理学 : サーベイレビューと今後の展開

Computational Pathology: A Survey Review and The Way Forward ( http://arxiv.org/abs/2304.05482v1 )

ライセンス: Link先を確認
Mahdi S. Hosseini, Babak Ehteshami Bejnordi, Vincent Quoc-Huy Trinh, Danial Hasan, Xingwen Li, Taehyo Kim, Haochen Zhang, Theodore Wu, Kajanan Chinniah, Sina Maghsoudlou, Ryan Zhang, Stephen Yang, Jiadai Zhu, Lyndon Chan, Samir Khaki, Andrei Buin, Fatemeh Chaji, Ala Salehi, Alejandra Zambrano Luna, Bich Ngoc Nguyen, Dimitris Samaras and Konstantinos N. Plataniotis(参考訳) コンピュータ病理学(Computational Pathology, CoPath)は、医学的な病理組織像を解析・モデル化するための計算手法の開発を強化する学際科学である。 CoPathの主な目的は、がん疾患の診断と治療の変容を促進する臨床病理の補助CADシステムとして、デジタル診断の基盤とワークフローを開発することである。 ディープラーニングとコンピュータビジョンのアルゴリズムの発展と、デジタル病理学からのデータのフローの容易化により、copathは現在、パラダイムシフトを目撃している。 がん画像解析のためのエンジニアリングと科学的研究が数多く導入されているにもかかわらず、これらのアルゴリズムを臨床実践に適用し、統合することには、依然としてかなりのギャップがある。 これは、copathで実行される方向と傾向に関する重要な疑問を提起する。 本稿では,700以上の論文の包括的レビューを行い,アプリケーションや実装の観点から問題設計が直面する課題について述べる。 われわれは各論文をモデルカードに分類し、CoPathの現在の景観をレイアウトする上で直面する重要な作業と課題を調査した。 コミュニティが関連する作業を見つけ出し、フィールドの今後の方向性を理解するのに役立つことを願っています。 簡単に言えば、このような多分野科学にまつわる課題に対処するために、結合的にリンクする必要がある段階の周期でCoPathの発展を監督する。 データ中心、モデル中心、アプリケーション中心のさまざまな問題の観点から、このサイクルを概観する。 最終的に、残った課題をスケッチし、今後の技術的発展とCoPathの臨床的統合の方向性を提供する。

Computational Pathology (CoPath) is an interdisciplinary science that augments developments of computational approaches to analyze and model medical histopathology images. The main objective for CoPath is to develop infrastructure and workflows of digital diagnostics as an assistive CAD system for clinical pathology facilitating transformational changes in the diagnosis and treatment of cancer diseases. With evergrowing developments in deep learning and computer vision algorithms, and the ease of the data flow from digital pathology, currently CoPath is witnessing a paradigm shift. Despite the sheer volume of engineering and scientific works being introduced for cancer image analysis, there is still a considerable gap of adopting and integrating these algorithms in clinical practice. This raises a significant question regarding the direction and trends that are undertaken in CoPath. In this article we provide a comprehensive review of more than 700 papers to address the challenges faced in problem design all-the-way to the application and implementation viewpoints. We have catalogued each paper into a model-card by examining the key works and challenges faced to layout the current landscape in CoPath. We hope this helps the community to locate relevant works and facilitate understanding of the field's future directions. In a nutshell, we oversee the CoPath developments in cycle of stages which are required to be cohesively linked together to address the challenges associated with such multidisciplinary science. We overview this cycle from different perspectives of data-centric, model-centric, and application-centric problems. We finally sketch remaining challenges and provide directions for future technical developments and clinical integration of CoPath.
翻訳日:2023-04-13 16:55:35 公開日:2023-04-11
# 雑音2成分量子ビット系のハミルトンスイッチング制御

Hamiltonian Switching Control of Noisy Bipartite Qubit Systems ( http://arxiv.org/abs/2304.05478v1 )

ライセンス: Link先を確認
Zhibo Yang, Robert L. Kosut and K. Birgitta Whaley(参考訳) 量子近似最適化アルゴリズム(qaoa)に触発された二成分制御のためのハミルトンスイッチングアンサッツを開発した。 我々は,量子ゲートの保護を応用したアプローチを説明する。 一 等方性ハイゼンベルク相互作用による浴体スピンへの中心スピン量子ビット結合 二 双極子-双極子相互作用による環境二位系(TLS)に結合する超伝導トランスモン量子ビット及び 三 TLS及びリンドブラッド浴に結合したキュービット 制御フィールドは古典的であり、システムキュービット上でのみ機能する。 我々は、特定のターゲット量子ゲートに対して定義された忠実性目標を用いて、ハミルトンスイッチング制御プロトコルを最適化するためにポリシー勾配(pg)を用いた強化学習を用いる。 本手法は,実験ケースの大部分において0.999999 (4 nines) 以上のフィダリティを持つ目標ゲート実装を達成し,それを超える改良を,勾配アセントパルスエンジニアリング (grape) による最適化により0.99999999999 (9 nines) の値に示した数値を用いて,コヒーレントおよび散逸性ノイズの効果的抑制を示す。 本研究では, 制御深さ, 総進化時間, 環境tl数, 最適化方法の選択が最適プロトコルによって達成される忠実性にどのように影響するかを分析し, 量子ゲートの2成分制御の臨界挙動を明らかにする。

We develop a Hamiltonian switching ansatz for bipartite control that is inspired by the Quantum Approximate Optimization Algorithm (QAOA), to mitigate environmental noise on qubits. We illustrate the approach with application to the protection of quantum gates performed on i) a central spin qubit coupling to bath spins through isotropic Heisenberg interactions, ii) superconducting transmon qubits coupling to environmental two-level-systems (TLS) through dipole-dipole interactions, and iii) qubits coupled to both TLS and a Lindblad bath. The control field is classical and acts only on the system qubits. We use reinforcement learning with policy gradient (PG) to optimize the Hamiltonian switching control protocols, using a fidelity objective defined with respect to specific target quantum gates. We use this approach to demonstrate effective suppression of both coherent and dissipative noise, with numerical studies achieving target gate implementations with fidelities over 0.9999 (four nines) in the majority of our test cases and showing improvement beyond this to values of 0.999999999 (nine nines) upon a subsequent optimization by Gradient Ascent Pulse Engineering (GRAPE). We analyze how the control depth, total evolution time, number of environmental TLS, and choice of optimization method affect the fidelity achieved by the optimal protocols and reveal some critical behaviors of bipartite control of quantum gates.
翻訳日:2023-04-13 16:55:13 公開日:2023-04-11
# 物理ベースニューラルレンダリングのための光サンプリング場とBRDF表現

Light Sampling Field and BRDF Representation for Physically-based Neural Rendering ( http://arxiv.org/abs/2304.05472v1 )

ライセンス: Link先を確認
Jing Yang, Hanyuan Xiao, Wenbin Teng, Yunxuan Cai, Yajie Zhao(参考訳) 物理ベースのレンダリング(PBR)は、コンピュータグラフィックス資産の詳細な現実的なシーンを展示するために業界で広く使われている没入型レンダリングエフェクトの鍵である。 よく知られているのは、同じものを作るのが計算量に重く、複雑なキャプチャデバイスに依存していることだ。 最近のボリュームトリクスニューラルレンダリングのクオリティと効率の面での成功に触発されて、デバイス依存をなくし、パフォーマンスを著しく向上させるために、物理ベースのニューラルシェーダを開発したいと考えています。 しかしながら、現在のニューラルレンダリングアプローチにおける既存の照明や材料モデルは、PBRプロセスに必要な包括的な照明モデルとBRDF特性を正確に表現することはできない。 そこで本稿では,学習光サンプリング領域における光サンプリング戦略により,局所的に直接および間接光をモデル化する新しい照明表現を提案する。 また, BRDFモデルを用いて表面・表面散乱の詳細を個別に表現し, 半透明物質(皮膚, ジャイド)などの複雑な物体を再現する。 提案する表現は,標準的な顔のアセット(幾何学,アルベドマップ,正規マップなど)と,入力として照明のためのhdriを取り入れ,出力としてフォトリアリスティックなレンダリングを生成する,エンドツーエンドの物理的ベースニューラルフェイススキンシェーダを用いて実装する。 広範囲にわたる実験により,pbr皮膚シェーダの質と効率が示され,提案する照明と材料表現の有効性が示された。

Physically-based rendering (PBR) is key for immersive rendering effects used widely in the industry to showcase detailed realistic scenes from computer graphics assets. A well-known caveat is that producing the same is computationally heavy and relies on complex capture devices. Inspired by the success in quality and efficiency of recent volumetric neural rendering, we want to develop a physically-based neural shader to eliminate device dependency and significantly boost performance. However, no existing lighting and material models in the current neural rendering approaches can accurately represent the comprehensive lighting models and BRDFs properties required by the PBR process. Thus, this paper proposes a novel lighting representation that models direct and indirect light locally through a light sampling strategy in a learned light sampling field. We also propose BRDF models to separately represent surface/subsurface scattering details to enable complex objects such as translucent material (i.e., skin, jade). We then implement our proposed representations with an end-to-end physically-based neural face skin shader, which takes a standard face asset (i.e., geometry, albedo map, and normal map) and an HDRI for illumination as inputs and generates a photo-realistic rendering as output. Extensive experiments showcase the quality and efficiency of our PBR face skin shader, indicating the effectiveness of our proposed lighting and material representations.
翻訳日:2023-04-13 16:54:28 公開日:2023-04-11
# Squeezed Superradianceは、極めて不完全な読み出しでも頑健な絡み合い強化メロロジーを可能にする

Squeezed superradiance enables robust entanglement-enhanced metrology even with highly imperfect readout ( http://arxiv.org/abs/2304.05471v1 )

ライセンス: Link先を確認
Martin Koppenh\"ofer and Peter Groszkowski and A. A. Clerk(参考訳) 大きなスピンアンサンブルの絡み合った状態を用いた量子メロジクスプロトコルは、標準量子限界(sql)を超える測定感度を達成しようとするが、多くの場合、不完全なセンサー読み出しに関連する少量の技術的ノイズによって非常に制限される。 時間反転コヒーレントなスピンスクイーズ力学に基づく増幅戦略はこの問題を軽減するために考案されているが、残念ながら散逸に非常に敏感であり、大きな単一スピンの協調性が必要である。 本稿では,増幅と圧縮揺らぎを組み合わせた新しい散逸プロトコルを提案する。 重要な読み出しノイズが存在する場合でも、sqlをはるかに越えてセンシングするために、絡み合ったスピン状態を使用することができる。 さらに、望ましくないシングルスピン散逸に対して強い弾力性を有し、大きな集団協調性のみを効果的に要求する。

Quantum metrology protocols using entangled states of large spin ensembles attempt to achieve measurement sensitivities surpassing the standard quantum limit (SQL), but in many cases they are severely limited by even small amounts of technical noise associated with imperfect sensor readout. Amplification strategies based on time-reversed coherent spin-squeezing dynamics have been devised to mitigate this issue, but are unfortunately very sensitive to dissipation, requiring a large single-spin cooperativity to be effective. Here, we propose a new dissipative protocol that combines amplification and squeezed fluctuations. It enables the use of entangled spin states for sensing well beyond the SQL even in the presence of significant readout noise. Further, it has a strong resilience against undesired single-spin dissipation, requiring only a large collective cooperativity to be effective.
翻訳日:2023-04-13 16:54:05 公開日:2023-04-11
# CamDiff:拡散モデルによるカモフラージュ画像の拡張

CamDiff: Camouflage Image Augmentation via Diffusion Model ( http://arxiv.org/abs/2304.05469v1 )

ライセンス: Link先を確認
Xue-Jing Luo, Shuo Wang, Zongwei Wu, Christos Sakaridis, Yun Cheng, Deng-Ping Fan, Luc Van Gool(参考訳) 迷彩物体検出(camouflaged object detection, cod)は、周囲に溶け込む物体を識別することを目的としている。 最近のモデルの印象的な性能にもかかわらず、これらの2つの特徴が矛盾しているにもかかわらず、既存のメソッドがサルエントオブジェクトをカモフラージュオブジェクトとして誤分類する可能性があり、ロバスト性に制限があることがわかりました。 この制限は、多パターンのトレーニングイメージの欠如に起因する可能性がある。 この問題に対処するために、マルチパターントレーニングイメージの不足を克服するAIGC(AI-Generated Content)にインスパイアされた、新しいアプローチであるCamDiffを紹介する。 具体的には, 潜在拡散モデルを用いてカモフラージュシーンのサルエントオブジェクトを合成し, コントラスト言語-画像事前学習(clip)モデルのゼロショット画像分類能力を用いて, 合成失敗を防止し, 合成オブジェクトが入力プロンプトと整合することを保証する。 これにより、合成画像は、その元のカモフラージュラベルを保持しつつ、よりリッチな特性を有するカモフラージュサンプルを生成する。 ユーザスタディの結果から,我々のフレームワークによって合成されたシーンの健全なオブジェクトは,ユーザの注意を惹きつけることが示され,既存のCODモデルにとって大きな課題となっている。 当社のアプローチでは、フレキシブルな編集と効率的な大規模データセット生成を低コストで実現している。 codベースラインのトレーニングとテストフェーズを大幅に強化し、さまざまなドメイン間の堅牢性を強調している。 新たに生成されたデータセットとソースコードはhttps://github.com/drlxj/CamDiff.comで公開されています。

The burgeoning field of camouflaged object detection (COD) seeks to identify objects that blend into their surroundings. Despite the impressive performance of recent models, we have identified a limitation in their robustness, where existing methods may misclassify salient objects as camouflaged ones, despite these two characteristics being contradictory. This limitation may stem from lacking multi-pattern training images, leading to less saliency robustness. To address this issue, we introduce CamDiff, a novel approach inspired by AI-Generated Content (AIGC) that overcomes the scarcity of multi-pattern training images. Specifically, we leverage the latent diffusion model to synthesize salient objects in camouflaged scenes, while using the zero-shot image classification ability of the Contrastive Language-Image Pre-training (CLIP) model to prevent synthesis failures and ensure the synthesized object aligns with the input prompt. Consequently, the synthesized image retains its original camouflage label while incorporating salient objects, yielding camouflage samples with richer characteristics. The results of user studies show that the salient objects in the scenes synthesized by our framework attract the user's attention more; thus, such samples pose a greater challenge to the existing COD models. Our approach enables flexible editing and efficient large-scale dataset generation at a low cost. It significantly enhances COD baselines' training and testing phases, emphasizing robustness across diverse domains. Our newly-generated datasets and source code are available at https://github.com/drlxj/CamDiff.
翻訳日:2023-04-13 16:53:49 公開日:2023-04-11
# セルビア語の自然言語処理のための資源と方法に関する調査

A Survey of Resources and Methods for Natural Language Processing of Serbian Language ( http://arxiv.org/abs/2304.05468v1 )

ライセンス: Link先を確認
Ulfeta A. Marovac, Aldina R. Avdi\'c, Nikola Lj. Milo\v{s}evi\'c(参考訳) セルビア語はスラヴ語で話者1200万人以上が話し、1500万人以上がよく理解している。 自然言語処理の分野では、低リソース言語と見なすことができる。 また、セルビア語は高次言語と考えられている。 多くの単語の変形と言語資源の低可用性の組み合わせは、セルビア語の自然言語処理を困難にしている。 それにもかかわらず、過去30年間にわたって、セルビアの自然言語処理のためのリソースと方法の開発、書籍やインターネットからのフリーテキストのコーパスの開発、分類のためのコーパスのアノテート、エンティティ認識タスクの命名、これらのタスクを実行する様々な方法やモデルなど、多くの取り組みがなされてきた。 本稿では,イニシアティブ,リソース,メソッド,それらの可用性について検討する。

The Serbian language is a Slavic language spoken by over 12 million speakers and well understood by over 15 million people. In the area of natural language processing, it can be considered a low-resourced language. Also, Serbian is considered a high-inflectional language. The combination of many word inflections and low availability of language resources makes natural language processing of Serbian challenging. Nevertheless, over the past three decades, there have been a number of initiatives to develop resources and methods for natural language processing of Serbian, ranging from developing a corpus of free text from books and the internet, annotated corpora for classification and named entity recognition tasks to various methods and models performing these tasks. In this paper, we review the initiatives, resources, methods, and their availability.
翻訳日:2023-04-13 16:53:23 公開日:2023-04-11
# UnCRtainTS:光学衛星時系列における雲除去の不確かさの定量化

UnCRtainTS: Uncertainty Quantification for Cloud Removal in Optical Satellite Time Series ( http://arxiv.org/abs/2304.05464v1 )

ライセンス: Link先を確認
Patrick Ebel, Vivien Sainte Fare Garnot, Michael Schmitt, Jan Dirk Wegner, Xiao Xiang Zhu(参考訳) 雲や迷路はしばしば光学衛星の画像を遮蔽し、地球表面の連続した密度の監視を妨げる。 現代のディープラーニング手法は暗黙的にそのような隠蔽を無視して学習することができるが、事前処理による明示的なクラウド削除は手作業による解釈を可能にし、アノテーションが少ない場合にモデルをトレーニングすることができる。 隠蔽シナリオが広範囲にあるため、クラウドの削除は難しい - 部分的にはヘイズから見え、完全に不透明なクラウドカバレッジまで。 さらに、下流アプリケーションに再構成画像を統合することは、信頼できる品質評価の恩恵を受けるだろう。 本稿では,新しい注意に基づくアーキテクチャを組み合わせた雲除去手法であるuncrtaintsと,多変量不確実性予測のための定式化を提案する。 これら2つのコンポーネントを組み合わせることで、2つのパブリッククラウド削除データセットの画像再構成という、新たな最先端のパフォーマンスを実現した。 また,予測の不確実性が再構築品質の精密な制御を可能にすることを示す。

Clouds and haze often occlude optical satellite images, hindering continuous, dense monitoring of the Earth's surface. Although modern deep learning methods can implicitly learn to ignore such occlusions, explicit cloud removal as pre-processing enables manual interpretation and allows training models when only few annotations are available. Cloud removal is challenging due to the wide range of occlusion scenarios -- from scenes partially visible through haze, to completely opaque cloud coverage. Furthermore, integrating reconstructed images in downstream applications would greatly benefit from trustworthy quality assessment. In this paper, we introduce UnCRtainTS, a method for multi-temporal cloud removal combining a novel attention-based architecture, and a formulation for multivariate uncertainty prediction. These two components combined set a new state-of-the-art performance in terms of image reconstruction on two public cloud removal datasets. Additionally, we show how the well-calibrated predicted uncertainties enable a precise control of the reconstruction quality.
翻訳日:2023-04-13 16:53:10 公開日:2023-04-11
# スパーシリティとデータフローによる大規模言語モデルの訓練

Training Large Language Models Efficiently with Sparsity and Dataflow ( http://arxiv.org/abs/2304.05511v1 )

ライセンス: Link先を確認
Venkat Srinivasan, Darshan Gandhi, Urmish Thakker and Raghu Prabhakar(参考訳) 大規模な基礎言語モデルでは,テキスト生成や感情分析,意味検索など,さまざまな下流タスクに適応可能な汎用性が示されている。 しかし、そのような大規模な基礎モデルのトレーニングは、膨大な量の計算能力と専門知識を機械学習やシステム専門家から要求する非自明な演習である。 モデルが大きくなるにつれ、これらの需要は増大している。 Sparsityは、トレーニングの計算要求を緩和する有望なテクニックである。 しかし、スパースモデルは密度の高いモデルと同じ品質でスパースモデルをトレーニングする際の新たな課題をもたらす。 さらに、sparsityは操作強度を下げ、不規則なメモリアクセスパターンを導入し、計算リソースを効率的に利用することが困難になる。 本稿では,sparsity と dataflow を用いた大規模言語モデル - 13億 gpt - 上でのエンドツーエンドのトレーニングフローを示す。 データフロー実行モデルとアーキテクチャは、デバイス利用の回復に役立つ、効率的なオンチップ不規則メモリアクセスとネイティブカーネル融合とパイプライン並列化を可能にする。 我々は,gpt 13bモデルと同じ品質でgpt 13bをトレーニングし,a100ベースラインの4.5倍のエンドエンドスピードアップを達成できることを示した。

Large foundation language models have shown their versatility in being able to be adapted to perform a wide variety of downstream tasks, such as text generation, sentiment analysis, semantic search etc. However, training such large foundational models is a non-trivial exercise that requires a significant amount of compute power and expertise from machine learning and systems experts. As models get larger, these demands are only increasing. Sparsity is a promising technique to relieve the compute requirements for training. However, sparsity introduces new challenges in training the sparse model to the same quality as the dense counterparts. Furthermore, sparsity drops the operation intensity and introduces irregular memory access patterns that makes it challenging to efficiently utilize compute resources. This paper demonstrates an end-to-end training flow on a large language model - 13 billion GPT - using sparsity and dataflow. The dataflow execution model and architecture enables efficient on-chip irregular memory accesses as well as native kernel fusion and pipelined parallelism that helps recover device utilization. We show that we can successfully train GPT 13B to the same quality as the dense GPT 13B model, while achieving an end-end speedup of 4.5x over dense A100 baseline.
翻訳日:2023-04-13 16:47:11 公開日:2023-04-11
# chatIPCC: 気候科学における会話型AI

chatIPCC: Grounding Conversational AI in Climate Science ( http://arxiv.org/abs/2304.05510v1 )

ライセンス: Link先を確認
Saeid Ashraf Vaghefi, Qian Wang, Veruska Muccione, Jingwei Ni, Mathias Kraus, Julia Bingler, Tobias Schimanski, Chiara Colesanti-Senni, Nicolas Webersinke, Christrian Huggel, Markus Leippold(参考訳) 大規模言語モデル (LLM) は近年,質問応答タスク (QA) において顕著な成果を上げている。 しかし、彼らはまだ2つの大きな課題に直面している。 これらの課題は、気候変動のような重要な領域において、限られた時間で信頼できる情報源から正確かつ最新の情報を取得することが不可欠で困難である。 これらの障壁を克服するためには、LCMに外部、科学的に正確で堅牢なソース(長期記憶)へのアクセスを提供することで、その知識を継続的に更新し、不正確な、誤った、または時代遅れな情報の伝播を防ぐことができる。 本研究は,最も包括的で,最新かつ信頼性の高い資料であるIPCC AR6第6報の情報を統合することで,GPT-4を強化した。 我々の会話型AIプロトタイプをwww.chatclimate.ai/ipccで公開し、3つの異なるQAシナリオで挑戦的な質問に正確に答える能力を示す。 1) GPT-4, 2) chatIPCC, そして 3) ハイブリッドチャットIPCC。 回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。 評価の結果, ハイブリッドchatipccはより正確な答えを提供し, ソリューションの有効性を浮き彫りにした。 このアプローチは特定のドメインのチャットボットに対して容易にスケールできるため、信頼性と正確な情報の配信が可能になる。

Large Language Models (LLMs) have made significant progress in recent years, achieving remarkable results in question-answering tasks (QA). However, they still face two major challenges: hallucination and outdated information after the training phase. These challenges take center stage in critical domains like climate change, where obtaining accurate and up-to-date information from reliable sources in a limited time is essential and difficult. To overcome these barriers, one potential solution is to provide LLMs with access to external, scientifically accurate, and robust sources (long-term memory) to continuously update their knowledge and prevent the propagation of inaccurate, incorrect, or outdated information. In this study, we enhanced GPT-4 by integrating the information from the Sixth Assessment Report of the Intergovernmental (IPCC AR6), the most comprehensive, up-to-date, and reliable source in this domain. We present our conversational AI prototype, available at www.chatclimate.ai/ipcc and demonstrate its ability to answer challenging questions accurately in three different QA scenarios: asking from 1) GPT-4, 2) chatIPCC, and 3) hybrid chatIPCC. The answers and their sources were evaluated by our team of IPCC authors, who used their expert knowledge to score the accuracy of the answers from 1 (very-low) to 5 (very-high). The evaluation showed that the hybrid chatIPCC provided more accurate answers, highlighting the effectiveness of our solution. This approach can be easily scaled for chatbots in specific domains, enabling the delivery of reliable and accurate information.
翻訳日:2023-04-13 16:46:50 公開日:2023-04-11
# プロセス制御のための制御不変セット強化強化学習:サンプリング効率の向上と安定性保証

Control invariant set enhanced reinforcement learning for process control: improved sampling efficiency and guaranteed stability ( http://arxiv.org/abs/2304.05509v1 )

ライセンス: Link先を確認
Song Bo, Xunyuan Yin, Jinfeng Liu (University of Alberta)(参考訳) 強化学習(Reinforcement Learning, RL)は重要な研究分野であり、特に安全なRLは、RLアルゴリズムの現実的な応用に不可欠な安全駆動的制約を扱う能力から注目されている。 この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案し、CISの利点を活用して安定性の保証とサンプリング効率を向上させる。 このアプローチは、オフラインとオンラインの2つの学習段階で構成される。 オフラインの段階では、CISは報酬設計、初期状態サンプリング、状態リセット手順に組み込まれる。 オンライン段階では、状態がCISの外にあるときは常にRLが再訓練され、安定性基準として機能する。 CISの明示的な形式を利用するバックアップテーブルを取得し、オンライン安定性を確保する。 提案手法を評価するため,シミュレーション化学反応器に適用する。 その結果,オフライントレーニングにおけるサンプリング効率が向上し,オンライン実装におけるクローズドループ安定性が向上した。

Reinforcement learning (RL) is an area of significant research interest, and safe RL in particular is attracting attention due to its ability to handle safety-driven constraints that are crucial for real-world applications of RL algorithms. This work proposes a novel approach to RL training, called control invariant set (CIS) enhanced RL, which leverages the benefits of CIS to improve stability guarantees and sampling efficiency. The approach consists of two learning stages: offline and online. In the offline stage, CIS is incorporated into the reward design, initial state sampling, and state reset procedures. In the online stage, RL is retrained whenever the state is outside of CIS, which serves as a stability criterion. A backup table that utilizes the explicit form of CIS is obtained to ensure the online stability. To evaluate the proposed approach, we apply it to a simulated chemical reactor. The results show a significant improvement in sampling efficiency during offline training and closed-loop stability in the online implementation.
翻訳日:2023-04-13 16:46:04 公開日:2023-04-11
# 量子ネットワークのための高レートサブGHz線幅二色絡み線源

High-rate sub-GHz linewidth bichromatic entanglement source for quantum networking ( http://arxiv.org/abs/2304.05504v1 )

ライセンス: Link先を確認
Alexander N. Craddock, Yang Wang, Felipe Giraldo, Rourke Sekelsky, Mael Flament, Mehdi Namazi(参考訳) 量子デバイスや標準通信チャネルと互換性のある絡み合った光子対の生成は、長距離ファイバ量子ネットワークの開発に不可欠である。 波長以外では、高い対の帯域幅マッチングと高忠実度が、高い対面効率のために必要である。 これらの条件をすべて満たす高速度で頑丈な絡み合い源は、まだ顕著な実験的課題である。 本研究では, 暖かいルビジウム蒸気中のダイヤモンド形状の4波混合に基づく絡み合い源について検討した。 理論上, 実験的に新しい動作系を解析し, 非退化795ドルと1324ドルの光子対を生成するエンタングルメント源を実証する。 この源を用いて、10^7\, /s$以上のファイバー内絡み合ったペア生成率を、以前報告された原子源よりも桁違いに高めることができる。 さらに、当社のソースと通信インフラストラクチャやアトミックシステムとのネイティブ互換性を考えると、スケーラブルな量子ネットワークに向けた重要なステップです。

The generation of entangled photon pairs which are compatible with quantum devices and standard telecommunication channels are critical for the development of long range fiber quantum networks. Aside from wavelength, bandwidth matching and high fidelity of produced pairs are necessary for high interfacing efficiency. High-rate, robust entanglement sources that satisfy all these conditions remain an outstanding experimental challenge. In this work, we study an entanglement source based on four-wave mixing in a diamond configuration in a warm rubidium vapor. We theoretically and experimentally investigate a new operating regime and demonstrate an entanglement source which produces highly non-degenerate $795$ and $1324$-nm photon pairs. With this source we are able to achieve in-fiber entangled pair generation rates greater than $10^7\, /s$, orders of magnitude higher than previously reported atomic sources. Additionally, given our source's native compatibility with telecom infrastructure and atomic systems, it is an important step towards scalable quantum networks.
翻訳日:2023-04-13 16:45:39 公開日:2023-04-11
# DistHD:超次元分類のための学習者対応動的符号化法

DistHD: A Learner-Aware Dynamic Encoding Method for Hyperdimensional Classification ( http://arxiv.org/abs/2304.05503v1 )

ライセンス: Link先を確認
Junyao Wang, Sitao Huang, Mohsen Imani(参考訳) 脳にインスパイアされた超次元コンピューティング(hdc)は、最近、リソース制約のあるデバイスのための有望な学習アプローチと考えられている。 しかし、既存のアプローチでは、学習プロセス中に更新されない静的エンコーダを使用する。 そのため、適切な精度を達成するために非常に高次元が必要となり、符号化と訓練効率が著しく低下する。 本稿では,HDC適応学習のための新しい動的符号化手法であるDistHDを提案する。 提案するアルゴリズムであるDistHDは学習過程を高速化し,所望の精度をかなり低い次元で達成する。

Brain-inspired hyperdimensional computing (HDC) has been recently considered a promising learning approach for resource-constrained devices. However, existing approaches use static encoders that are never updated during the learning process. Consequently, it requires a very high dimensionality to achieve adequate accuracy, severely lowering the encoding and training efficiency. In this paper, we propose DistHD, a novel dynamic encoding technique for HDC adaptive learning that effectively identifies and regenerates dimensions that mislead the classification and compromise the learning quality. Our proposed algorithm DistHD successfully accelerates the learning process and achieves the desired accuracy with considerably lower dimensionality.
翻訳日:2023-04-13 16:45:11 公開日:2023-04-11
# 構造-プロパティ関係のための機械学習:スケーラビリティと限界

Machine learning for structure-property relationships: Scalability and limitations ( http://arxiv.org/abs/2304.05502v1 )

ライセンス: Link先を確認
Zhongzheng Tian, Sheng Zhang, Gia-Wei Chern(参考訳) 本稿では,多体システムの集中特性,特に分類フェーズを予測するためのスケーラブル機械学習(ML)フレームワークを提案する。 スケーラビリティと転送性は、ML法の前例のない計算効率の中心である。 一般に、線形スケーリング計算は分割と征服のアプローチによって達成され、物理的性質の局所性はシステムを分離して解決できるサブドメインに分割する鍵となる。 局所性仮定に基づいて,有限サイズのブロックの集中特性の予測のためにMLモデルを開発した。 大規模システムの予測は、システムのランダムなサンプリングブロックからMLモデルの結果を平均化することによって得られる。 本手法の適用性は,mlモデルのブロックサイズがシステムの特性長さスケールよりも大きいかどうかに依存することを示した。 特に、臨界点を越えた位相同定の場合、ML予測の精度は、ばらつき相関長によって制限される。 2次元Isingモデルを用いて提案したフレームワークを実証する。 本研究では,スピンスピン相関長に対する予測精度とmlブロックサイズ比の興味深いスケーリング関係を求める。 実用的応用への示唆についても考察する。

We present a scalable machine learning (ML) framework for predicting intensive properties and particularly classifying phases of many-body systems. Scalability and transferability are central to the unprecedented computational efficiency of ML methods. In general, linear-scaling computation can be achieved through the divide and conquer approach, and the locality of physical properties is key to partitioning the system into sub-domains that can be solved separately. Based on the locality assumption, ML model is developed for the prediction of intensive properties of a finite-size block. Predictions of large-scale systems can then be obtained by averaging results of the ML model from randomly sampled blocks of the system. We show that the applicability of this approach depends on whether the block-size of the ML model is greater than the characteristic length scale of the system. In particular, in the case of phase identification across a critical point, the accuracy of the ML prediction is limited by the diverging correlation length. The two-dimensional Ising model is used to demonstrate the proposed framework. We obtain an intriguing scaling relation between the prediction accuracy and the ratio of ML block size over the spin-spin correlation length. Implications for practical applications are also discussed.
翻訳日:2023-04-13 16:45:02 公開日:2023-04-11
# graphganfed:効率的な創薬に向けたグラフ構造分子の連合生成フレームワーク

GraphGANFed: A Federated Generative Framework for Graph-Structured Molecules Towards Efficient Drug Discovery ( http://arxiv.org/abs/2304.05498v1 )

ライセンス: Link先を確認
Daniel Manu, Jingjing Yao, Wuji Liu, and Xiang Sun(参考訳) 近年のディープラーニングの進歩は、細胞画像解析や分子発見など、様々な用途での利用を加速させている。 分子発見において、生成分子を既存の分子と区別する識別器と、新しい分子を生成させるジェネレータとから構成される生成逆数ネットワーク(GAN)は、大きな分子データセットから効率的に学習し、同様の性質を保った新規分子を生成する能力により、主要な技術の1つである。 しかし、異なる製薬会社は、地理的に分散し、センシティブな分子データセットの性質のため、ローカルデータセットの共有を望まないか、できない場合があり、ganを集中的にトレーニングすることは不可能である。 本稿では,グラフ畳み込みニューラルネットワーク(gcn),gan,およびフェデレーション学習(fl)を,局所的なデータセットを共有せずに新たな分子を生成するシステムとして統合した,フェデレーション学習(graphganfed)フレームワークによる生成型逆ネットワークにおけるグラフ畳み込みネットワークを提案する。 GraphGANFedでは、識別器はGCNとして実装され、分子グラフとして表される分子の特徴をよりよく捉え、FLはデータプライバシーを維持するために、識別器とジェネレータの両方を分散的に訓練する。 3つのベンチマークデータセットに基づいて広範なシミュレーションを行い,graphganfedの有効性と有効性を示す。 GraphGANFedによって生成される分子は、高い新規性(=100)と多様性(>0.9)を達成することができる。 シミュレーションの結果も 1) より低い複雑性判別器モデルでは, より小さなデータセットのモード崩壊を回避できる。 2)異なる評価指標の間にトレードオフがあり、 3) 発電機と判別器の適切なドロップアウト比を有するとモード崩壊を回避できる。

Recent advances in deep learning have accelerated its use in various applications, such as cellular image analysis and molecular discovery. In molecular discovery, a generative adversarial network (GAN), which comprises a discriminator to distinguish generated molecules from existing molecules and a generator to generate new molecules, is one of the premier technologies due to its ability to learn from a large molecular data set efficiently and generate novel molecules that preserve similar properties. However, different pharmaceutical companies may be unwilling or unable to share their local data sets due to the geo-distributed and sensitive nature of molecular data sets, making it impossible to train GANs in a centralized manner. In this paper, we propose a Graph convolutional network in Generative Adversarial Networks via Federated learning (GraphGANFed) framework, which integrates graph convolutional neural Network (GCN), GAN, and federated learning (FL) as a whole system to generate novel molecules without sharing local data sets. In GraphGANFed, the discriminator is implemented as a GCN to better capture features from molecules represented as molecular graphs, and FL is used to train both the discriminator and generator in a distributive manner to preserve data privacy. Extensive simulations are conducted based on the three bench-mark data sets to demonstrate the feasibility and effectiveness of GraphGANFed. The molecules generated by GraphGANFed can achieve high novelty (=100) and diversity (> 0.9). The simulation results also indicate that 1) a lower complexity discriminator model can better avoid mode collapse for a smaller data set, 2) there is a tradeoff among different evaluation metrics, and 3) having the right dropout ratio of the generator and discriminator can avoid mode collapse.
翻訳日:2023-04-13 16:44:47 公開日:2023-04-11
# 専門家の単一ゲーテッド混合物の再検討

Revisiting Single-gated Mixtures of Experts ( http://arxiv.org/abs/2304.05497v1 )

ライセンス: Link先を確認
Amelie Royer, Ilia Karmanov, Andrii Skliar, Babak Ehteshami Bejnordi, Tijmen Blankevoort(参考訳) 専門家の混合(moe)は、非常に大規模なモデルを訓練する手段として人気が高まっているが、推論時に合理的な計算コストを許容している。 最近の最先端のアプローチでは、多くの専門家を想定し、すべての専門家を共同で訓練する必要があるため、ルータの崩壊のような不安定なトレーニングにつながることが多いが、本研究では、より実用的なトレーニングを可能にする単純な単ゲートmoeを再考する。 私たちの仕事の鍵は (i)初期出力とセンシング正規化スキームの両方として機能するベースモデル分岐 (ii)ルータ崩壊問題のないシンプルで効率的な非同期トレーニングパイプライン、そして最後に (iii)サンプル単位のクラスタリングに基づく初期化。 提案モデルでは,他の複雑なMoEに匹敵する効率と精度のトレードオフが得られ,非混合ベースラインよりも優れていることを示す。 これは単純な単一ゲートMOEの利点を示し、この地域のさらなる探検を動機付けている。

Mixture of Experts (MoE) are rising in popularity as a means to train extremely large-scale models, yet allowing for a reasonable computational cost at inference time. Recent state-of-the-art approaches usually assume a large number of experts, and require training all experts jointly, which often lead to training instabilities such as the router collapsing In contrast, in this work, we propose to revisit the simple single-gate MoE, which allows for more practical training. Key to our work are (i) a base model branch acting both as an early-exit and an ensembling regularization scheme, (ii) a simple and efficient asynchronous training pipeline without router collapse issues, and finally (iii) a per-sample clustering-based initialization. We show experimentally that the proposed model obtains efficiency-to-accuracy trade-offs comparable with other more complex MoE, and outperforms non-mixture baselines. This showcases the merits of even a simple single-gate MoE, and motivates further exploration in this area.
翻訳日:2023-04-13 16:44:15 公開日:2023-04-11
# KGS:知識誘導グレディ等価検索による因果発見

KGS: Causal Discovery Using Knowledge-guided Greedy Equivalence Search ( http://arxiv.org/abs/2304.05493v1 )

ライセンス: Link先を確認
Uzma Hasan, Md Osman Gani(参考訳) 観測データのみから因果関係を学ぶことは、因果関係のメカニズムと可能な因果グラフの探索空間について不十分な情報を提供する。 結果として、グラフの同値クラスの空間をスコアベースで探索するGreedy Equivalence Search (GES)のようなアプローチに対して、探索空間は指数関数的に増大することが多い。 因果エッジの存在や欠如などの先行因果情報を利用して、発見プロセスをより制限された正確な探索空間へと導くことができる。 本研究では,知識誘導型スコアに基づく因果探索手法であるKGSを,因果グラフ学習の制約として観測データと構造先行(因果エッジ)を用いる。 kgsは知識制約の新規な応用であり、有向エッジの存在、エッジの不在、無向エッジの存在という2つの変数間の全ての先行エッジ情報を活用することができる。 実世界のデータセットの合成とベンチマークの両方において、KGSを複数の設定で広範囲に評価する。 実験の結果,任意の型と量の構造的優先順位が有益であることを示し,探索過程を性能向上と早期収束に向けて導く。

Learning causal relationships solely from observational data provides insufficient information about the underlying causal mechanism and the search space of possible causal graphs. As a result, often the search space can grow exponentially for approaches such as Greedy Equivalence Search (GES) that uses a score-based approach to search the space of equivalence classes of graphs. Prior causal information such as the presence or absence of a causal edge can be leveraged to guide the discovery process towards a more restricted and accurate search space. In this study, we present KGS, a knowledge-guided greedy score-based causal discovery approach that uses observational data and structural priors (causal edges) as constraints to learn the causal graph. KGS is a novel application of knowledge constraints that can leverage any of the following prior edge information between any two variables: the presence of a directed edge, the absence of an edge, and the presence of an undirected edge. We extensively evaluate KGS across multiple settings in both synthetic and benchmark real-world datasets. Our experimental results demonstrate that structural priors of any type and amount are helpful and guide the search process towards an improved performance and early convergence.
翻訳日:2023-04-13 16:44:00 公開日:2023-04-11
# Cascade-guided Adversarial Trainingによるよりロバストで正確なシーケンスレコメンデーションを目指して

Towards More Robust and Accurate Sequential Recommendation with Cascade-guided Adversarial Training ( http://arxiv.org/abs/2304.05492v1 )

ライセンス: Link先を確認
Juntao Tan, Shelby Heinecke, Zhiwei Liu, Yongjun Chen, Yongfeng Zhang, Huan Wang(参考訳) 時系列レコメンデーションモデル、時系列ユーザとイテムのインタラクションから学習するモデルは、多くの設定で従来のレコメンデーションモデルを上回っます。 逐次レコメンデーションモデルの成功にもかかわらず、その堅牢性が最近疑問視されている。 シーケンシャルレコメンデーションモデルの性質に特有の2つの特性は、トレーニング中に引き起こされるカスケード効果と、時間的情報に強く依存する傾向という、その堅牢性を損なう可能性がある。 これらの脆弱性に対処するため,我々は逐次レコメンデーションモデル用に特別に設計された新しいアドバーサリートレーニング手順であるカスケードガイドによるアドバーサリートレーニングを提案する。 本手法は, 逐次モデリングにおける内在的カスケード効果を利用して, トレーニング中のアイテム埋め込みに対する戦略的逆転摂動を生成する。 異なる領域の4つのパブリックデータセットにおける最先端シーケンシャルモデルのトレーニング実験では、標準モデルトレーニングと一般逆トレーニングの両方と比較して、トレーニングアプローチにより、実アイテム置換摂動に対して優れたモデルランキング精度と優れたモデルロバスト性が得られた。

Sequential recommendation models, models that learn from chronological user-item interactions, outperform traditional recommendation models in many settings. Despite the success of sequential recommendation models, their robustness has recently come into question. Two properties unique to the nature of sequential recommendation models may impair their robustness - the cascade effects induced during training and the model's tendency to rely too heavily on temporal information. To address these vulnerabilities, we propose Cascade-guided Adversarial training, a new adversarial training procedure that is specifically designed for sequential recommendation models. Our approach harnesses the intrinsic cascade effects present in sequential modeling to produce strategic adversarial perturbations to item embeddings during training. Experiments on training state-of-the-art sequential models on four public datasets from different domains show that our training approach produces superior model ranking accuracy and superior model robustness to real item replacement perturbations when compared to both standard model training and generic adversarial training.
翻訳日:2023-04-13 16:43:39 公開日:2023-04-11
# ズームとは何か:画像分類におけるズームのパワーと空間バイアスの実証的研究

Zoom is what you need: An empirical study of the power of zoom and spatial biases in image classification ( http://arxiv.org/abs/2304.05538v1 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer, Anh Nguyen(参考訳) 画像分類器は設計によって情報を捨てる機械である。 しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。 画像分類器が高精度に達するための一つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測することである。 我々は、AlexNetからCLIPまでの6つの人気のあるネットワークを調査し、入力画像の適切なフレーミングが、ImageNetイメージの98.91%の正確な分類につながることを発見した。 さらに,画像分類におけるズーム変換の可能性と限界について検討し,様々なデータセットの位置バイアス,特にimagenet-a と objectnet の2つの人気データセットにおいて強い中心バイアスを明らかにする。 最後に,zoomの可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に実行させ,分類精度を向上させるtta(state-of-the-art test-time augmentation)手法を提案する。 我々の手法は最先端のTTA手法であるMEMOよりも解釈可能で正確で高速である。 さらに,imagenet-hardを提案する。このベンチマークでは,ズームインだけでは,最先端のモデルが画像のラベル付けに役立たないことが多い。

Image classifiers are information-discarding machines, by design. Yet, how these models discard information remains mysterious. We hypothesize that one way for image classifiers to reach high accuracy is to first zoom to the most discriminative region in the image and then extract features from there to predict image labels. We study six popular networks ranging from AlexNet to CLIP and find that proper framing of the input image can lead to the correct classification of 98.91% of ImageNet images. Furthermore, we explore the potential and limits of zoom transforms in image classification and uncover positional biases in various datasets, especially a strong center bias in two popular datasets: ImageNet-A and ObjectNet. Finally, leveraging our insights into the potential of zoom, we propose a state-of-the-art test-time augmentation (TTA) technique that improves classification accuracy by forcing models to explicitly perform zoom-in operations before making predictions. Our method is more interpretable, accurate, and faster than MEMO, a state-of-the-art TTA method. Additionally, we propose ImageNet-Hard, a new benchmark where zooming in alone often does not help state-of-the-art models better label images.
翻訳日:2023-04-13 16:37:41 公開日:2023-04-11
# 図形解析によるChatGPT(-3.5, -4)生成および人文文書の識別

Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis ( http://arxiv.org/abs/2304.05534v1 )

ライセンス: Link先を確認
Wataru Zaitsu, Mingzhe Jin(参考訳) OpenAIのGPT-3.5とGPT-4を備えたChatGPTを含むテキスト生成人工知能(AI)が世界中で注目を集めている。 本研究ではまず,GPT (-3.5, -4) と人間による書式との比較を行った。 本研究は,216のテキストを3つのクラスに分類する多次元スケーリング(MDS)を行い,(1)音声部品のビッグラム,(2)仮定粒子のビッグラム,(3)コマの位置決め,(4)関数のワードのレートに着目し,GPT-3.5で作成された72のテキスト,(2)GPT-4で生成された72のテキストを抽出した。 MDSはGPT (-3.5, -4) とヒトにそれぞれ異なる分布を示した。 GPT-4 は GPT-3.5 よりも強力なが、GPT (-3.5 と -4) の分布は重なりやすい。 これらの結果から, 将来, パラメータの数が増加する可能性があるが, AI 生成したテキストは, テクスチャ的特徴の観点からは, 人間が書いたテキストに近くない可能性が示唆された。 第2に、日本語のテクスチャ的特徴に着目した2つのクラス(GPTと人間)におけるランダムフォレスト(RF)の分類性能を検証した。 本研究は, 各形状特徴量におけるRFの性能について検討した。 さらに関数語率に着目したRF分類器は98.1%の精度を達成した。 すべてのスタイル特徴に注目したrf分類器は、すべてのパフォーマンス指標(正確性、リコール、精度、f1スコア)で100%に達した。 本研究は,ヒトがChatGPTを日本語に限定した人間から識別できることを結論付けた。

Text-generative artificial intelligence (AI), including ChatGPT, equipped with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention worldwide. In this study, first, we compared Japanese stylometric features generated by GPT (-3.5 and -4) and those written by humans. In this work, we performed multi-dimensional scaling (MDS) to confirm the classification of 216 texts into three classes (72 academic papers written by 36 single authors, 72 texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the titles of the aforementioned papers) focusing on the following stylometric features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle words, (3) positioning of commas, and (4) rate of function words. MDS revealed distinct distributions at each stylometric feature of GPT (-3.5 and -4) and human. Although GPT-4 is more powerful than GPT-3.5 because it has more parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These results indicate that although the number of parameters may increase in the future, AI-generated texts may not be close to that written by humans in terms of stylometric features. Second, we verified the classification performance of random forest (RF) for two classes (GPT and human) focusing on Japanese stylometric features. This study revealed the high performance of RF in each stylometric feature. Furthermore, the RF classifier focusing on the rate of function words achieved 98.1% accuracy. The RF classifier focusing on all stylometric features reached 100% in terms of all performance indexes (accuracy, recall, precision, and F1 score). This study concluded that at this stage we human discriminate ChatGPT from human limited to Japanese language.
翻訳日:2023-04-13 16:37:20 公開日:2023-04-11
# SceneCalib: 自動運転におけるカメラとライダーの自動無目標校正

SceneCalib: Automatic Targetless Calibration of Cameras and Lidars in Autonomous Driving ( http://arxiv.org/abs/2304.05530v1 )

ライセンス: Link先を確認
Ayon Sen, Gang Pan, Anton Mitrokhin, Ashraful Islam(参考訳) 正確なカメラとライダーのキャリブレーションは、多くの3d知覚タスクにおけるセンサーデータ融合の要件である。 本稿では,複数のカメラとlidarセンサを備えたシステムにおいて,外部パラメータと固有パラメータの同時自己校正手法であるscenecalibを提案する。 既存の手法は通常、特別な設計のキャリブレーションターゲットと人間の演算子を必要とするか、あるいはキャリブレーションパラメータのサブセットを解決しようとするだけである。 これらの問題を,カメラ画像とライダー点雲との明示的な対応を必要としない完全自動方式で解決し,多くの屋外環境へのロバスト性を実現する。 さらに、全システムは、カメラ対カメラおよびカメラ対ライダーの外部パラメータの一貫性を確保するために、明示的なクロスカメラ制約と共同で調整される。

Accurate camera-to-lidar calibration is a requirement for sensor data fusion in many 3D perception tasks. In this paper, we present SceneCalib, a novel method for simultaneous self-calibration of extrinsic and intrinsic parameters in a system containing multiple cameras and a lidar sensor. Existing methods typically require specially designed calibration targets and human operators, or they only attempt to solve for a subset of calibration parameters. We resolve these issues with a fully automatic method that requires no explicit correspondences between camera images and lidar point clouds, allowing for robustness to many outdoor environments. Furthermore, the full system is jointly calibrated with explicit cross-camera constraints to ensure that camera-to-camera and camera-to-lidar extrinsic parameters are consistent.
翻訳日:2023-04-13 16:36:44 公開日:2023-04-11
# スクイーズによる量子力学の実験的高速化

Experimental speedup of quantum dynamics through squeezing ( http://arxiv.org/abs/2304.05529v1 )

ライセンス: Link先を確認
S. C. Burd, H. M. Knaack, R. Srinivas, C. Arenz, A. L. Collopy, L. J. Stephenson, A. C. Wilson, D. J. Wineland, D. Leibfried, J. J. Bollinger, D. T. C. Allcock, D. H. Slichter(参考訳) 量子調和振動子を含む幅広い相互作用をユニタリ・スクイージング・プロトコルを用いてより強く(増幅)することができることを実験的に示す。 我々の実証では、1つの閉じ込められた$^{25}$Mg$^{+}$イオンの運動状態とスピン状態を用いるが、このスキームは一般に、単一の調和振動子を含むハミルトニアンや、振動子を量子ビットのような別の量子自由度に結合するハミルトニアンに適用される。 重要なことに、このプロトコルはハミルトンのパラメータの知識を増幅する必要はないし、スケザリング相互作用とシステムダイナミクスの他の部分との明確に定義された位相関係を必要としないため、信号や相互作用の特定の側面が未知あるいは制御されていない場合において潜在的に有用である。

We show experimentally that a broad class of interactions involving quantum harmonic oscillators can be made stronger (amplified) using a unitary squeezing protocol. While our demonstration uses the motional and spin states of a single trapped $^{25}$Mg$^{+}$ ion, the scheme applies generally to Hamiltonians involving just a single harmonic oscillator as well as Hamiltonians coupling the oscillator to another quantum degree of freedom such as a qubit, covering a large range of systems of interest in quantum information and metrology applications. Importantly, the protocol does not require knowledge of the parameters of the Hamiltonian to be amplified, nor does it require a well-defined phase relationship between the squeezing interaction and the rest of the system dynamics, making it potentially useful in instances where certain aspects of a signal or interaction may be unknown or uncontrolled.
翻訳日:2023-04-13 16:36:30 公開日:2023-04-11
# 決定論的目的を持つブラックボックス変分推論:より速く、より正確で、さらにブラックボックス

Black Box Variational Inference with a Deterministic Objective: Faster, More Accurate, and Even More Black Box ( http://arxiv.org/abs/2304.05527v1 )

ライセンス: Link先を確認
Ryan Giordano, Martin Ingram, Tamara Broderick(参考訳) 自動微分変分推論(ADVI)は、複数の現代の確率的プログラミング言語において、高速で使いやすい後部近似を提供する。 しかし、確率最適化器には明確な収束基準がなく、チューニングパラメータが必要である。 さらにadviは平均場変動ベイズ(mfvb)の後方不確かさの少ない推定を継承している。 これらの問題に対処するために, 「決定論的ADVI」 (DADVI) を導入する。 DADVIは難解なMFVBの目的を固定されたモンテカルロ近似(英語版)に置き換え、これは確率最適化の文献で ''sample average approximation' (SAA) として知られている技法である。 近似的だが決定論的目的を最適化することにより、DADVIはオフザシェルフの2階最適化を使用でき、標準平均場ADVIとは異なり、より正確な線形応答(LR)共分散推定が可能となる。 既存の最悪のケース理論とは対照的に、DADVIとSAAは、非常に高次元であっても比較的少数のサンプルでうまく機能するが、そのような好ましい結果は平均場ADVIに比例しすぎる変動近似にまで拡張できないことも示している。 DADVIがデフォルト設定(ADVIとは違って)で適切な解を確実に見つけ出すような現実世界の様々な問題を示し、LR共分散とともに、通常標準のADVIよりも高速で正確である。

Automatic differentiation variational inference (ADVI) offers fast and easy-to-use posterior approximation in multiple modern probabilistic programming languages. However, its stochastic optimizer lacks clear convergence criteria and requires tuning parameters. Moreover, ADVI inherits the poor posterior uncertainty estimates of mean-field variational Bayes (MFVB). We introduce ``deterministic ADVI'' (DADVI) to address these issues. DADVI replaces the intractable MFVB objective with a fixed Monte Carlo approximation, a technique known in the stochastic optimization literature as the ``sample average approximation'' (SAA). By optimizing an approximate but deterministic objective, DADVI can use off-the-shelf second-order optimization, and, unlike standard mean-field ADVI, is amenable to more accurate posterior linear response (LR) covariance estimates. In contrast to existing worst-case theory, we show that, on certain classes of common statistical problems, DADVI and the SAA can perform well with relatively few samples even in very high dimensions, though we also show that such favorable results cannot extend to variational approximations that are too expressive relative to mean-field ADVI. We show on a variety of real-world problems that DADVI reliably finds good solutions with default settings (unlike ADVI) and, together with LR covariances, is typically faster and more accurate than standard ADVI.
翻訳日:2023-04-13 16:36:12 公開日:2023-04-11
# 大規模言語モデルによる因果関係の理解:可能性と機会

Understanding Causality with Large Language Models: Feasibility and Opportunities ( http://arxiv.org/abs/2304.05524v1 )

ライセンス: Link先を確認
Cheng Zhang, Stefan Bauer, Paul Bennett, Jiangfeng Gao, Wenbo Gong, Agrin Hilmkil, Joel Jennings, Chao Ma, Tom Minka, Nick Pawlowski, James Vaughan(参考訳) 3種類の因果的質問に対する強みと弱みを分析することにより,大言語モデル(llm)が因果的質問に答える能力を評価する。 現在のLLMは、既存の因果的知識とドメインエキスパートの組み合わせによる因果的疑問に答えられると考えている。 しかし,新たな知識の発見や高精度な意思決定作業には,まだ満足のいく回答が得られていない。 本稿では,明示的かつ暗黙的な因果モジュールの実現や,深い因果認識llmの実現など,今後の方向性と機会について論じる。 これは、llmが多くの異なる種類の因果的質問に答えることを可能にするだけでなく、llmがより信頼性と効率性を高めることを可能にする。

We assess the ability of large language models (LLMs) to answer causal questions by analyzing their strengths and weaknesses against three types of causal question. We believe that current LLMs can answer causal questions with existing causal knowledge as combined domain experts. However, they are not yet able to provide satisfactory answers for discovering new knowledge or for high-stakes decision-making tasks with high precision. We discuss possible future directions and opportunities, such as enabling explicit and implicit causal modules as well as deep causal-aware LLMs. These will not only enable LLMs to answer many different types of causal questions for greater impact but also enable LLMs to be more trustworthy and efficient in general.
翻訳日:2023-04-13 16:35:48 公開日:2023-04-11
# MoMo: テキスト、画像、マルチモーダル表現のための共有エンコーダモデル

MoMo: A shared encoder Model for text, image and multi-Modal representations ( http://arxiv.org/abs/2304.05523v1 )

ライセンス: Link先を確認
Rakesh Chada, Zhaoheng Zheng, Pradeep Natarajan(参考訳) 本稿では,データ,メモリ,実行時の効率を向上しつつ,複数の視覚,言語,マルチモーダルベンチマークにおいて強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。 私たちは3つの重要な貢献をします。 まず、既存のほとんどの作品とは対照的に、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用します。 第2に、まずモデルが画像上でトレーニングされ、次にユニモーダルテキストと画像データセット、最後にテキストとテキスト画像データセットと共同でトレーニングされる段階的トレーニング戦略を提案する。 第3に,両方のモダリティにまたがる情報を保存するために,各トレーニング更新ステップで異なるモダリティの勾配更新から同時に学習するトレーニングパイプラインを提案する。 ダウンストリームのテキストオンリー、イメージオンリー、マルチモーダルタスクの結果から、より少ないパラメータとより少ない事前トレーニングデータを使用しながら、いくつかの強力なモデルと競合することが分かりました。 例えば、マルチモーダル(+3.1)、イメージオンリー(+1.1)、テキストオンリー(-0.1)のタスクでFLAVAと競合する。 最後に, モデルサイズの増加は, 大規模モデルによる大幅な改善の可能性を示す重要な性能向上をもたらすことを示す。

We propose a self-supervised shared encoder model that achieves strong results on several visual, language and multimodal benchmarks while being data, memory and run-time efficient. We make three key contributions. First, in contrast to most existing works, we use a single transformer with all the encoder layers processing both the text and the image modalities. Second, we propose a stage-wise training strategy where the model is first trained on images, then jointly with unimodal text and image datasets and finally jointly with text and text-image datasets. Third, to preserve information across both the modalities, we propose a training pipeline that learns simultaneously from gradient updates of different modalities at each training update step. The results on downstream text-only, image-only and multimodal tasks show that our model is competitive with several strong models while using fewer parameters and lesser pre-training data. For example, MoMo performs competitively with FLAVA on multimodal (+3.1), image-only (+1.1) and text-only (-0.1) tasks despite having 2/5th the number of parameters and using 1/3rd the image-text training pairs. Finally, we ablate various design choices and further show that increasing model size produces significant performance gains indicating potential for substantial improvements with larger models using our approach.
翻訳日:2023-04-13 16:35:35 公開日:2023-04-11
# echo of neighbors: シャッフルモデルによる個人学習のためのプライバシー強化

Echo of Neighbors: Privacy Amplification for Personalized Private Federated Learning with Shuffle Model ( http://arxiv.org/abs/2304.05516v1 )

ライセンス: Link先を確認
Yixuan Liu, Suyun Zhao, Li Xiong, Yuhan Liu, Hong Chen(参考訳) 協調トレーニングの一般的なパラダイムであるフェデレーション学習は、プライバシ攻撃に対して脆弱である。 ユーザの態度に関するプライバシレベルはローカルで満足する必要があるが、グローバルモデルに対する厳格なプライバシ保証も一元的に必要だ。 パーソナライズされたローカルディファレンシャルプライバシ(pldp)は、ユーザのさまざまなローカルプライバシを維持するのに適しているが、最悪のローカルプライバシレベルに相当する中央のプライバシ保証のみを提供する。 したがって、強力な集中型プライバシと、ユーティリティプロミージングモデルによるパーソナライズされたローカルプライバシを実現することは、難しい問題である。 本研究では,シャッフルモデルのプライバシー増幅効果を利用して,パーソナライズされたローカルプライバシの下でのモデルプライバシを強化する汎用フレームワーク(apes)を構築した。 プライバシバウンダリを締めくくるために,中央のプライバシユーザに対するユーザによる異種貢献度を定量化する。 このコントリビューションは,各ユーザの摂動から"エチョス"を生成する能力によって特徴づけられ,提案手法であるNorbor DivergenceとClip-Laplace Mechanismによって慎重に測定される。 さらに,高次元シナリオにおけるプライバシ損失を低減するために,分離後の手法を用いた改良フレームワーク(s-apes)を提案する。 私たちの知る限りでは、シャッフルがパーソナライズされたローカルプライバシに与える影響が初めて考慮される。 我々は、プライバシーの強化効果が強く、その境界は、ローカルプライバシを統一する既存の方法に基づくベースライン結果よりも厳密である。 実験により、我々のフレームワークがグローバルモデルに匹敵する、あるいは高い精度を保証することが示された。

Federated Learning, as a popular paradigm for collaborative training, is vulnerable against privacy attacks. Different privacy levels regarding users' attitudes need to be satisfied locally, while a strict privacy guarantee for the global model is also required centrally. Personalized Local Differential Privacy (PLDP) is suitable for preserving users' varying local privacy, yet only provides a central privacy guarantee equivalent to the worst-case local privacy level. Thus, achieving strong central privacy as well as personalized local privacy with a utility-promising model is a challenging problem. In this work, a general framework (APES) is built up to strengthen model privacy under personalized local privacy by leveraging the privacy amplification effect of the shuffle model. To tighten the privacy bound, we quantify the heterogeneous contributions to the central privacy user by user. The contributions are characterized by the ability of generating "echos" from the perturbation of each user, which is carefully measured by proposed methods Neighbor Divergence and Clip-Laplace Mechanism. Furthermore, we propose a refined framework (S-APES) with the post-sparsification technique to reduce privacy loss in high-dimension scenarios. To the best of our knowledge, the impact of shuffling on personalized local privacy is considered for the first time. We provide a strong privacy amplification effect, and the bound is tighter than the baseline result based on existing methods for uniform local privacy. Experiments demonstrate that our frameworks ensure comparable or higher accuracy for the global model.
翻訳日:2023-04-13 16:35:09 公開日:2023-04-11
# オラン・パムクのノーベル作品の数学的・言語的特徴

Mathematical and Linguistic Characterization of Orhan Pamuk's Nobel Works ( http://arxiv.org/abs/2304.05512v1 )

ライセンス: Link先を確認
Taner Arsan, Sehnaz Sismanoglu Simsek, Onder Pekcan(参考訳) この研究では、ノーベル賞受賞者のオラン・パムクの作品がトルコ文学の例として選ばれている。 テキスト中の文字と単語の数を数えることで、統計的に彼の作品を研究することができる。 テキスト構造には幾何学的な順序があることが知られている。 ここでは,パムクのテクストのフラクタル次元を計算するために,フラクタル幾何学の基本仮定に基づく手法を導入する。 この結果は、zipfの次元とzipfの順序という2つの概念が導入された文字と単語にうまく適用できるzipfの法則の応用と比較される。 小説『my name is red』のジップ次元は、他の小説とは大きく異なることが判明した。 しかし、言語学的にはコーパスに根本的な違いはない。 結果はフラクタル次元とトルコ語で解釈される。

In this study, Nobel Laureate Orhan Pamuk's works are chosen as examples of Turkish literature. By counting the number of letters and words in his texts, we find it possible to study his works statistically. It has been known that there is a geometrical order in text structures. Here the method based on the basic assumption of fractal geometry is introduced for calculating the fractal dimensions of Pamuk's texts. The results are compared with the applications of Zipf's law, which is successfully applied for letters and words, where two concepts, namely Zipf's dimension and Zipf's order, are introduced. The Zipf dimension of the novel My Name is Red is found to be much different than his other novels. However, it is linguistically observed that there is no fundamental difference between his corpora. The results are interpreted in terms of fractal dimensions and the Turkish language.
翻訳日:2023-04-13 16:34:39 公開日:2023-04-11
# ブラックボックス強化学習による分類木の最適解釈可能性・性能トレードオフ

Optimal Interpretability-Performance Trade-off of Classification Trees with Black-Box Reinforcement Learning ( http://arxiv.org/abs/2304.05839v1 )

ライセンス: Link先を確認
Hector Kohler (Scool, CRIStAL), Riad Akrour (Scool, CRIStAL), Philippe Preux (Scool, CRIStAL)(参考訳) AIモデルの解釈可能性により、モデルの信頼性を構築するためのユーザ安全チェックが可能になる。 特に、決定木(DT)は、学習したモデルに関するグローバルな見解を提供し、与えられたデータを分類するのに重要な機能の役割を明確に概説します。 しかし、DTが大きすぎると解釈が妨げられる。 コンパクトツリーを学習するために、最近DTの空間を探索するために強化学習(RL)フレームワークが提案されている。 与えられた教師付き分類タスクは、マルコフ決定問題(MDP)としてモデル化され、DTを構築するのと同等の機能に関する情報を集める追加のアクションで拡張される。 これらの動作を適切に罰することにより、RLエージェントはDTのサイズと性能を最適にトレードオフすることを学ぶ。 しかし、そのためには、このRLエージェントは部分的に観測可能なMDPを解く必要がある。 本論文の主な貢献は、完全観測可能な問題を解くのに十分であり、解釈可能性と性能のトレードオフを最適化するDTを学ぶのに十分であることを示すことである。 そのような計画やRLのアルゴリズムも利用できる。 本手法の有効性を古典的教師付き分類データセットに示すとともに,他の解釈可能性性能最適化手法と比較する。

Interpretability of AI models allows for user safety checks to build trust in these models. In particular, decision trees (DTs) provide a global view on the learned model and clearly outlines the role of the features that are critical to classify a given data. However, interpretability is hindered if the DT is too large. To learn compact trees, a Reinforcement Learning (RL) framework has been recently proposed to explore the space of DTs. A given supervised classification task is modeled as a Markov decision problem (MDP) and then augmented with additional actions that gather information about the features, equivalent to building a DT. By appropriately penalizing these actions, the RL agent learns to optimally trade-off size and performance of a DT. However, to do so, this RL agent has to solve a partially observable MDP. The main contribution of this paper is to prove that it is sufficient to solve a fully observable problem to learn a DT optimizing the interpretability-performance trade-off. As such any planning or RL algorithm can be used. We demonstrate the effectiveness of this approach on a set of classical supervised classification datasets and compare our approach with other interpretability-performance optimizing methods.
翻訳日:2023-04-13 15:02:39 公開日:2023-04-11
# DartsReNet: ReNetアーキテクチャにおける新しいRNNセルの探索

DartsReNet: Exploring new RNN cells in ReNet architectures ( http://arxiv.org/abs/2304.05838v1 )

ライセンス: Link先を確認
Brian Moser, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) DARTSと呼ばれるニューラルアーキテクチャサーチ(NAS)を用いた画像分類のための新しいリカレントニューラルネットワーク(RNN)セルを提案する。 ReNetアーキテクチャは、畳み込みとプールのステップの代替として提示されたRNNベースのアプローチです。 ReNetはLSTMやGRUといった標準のRNN細胞を使って定義することができる。 1つの制限は、標準のRNNセルが1次元のシーケンシャルデータのために設計されており、画像分類の場合のように2次元ではないことである。 我々は、DARTSを使って新しいセル設計を見つけることで、この制限を克服する。 GRU と LSTM 細胞を用いた ReNet との比較を行った。 CIFAR-10とSVHNでは,標準RNN細胞よりも優れていた。 SVHNの改良は、SVHNの新しいセルサーチを行うことなく、CIFAR-10からRNNセル設計を抽出し、一般化可能性を示している。

We present new Recurrent Neural Network (RNN) cells for image classification using a Neural Architecture Search (NAS) approach called DARTS. We are interested in the ReNet architecture, which is a RNN based approach presented as an alternative for convolutional and pooling steps. ReNet can be defined using any standard RNN cells, such as LSTM and GRU. One limitation is that standard RNN cells were designed for one dimensional sequential data and not for two dimensions like it is the case for image classification. We overcome this limitation by using DARTS to find new cell designs. We compare our results with ReNet that uses GRU and LSTM cells. Our found cells outperform the standard RNN cells on CIFAR-10 and SVHN. The improvements on SVHN indicate generalizability, as we derived the RNN cell designs from CIFAR-10 without performing a new cell search for SVHN.
翻訳日:2023-04-13 15:02:20 公開日:2023-04-11
# フェデレーション学習のためのゲーム理論フレームワーク

A Game-theoretic Framework for Federated Learning ( http://arxiv.org/abs/2304.05836v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Lixin Fan, Siwei Wang, Wenjie Li, Kai Chen, Qiang Yang(参考訳) 連合学習では、良性参加者はグローバルなモデルを協調的に最適化することを目指している。 しかし、 \textit{semi-honest} 敵の存在下では、 \textit{privacy leakage} のリスクは無視できない。 既存の研究は防御機構の設計や攻撃機構の発明に重点を置いている。 被告側と攻撃側の間での戦いは終わらないように思われるが、我々は1つの重要な疑問に気を配っている。 そこで本稿では,計算コスト,FLモデルユーティリティ,プライバシリークリスクなどを含む各支払額の観点から,FLディフェンダーとアタッカーの両方を考慮に入れた最初のゲーム理論フレームワークを提案する。 このゲームをfederated learning security game(flsg)と呼び、ディフェンダーもアタッカーもすべての参加者の報酬を知らない。 この状況に固有の \textit{incomplete information} を扱うために,2つの主要な責務を持つ \textit{oracle} と FLSG を関連付けることを提案する。 第一に、オラクルはプレイヤーに対する支払いの下位と上位のバウンドを提供する。 第2に、oracleは相関デバイスとして動作し、各プレイヤーに提案するアクションをプライベートに提供します。 この新たな枠組みにより,守備隊と攻撃隊の最適戦略を解析する。 さらに、私たちは、合理的な意思決定者として、攻撃者が常にoracleの提案である \textit{not to attack}に従うべき条件を導出して示します。

In federated learning, benign participants aim to optimize a global model collaboratively. However, the risk of \textit{privacy leakage} cannot be ignored in the presence of \textit{semi-honest} adversaries. Existing research has focused either on designing protection mechanisms or on inventing attacking mechanisms. While the battle between defenders and attackers seems never-ending, we are concerned with one critical question: is it possible to prevent potential attacks in advance? To address this, we propose the first game-theoretic framework that considers both FL defenders and attackers in terms of their respective payoffs, which include computational costs, FL model utilities, and privacy leakage risks. We name this game the Federated Learning Security Game (FLSG), in which neither defenders nor attackers are aware of all participants' payoffs. To handle the \textit{incomplete information} inherent in this situation, we propose associating the FLSG with an \textit{oracle} that has two primary responsibilities. First, the oracle provides lower and upper bounds of the payoffs for the players. Second, the oracle acts as a correlation device, privately providing suggested actions to each player. With this novel framework, we analyze the optimal strategies of defenders and attackers. Furthermore, we derive and demonstrate conditions under which the attacker, as a rational decision-maker, should always follow the oracle's suggestion \textit{not to attack}.
翻訳日:2023-04-13 15:02:06 公開日:2023-04-11
# PD-ADSV:パーキンソン病における音声信号とハード投票アンサンブル法を用いた自動診断システム

PD-ADSV: An Automated Diagnosing System Using Voice Signals and Hard Voting Ensemble Method for Parkinson's Disease ( http://arxiv.org/abs/2304.06016v1 )

ライセンス: Link先を確認
Paria Ghaheri, Ahmadreza Shateri, Hamid Nasiri(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、アルツハイマー病に次いで最も広範にみられる運動障害である。 運動症状や画像診断技術がこの疾患を診断する最も一般的な方法である。 しかし、それらは正確で高速ではなく、少数の人しかアクセスできない。 本研究は、4つの機械学習分類器とハード投票アンサンブル法を用いた音声信号に基づいてPDの診断を行う自律システムであるPD-ADSVを提供する。 PD-ADSVはPythonとGradio Webフレームワークを使って開発されている。

Parkinson's disease (PD) is the most widespread movement condition and the second most common neurodegenerative disorder, following Alzheimer's. Movement symptoms and imaging techniques are the most popular ways to diagnose this disease. However, they are not accurate and fast and may only be accessible to a few people. This study provides an autonomous system, i.e., PD-ADSV, for diagnosing PD based on voice signals, which uses four machine learning classifiers and the hard voting ensemble method to achieve the highest accuracy. PD-ADSV is developed using Python and the Gradio web framework.
翻訳日:2023-04-13 14:08:21 公開日:2023-04-11
# mmdレギュラー化不平衡最適輸送

MMD-regularized Unbalanced Optimal Transport ( http://arxiv.org/abs/2011.05001v6 )

ライセンス: Link先を確認
Piyushi Manupriya (IIT Hyderabad, INDIA), J. Saketha Nath (IIT Hyderabad, INDIA), Pratik Jawanpuria (Microsoft IDC, INDIA)(参考訳) 最大平均離散化(MMD)正則化を用いて限界制約を強制する不均衡最適輸送(UOT)問題について検討する。 本研究は, UOT における既存の研究が主に$\phi$-divergence (KL) に基づく正規化に重点を置いているという観察に動機づけられた。 積分確率測度(IPM)の相補的なファミリーに属するMDDの役割は、UTTの文脈における正規化要因としてはあまり理解されていないようである。 本研究の主な成果は, MMD-regularized UOT (MMD-UOT) の特性を研究できるFenchel双対性に基づくものである。 この双対性の結果の1つの興味深い結果として、MDD-UOTは、再びIMMファミリーに属する測度よりも新しい計量を誘導する。 さらに、MDD-UOTと対応するバリセンタを推定するための有限サンプルベース凸プログラムを提案する。 穏やかな条件下では、我々の凸計画に基づく推定器が一貫していることが証明され、推定誤差は$\mathcal{o}\left(m^{-\frac{1}{2}}\right)$で減少する。 最後に,これらの凸プログラムを(加速した)勾配降下を用いて効率的に解く方法について述べる。 我々は、mmd-uotが機械学習アプリケーションにおいて$\phi$-divergence-regularized uotの代替となる有望な実験を行っている。

We study the unbalanced optimal transport (UOT) problem, where the marginal constraints are enforced using Maximum Mean Discrepancy (MMD) regularization. Our study is motivated by the observation that existing works on UOT have mainly focused on regularization based on $\phi$-divergence (e.g., KL). The role of MMD, which belongs to the complementary family of integral probability metrics (IPMs), as a regularizer in the context of UOT seems to be less understood. Our main result is based on Fenchel duality, using which we are able to study the properties of MMD-regularized UOT (MMD-UOT). One interesting outcome of this duality result is that MMD-UOT induces a novel metric over measures, which again belongs to the IPM family. Further, we present finite-sample-based convex programs for estimating MMD-UOT and the corresponding barycenter. Under mild conditions, we prove that our convex-program-based estimators are consistent, and the estimation error decays at a rate $\mathcal{O}\left(m^{-\frac{1}{2}}\right)$, where $m$ is the number of samples from the source/target measures. Finally, we discuss how these convex programs can be solved efficiently using (accelerated) projected gradient descent. We conduct diverse experiments to show that MMD-UOT is a promising alternative to $\phi$-divergence-regularized UOT in machine learning applications.
翻訳日:2023-04-12 20:19:38 公開日:2023-04-11
# 特徴的妥当性の不確実性について:モンテカルロドロップアウトサンプリングアプローチ

On Feature Relevance Uncertainty: A Monte Carlo Dropout Sampling Approach ( http://arxiv.org/abs/2008.01468v2 )

ライセンス: Link先を確認
Kai Fischer, Jonas Schneider(参考訳) ニューラルネットワークによる決定を理解することは、現実世界のアプリケーションにインテリジェントなシステムを配置するための鍵となる。 しかし、これらのシステムの不透明な意思決定プロセスは、解釈可能性が必要となる不利である。 ニューラルネットワークによる決定をよりよく理解するために、ここ数年、多くの機能ベースの説明技術が機械学習の分野で導入され、推論能力を検証する重要なコンポーネントとなっている。 しかし、既存の手法では、特徴の予測に対する関連性に関する不確実性に関する言明を許さない。 本稿では,特徴量不確かさ推定のためのモンテカルロ分布伝播(mcrp)を提案する。 モンテカルロ推定に基づく単純かつ強力な手法は、ニューラルネットワークの知覚と推論のより深い理解を可能にする特徴関係不確実性スコアを計算するために特徴関係分布を推定する。

Understanding decisions made by neural networks is key for the deployment of intelligent systems in real world applications. However, the opaque decision making process of these systems is a disadvantage where interpretability is essential. Many feature-based explanation techniques have been introduced over the last few years in the field of machine learning to better understand decisions made by neural networks and have become an important component to verify their reasoning capabilities. However, existing methods do not allow statements to be made about the uncertainty regarding a feature's relevance for the prediction. In this paper, we introduce Monte Carlo Relevance Propagation (MCRP) for feature relevance uncertainty estimation. A simple but powerful method based on Monte Carlo estimation of the feature relevance distribution to compute feature relevance uncertainty scores that allow a deeper understanding of a neural network's perception and reasoning.
翻訳日:2023-04-12 20:19:09 公開日:2023-04-11
# 量子デジタル冷却

Quantum digital cooling ( http://arxiv.org/abs/1909.10538v3 )

ライセンス: Link先を確認
Stefano Polla, Yaroslav Herasymenko, and Thomas E. O'Brien(参考訳) 本稿では,自然の冷却に触発され,ディジタル量子ハードウェアの能力を活用すべく,シミュレーション・ハミルトニアンの基底状態のディジタル合成法を提案する。 冷水浴は、周期的にリセットされ、非摂動的にシステムに結合される単一の補助量子ビットでシミュレートされる。 本手法を1量子系玩具モデル上で検討し,弱い結合と強い結合に基づく2つの冷却プロトコルを最適化する。 1-qubitシステムモデルからの洞察を拡張し、大規模システムのための2つのスケーラブルなプロトコルを開発する。 LogSweepプロトコルは、ターゲットの遷移に共鳴的に一致するエネルギーを網羅することによって、弱い結合アプローチを拡張する。 我々は1D tranverse-field Isingモデル上でLogSweepをテストし、システムの3相すべてに対して計算時間に多項式的に小さい誤差で近似基底状態の準備を実証する。 バンバン・プロトコルは強結合アプローチを拡張し、局所ハミルトニアンのヒューリスティックスを活用し、最も短い時間で脱引用システム遷移の確率を最大化する。 このプロトコルは長期収束を約束しないが、基底状態の近似に対する迅速な冷却を可能にし、このプロトコルは短期的なデモンストレーションにアピールする。

We introduce a method for digital preparation of ground states of simulated Hamiltonians, inspired by cooling in nature and adapted to leverage the capabilities of digital quantum hardware. The cold bath is simulated by a single ancillary qubit, which is reset periodically and coupled to the system non-perturbatively. Studying this cooling method on a 1-qubit system toy model, we optimize two cooling protocols based on weak-coupling and strong-coupling approaches. Extending the insight from the 1-qubit system model, we develop two scalable protocols for larger systems. The LogSweep protocol extends the weak-coupling approach by sweeping energies to resonantly match any targeted transition. We test LogSweep on the 1D tranverse-field Ising model, demonstrating approximate ground state preparation with an error that can be made polynomially small in the computation time for all three phases of the system. The BangBang protocol extends the strong-coupling approach, and exploits a heuristics for local Hamiltonians to maximise the probability of de-exciting system transitions in the shortest possible time. Although this protocol does not promise long-time convergence, it allows for a rapid cooling to an approximation of the ground state, making this protocol appealing for near-term demonstrations.
翻訳日:2023-04-12 20:18:31 公開日:2023-04-11
# てんかん発作予測のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Epileptic Seizure Prediction ( http://arxiv.org/abs/1811.00915v3 )

ライセンス: Link先を確認
Matthias Eberlein, Raphael Hildebrand, Ronald Tetzlaff, Nico Hoffmann, Levin Kuhlmann, Benjamin Brinkmann and Jens M\"uller(参考訳) てんかんは最も一般的な神経疾患であり、発作の正確な予測は患者の不確実性と無力さを克服するのに役立つ。 そこで本研究では,脳内脳波(ieeg)の発作予測のための新しい分類法について検討した。 従来のアプローチとは対照的に,手作りの特徴の抽出をカテゴリー的に控え,適切な信号特性の決定と前期および間期セグメントの2次分類に代えて畳み込みニューラルネットワーク(cnn)トポロジーを用いる。 4匹の犬と3人の患者の長期記録を含む3つの異なるモデルが公開データセットで評価されている。 総じて,本研究は一般応用の可能性を示した。 本稿では,方法論の強みと限界について論じる。

Epilepsy is the most common neurological disorder and an accurate forecast of seizures would help to overcome the patient's uncertainty and helplessness. In this contribution, we present and discuss a novel methodology for the classification of intracranial electroencephalography (iEEG) for seizure prediction. Contrary to previous approaches, we categorically refrain from an extraction of hand-crafted features and use a convolutional neural network (CNN) topology instead for both the determination of suitable signal characteristics and the binary classification of preictal and interictal segments. Three different models have been evaluated on public datasets with long-term recordings from four dogs and three patients. Overall, our findings demonstrate the general applicability. In this work we discuss the strengths and limitations of our methodology.
翻訳日:2023-04-12 20:18:10 公開日:2023-04-11
# コミュニティ検出のためのPairwise Covariates-adjusted Block Model

Pairwise Covariates-adjusted Block Model for Community Detection ( http://arxiv.org/abs/1807.03469v4 )

ライセンス: Link先を確認
Sihan Huang, Jiajin Sun and Yang Feng(参考訳) ネットワーク研究における最も根本的な問題の1つは、コミュニティ検出である。 確率ブロックモデル(sbm, stochastic block model, 確率ブロックモデル)は, 様々な推定法が開発され, コミュニティ検出一貫性が明らかにされている, 広く用いられているモデルである。 しかし、sbmは、同じコミュニティ内の全てのノードが確率的に等価であるという強い仮定によって制限されており、実用的用途には適さない可能性がある。 ペアワイズ共変量情報を含むsbmの一般化であるペアワイズ共変量調整確率ブロックモデル(pcabm)を提案する。 本研究では,共変量に対する係数の最大確率推定とコミュニティの割り当てについて検討した。 共変量とコミュニティ割り当ての係数推定は、適切な空間条件下で一致していることが示されている。 PCABMを効率的に解くために、調整付きスペクトルクラスタリング(SCWA)を導入する。 特定の条件下では,SCWAにおけるコミュニティ検出の誤差境界を導出し,コミュニティ検出の一貫性を示す。 さらに,ペアワイズ共変量に対するコミュニティ数と特徴選択の観点でモデル選択を調査し,対応する2つのアルゴリズムを提案する。 PCABMは、共変量情報にアクセス可能な場合、広範囲のシミュレーションおよび実ネットワークの下で、SBMまたは次数補正確率ブロックモデル(DCBM)と良好に比較する。

One of the most fundamental problems in network study is community detection. The stochastic block model (SBM) is a widely used model, for which various estimation methods have been developed with their community detection consistency results unveiled. However, the SBM is restricted by the strong assumption that all nodes in the same community are stochastically equivalent, which may not be suitable for practical applications. We introduce a pairwise covariates-adjusted stochastic block model (PCABM), a generalization of SBM that incorporates pairwise covariate information. We study the maximum likelihood estimates of the coefficients for the covariates as well as the community assignments. It is shown that both the coefficient estimates of the covariates and the community assignments are consistent under suitable sparsity conditions. Spectral clustering with adjustment (SCWA) is introduced to efficiently solve PCABM. Under certain conditions, we derive the error bound of community detection under SCWA and show that it is community detection consistent. In addition, we investigate model selection in terms of the number of communities and feature selection for the pairwise covariates, and propose two corresponding algorithms. PCABM compares favorably with the SBM or degree-corrected stochastic block model (DCBM) under a wide range of simulated and real networks when covariate information is accessible.
翻訳日:2023-04-12 20:17:58 公開日:2023-04-11
# 量子カーネル法による量子位相認識

Quantum Phase Recognition via Quantum Kernel Methods ( http://arxiv.org/abs/2111.07553v3 )

ライセンス: Link先を確認
Yusen Wu, Bujiao Wu, Jingbo Wang, Xiao Yuan(参考訳) 量子計算を機械学習アルゴリズムの高速化に応用することは、量子アルゴリズムにおける最も有望な研究分野の1つである。 本稿では,多粒子量子システムを理解する上で極めて重要な量子位相認識(qpr)問題を解く上で,量子学習アルゴリズムのパワーについて検討する。 我々は、広く信じられている複雑性理論の仮定の下で、古典的資源を持つ古典的学習アルゴリズムでは効率的に解けない幅広いQPR問題が存在することを証明した。 量子コンピュータとは対照的に、線形順序パラメータオブザーバブルによるQPR問題の解法における量子カーネル法の効率性と堅牢性を証明する。 我々は,対称性保護位相や対称性破壊位相の認識など,様々な問題に対するアルゴリズムのベンチマークを行う。 本結果は,多粒子系における量子位相遷移の予測における量子機械学習の能力を強調した。

The application of quantum computation to accelerate machine learning algorithms is one of the most promising areas of research in quantum algorithms. In this paper, we explore the power of quantum learning algorithms in solving an important class of Quantum Phase Recognition (QPR) problems, which are crucially important in understanding many-particle quantum systems. We prove that, under widely believed complexity theory assumptions, there exists a wide range of QPR problems that cannot be efficiently solved by classical learning algorithms with classical resources. Whereas using a quantum computer, we prove the efficiency and robustness of quantum kernel methods in solving QPR problems through Linear order parameter Observables. We numerically benchmark our algorithm for a variety of problems, including recognizing symmetry-protected topological phases and symmetry-broken phases. Our results highlight the capability of quantum machine learning in predicting such quantum phase transitions in many-particle systems.
翻訳日:2023-04-12 19:44:38 公開日:2023-04-11
# 深いポアソン混合による確率的階層予測

Probabilistic Hierarchical Forecasting with Deep Poisson Mixtures ( http://arxiv.org/abs/2110.13179v8 )

ライセンス: Link先を確認
Kin G. Olivares and O. Nganba Meetei and Ruijun Ma and Rohan Reddy and Mengfei Cao and Lee Dicker(参考訳) 階層的な予測問題は、時系列が自然なグループ構造を持つときに起こり、グループ全体にわたる複数のレベルの集約と分解の予測が必要である。 このような問題では、与えられた階層における集約制約を満たすことがしばしば求められ、文献では階層コヒーレンスと呼ばれる。 正確な予測を生成しながらコヒーレンスを維持することは、特に確率的予測の場合、難しい問題である。 本稿では,信頼性の高い階層情報が存在する場合に,時系列の正確で一貫性のある確率予測を行う新しい手法を提案する。 Deep Poisson Mixture Network (DPMN)と呼ぶ。 これはニューラルネットワークと階層的多変量時系列構造の結合分布の統計モデルの組み合わせに依存している。 構築により、モデルは階層的コヒーレンスを保証し、予測分布の集約と分解のための単純な規則を提供する。 本研究では,複数のパブリックデータセット上で階層的にコヒーレントな確率的予測を行う他の最先端手法とdpmnを比較し,広範な経験的評価を行う。 既存のコヒーレント確率モデルと比較して、オーストラリアの国内観光データで11.8%の連続ランク確率スコア(CRPS)と、時系列を地理的階層や旅行意図階層に分類したFariita食料品販売データセットで8.1%の相対的な改善が得られる。 シリーズの階層構造がランダムに割り当てられるサンフランシスコベイエリアハイウェイの交通量について,その相関性は低いが,本手法は統計的ベースラインに対して有意な性能差を示さない。

Hierarchical forecasting problems arise when time series have a natural group structure, and predictions at multiple levels of aggregation and disaggregation across the groups are needed. In such problems, it is often desired to satisfy the aggregation constraints in a given hierarchy, referred to as hierarchical coherence in the literature. Maintaining coherence while producing accurate forecasts can be a challenging problem, especially in the case of probabilistic forecasting. We present a novel method capable of accurate and coherent probabilistic forecasts for time series when reliable hierarchical information is present. We call it Deep Poisson Mixture Network (DPMN). It relies on the combination of neural networks and a statistical model for the joint distribution of the hierarchical multivariate time series structure. By construction, the model guarantees hierarchical coherence and provides simple rules for aggregation and disaggregation of the predictive distributions. We perform an extensive empirical evaluation comparing the DPMN to other state-of-the-art methods which produce hierarchically coherent probabilistic forecasts on multiple public datasets. Comparing to existing coherent probabilistic models, we obtain a relative improvement in the overall Continuous Ranked Probability Score (CRPS) of 11.8% on Australian domestic tourism data, and 8.1% on the Favorita grocery sales dataset, where time series are grouped with geographical hierarchies or travel intent hierarchies. For San Francisco Bay Area highway traffic, where the series' hierarchical structure is randomly assigned, and their correlations are less informative, our method does not show significant performance differences over statistical baselines.
翻訳日:2023-04-12 19:44:24 公開日:2023-04-11
# Riemannian Fixed-rank Matrix Optimizationにおける埋め込みおよび定性的ジオメトリーの幾何学的接続について

On Geometric Connections of Embedded and Quotient Geometries in Riemannian Fixed-rank Matrix Optimization ( http://arxiv.org/abs/2110.12121v2 )

ライセンス: Link先を確認
Yuetian Luo and Xudong Li and Anru R. Zhang(参考訳) 本稿では,リーマン最適化問題の幾何学的ランドスケープ接続を,埋め込みおよび商幾何学の下で確立するための一般的な手順を提案する。 一般手順を固定ランク正半定値(PSD)および一般行列最適化に適用することにより、多様体上の各点における2つの測度の下で正確なリーマン勾配接続とリーマン一階定常点(FOSP)におけるリーマン・ヘッセンのスペクトル間のサンドイッチ不等式を確立する。 これらの結果は直ちにリーマンフォップの集合上の同値、リーマン二階定常点(sosp)、埋め込み幾何学および商幾何学の下での固定ランク行列最適化の厳密な鞍を意味する。 我々の知る限り、これは固定ランク行列最適化のための埋め込みと商ジオメトリーの間の最初の幾何学的ランドスケープ接続であり、これらの2つのジオメトリーがリーマン最適化でどのように接続されているかの具体的な例を提供する。 また,ランドスケープ接続に対するリーマン計量と商構造の影響についても考察した。 また、固定ランク行列最適化において、いくつかの特定のリーマン測度を持つ2つの測度間のアルゴリズム的接続も観察する: リーマンヘッセンの共有スペクトルを持つ2つの測度の下で勾配流の同値性が存在する。 異なるリーマン計量に対する統一的な処理、スティーフェル多様体に対する新しい計量、商幾何学の下での新しい水平空間表現などを含む、多くの新しいアイデアと技術的な材料が開発され、この結果を得た。 本論文は、異なるリーマン幾何学の下でのリーマン最適化の幾何学的およびアルゴリズム的接続の理解を深め、文献の未解決問題に対するいくつかの新しい理論的洞察を提供する。

In this paper, we propose a general procedure for establishing the geometric landscape connections of a Riemannian optimization problem under the embedded and quotient geometries. By applying the general procedure to the fixed-rank positive semidefinite (PSD) and general matrix optimization, we establish an exact Riemannian gradient connection under two geometries at every point on the manifold and sandwich inequalities between the spectra of Riemannian Hessians at Riemannian first-order stationary points (FOSPs). These results immediately imply an equivalence on the sets of Riemannian FOSPs, Riemannian second-order stationary points (SOSPs), and strict saddles of fixed-rank matrix optimization under the embedded and the quotient geometries. To the best of our knowledge, this is the first geometric landscape connection between the embedded and the quotient geometries for fixed-rank matrix optimization and it provides a concrete example of how these two geometries are connected in Riemannian optimization. In addition, the effects of the Riemannian metric and quotient structure on the landscape connection are discussed. We also observe an algorithmic connection between two geometries with some specific Riemannian metrics in fixed-rank matrix optimization: there is an equivalence between gradient flows under two geometries with shared spectra of Riemannian Hessians. A number of novel ideas and technical ingredients including a unified treatment for different Riemannian metrics, novel metrics for the Stiefel manifold, and new horizontal space representations under quotient geometries are developed to obtain our results. The results in this paper deepen our understanding of geometric and algorithmic connections of Riemannian optimization under different Riemannian geometries and provide a few new theoretical insights to unanswered questions in the literature.
翻訳日:2023-04-12 19:43:58 公開日:2023-04-11
# 多目的最適化のための明示的マルチモーダルベンチマーク

Explicitly Multi-Modal Benchmarks for Multi-Objective Optimization ( http://arxiv.org/abs/2110.03196v2 )

ライセンス: Link先を確認
Ryosuke Ota and Reiya Hagiwara and Naoki Hamada and Likun Liu and Takahiro Yamamoto and Daisuke Sakurai(参考訳) 多目的最適化において、優れたベンチマーク問題を設計することは、解法を改善する上で重要な問題である。 多くのベンチマーク問題が提案され、その一部はデファクトスタンダードとなったが、制御可能なランドスケープを持つマルチモーダル問題を設計することは、特に高次元ケースでは未解決の問題である。 そこで我々は,ベンチマーク設計者が到達性グラフと呼ばれるグラフ構造を用いてアトラクションの接地を指定できるベンチマーク with Explicit Multimodality (BEM)を提案する。 本稿では,BEMの数学的定式化に焦点を当てる。 我々は、BEMが好ましい特性を持っていることに気付く。 (i)利用者特定地域パレートセットの実現 (ii)高次元設計空間を許容すること、及び (iii)非分離性を有すること。

In multi-objective optimization, designing good benchmark problems is an important issue for improving solvers. Although many benchmark problems have been proposed and some of them became de facto standards, designing multimodal problems that have a controllable landscape is still an open problem especially for high-dimensional cases. We thus propose the Benchmark with Explicit Multimodality (BEM), which lets the benchmark designer specify the basins of attraction using a graph structure known as the reachability graph. In this article, we focus on the mathematical formulation of the BEM. We will see that the BEM has preferable characteristics such as (i) realizing user-specified local Pareto set, (ii) allowing high-dimensional design spaces and (iii) possessing nonseparability.
翻訳日:2023-04-12 19:43:24 公開日:2023-04-11
# 胸部X線自動生成のためのコントラスト注意

Contrastive Attention for Automatic Chest X-ray Report Generation ( http://arxiv.org/abs/2106.06965v5 )

ライセンス: Link先を確認
Fenglin Liu, Changchang Yin, Xian Wu, Shen Ge, Yuexian Zou, Ping Zhang, Yuexian Zou, Xu Sun(参考訳) 近年,胸部x線画像の自動生成を目的とした胸部x線レポート生成が研究の関心を集めている。 胸部x線レポート生成の重要な課題は、異常領域を正確に捉えて記述することである。 ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。 このようなデータバイアスのため、学習ベースのモデルは異常な領域に到達できない可能性がある。 本研究では,異常領域を効果的に捉え,記述するために,コントラスト注意(CA)モデルを提案する。 caモデルは、現在の入力画像のみに焦点を当てる代わりに、現在の入力画像と通常の画像を比較することで、コントラスト情報を蒸留する。 取得したコントラスト情報は、異常領域の視覚的特徴をよりよく表すことができる。 公開IU-X-rayとMIMIC-CXRデータセットの実験によると、いくつかの既存のモデルにCAを組み込むことで、ほとんどのメトリクスでパフォーマンスが向上する。 さらに、解析によれば、CAモデルは既存のモデルが異常な領域によりよく対応し、解釈可能な診断に不可欠なより正確な記述を提供するのに役立つ。 具体的には、2つの公開データセットで最先端の結果を得る。

Recently, chest X-ray report generation, which aims to automatically generate descriptions of given chest X-ray images, has received growing research interests. The key challenge of chest X-ray report generation is to accurately capture and describe the abnormal regions. In most cases, the normal regions dominate the entire chest X-ray image, and the corresponding descriptions of these normal regions dominate the final report. Due to such data bias, learning-based models may fail to attend to abnormal regions. In this work, to effectively capture and describe abnormal regions, we propose the Contrastive Attention (CA) model. Instead of solely focusing on the current input image, the CA model compares the current input image with normal images to distill the contrastive information. The acquired contrastive information can better represent the visual features of abnormal regions. According to the experiments on the public IU-X-ray and MIMIC-CXR datasets, incorporating our CA into several existing models can boost their performance across most metrics. In addition, according to the analysis, the CA model can help existing models better attend to the abnormal regions and provide more accurate descriptions which are crucial for an interpretable diagnosis. Specifically, we achieve the state-of-the-art results on the two public datasets.
翻訳日:2023-04-12 19:43:13 公開日:2023-04-11
# ベイジアンマルコフ決定過程のオフラインリスク対応政策選択法

An Offline Risk-aware Policy Selection Method for Bayesian Markov Decision Processes ( http://arxiv.org/abs/2105.13431v2 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel(参考訳) 計画およびオフライン強化学習のためのオフラインモデル学習において、限られたデータセットは相対マルコフ決定過程(mdp)の価値関数の推定を阻害する。 その結果、実世界で得られた政策のパフォーマンスは、特に間違った政策の展開が破滅的な結果をもたらす場合、制限され、潜在的に危険である。 この理由から、いくつかの経路が、モデルエラー(あるいは学習したモデルと真のモデルの分布的変化)を減らし、より広い範囲において、モデルの不確実性に関してリスク対応ソリューションを得るというスコープに従っている。 しかし、最終的なアプリケーションに関して、実践者はどのベースラインを選ぶべきか? 計算時間が問題ではなく、ロバスト性が優先事項であるオフラインの文脈では、(1)ベイズ形式に基づくモデルの不確実性をエレガントに取り入れる、(2)現在のベースラインによって提供される候補ポリシーの固定セット間でベイズ的後方に対するリスク認識目標を最大化するポリシーを選択する、というパラダイムを提案する。 我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。 テストシナリオでは、EvCは堅牢なポリシーを選択することに成功し、現実の世界でオフラインの計画と強化学習ソリューションの適用を目指す実践者にとって、有用なツールとして際立っている。

In Offline Model Learning for Planning and in Offline Reinforcement Learning, the limited data set hinders the estimate of the Value function of the relative Markov Decision Process (MDP). Consequently, the performance of the obtained policy in the real world is bounded and possibly risky, especially when the deployment of a wrong policy can lead to catastrophic consequences. For this reason, several pathways are being followed with the scope of reducing the model error (or the distributional shift between the learned model and the true one) and, more broadly, obtaining risk-aware solutions with respect to model uncertainty. But when it comes to the final application which baseline should a practitioner choose? In an offline context where computational time is not an issue and robustness is the priority we propose Exploitation vs Caution (EvC), a paradigm that (1) elegantly incorporates model uncertainty abiding by the Bayesian formalism, and (2) selects the policy that maximizes a risk-aware objective over the Bayesian posterior between a fixed set of candidate policies provided, for instance, by the current baselines. We validate EvC with state-of-the-art approaches in different discrete, yet simple, environments offering a fair variety of MDP classes. In the tested scenarios EvC manages to select robust policies and hence stands out as a useful tool for practitioners that aim to apply offline planning and reinforcement learning solvers in the real world.
翻訳日:2023-04-12 19:42:36 公開日:2023-04-11
# 客観的不確実性定量化のためのニューラルメッセージパッシングと最適実験設計

Neural Message Passing for Objective-Based Uncertainty Quantification and Optimal Experimental Design ( http://arxiv.org/abs/2203.07120v4 )

ライセンス: Link先を確認
Qihua Chen, Xuejin Chen, Hyun-Myung Woo, Byung-Jun Yoon(参考訳) 様々な実世界の科学的応用は、多くの未知のパラメータを持つ複雑な不確定システムの数学的モデリングを含む。 このようなシステムでは、利用可能なトレーニングデータが不十分で追加データを取得するコストが高いため、正確なパラメータ推定は事実上不可能であることが多い。 そのような場合、ベイズパラダイムに基づいたロバストな演算子を設計でき、可能なすべてのモデルで最高の性能を保ち、不確実性を効果的に低減し、そのようなオペレーターのパフォーマンスを最大限に高める最適な実験を設計できる。 MOCU(目的的不確実性コスト)に基づく客観的不確実性定量化(objective-UQ)は、複雑なシステムにおける不確実性を定量化する効果的な手段を提供するが、MOCUを推定する高い計算コストは、現実の科学的・工学的な問題に適用する上での課題である。 本研究では,データ駆動型アプローチに基づくMOCUによる目的UQの計算コスト削減手法を提案する。 我々は,推定されたシステムの不確実性の増加を罰する新しい公理的制約損失を組み込んだ,サロゲートモデルのためのニューラルメッセージパッシングモデルを採用する。 例示として,不確実性低減によるロバスト同期性能を最も効果的に向上できる実験を予測することを目的とした,不確実性倉本モデルにおける最適実験設計(oed)問題を考える。 提案手法は,mocuベースのoedを最大4~5桁高速化し,最先端と比較して性能損失を生じさせることなく高速化できることを示す。 提案手法は倉本モデルを超える一般OEDタスクに適用できる。

Various real-world scientific applications involve the mathematical modeling of complex uncertain systems with numerous unknown parameters. Accurate parameter estimation is often practically infeasible in such systems, as the available training data may be insufficient and the cost of acquiring additional data may be high. In such cases, based on a Bayesian paradigm, we can design robust operators retaining the best overall performance across all possible models and design optimal experiments that can effectively reduce uncertainty to enhance the performance of such operators maximally. While objective-based uncertainty quantification (objective-UQ) based on MOCU (mean objective cost of uncertainty) provides an effective means for quantifying uncertainty in complex systems, the high computational cost of estimating MOCU has been a challenge in applying it to real-world scientific/engineering problems. In this work, we propose a novel scheme to reduce the computational cost for objective-UQ via MOCU based on a data-driven approach. We adopt a neural message-passing model for surrogate modeling, incorporating a novel axiomatic constraint loss that penalizes an increase in the estimated system uncertainty. As an illustrative example, we consider the optimal experimental design (OED) problem for uncertain Kuramoto models, where the goal is to predict the experiments that can most effectively enhance robust synchronization performance through uncertainty reduction. We show that our proposed approach can accelerate MOCU-based OED by four to five orders of magnitude, without any visible performance loss compared to the state-of-the-art. The proposed approach applies to general OED tasks, beyond the Kuramoto model.
翻訳日:2023-04-12 19:36:20 公開日:2023-04-11
# ハイブリッドキャビティ光機械システムにおける原子ベースコヒーレント量子ノイズキャンセリングに基づく弱力センシングの強化

Enhanced weak force sensing based on atom-based coherent quantum noise cancellation in a hybrid cavity optomechanical system ( http://arxiv.org/abs/2203.01678v3 )

ライセンス: Link先を確認
S.K. Singh, M. Mazaheri, Jia-Xin Peng, M. Asjad, Mohammad Khalid(参考訳) 超低温原子の閉じ込められたアンサンブルと光パラメトリック増幅器(OPA)を含むハイブリッド空洞光学系におけるコヒーレント量子ノイズキャンセリング(CQNC)方式に基づく弱い力センシングを理論的に検討する。 提案システムでは,OPAパラメータの適切な選択により,すべての周波数でバックアクションノイズを完全に除去することができ,低周波数でノイズスペクトル密度を低減できる。 これにより弱い力のセンシングが大幅に向上し、検出周波数の低い小さな入力電力でも標準量子限界(SQL)を超える。 本研究は,ハイブリッドキャビティ光力学系に基づく力センサの実現と,マクロシステムにおけるコヒーレント量子制御に利用することができる。

We theoretically investigate the weak force-sensing based on coherent quantum noise cancellation (CQNC) scheme in a hybrid cavity optomechanical system containing a trapped ensemble of ultracold atoms and an optical parametric amplifier (OPA). In our proposed system the back action noise can be completely eliminated at all frequencies as well as through the proper choice of the OPA parameters noise spectral density can be also reduced at lower frequencies. This leads to the significant enhancement in the weak force sensing and also surpasses the standard quantum limit (SQL) even for small input power at lower detection frequency. Our study can be used for the realization of force sensor based on hybrid cavity optomechanical systems and for coherent quantum control in macroscopic systems.
翻訳日:2023-04-12 19:35:51 公開日:2023-04-11
# ニューラルネットワークガウス過程を用いたマルチモデルアンサンブル解析

Multi-model Ensemble Analysis with Neural Network Gaussian Processes ( http://arxiv.org/abs/2202.04152v4 )

ライセンス: Link先を確認
Trevor Harris, Bo Li, Ryan Sriver(参考訳) マルチモデルアンサンブル解析は、複数の気候モデルからの情報を統合投影に統合する。 しかし、モデル平均化に基づく既存の統合アプローチは、微細な空間情報を希釈し、低分解能気候モデルの再スケーリングからバイアスを負う。 我々は,広義の深層ニューラルネットワークに基づく共分散関数を持つガウス過程回帰(GPR)を用いて,NN-GPRと呼ばれる統計的アプローチを提案する。 NN-GPRはモデル間の関係に関する仮定を必要とせず、共通のグリッドへの補間も、定常性の仮定も必要とせず、予測アルゴリズムの一部として自動的にダウンスケールする。 モデル実験により, NN-GPRは複数スケールで地理空間信号を保存し, 年々の変動を捉えることにより, 表面温度と降水予測に極めて熟練していることが示された。 特に高変動領域における精度と不確実性定量化技術の向上が示され, 地域気候モデル(RCM)を使わずに, 0.44$^\circ$/50 km空間分解能を安価に評価することが可能となった。 再解析データとSSP245強制気候モデルによる評価から、NN-GPRはモデルアンサンブルに類似した全体気候を発生させながら、より微細な空間パターンを捉えることができる。 最後に、NN-GPRの地域予測を2つのRCMと比較し、グローバルモデルデータのみを入力として、NN-GPRがRCMのパフォーマンスに匹敵することを示す。

Multi-model ensemble analysis integrates information from multiple climate models into a unified projection. However, existing integration approaches based on model averaging can dilute fine-scale spatial information and incur bias from rescaling low-resolution climate models. We propose a statistical approach, called NN-GPR, using Gaussian process regression (GPR) with an infinitely wide deep neural network based covariance function. NN-GPR requires no assumptions about the relationships between models, no interpolation to a common grid, no stationarity assumptions, and automatically downscales as part of its prediction algorithm. Model experiments show that NN-GPR can be highly skillful at surface temperature and precipitation forecasting by preserving geospatial signals at multiple scales and capturing inter-annual variability. Our projections particularly show improved accuracy and uncertainty quantification skill in regions of high variability, which allows us to cheaply assess tail behavior at a 0.44$^\circ$/50 km spatial resolution without a regional climate model (RCM). Evaluations on reanalysis data and SSP245 forced climate models show that NN-GPR produces similar, overall climatologies to the model ensemble while better capturing fine scale spatial patterns. Finally, we compare NN-GPR's regional predictions against two RCMs and show that NN-GPR can rival the performance of RCMs using only global model data as input.
翻訳日:2023-04-12 19:35:36 公開日:2023-04-11
# 直接学習型深部スパイクQネットワークによるヒューマンレベル制御

Human-Level Control through Directly-Trained Deep Spiking Q-Networks ( http://arxiv.org/abs/2201.07211v3 )

ライセンス: Link先を確認
Guisong Liu, Wenjie Deng, Xiurui Xie, Li Huang, Huajin Tang(参考訳) 第3世代のニューラルネットワークとして、スパイキングニューラルネットワーク(SNN)は、その高エネルギー効率のため、ニューロモルフィックなハードウェアに大きな可能性を秘めている。 しかし,SNNに基づく強化学習(Reinforcement Learning, RL)である深スパイキング強化学習(Deep Spiking Reinforcement Learning, DSRL)は, 2次出力とスパイキング関数の非微分特性のため,まだ初期段階にある。 本稿では,これらの問題に対処するために,Deep Spiking Q-Network (DSQN)を提案する。 具体的には、Leaky Integrate-and-Fire(LIF)ニューロンとDeep Q-Network(DQN)に基づいて、直接学習した深部スパイキング強化学習アーキテクチャを提案する。 次に、Deep Spiking Q-Networkに対して直接スパイキング学習アルゴリズムを適用する。 さらに,理論上は LIF ニューロンを DSQN に使用することの利点を示す。 提案手法を最先端変換法と比較するため,17種類のアタリゲームにおいて総合的な実験を行った。 実験の結果, 性能, 安定性, 堅牢性, エネルギー効率の点で, 提案手法の優位性を示した。 我々の知る限り、我々の研究は、直接学習されたSNNで複数のAtariゲームで最先端のパフォーマンスを達成する最初のものである。

As the third-generation neural networks, Spiking Neural Networks (SNNs) have great potential on neuromorphic hardware because of their high energy-efficiency. However, Deep Spiking Reinforcement Learning (DSRL), i.e., the Reinforcement Learning (RL) based on SNNs, is still in its preliminary stage due to the binary output and the non-differentiable property of the spiking function. To address these issues, we propose a Deep Spiking Q-Network (DSQN) in this paper. Specifically, we propose a directly-trained deep spiking reinforcement learning architecture based on the Leaky Integrate-and-Fire (LIF) neurons and Deep Q-Network (DQN). Then, we adapt a direct spiking learning algorithm for the Deep Spiking Q-Network. We further demonstrate the advantages of using LIF neurons in DSQN theoretically. Comprehensive experiments have been conducted on 17 top-performing Atari games to compare our method with the state-of-the-art conversion method. The experimental results demonstrate the superiority of our method in terms of performance, stability, robustness and energy-efficiency. To the best of our knowledge, our work is the first one to achieve state-of-the-art performance on multiple Atari games with the directly-trained SNN.
翻訳日:2023-04-12 19:34:20 公開日:2023-04-11
# 画像から三角形の3次元モデル, 材料, 照明を抽出する

Extracting Triangular 3D Models, Materials, and Lighting From Images ( http://arxiv.org/abs/2111.12503v5 )

ライセンス: Link先を確認
Jacob Munkberg, Jon Hasselgren, Tianchang Shen, Jun Gao, Wenzheng Chen, Alex Evans, Thomas M\"uller, Sanja Fidler(参考訳) 多視点画像観測によるトポロジ,材料,照明の協調最適化手法を提案する。 ニューラルネットワークで符号化されたエンタングル3d表現を通常生成する最近のマルチビュー再構成アプローチとは異なり、空間的に変動する材料と環境照明を備えた三角形メッシュを、従来のグラフィックエンジンで無修正でデプロイできる。 我々は、微分可能なレンダリング、座標ベースのネットワークによる最近の研究を活用し、体積のテクスチャをコンパクトに表現し、微分可能なマーチング四面体と共に表面メッシュ上で勾配に基づく最適化を可能にする。 最後に,環境照明の分割和近似の微分可能な定式化を導入し,全周波数照明を効率的に復元する。 実験では,高度なシーン編集,材質分解,高画質ビュー補間において,トライアングルベースレンダラ(ラスタライザとパストレーサ)のインタラクティブな速度で動作する抽出モデルを示す。 プロジェクトサイト: https://nvlabs.github.io/nvdiffrec/。

We present an efficient method for joint optimization of topology, materials and lighting from multi-view image observations. Unlike recent multi-view reconstruction approaches, which typically produce entangled 3D representations encoded in neural networks, we output triangle meshes with spatially-varying materials and environment lighting that can be deployed in any traditional graphics engine unmodified. We leverage recent work in differentiable rendering, coordinate-based networks to compactly represent volumetric texturing, alongside differentiable marching tetrahedrons to enable gradient-based optimization directly on the surface mesh. Finally, we introduce a differentiable formulation of the split sum approximation of environment lighting to efficiently recover all-frequency lighting. Experiments show our extracted models used in advanced scene editing, material decomposition, and high quality view interpolation, all running at interactive rates in triangle-based renderers (rasterizers and path tracers). Project website: https://nvlabs.github.io/nvdiffrec/ .
翻訳日:2023-04-12 19:33:29 公開日:2023-04-11
# Neural Collapse: モデリング原則と一般化に関するレビュー

Neural Collapse: A Review on Modelling Principles and Generalization ( http://arxiv.org/abs/2206.04041v2 )

ライセンス: Link先を確認
Vignesh Kothapalli(参考訳) 深層分類器ニューラルネットワークは、トレーニングエラーがゼロに達するとトレーニングの終端フェーズに入り、興味深いニューラルネットワーク崩壊(NC)特性を示す傾向がある。 神経崩壊は基本的に、最終隠蔽層出力のクラス内変数が無限小であり、そのクラスが単純な等角的タイトフレームを形成する状態を表す。 これにより、最寄りのクラス中心決定ルールに対する最後のレイヤの振る舞いが単純化される。 この状態の単純さにもかかわらず、それに到達するダイナミクスと影響は、まだ完全には理解されていない。 本稿では,神経崩壊のモデル化を支援する原理を概観するとともに,この状態がニューラルネットワークの一般化と伝達学習能力に与える影響について考察する。 最後に,今後の研究への道筋や方向性について論じる。

Deep classifier neural networks enter the terminal phase of training (TPT) when training error reaches zero and tend to exhibit intriguing Neural Collapse (NC) properties. Neural collapse essentially represents a state at which the within-class variability of final hidden layer outputs is infinitesimally small and their class means form a simplex equiangular tight frame. This simplifies the last layer behaviour to that of a nearest-class center decision rule. Despite the simplicity of this state, the dynamics and implications of reaching it are yet to be fully understood. In this work, we review the principles which aid in modelling neural collapse, followed by the implications of this state on generalization and transfer learning capabilities of neural networks. Finally, we conclude by discussing potential avenues and directions for future research.
翻訳日:2023-04-12 19:27:02 公開日:2023-04-11
# 多チャンネルビデオ言語検索のための事前制約付きコントラストモデルの高速適応に向けて

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval ( http://arxiv.org/abs/2206.02082v4 )

ライセンス: Link先を確認
Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang(参考訳) マルチチャンネルビデオ言語検索では、異なるチャンネルからの情報(例えば video$+$question, video$+$speech)を理解して、ビデオとテキスト応答やクエリを正しくリンクする必要がある。 幸いなことに、コントラストのあるマルチモーダルモデルは、画像やビデオ、CLIPなどのテキストにおけるエンティティの整合に非常に効果的であることが示され、テキストコントラストのモデルは、SimCSEのような差別的な文埋め込みを生成する強力な能力のために、最近広く研究されている。 しかし、これらの2行を限られたデータとリソースでマルチチャンネルビデオ言語検索に迅速に適用する方法は明確ではない。 本稿では,ビデオの表現方法と映像とテキスト情報を融合する方法という,2つの軸を持つ基本モデル設計空間を同定する。 近年の手法の分類に基づいて,連続特徴ベクトルや離散テキストトークンを用いた映像表現の選択肢を検討するとともに,マルチモーダルトランスフォーマタや事前学習されたコントラストテキストモデルの利用について検討する。 5つのビデオ言語データセットで4つの組み合わせを広範囲に評価した。 事前訓練されたコントラストテキストモデルと組み合わせることで,iVQAやHow2QAデータセットにおいて,数百万の動画テキストデータに対する追加トレーニングを伴わずに,最高のパフォーマンスが得られることが驚くべき結果となった。 さらに分析すると、動画をテキストトークンとして表現することは重要な視覚情報をキャプチャし、テキストトークンはコントラストプリトレーニングの後に強いレトリバーであるテキストモデルと自然に一致しているためである。 実証分析はすべて、安価でアップグレード可能なマルチモーダルインテリジェンスに関する将来の研究の基盤となる。

Multi-channel video-language retrieval require models to understand information from different channels (e.g. video$+$question, video$+$speech) to correctly link a video with a textual response or query. Fortunately, contrastive multimodal models are shown to be highly effective at aligning entities in images/videos and text, e.g., CLIP; text contrastive models are extensively studied recently for their strong ability of producing discriminative sentence embeddings, e.g., SimCSE. However, there is not a clear way to quickly adapt these two lines to multi-channel video-language retrieval with limited data and resources. In this paper, we identify a principled model design space with two axes: how to represent videos and how to fuse video and text information. Based on categorization of recent methods, we investigate the options of representing videos using continuous feature vectors or discrete text tokens; for the fusion method, we explore the use of a multimodal transformer or a pretrained contrastive text model. We extensively evaluate the four combinations on five video-language datasets. We surprisingly find that discrete text tokens coupled with a pretrained contrastive text model yields the best performance, which can even outperform state-of-the-art on the iVQA and How2QA datasets without additional training on millions of video-text data. Further analysis shows that this is because representing videos as text tokens captures the key visual information and text tokens are naturally aligned with text models that are strong retrievers after the contrastive pretraining process. All the empirical analysis establishes a solid foundation for future research on affordable and upgradable multimodal intelligence.
翻訳日:2023-04-12 19:26:50 公開日:2023-04-11
# 部分ラベル付きマルチラベル画像認識のためのデュアル・パースペクティブ・セマンティクス・アウェア表現ブレンド

Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels ( http://arxiv.org/abs/2205.13092v2 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Yukai Shi, Zhijing Yang, Liang Lin(参考訳) 目覚ましい進歩にもかかわらず、現在のマルチラベル画像認識(MLR)アルゴリズムは、完全なラベルを持つ大規模なデータセットに大きく依存しているため、大規模なデータセットの収集は非常に時間がかかり、労力がかかる。 部分ラベル付きマルチラベル画像認識モデル(MLR-PL)の訓練は、一部のラベルのみが知られ、他のラベルは各画像について不明である別の方法である。 しかし、現在のmlp-plアルゴリズムは、事前訓練された画像類似性モデルに依存するか、画像分類モデルを反復的に更新して未知ラベルの擬似ラベルを生成する。 したがって、一定の量のアノテーションに依存し、特に既知のラベル比率が低い場合、必然的にパフォーマンス低下に悩まされる。 このジレンマに対処するために、未知のラベルを補うために既知のラベルの情報を転送するために、異なる画像間で多粒度カテゴリ固有の意味表現をブレンドする二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。 特に、IPRBモジュールは、既知のラベルの表現と対応する未知のラベルの表現を別の画像にブレンドして、これらの未知のラベルを補完するように設計されている。 一方、各カテゴリのより安定した表現プロトタイプを学習するために、PPRBモジュールを導入し、未知ラベルの表現と対応するラベルのプロトタイプを、位置情報に敏感な方法でブレンドして、これらの未知ラベルを補完する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットに対する大規模な実験により、提案されたDSRBは、既知のすべてのラベルの比率設定において、常に最先端のアルゴリズムより優れていることが示された。

Despite achieving impressive progress, current multi-label image recognition (MLR) algorithms heavily depend on large-scale datasets with complete labels, making collecting large-scale datasets extremely time-consuming and labor-intensive. Training the multi-label image recognition models with partial labels (MLR-PL) is an alternative way, in which merely some labels are known while others are unknown for each image. However, current MLP-PL algorithms rely on pre-trained image similarity models or iteratively updating the image classification models to generate pseudo labels for the unknown labels. Thus, they depend on a certain amount of annotations and inevitably suffer from obvious performance drops, especially when the known label proportion is low. To address this dilemma, we propose a dual-perspective semantic-aware representation blending (DSRB) that blends multi-granularity category-specific semantic representation across different images, from instance and prototype perspective respectively, to transfer information of known labels to complement unknown labels. Specifically, an instance-perspective representation blending (IPRB) module is designed to blend the representations of the known labels in an image with the representations of the corresponding unknown labels in another image to complement these unknown labels. Meanwhile, a prototype-perspective representation blending (PPRB) module is introduced to learn more stable representation prototypes for each category and blends the representation of unknown labels with the prototypes of corresponding labels, in a location-sensitive manner, to complement these unknown labels. Extensive experiments on the MS-COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed DSRB consistently outperforms current state-of-the-art algorithms on all known label proportion settings.
翻訳日:2023-04-12 19:25:33 公開日:2023-04-11
# dpsnn:時間的拡張プールを持つ微分プライベートスパイクニューラルネットワーク

DPSNN: A Differentially Private Spiking Neural Network with Temporal Enhanced Pooling ( http://arxiv.org/abs/2205.12718v3 )

ライセンス: Link先を確認
Jihang Wang, Dongcheng Zhao, Guobin Shen, Qian Zhang, Yi Zeng(参考訳) プライバシ保護は機械学習アルゴリズムにおいて重要な問題であり、現在のプライバシ保護は、実際の値に基づいた従来のニューラルネットワークと組み合わせられている。 新しい世代の人工知能ネットワークであるスパイキングニューラルネットワーク(SNN)は多くの分野で重要な役割を果たしている。 そのため、SNNのプライバシー保護に関する研究が急務である。 本稿では、差分プライバシー(DP)アルゴリズムをSNNと組み合わせ、差分プライベートスパイクニューラルネットワーク(DPSNN)を提案する。 SNNは離散スパイクシーケンスを使用して情報を送信し、DPが導入した勾配ノイズと組み合わせてSNNが強力なプライバシー保護を維持する。 同時に、SNNが高いプライバシー保護を得ながら高い性能を維持するために、時間拡張プール法(TEP)を提案する。 SNNの時間情報を空間情報転送に完全に統合することで、SNNはより良い情報転送を行うことができる。 静的およびニューロモルフィックなデータセットについて実験を行い,実験結果から,プライバシ保護の強いアルゴリズムは依然として高い性能を維持していることが示された。

Privacy protection is a crucial issue in machine learning algorithms, and the current privacy protection is combined with traditional artificial neural networks based on real values. Spiking neural network (SNN), the new generation of artificial neural networks, plays a crucial role in many fields. Therefore, research on the privacy protection of SNN is urgently needed. This paper combines the differential privacy(DP) algorithm with SNN and proposes a differentially private spiking neural network (DPSNN). The SNN uses discrete spike sequences to transmit information, combined with the gradient noise introduced by DP so that SNN maintains strong privacy protection. At the same time, to make SNN maintain high performance while obtaining high privacy protection, we propose the temporal enhanced pooling (TEP) method. It fully integrates the temporal information of SNN into the spatial information transfer, which enables SNN to perform better information transfer. We conduct experiments on static and neuromorphic datasets, and the experimental results show that our algorithm still maintains high performance while providing strong privacy protection.
翻訳日:2023-04-12 19:24:57 公開日:2023-04-11
# グラフマイニングにおける公平性:調査

Fairness in Graph Mining: A Survey ( http://arxiv.org/abs/2204.09888v3 )

ライセンス: Link先を確認
Yushun Dong, Jing Ma, Song Wang, Chen Chen, Jundong Li(参考訳) グラフマイニングアルゴリズムは、長年にわたり無数の分野で重要な役割を果たしてきた。 しかしながら、様々なグラフ分析タスクで有望な性能を発揮するにもかかわらず、これらのアルゴリズムのほとんどは公平性に配慮していない。 結果として、人間中心の応用で利用される特定の集団に対する差別につながる可能性がある。 近年、アルゴリズムの公正性はグラフベースのアプリケーションで広く研究されている。 独立で同一に分散されたデータに対するアルゴリズム上の公正さとは対照的に、グラフマイニングにおける公正さは排他的背景、分類学、達成技術を持っている。 本調査では,公正なグラフマイニングの文脈下で,既存の文献を包括的かつ最新に紹介する。 具体的には,グラフ上の公平性の概念の新たな分類法を提案する。 さらに,グラフマイニングにおける公平性を促進する既存の手法の整理的な概要を示す。 最後に、この新興研究分野において広く使われているデータセットを要約し、現在の研究課題やオープンな質問に対する洞察を提供し、異種交配のアイデアの奨励とさらなる進歩を目指している。

Graph mining algorithms have been playing a significant role in myriad fields over the years. However, despite their promising performance on various graph analytical tasks, most of these algorithms lack fairness considerations. As a consequence, they could lead to discrimination towards certain populations when exploited in human-centered applications. Recently, algorithmic fairness has been extensively studied in graph-based applications. In contrast to algorithmic fairness on independent and identically distributed (i.i.d.) data, fairness in graph mining has exclusive backgrounds, taxonomies, and fulfilling techniques. In this survey, we provide a comprehensive and up-to-date introduction of existing literature under the context of fair graph mining. Specifically, we propose a novel taxonomy of fairness notions on graphs, which sheds light on their connections and differences. We further present an organized summary of existing techniques that promote fairness in graph mining. Finally, we summarize the widely used datasets in this emerging research field and provide insights on current research challenges and open questions, aiming at encouraging cross-breeding ideas and further advances.
翻訳日:2023-04-12 19:24:01 公開日:2023-04-11
# アスペクトベース感情分析データセットの調査

Survey of Aspect-based Sentiment Analysis Datasets ( http://arxiv.org/abs/2204.05232v4 )

ライセンス: Link先を確認
Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio(参考訳) アスペクトベースの感情分析(ABSA)は、自然言語処理の問題であり、ユーザー生成レビューを分析する必要がある。 a) 審査対象の実体 b)それが属する上位の局面,及び c) 目標及び側面に対して表現された感情。 ABSAの多くの散在したコーパスは、研究者が特定のABSAサブタスクに適したコーパスを素早く特定することが困難である。 本研究の目的は,自律型absaシステムの訓練と評価に使用できるコーパスのデータベースを提供することである。 さらに,absaの主要コーパスとそのサブタスクの概要を述べ,コーパス選択時に研究者が考慮すべきいくつかの特徴を強調する。 最後に,現在の収集手法の利点と欠点について考察し,今後のコーパス作成を推奨する。 この調査では、45の英語および20の言語データセットを含む25のドメインをカバーする、65の公開ABSAデータセットを調査している。

Aspect-based sentiment analysis (ABSA) is a natural language processing problem that requires analyzing user-generated reviews to determine: a) The target entity being reviewed, b) The high-level aspect to which it belongs, and c) The sentiment expressed toward the targets and the aspects. Numerous yet scattered corpora for ABSA make it difficult for researchers to identify corpora best suited for a specific ABSA subtask quickly. This study aims to present a database of corpora that can be used to train and assess autonomous ABSA systems. Additionally, we provide an overview of the major corpora for ABSA and its subtasks and highlight several features that researchers should consider when selecting a corpus. Finally, we discuss the advantages and disadvantages of current collection approaches and make recommendations for future corpora creation. This survey examines 65 publicly available ABSA datasets covering over 25 domains, including 45 English and 20 other languages datasets.
翻訳日:2023-04-12 19:23:16 公開日:2023-04-11
# 大規模小型物体検出に向けて:調査とベンチマーク

Towards Large-Scale Small Object Detection: Survey and Benchmarks ( http://arxiv.org/abs/2207.14096v4 )

ライセンス: Link先を確認
Gong Cheng, Xiang Yuan, Xiwen Yao, Kebing Yan, Qinghua Zeng, Xingxing Xie, and Junwei Han(参考訳) 深層畳み込みニューラルネットワークの台頭により、物体検出はここ数年で顕著な進歩を遂げている。 しかし、そのような繁栄は、小さな目標の本質的な構造によって引き起こされる視覚的外観やノイズの表現のために、コンピュータビジョンにおける非常に困難なタスクの1つである小対象検出(SOD)の不満足な状況に火をつけることができなかった。 さらに、小さなオブジェクト検出メソッドをベンチマークするための大規模なデータセットもボトルネックのままである。 本稿では,まず,小物体検出の徹底的な検討を行う。 次に,SOOD の開発を触媒として,運転シナリオと航空シナリオに焦点を当てた2つの大規模小型物体検出 dAtasets (SODA), SODA-D, SODA-A を構築した。 SODA-Dには24828の高品質なトラフィックイメージと、9つのカテゴリの278433インスタンスが含まれている。 SODA-Aでは,高分解能空中画像2513点を抽出し,9クラスに872069点を注釈した。 提案されたデータセットは、私たちが知っているように、マルチカテゴリのSOD用に調整された、広範囲に注釈付きインスタンスのコレクションを持つ大規模なベンチマークを最初に試みる試みである。 最後に,SODAにおける主流手法の性能を評価する。 リリースされているベンチマークによってsodの開発が促進され、この分野でさらなるブレークスルーが生まれると期待しています。 データセットとコードは、 \url{https://shaunyuan22.github.io/soda} で利用可能である。

With the rise of deep convolutional neural networks, object detection has achieved prominent advances in past years. However, such prosperity could not camouflage the unsatisfactory situation of Small Object Detection (SOD), one of the notoriously challenging tasks in computer vision, owing to the poor visual appearance and noisy representation caused by the intrinsic structure of small targets. In addition, large-scale dataset for benchmarking small object detection methods remains a bottleneck. In this paper, we first conduct a thorough review of small object detection. Then, to catalyze the development of SOD, we construct two large-scale Small Object Detection dAtasets (SODA), SODA-D and SODA-A, which focus on the Driving and Aerial scenarios respectively. SODA-D includes 24828 high-quality traffic images and 278433 instances of nine categories. For SODA-A, we harvest 2513 high resolution aerial images and annotate 872069 instances over nine classes. The proposed datasets, as we know, are the first-ever attempt to large-scale benchmarks with a vast collection of exhaustively annotated instances tailored for multi-category SOD. Finally, we evaluate the performance of mainstream methods on SODA. We expect the released benchmarks could facilitate the development of SOD and spawn more breakthroughs in this field. Datasets and codes are available at: \url{https://shaunyuan22.github.io/SODA}.
翻訳日:2023-04-12 19:17:11 公開日:2023-04-11
# becaptcha型: ボット検出を改善するためのバイオメトリックキーストロークデータ生成

BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot Detection ( http://arxiv.org/abs/2207.13394v3 )

ライセンス: Link先を確認
Daniel DeAlcala and Aythami Morales and Ruben Tolosana and Alejandro Acien and Julian Fierrez and Santiago Hernandez and Miguel A. Ferrer and Moises Diaz(参考訳) 本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。 提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。 これらのアプローチは、キーストローク合成データを用いて、ボット検出タスクで検証され、キーストロークベースのボット検出システムのトレーニングプロセスを改善する。 実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。 定性的および定量的な実験により3つの合成手法の性能を解析した。 異なるボット検出器は、教師付き分類器(Support Vector Machine、Random Forest、Gaussian Naive Bayes、Long Short-Term Memory Network)と人間と合成サンプルを含む学習フレームワークに基づいて検討されている。 実験は、合成サンプルの現実性を示す。 分類の結果,大規模ラベルデータの場合,これらの合成試料を高精度に検出できることが示唆された。 しかし、少数の学習シナリオでは、これは重要な課題である。 さらに,これらの結果は,提示されたモデルの大きな可能性を示す。

This work proposes a data driven learning model for the synthesis of keystroke biometric data. The proposed method is compared with two statistical approaches based on Universal and User-dependent models. These approaches are validated on the bot detection task, using the keystroke synthetic data to improve the training process of keystroke-based bot detection systems. Our experimental framework considers a dataset with 136 million keystroke events from 168 thousand subjects. We have analyzed the performance of the three synthesis approaches through qualitative and quantitative experiments. Different bot detectors are considered based on several supervised classifiers (Support Vector Machine, Random Forest, Gaussian Naive Bayes and a Long Short-Term Memory network) and a learning framework including human and synthetic samples. The experiments demonstrate the realism of the synthetic samples. The classification results suggest that in scenarios with large labeled data, these synthetic samples can be detected with high accuracy. However, in few-shot learning scenarios it represents an important challenge. Furthermore, these results show the great potential of the presented models.
翻訳日:2023-04-12 19:16:49 公開日:2023-04-11
# 一般化線形バンディットの再訪における遅延フィードバック

Delayed Feedback in Generalised Linear Bandits Revisited ( http://arxiv.org/abs/2207.10786v4 )

ライセンス: Link先を確認
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) 確率的一般化線形帯域は、逐次決定問題に対するよく理解されたモデルであり、多くのアルゴリズムは即時フィードバックの下でほぼ最適の後悔を保証する。 しかし、即時報酬の厳格な要求は、報酬がほとんど常に遅れている多くの現実世界のアプリケーションでは未完成である。 一般化線形バンディットにおける遅延報酬現象を理論的に検討した。 遅延フィードバックに対する楽観的なアルゴリズムの自然な適応は、遅延に対するペナルティが地平線から独立であるような後悔境界を達成することを示す。 この結果は、最もよく知られた後悔境界が地平線にしたがって遅延ペナルティが増大する既存の作業を大幅に改善する。 シミュレーションデータを用いた実験により理論的結果を検証する。

The stochastic generalised linear bandit is a well-understood model for sequential decision-making problems, with many algorithms achieving near-optimal regret guarantees under immediate feedback. However, the stringent requirement for immediate rewards is unmet in many real-world applications where the reward is almost always delayed. We study the phenomenon of delayed rewards in generalised linear bandits in a theoretical manner. We show that a natural adaptation of an optimistic algorithm to the delayed feedback achieves a regret bound where the penalty for the delays is independent of the horizon. This result significantly improves upon existing work, where the best known regret bound has the delay penalty increasing with the horizon. We verify our theoretical results through experiments on simulated data.
翻訳日:2023-04-12 19:16:32 公開日:2023-04-11
# 光の重なり合う量子状態の同時ソート

Simultaneously sorting overlapping quantum states of light ( http://arxiv.org/abs/2207.03986v4 )

ライセンス: Link先を確認
Suraj Goel, Max Tyler, Feng Zhu, Saroch Leedumrongwatthanakun, Mehul Malik, Jonathan Leach(参考訳) 光学モードと単一光子状態の効率的な操作、ソート、測定は、古典科学と量子科学の基礎である。 ここでは、光の交叉空間自由度で符号化された非直交的、重なり合う状態の同時かつ効率的なソートを実現する。 我々は、特別に設計された多平面光変換器(MPLC)を用いて、$d = 3$から$d = 7$までの次元で符号化された状態をソートする。 補助出力モードを用いることで、MPLCは、不明瞭な識別に必要なユニタリ操作と、空間的に分離すべき結果に対する基本変更を同時に行う。 我々の研究結果は、自動運転車から量子通信システムに至るまで、光学ネットワークによる最適な画像識別と分類の基盤となった。

The efficient manipulation, sorting, and measurement of optical modes and single-photon states is fundamental to classical and quantum science. Here, we realise simultaneous and efficient sorting of non-orthogonal, overlapping states of light, encoded in the transverse spatial degree of freedom. We use a specifically designed multi-plane light converter (MPLC) to sort states encoded in dimensions ranging from $d = 3$ to $d = 7$. Through the use of an auxiliary output mode, the MPLC simultaneously performs the unitary operation required for unambiguous discrimination and the basis change for the outcomes to be spatially separated. Our results lay the groundwork for optimal image identification and classification via optical networks, with potential applications ranging from self-driving cars to quantum communication systems.
翻訳日:2023-04-12 19:16:19 公開日:2023-04-11
# m_n$ における最適正写像のクラス

A class of optimal positive maps in $M_n$ ( http://arxiv.org/abs/2207.03821v2 )

ライセンス: Link先を確認
Anindita Bera, Gniewomir Sarbicki and Dariusz Chru\'sci\'nski(参考訳) 行列代数のある種の正の写像のクラス $m_n$ は最適写像、すなわち正の正の正の正の写像をloosing positiveivity なしでは減算できない写像からなることが証明されている。 このクラスは、seminal choi 正写像を $m_3$ で一般化する。

It is proven that a certain class of positive maps in the matrix algebra $M_n$ consists of optimal maps, i.e. maps from which one cannot subtract any completely positive map without loosing positivity. This class provides a generalization of a seminal Choi positive map in $M_3$.
翻訳日:2023-04-12 19:16:07 公開日:2023-04-11
# 医療レポート生成のためのコンピテンスに基づくマルチモーダルカリキュラム学習

Competence-based Multimodal Curriculum Learning for Medical Report Generation ( http://arxiv.org/abs/2206.14579v3 )

ライセンス: Link先を確認
Fenglin Liu, Shen Ge, Yuexian Zou, Xian Wu(参考訳) 医用画像の長期的かつ一貫性のある記述を目標とする医療報告作成タスクは近年,研究の関心が高まりつつある。 一般的な画像キャプションタスクとは異なり、データ駆動ニューラルモデルでは、医療レポート生成がより難しい。 これは主に原因である 1)深刻なデータバイアスと 2) 限られた医療データ。 データのバイアスを緩和し、利用可能なデータを活用するために、能力に基づくマルチモーダルカリキュラム学習フレームワーク(cmcl)を提案する。 具体的には,放射線科医の学習過程をシミュレートし,段階的にモデルを最適化する。 第一に、cmclは各トレーニングインスタンスの難易度を推定し、現在のモデルの能力を評価する。 2つのステップを繰り返すことで、CMCLは徐々にモデルの性能を向上させることができる。 公開IU-XrayとMIMIC-CXRデータセットの実験では、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができる。

Medical report generation task, which targets to produce long and coherent descriptions of medical images, has attracted growing research interests recently. Different from the general image captioning tasks, medical report generation is more challenging for data-driven neural models. This is mainly due to 1) the serious data bias and 2) the limited medical data. To alleviate the data bias and make best use of available data, we propose a Competence-based Multimodal Curriculum Learning framework (CMCL). Specifically, CMCL simulates the learning process of radiologists and optimizes the model in a step by step manner. Firstly, CMCL estimates the difficulty of each training instance and evaluates the competence of current model; Secondly, CMCL selects the most suitable batch of training instances considering current model competence. By iterating above two steps, CMCL can gradually improve the model's performance. The experiments on the public IU-Xray and MIMIC-CXR datasets show that CMCL can be incorporated into existing models to improve their performance.
翻訳日:2023-04-12 19:15:38 公開日:2023-04-11
# 弱い測定と環境支援測定によるノイズチャネルによる高忠実度量子テレポーテーション

High-fidelity quantum teleportation through noisy channels via weak measurement and environment-assisted measurement ( http://arxiv.org/abs/2206.14463v2 )

ライセンス: Link先を確認
Sajede Harraz, Jiao-Yang Zhang and Shuang Cong(参考訳) 完全なテレポーテーションプロトコルは、純粋に最大に共有された絡み合った状態を必要とする。 実際には、共用エンタングルメントはノイズ環境との避けられない相互作用により著しく劣化し、混在するエンタングルド状態となり、テレポーテーションの性能が著しく低下する。 本稿では,アンタングル状態の1つのコピーで1つの忠実度を持つ振幅減衰チャネルを通じて未知の量子ビットをテレポートするテレポーテーションプロトコルを提案する。 提案するテレポーテーションプロトコルはベルとwの絡み合った状態を例に挙げたものの、どのような種類の絡み合った状態でも利用できる。 本プロトコルでは, エンタングルメント分布における環境支援測定を行い, テレポーテーションの最終ステップに弱測定を適用することで, 元のテレポーテーションプロトコルをさらに修正する。 弱測定の強度を変化させることで,テレポーテーションの忠実度と成功確率のバランスを求める。 さらに、エンタングル状態の全ての量子ビットが振幅減衰チャネルを通過する制御されたテレポーテーションプロトコルの保護について検討する。 特に、W状態との制御されたテレポーテーションでは、共有エンタングルメントのデコヒーレンスを完全に抑制できるため、ユニティの平均テレポーテーション忠実度を達成するために弱い測定を必要としない。 その結果,提案するテレポーテーションプロトコルは,弱い測定に基づく確率的テレポーテーションプロトコルとオリジナルのテレポーテーションプロトコルの両方に勝ることがわかった。

A perfect teleportation protocol requires pure maximally shared entangled states. While in reality the shared entanglement is severely degraded due to the inevitable interaction with the noisy environment, which leads to mixed entangled state and extremely deteriorates the performance of teleportation. Here, we propose a teleportation protocol to teleport an unknown qubit through the amplitude damping channels with a fidelity up to one with a single copy of the entangled state. Our proposed teleportation protocol, while illustrated using the Bell and W entangled states as examples, can be utilized with any type of entangled states. In our protocol we employ environment-assisted measurement during the entanglement distribution, and further modify the original teleportation protocol by applying weak measurement in the last step of teleportation. We find a balance between teleportation fidelity and success probability by varying the strength of the weak measurement. Furthermore, we investigate the protection of controlled teleportation protocols, where all the qubits of the entangled state pass through the amplitude damping channel. In particular, for the controlled teleportation with the W state, the decoherence of the shared entanglement can be totally suppressed by using EAM, hence no weak measurement is required to achieve an average teleportation fidelity of unity. The numerical simulation results reveal that our proposed teleportation protocol outperforms both the weak measurement based probabilistic teleportation protocol and the original teleportation protocol without protection.
翻訳日:2023-04-12 19:15:20 公開日:2023-04-11
# 知覚的に最適化された自己校正トーンマッピング演算子

A Perceptually Optimized and Self-Calibrated Tone Mapping Operator ( http://arxiv.org/abs/2206.09146v2 )

ライセンス: Link先を確認
Peibei Cao, Chenyang Le, Yuming Fang and Kede Ma(参考訳) 高ダイナミックレンジ(hdr)撮影の人気とアクセシビリティの増加に伴い、ダイナミックレンジ圧縮のためのトーンマッピングオペレータ(tmos)が事実上要求されている。 本稿では,自己校正および知覚的に最適化された2段階のニューラルネットワークベースのTMOを開発する。 第1段階では、人間の視覚系の初期段階の生理学に動機づけられ、まずhdr画像を正常化したラプラシアンピラミッドに分解する。 次に,2つの軽量深層ニューラルネットワーク(dnn)を用いて正規化表現を入力とし,対応するldr画像のラプラシアンピラミッドを推定する。 画像品質の人間の判断に適合する知覚距離である正規化ラプラシアピラミッド距離(NLPD)を最小化することにより、トーンマッピングネットワークを最適化する。 ステージ2では、入力されたHDR画像を自己校正して最終LDR画像を算出する。 我々は、同じHDRイメージを学習したトーンマッピングネットワークに異なる最大輝度で再スケールし、異なる詳細視認性と彩度の異なる擬似多重露光画像スタックを生成する。 次に,複数露光画像融合(MEF-SSIM)のための構造類似度指数の変種を最大化することにより,LDR画像スタックを所望のLDR画像に融合するように,別の軽量DNNを訓練する。 MEFを用いた自己校正機構により,生理駆動型で非校正HDR画像の受信が可能となった。 広範に実験した結果,本手法は一貫して良好な視覚品質を持つ画像を生成することがわかった。 さらに,本手法は3つの軽量DNN上に構築されているため,最も高速なローカルTMOの1つである。

With the increasing popularity and accessibility of high dynamic range (HDR) photography, tone mapping operators (TMOs) for dynamic range compression are practically demanding. In this paper, we develop a two-stage neural network-based TMO that is self-calibrated and perceptually optimized. In Stage one, motivated by the physiology of the early stages of the human visual system, we first decompose an HDR image into a normalized Laplacian pyramid. We then use two lightweight deep neural networks (DNNs), taking the normalized representation as input and estimating the Laplacian pyramid of the corresponding LDR image. We optimize the tone mapping network by minimizing the normalized Laplacian pyramid distance (NLPD), a perceptual metric aligning with human judgments of tone-mapped image quality. In Stage two, the input HDR image is self-calibrated to compute the final LDR image. We feed the same HDR image but rescaled with different maximum luminances to the learned tone mapping network, and generate a pseudo-multi-exposure image stack with different detail visibility and color saturation. We then train another lightweight DNN to fuse the LDR image stack into a desired LDR image by maximizing a variant of the structural similarity index for multi-exposure image fusion (MEF-SSIM), which has been proven perceptually relevant to fused image quality. The proposed self-calibration mechanism through MEF enables our TMO to accept uncalibrated HDR images, while being physiology-driven. Extensive experiments show that our method produces images with consistently better visual quality. Additionally, since our method builds upon three lightweight DNNs, it is among the fastest local TMOs.
翻訳日:2023-04-12 19:14:57 公開日:2023-04-11
# 強化学習, 量子応答平衡, 2プレイヤーゼロサムゲームへの統一的アプローチ

A Unified Approach to Reinforcement Learning, Quantal Response Equilibria, and Two-Player Zero-Sum Games ( http://arxiv.org/abs/2206.05825v4 )

ライセンス: Link先を確認
Samuel Sokota, Ryan D'Orazio, J. Zico Kolter, Nicolas Loizou, Marc Lanctot, Ioannis Mitliagkas, Noam Brown, Christian Kroer(参考訳) 本研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムに触発された磁気ミラー降下と呼ばれるアルゴリズムについて研究する。 我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の効果を示すことである。 これらの美徳には以下のものがある。 1) 1次フィードバックによる広範囲ゲームに対して線形収束を達成する最初の量子応答平衡解法である。 2)表形式でcfrを用いた経験的競争結果を達成する最初の標準強化学習アルゴリズムである。 3) 自己プレイ型深層強化学習アルゴリズムとしての3x3ダークヘックスとファントムtic-tac-toeの性能向上

This work studies an algorithm, which we call magnetic mirror descent, that is inspired by mirror descent and the non-Euclidean proximal gradient algorithm. Our contribution is demonstrating the virtues of magnetic mirror descent as both an equilibrium solver and as an approach to reinforcement learning in two-player zero-sum games. These virtues include: 1) Being the first quantal response equilibria solver to achieve linear convergence for extensive-form games with first order feedback; 2) Being the first standard reinforcement learning algorithm to achieve empirically competitive results with CFR in tabular settings; 3) Achieving favorable performance in 3x3 Dark Hex and Phantom Tic-Tac-Toe as a self-play deep reinforcement learning algorithm.
翻訳日:2023-04-12 19:14:27 公開日:2023-04-11
# Broydenの過勾配を用いたPDE制約最適化のためのバイレベル物理インフォームニューラルネットワーク

Bi-level Physics-Informed Neural Networks for PDE Constrained Optimization using Broyden's Hypergradients ( http://arxiv.org/abs/2209.07075v4 )

ライセンス: Link先を確認
Zhongkai Hao, Chengyang Ying, Hang Su, Jun Zhu, Jian Song, Ze Cheng(参考訳) 物理情報ニューラルネットワーク(PINN)やDeepONetsといったディープラーニングベースのアプローチは、PDE制約最適化(PDECO)問題を解決することを約束している。 しかし、既存の手法は最適化対象に複雑なあるいは非線形な依存を持つPDE制約を扱うには不十分である。 本稿では,目標と制約の最適化を分離し,課題を解決するための新しい2レベル最適化フレームワークを提案する。 内部ループ最適化では、PDE制約のみを解決するためにPINNを採用する。 外部ループに対して,過次関数の近似に効率的かつ正確であるIFT(Implicit Function Theorem)に基づくブロイデン法を用いて,新しい手法を設計する。 さらに,過次計算の理論的説明と誤り解析について述べる。 複数の大規模・非線形PDE制約最適化問題に対する広範囲な実験により,本手法は強いベースラインと比較して最先端の結果が得られることを示した。

Deep learning based approaches like Physics-informed neural networks (PINNs) and DeepONets have shown promise on solving PDE constrained optimization (PDECO) problems. However, existing methods are insufficient to handle those PDE constraints that have a complicated or nonlinear dependency on optimization targets. In this paper, we present a novel bi-level optimization framework to resolve the challenge by decoupling the optimization of the targets and constraints. For the inner loop optimization, we adopt PINNs to solve the PDE constraints only. For the outer loop, we design a novel method by using Broyden's method based on the Implicit Function Theorem (IFT), which is efficient and accurate for approximating hypergradients. We further present theoretical explanations and error analysis of the hypergradients computation. Extensive experiments on multiple large-scale and nonlinear PDE constrained optimization problems demonstrate that our method achieves state-of-the-art results compared with strong baselines.
翻訳日:2023-04-12 19:08:28 公開日:2023-04-11
# voxurf:voxelベースの効率的かつ正確な神経表面再構成

Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2208.12697v4 )

ライセンス: Link先を確認
Tong Wu, Jiaqi Wang, Xingang Pan, Xudong Xu, Christian Theobalt, Ziwei Liu, Dahua Lin(参考訳) 神経表面再構成は、多視点画像に基づく正確な3次元表面の再構築を目的としている。 ニューラルボリュームレンダリングに基づく従来の方法は、主に完全に暗黙のモデルをMDPでトレーニングするが、通常は1つのシーンで何時間もトレーニングする必要がある。 最近の取り組みは、学習可能なvoxelグリッドで重要な情報を記憶することで最適化を加速するために明示的なボリューム表現を探求している。 しかしながら、既存のボクセルベースの手法は、SDFベースのボリュームレンダリングスキームと組み合わせても、微細な幾何学の再構築に苦慮することが多い。 これが原因であることを明らかにする。 1)voxelグリッドは,細粒度学習を容易にする色-幾何依存性を破る傾向がある。 2) 拘束されていないボクセル格子は空間コヒーレンスを欠き, 局所ミニマに弱い。 本稿では,voxurfを用いて,効率と精度を兼ね備えた表面再構成手法を提案する。 voxurfは、上記の問題をいくつかの重要な設計で解決する。 1)コヒーレントな粗い形状に到達し,細部を順次回収する2段階の訓練手順 2)色幾何依存性を保ったデュアルカラーネットワーク,および 3)voxel間の情報伝達を促進する階層幾何学的特徴。 大規模な実験では、Voxurfは高い効率と高品質を同時に達成している。 DTUベンチマークでは、Voxurfは従来の完全に暗黙の手法に比べて20倍のトレーニングスピードアップで高い再構築品質を達成する。 私たちのコードはhttps://github.com/wutong16/voxurfで利用可能です。

Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model with MLPs, which typically require hours of training for a single scene. Recent efforts explore the explicit volumetric representation to accelerate the optimization via memorizing significant information with learnable voxel grids. However, existing voxel-based methods often struggle in reconstructing fine-grained geometry, even when combined with an SDF-based volume rendering scheme. We reveal that this is because 1) the voxel grids tend to break the color-geometry dependency that facilitates fine-geometry learning, and 2) the under-constrained voxel grids lack spatial coherence and are vulnerable to local minima. In this work, we present Voxurf, a voxel-based surface reconstruction approach that is both efficient and accurate. Voxurf addresses the aforementioned issues via several key designs, including 1) a two-stage training procedure that attains a coherent coarse shape and recovers fine details successively, 2) a dual color network that maintains color-geometry dependency, and 3) a hierarchical geometry feature to encourage information propagation across voxels. Extensive experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality with a 20x training speedup compared to previous fully implicit methods. Our code is available at https://github.com/wutong16/Voxurf.
翻訳日:2023-04-12 19:08:11 公開日:2023-04-11
# 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習

Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path ( http://arxiv.org/abs/2208.11639v3 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar(参考訳) 平均フィールドゲーム(MFG)におけるオンライン強化学習について考察する。 従来のアプローチとは異なり、汎用エージェントの単一サンプルパスを用いて平均場平衡(MFE)を近似するアルゴリズムを開発することにより、平均場オラクルの必要性を緩和する。 マルチエージェント非協力環境で学習するエージェントのウォームスタートとして使用できるため、これを"it sandbox learning"と呼んでいる。 我々は,平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し,汎用エージェントのより高速な時間スケールでの制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。 エージェントの基本的なマルコフ決定過程(MDP)が通信されていることを考慮し、平均場と平均場平衡に対する制御ポリシーの収束の観点から有限サンプル収束保証を提供する。 サンドボックス学習アルゴリズムのサンプル複雑性は$\tilde{\mathcal{o}}(\epsilon^{-4})$であり、ここで$\epsilon$はmfe近似誤差である。 これはoracleへのアクセスを前提とする作業と似ている。 最後に,MDPが必ずしも1つの通信クラスを持たないものを含む多様なシナリオにおいて,サンドボックス学習アルゴリズムの有効性を実証的に示す。

We consider online reinforcement learning in Mean-Field Games (MFGs). Unlike traditional approaches, we alleviate the need for a mean-field oracle by developing an algorithm that approximates the Mean-Field Equilibrium (MFE) using the single sample path of the generic agent. We call this {\it Sandbox Learning}, as it can be used as a warm-start for any agent learning in a multi-agent non-cooperative setting. We adopt a two time-scale approach in which an online fixed-point recursion for the mean-field operates on a slower time-scale, in tandem with a control policy update on a faster time-scale for the generic agent. Given that the underlying Markov Decision Process (MDP) of the agent is communicating, we provide finite sample convergence guarantees in terms of convergence of the mean-field and control policy to the mean-field equilibrium. The sample complexity of the Sandbox learning algorithm is $\tilde{\mathcal{O}}(\epsilon^{-4})$ where $\epsilon$ is the MFE approximation error. This is similar to works which assume access to oracle. Finally, we empirically demonstrate the effectiveness of the sandbox learning algorithm in diverse scenarios, including those where the MDP does not necessarily have a single communicating class.
翻訳日:2023-04-12 19:07:49 公開日:2023-04-11
# LogLG:ログイベントグラフ構築によるログ異常検出の監視

LogLG: Weakly Supervised Log Anomaly Detection via Log-Event Graph Construction ( http://arxiv.org/abs/2208.10833v5 )

ライセンス: Link先を確認
Hongcheng Guo, Yuhui Guo, Renjie Chen, Jian Yang, Jiaheng Liu, Zhoujun Li, Tieqiao Zheng, Weichao Hou, Liangfan Zheng, Bo Zhang(参考訳) 完全教師付きログ異常検出法は、大量のラベルなしログデータを注釈付けする重荷を負う。 近年,テンプレート解析によるアノテーションコスト削減のための半教師付き手法が数多く提案されている。 しかし,これらの手法は各キーワードを独立に考慮し,キーワードとログシーケンス間の文脈的関係を無視する。 本稿では,LogLGという名前のログ異常検出フレームワークを新たに提案し,シーケンスからキーワード間のセマンティックな関係を探索する。 具体的には、ラベルなしログのキーワードを最初に抽出してログイベントグラフを構築する、エンドツーエンド反復処理を設計する。 次に,ラベルなしログシーケンスの擬似ラベルを生成するために,サブグラフアノテータを構築する。 アノテーションの品質を改善するために,サブグラフアノテータを事前訓練するための自己教師型タスクを採用する。 その後、生成された擬似ラベルで検出モデルを訓練する。 分類結果に基づいて、ログシーケンスからキーワードを再抽出し、次のイテレーションのためにログイベントグラフを更新する。 5つのベンチマーク実験により, ラベル付きログデータの異常検出におけるLogLGの有効性が検証され, 最先端の弱い教師付き手法であるLogLGが, 既存手法と比較して大幅な性能向上を実現していることを示す。

Fully supervised log anomaly detection methods suffer the heavy burden of annotating massive unlabeled log data. Recently, many semi-supervised methods have been proposed to reduce annotation costs with the help of parsed templates. However, these methods consider each keyword independently, which disregards the correlation between keywords and the contextual relationships among log sequences. In this paper, we propose a novel weakly supervised log anomaly detection framework, named LogLG, to explore the semantic connections among keywords from sequences. Specifically, we design an end-to-end iterative process, where the keywords of unlabeled logs are first extracted to construct a log-event graph. Then, we build a subgraph annotator to generate pseudo labels for unlabeled log sequences. To ameliorate the annotation quality, we adopt a self-supervised task to pre-train a subgraph annotator. After that, a detection model is trained with the generated pseudo labels. Conditioned on the classification results, we re-extract the keywords from the log sequences and update the log-event graph for the next iteration. Experiments on five benchmarks validate the effectiveness of LogLG for detecting anomalies on unlabeled log data and demonstrate that LogLG, as the state-of-the-art weakly supervised method, achieves significant performance improvements compared to existing methods.
翻訳日:2023-04-12 19:07:01 公開日:2023-04-11
# データ効率UCDRのためのテストタイムトレーニング

Test-time Training for Data-efficient UCDR ( http://arxiv.org/abs/2208.09198v3 )

ライセンス: Link先を確認
Soumava Paul, Titir Dutta, Aheli Saha, Abhishek Samanta, Soma Biswas(参考訳) 一般化されたテストシナリオによる画像検索は文学において大きな勢いを増し、最近提案されたユニバーサルクロスドメイン検索プロトコルはこの方向の先駆者である。 このような一般化された分類や検索アルゴリズムの一般的な実践は、訓練中に多くのドメインからのサンプルを利用してデータのドメイン不変表現を学ぶことである。 このような基準はしばしば制限的であり、本研究では、一般化された検索問題をデータ効率のよい方法で初めて検討する。 具体的には,事前学習されたクロスドメイン検索ネットワークを,自己教師付き学習技術を活用したテストデータにモデルを適用することにより,未知のクエリドメイン/カテゴリへ一般化することを目的としている。 その目標に向けて,RotNet,JigSaw,Barlow Twinsなど,さまざまな自己監督型損失関数を探索し,その有効性を分析した。 大規模な実験では、提案手法は単純で実装が容易で、データ効率の良いUCDRを扱うのに効果的であることを示した。

Image retrieval under generalized test scenarios has gained significant momentum in literature, and the recently proposed protocol of Universal Cross-domain Retrieval is a pioneer in this direction. A common practice in any such generalized classification or retrieval algorithm is to exploit samples from many domains during training to learn a domain-invariant representation of data. Such criterion is often restrictive, and thus in this work, for the first time, we explore the generalized retrieval problem in a data-efficient manner. Specifically, we aim to generalize any pre-trained cross-domain retrieval network towards any unknown query domain/category, by means of adapting the model on the test data leveraging self-supervised learning techniques. Toward that goal, we explored different self-supervised loss functions~(for example, RotNet, JigSaw, Barlow Twins, etc.) and analyze their effectiveness for the same. Extensive experiments demonstrate the proposed approach is simple, easy to implement, and effective in handling data-efficient UCDR.
翻訳日:2023-04-12 19:06:40 公開日:2023-04-11
# DIET:残余情報の限界依存度を用いた条件独立試験

DIET: Conditional independence testing with marginal dependence measures of residual information ( http://arxiv.org/abs/2208.08579v2 )

ライセンス: Link先を確認
Mukund Sudarshan, Aahlad Manas Puli, Wesley Tansey, Rajesh Ranganath(参考訳) 条件付きランダム化テスト(CRT)は、変数$x$が他の変数$y$の予測値であるかどうかを評価する。 crtは大量の予測モデルに適合する必要があるが、計算上は難解であることが多い。 既存のCRTのコスト削減ソリューションは通常、データセットを列車とテスト部分に分割するか、インタラクションのヒューリスティックに頼っている。 本稿では,境界独立統計を利用して条件独立関係を検証し,両者の問題を回避するアルゴリズムである分離独立テスト(DIET)を提案する。 DIETは2つの確率変数の辺独立性をテストする:$F(x \mid z)$と$F(y \mid z)$ ここで$F(\cdot \mid z)$は条件累積分布関数(CDF)である。 これらの変数を「情報残差」と呼ぶ。 有限サンプルの1型エラー制御と1型エラーレートよりも大きなパワーを実現するために,ダイエットに十分な条件を与える。 次に,情報残差間の相互情報をテスト統計として使用する場合,食事は最も強力な条件付有効なテストとなることを示す。 最後に、DIETは、複数の合成および実ベンチマークにおいて、他のトラクタブルCRTよりも高い出力を達成することを示す。

Conditional randomization tests (CRTs) assess whether a variable $x$ is predictive of another variable $y$, having observed covariates $z$. CRTs require fitting a large number of predictive models, which is often computationally intractable. Existing solutions to reduce the cost of CRTs typically split the dataset into a train and test portion, or rely on heuristics for interactions, both of which lead to a loss in power. We propose the decoupled independence test (DIET), an algorithm that avoids both of these issues by leveraging marginal independence statistics to test conditional independence relationships. DIET tests the marginal independence of two random variables: $F(x \mid z)$ and $F(y \mid z)$ where $F(\cdot \mid z)$ is a conditional cumulative distribution function (CDF). These variables are termed "information residuals." We give sufficient conditions for DIET to achieve finite sample type-1 error control and power greater than the type-1 error rate. We then prove that when using the mutual information between the information residuals as a test statistic, DIET yields the most powerful conditionally valid test. Finally, we show DIET achieves higher power than other tractable CRTs on several synthetic and real benchmarks.
翻訳日:2023-04-12 19:06:23 公開日:2023-04-11
# menli: 自然言語推論によるロバストな評価指標

MENLI: Robust Evaluation Metrics from Natural Language Inference ( http://arxiv.org/abs/2208.07316v4 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 最近提案されたBERTベースのテキスト生成評価指標は、標準的なベンチマークでよく機能するが、情報正当性などの敵攻撃に弱い。 これは、それらが意味的類似性のモデルであるという事実に由来する(一部)。 対照的に、我々は自然言語推論(NLI)に基づく評価指標を開発し、より適切なモデリングを行う。 我々は、嗜好ベースの敵攻撃フレームワークを設計し、我々のNLIベースのメトリクスが最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。 標準ベンチマークでは、NLIベースのメトリクスは既存の要約の指標よりも優れていますが、SOTA MTの指標よりは劣ります。 しかし、既存のメトリクスとNLIのメトリクスを組み合わせると、標準ベンチマーク(+5%から30%)で測定された高い逆の堅牢性(15%から30%)と高品質のメトリクスの両方が得られます。

Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).
翻訳日:2023-04-12 19:06:01 公開日:2023-04-11
# ドロップキー

DropKey ( http://arxiv.org/abs/2208.02646v4 )

ライセンス: Link先を確認
Bonan Li and Yinhan Hu and Xuecheng Nie and Congying Han and Xiangjian Jiang and Tiande Guo and Luoqi Liu(参考訳) 本稿では,視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。 特に、私たちは3つのコアな質問について調査を行っています。 文献における注意重みの低下と異なり,注意行列計算に先立ってドロップアウト操作を前進させ,キーをドロップアウト単位に設定し,新しいドロップアウト前ソフトマックス方式を提案する。 このスキームは、注意重みの正規化と確率特性の両立を図り、特定のパターンに過度に適合する問題を緩和し、重要な情報を世界規模で把握するためのモデルを強化するのに役立つと理論的に検証する。 すべての層に対して一定降下率を利用するのに対し, 自己保持層のスタックに沿った降下率を徐々に減少させる新たな減少スケジュールを示す。 提案するスケジュールを実験的に検証することで,低レベル特徴の過剰フィットや高レベルセマンティクスの欠如を回避でき,モデルトレーニングの堅牢性と安定性が向上する。 我々はパッチベースのドロップアウト操作のブロックバージョンを試し、このcnnの便利なトリックはvitにとって必須ではないことを突き止めた。 上記の3つの質問を考察し,キーをドロップユニットとして考慮し,ドロップ比のスケジュールを短縮し,vitsを汎用的に改善する新しいドロップキー法を提案する。 総合的な実験では、T2TやVOLOといった様々なViTアーキテクチャや、画像分類、物体検出、人間と物体の相互作用の検出、人体形状の回復といった様々な視覚タスクに対してDropKeyの有効性が示されている。

In this paper, we focus on analyzing and improving the dropout technique for self-attention layers of Vision Transformer, which is important while surprisingly ignored by prior works. In particular, we conduct researches on three core questions: First, what to drop in self-attention layers? Different from dropping attention weights in literature, we propose to move dropout operations forward ahead of attention matrix calculation and set the Key as the dropout unit, yielding a novel dropout-before-softmax scheme. We theoretically verify that this scheme helps keep both regularization and probability features of attention weights, alleviating the overfittings problem to specific patterns and enhancing the model to globally capture vital information; Second, how to schedule the drop ratio in consecutive layers? In contrast to exploit a constant drop ratio for all layers, we present a new decreasing schedule that gradually decreases the drop ratio along the stack of self-attention layers. We experimentally validate the proposed schedule can avoid overfittings in low-level features and missing in high-level semantics, thus improving the robustness and stableness of model training; Third, whether need to perform structured dropout operation as CNN? We attempt patch-based block-version of dropout operation and find that this useful trick for CNN is not essential for ViT. Given exploration on the above three questions, we present the novel DropKey method that regards Key as the drop unit and exploits decreasing schedule for drop ratio, improving ViTs in a general way. Comprehensive experiments demonstrate the effectiveness of DropKey for various ViT architectures, e.g. T2T and VOLO, as well as for various vision tasks, e.g., image classification, object detection, human-object interaction detection and human body shape recovery.
翻訳日:2023-04-12 19:05:20 公開日:2023-04-11
# シャープネス・アウェア・ミニミゼーションのダイナミクス--谷を越え、広いミニマに向かって漂流する

The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines and Drifting Towards Wide Minima ( http://arxiv.org/abs/2210.01513v2 )

ライセンス: Link先を確認
Peter L. Bartlett, Philip M. Long and Olivier Bousquet(参考訳) シャープネス・アウェア・最小化(SAM)は,画像および言語予測問題の性能改善を図ったディープネットワークの勾配に基づく最適化手法である。 SAM を凸二次目的数で適用すると、ほとんどのランダム初期化に対して、最も大きな曲率を持つ方向の最小値の両辺間で振動するサイクルに収束し、収束率の有界性を与えることを示す。 非二次の場合、そのような振動はヘッシアンのスペクトルノルム上で、より小さなステップサイズの勾配降下を効果的に行う。 そのような場合、SAMの更新は、より広いミニマへのドリフトを促進する第3の微分(先頭の固有ベクトル方向におけるヘッセンの微分)と見なすことができる。

We consider Sharpness-Aware Minimization (SAM), a gradient-based optimization method for deep networks that has exhibited performance improvements on image and language prediction problems. We show that when SAM is applied with a convex quadratic objective, for most random initializations it converges to a cycle that oscillates between either side of the minimum in the direction with the largest curvature, and we provide bounds on the rate of convergence. In the non-quadratic case, we show that such oscillations effectively perform gradient descent, with a smaller step-size, on the spectral norm of the Hessian. In such cases, SAM's update may be regarded as a third derivative -- the derivative of the Hessian in the leading eigenvector direction -- that encourages drift toward wider minima.
翻訳日:2023-04-12 18:59:20 公開日:2023-04-11
# TRBoost:信頼領域法に基づく汎用勾配昇降機

TRBoost: A Generic Gradient Boosting Machine based on Trust-region Method ( http://arxiv.org/abs/2209.13791v4 )

ライセンス: Link先を確認
Jiaqi Luo, Zihao Wei, Junkai Man, Shixin Xu(参考訳) グラディエントブースティングマシン (GBMs) は, 機能空間におけるテイラー展開を利用して, 多様な問題の解決に成功している。 しかし、性能と一般性のバランスをとることは、GBMにとって課題となっている。 特に、勾配降下に基づくGBMは全損失関数に適用性を確保するために一階テイラー展開を用いるが、ニュートンの手法に基づくGBMは正のヘッセン情報を用いて一般性を犠牲にして優れた性能を達成する。 この問題に対処するために,Trust-rea Boosting (TRBoost) と呼ばれる新しい汎用的なグラディエントブースティングマシンを提案する。 各イテレーションにおいて、TRBoostは制約付き二次モデルを用いて目的を近似し、信頼領域アルゴリズムを適用してそれを解き、新しい学習者を得る。 ニュートンの手法に基づくGBMとは異なり、TRBoostはヘシアンを正定値にする必要はないため、任意の損失関数に適用できるが、2階アルゴリズムのような競合性能は維持できる。 本研究では, TRBoostの収束解析および数値実験により, TRBoostは1次GBMと同様の一般性を示し, 2次GBMと比較して競争結果が得られた。 全体として、TRBoostはパフォーマンスと汎用性のバランスをとる有望なアプローチであり、機械学習実践者のツールキットに価値ある追加となる。

Gradient Boosting Machines (GBMs) have demonstrated remarkable success in solving diverse problems by utilizing Taylor expansions in functional space. However, achieving a balance between performance and generality has posed a challenge for GBMs. In particular, gradient descent-based GBMs employ the first-order Taylor expansion to ensure applicability to all loss functions, while Newton's method-based GBMs use positive Hessian information to achieve superior performance at the expense of generality. To address this issue, this study proposes a new generic Gradient Boosting Machine called Trust-region Boosting (TRBoost). In each iteration, TRBoost uses a constrained quadratic model to approximate the objective and applies the Trust-region algorithm to solve it and obtain a new learner. Unlike Newton's method-based GBMs, TRBoost does not require the Hessian to be positive definite, thereby allowing it to be applied to arbitrary loss functions while still maintaining competitive performance similar to second-order algorithms. The convergence analysis and numerical experiments conducted in this study confirm that TRBoost is as general as first-order GBMs and yields competitive results compared to second-order GBMs. Overall, TRBoost is a promising approach that balances performance and generality, making it a valuable addition to the toolkit of machine learning practitioners.
翻訳日:2023-04-12 18:58:13 公開日:2023-04-11
# 浅い影:低深さランダムクリフォード回路を用いた期待推定

Shallow shadows: Expectation estimation using low-depth random Clifford circuits ( http://arxiv.org/abs/2209.12924v2 )

ライセンス: Link先を確認
Christian Bertoni, Jonas Haferkamp, Marcel Hinsche, Marios Ioannou, Jens Eisert, Hakop Pashayan(参考訳) 量子状態のスパーリング数を用いて未知のn量子ビット量子状態の多くの特性を学習するための実用的で強力なスキームを提供する。 具体的には、ランダムなパウリ測定とランダムなクリフォード測定に基づいて、2つの既知の古典的な影を補間する深さ変調ランダム化測定手法を提案する。 これらは、それぞれ 0 と無限深さの特別な場合と見なすことができる。 我々は、n において深さが対数的にスケールする系に注目し、これが両極値スキームの望ましい性質を保ちながら、ランダムクリフォードスキームとは対照的に実験的に実現可能であることを示す。 本研究では,生成した古典影から観測可能時間の期待値を推定し,奥行き変調影ノルム上の上限を計算することで,出力推定の精度を厳格に保証する手法を提案する。 我々は、ポリ(n)ポーリスの線型結合として書ける可観測性と、低結合次元行列積作用素として書ける可観測性を考える。 前者のobservableクラスでは、両方のタスクはnで効率的に解決される。 後者のクラスでは、効率を保証せず、実際に機能する手法を提示している; 両タスクを効率的に実行するのに使用できるテンソルネットワークのヘラルド近似逆数を変分的に計算することにより。

We provide practical and powerful schemes for learning many properties of an unknown n-qubit quantum state using a sparing number of copies of the state. Specifically, we present a depth-modulated randomized measurement scheme that interpolates between two known classical shadows schemes based on random Pauli measurements and random Clifford measurements. These can be seen within our scheme as the special cases of zero and infinite depth, respectively. We focus on the regime where depth scales logarithmically in n and provide evidence that this retains the desirable properties of both extremal schemes whilst, in contrast to the random Clifford scheme, also being experimentally feasible. We present methods for two key tasks; estimating expectation values of certain observables from generated classical shadows and, computing upper bounds on the depth-modulated shadow norm, thus providing rigorous guarantees on the accuracy of the output estimates. We consider observables that can be written as a linear combination of poly(n) Paulis and observables that can be written as a low bond dimension matrix product operator. For the former class of observables both tasks are solved efficiently in n. For the latter class, we do not guarantee efficiency but present a method that works in practice; by variationally computing a heralded approximate inverses of a tensor network that can then be used for efficiently executing both these tasks.
翻訳日:2023-04-12 18:57:48 公開日:2023-04-11
# スーパーチャネルの量子回路シミュレーション

Quantum circuit simulation of superchannels ( http://arxiv.org/abs/2209.10756v2 )

ライセンス: Link先を確認
K. Wang and D.-S. Wang(参考訳) 量子シミュレーションは、量子コンピューティングのパワーを示す中心的な分野の一つである。 近年、量子超チャネルの理論的枠組みが発展し、量子チャネルの拡張として広く応用されている。 本研究ではスーパーチャネルの量子回路シミュレーションタスクについて検討する。 本研究では,極端スーパーチャネルの和への凸分解に基づく量子スーパーチャネルシミュレーションアルゴリズムを開発し,回路コストを低減できる。 量子ビット超チャネルを高精度に数値シミュレーションし,現在の実験プラットフォームに適用できることを示す。

Quantum simulation is one of the central discipline to demonstrate the power of quantum computing. In recent years, the theoretical framework of quantum superchannels has been developed and applied widely as the extension of quantum channels. In this work, we study the quantum circuit simulation task of superchannels. We develop a quantum superchannel simulation algorithm based on the convex decomposition into sum of extreme superchannels, which can reduce the circuit cost. We demonstrate the algorithm by numerical simulation of qubit superchannels with high accuracy, making it applicable to current experimental platforms.
翻訳日:2023-04-12 18:57:05 公開日:2023-04-11
# 補完ラベル学習から確率推定への還元

Reduction from Complementary-Label Learning to Probability Estimates ( http://arxiv.org/abs/2209.09500v2 )

ライセンス: Link先を確認
Wei-I Lin, Hsuan-Tien Lin(参考訳) 補完ラベル学習 (Complementary-Label Learning, CLL) は、補完ラベルのみから多クラス分類器を学習することを目的とした、弱い教師付き学習問題である。 既存のアプローチは主に通常の分類への還元のパラダイムを採用しており、CLLを通常の分類に戻すために特定の変換を適用し、損失を補う。 しかし、これらのアプローチは、過度に適合する傾向や深いモデルに縛られる傾向など、いくつかの制限に直面している。 本稿では,これらの制約を新たな視点,すなわち補足クラスの確率推定への還元に脇取りする。 補ラベルの正確な確率推定は、簡単な復号化ステップを通じて、良い分類器をもたらすことが証明される。 この証明は、CLLから確率推定への還元フレームワークを確立する。 このフレームワークは、いくつかの重要なCLLアプローチを特別なケースとして説明し、ノイズの多い環境でより堅牢な改良アルゴリズムを設計できるようにします。 このフレームワークはまた、確率推定の質に基づいた検証手順も提案しており、補完ラベルのみを持つモデルを検証する別の方法に繋がる。 フレキシブルフレームワークは、CLL問題を解くために、確率推定のためにディープモデルとノンディープモデルを使用する幅広い未探索の機会を開放する。 実験により、様々な環境でのフレームワークの有効性と堅牢性をさらに検証した。

Complementary-Label Learning (CLL) is a weakly-supervised learning problem that aims to learn a multi-class classifier from only complementary labels, which indicate a class to which an instance does not belong. Existing approaches mainly adopt the paradigm of reduction to ordinary classification, which applies specific transformations and surrogate losses to connect CLL back to ordinary classification. Those approaches, however, face several limitations, such as the tendency to overfit or be hooked on deep models. In this paper, we sidestep those limitations with a novel perspective--reduction to probability estimates of complementary classes. We prove that accurate probability estimates of complementary labels lead to good classifiers through a simple decoding step. The proof establishes a reduction framework from CLL to probability estimates. The framework offers explanations of several key CLL approaches as its special cases and allows us to design an improved algorithm that is more robust in noisy environments. The framework also suggests a validation procedure based on the quality of probability estimates, leading to an alternative way to validate models with only complementary labels. The flexible framework opens a wide range of unexplored opportunities in using deep and non-deep models for probability estimates to solve the CLL problem. Empirical experiments further verified the framework's efficacy and robustness in various settings.
翻訳日:2023-04-12 18:56:12 公開日:2023-04-11
# 音楽ミキシングスタイルトランスファー:オーディオ効果の解消のためのコントラスト学習アプローチ

Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects ( http://arxiv.org/abs/2211.02247v3 )

ライセンス: Link先を確認
Junghyun Koo, Marco A. Mart\'inez-Ram\'irez, Wei-Hsiang Liao, Stefan Uhlich, Kyogu Lee, Yuki Mitsufuji(参考訳) 入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。 これは、参照音楽記録からオーディオ効果関連情報のみを抽出するコントラスト目的のエンコーダによって実現される。 我々のモデルはすべて、未処理のドライデータを取得するデータの不足を軽減する効果的なデータプリプロセッシング手法で、すでに処理済みの湿式マルチトラックデータセットから自己教師ありで訓練される。 音響効果のアンタングル化能力について提案したエンコーダを解析し、客観評価と主観評価の両面からスタイル伝達を混合する性能を検証した。 この結果から,提案システムは参照に近いマルチトラックオーディオの混合スタイルを変換するだけでなく,音源分離モデルを用いた混合スタイルの転送にも頑健であることを示す。

We propose an end-to-end music mixing style transfer system that converts the mixing style of an input multitrack to that of a reference song. This is achieved with an encoder pre-trained with a contrastive objective to extract only audio effects related information from a reference music recording. All our models are trained in a self-supervised manner from an already-processed wet multitrack dataset with an effective data preprocessing method that alleviates the data scarcity of obtaining unprocessed dry data. We analyze the proposed encoder for the disentanglement capability of audio effects and also validate its performance for mixing style transfer through both objective and subjective evaluations. From the results, we show the proposed system not only converts the mixing style of multitrack audio close to a reference but is also robust with mixture-wise style transfer upon using a music source separation model.
翻訳日:2023-04-12 18:50:05 公開日:2023-04-11
# 物理的世界における視覚的な敵対的攻撃と防御--調査から

Visually Adversarial Attacks and Defenses in the Physical World: A Survey ( http://arxiv.org/abs/2211.01671v3 )

ライセンス: Link先を確認
Xingxing Wei, Bangzheng Pu, Jiefan Lu, and Baoyuan Wu(参考訳) ディープニューラルネットワーク(DNN)は様々な現実世界のシナリオで広く応用されているが、敵の例には弱い。 コンピュータビジョンにおける現在の敵攻撃は、それぞれの攻撃形態に応じてデジタル攻撃と物理的攻撃に分けられる。 デジタルピクセルの摂動を発生させるデジタルアタックと比較して、物理的なアタックは現実の世界でより実用的である。 物理的に敵対的な事例によって引き起こされる深刻なセキュリティ問題により、過去数年間のDNNの物理的敵対的堅牢性を評価するために多くの研究が提案されている。 本稿では,コンピュータビジョンにおける現在の物理的敵攻撃と物理的敵防御に対する調査を要約する。 分類の確立のために,攻撃タスク,攻撃形態,攻撃方法から,現在行われている物理的攻撃を整理する。 したがって、読者は異なる側面からこのトピックについて体系的な知識を得ることができる。 物理的防衛については,DNNモデルに対する前処理,内処理,後処理による分類を確立し,敵防衛を全面的に網羅する。 本稿では,本研究の課題と今後の展望について考察する。

Although Deep Neural Networks (DNNs) have been widely applied in various real-world scenarios, they are vulnerable to adversarial examples. The current adversarial attacks in computer vision can be divided into digital attacks and physical attacks according to their different attack forms. Compared with digital attacks, which generate perturbations in the digital pixels, physical attacks are more practical in the real world. Owing to the serious security problem caused by physically adversarial examples, many works have been proposed to evaluate the physically adversarial robustness of DNNs in the past years. In this paper, we summarize a survey versus the current physically adversarial attacks and physically adversarial defenses in computer vision. To establish a taxonomy, we organize the current physical attacks from attack tasks, attack forms, and attack methods, respectively. Thus, readers can have a systematic knowledge of this topic from different aspects. For the physical defenses, we establish the taxonomy from pre-processing, in-processing, and post-processing for the DNN models to achieve full coverage of the adversarial defenses. Based on the above survey, we finally discuss the challenges of this research field and further outlook on the future direction.
翻訳日:2023-04-12 18:49:48 公開日:2023-04-11
# 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする

Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks ( http://arxiv.org/abs/2210.15629v2 )

ライセンス: Link先を確認
Edwin Zhang, Yujie Lu, William Wang, Amy Zhang(参考訳) 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、複数の新しいタスクを扱う必要があるため、複数の軸にまたがって難しい。 アーキテクチャの最近の進歩により、これらの次元の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算は禁止されている。 本稿では,Language to Control Diffusion Modelを言語(LCD)に基づく階層型プランナーとして活用することで,3つの軸すべてに対処することを提案する。 自然言語命令に基づく長地平線制御問題に取り組むため,拡張時間,状態,タスク次元における計画のための拡散モデルを効果的かつ効率的に拡張する。 我々は、LCDとCALVIN言語ロボティクスベンチマークの他の最先端モデルとの比較を行い、LCDが従来の82.6%よりも88.7%の単一タスク成功率(SR)で計算効率を劇的に向上させながら、他のSOTA手法をマルチタスク成功率で上回っていることを発見した。 低レベルの細部や制御を行う際の弱点に対処しながら,LCDが拡散モデルの独特な強度を利用してコヒーレントな長距離計画を生成することを示す。 コードとモデルはhttps://github.com/ezhang7423/language-control-diffusionでリリースします。

Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and multiple and new tasks. Recent advances with architectures have allowed for improved scaling along one or two of these dimensions, but are still prohibitive computationally. In this paper, we propose to address all three axes by leveraging Language to Control Diffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions. We compare LCD with other state-of-the-art models on the CALVIN language robotics benchmark and find that LCD outperforms other SOTA methods in multi task success rates while dramatically improving computational efficiency with a single task success rate (SR) of 88.7% against the previous best of 82.6%. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness at generating low-level details and control. We release our code and models at https://github.com/ezhang7423/language-control-diffusion.
翻訳日:2023-04-12 18:48:58 公開日:2023-04-11
# Vitruvio:Single Perspective Sketchesによる3Dビルディングメッシュ

Vitruvio: 3D Building Meshes via Single Perspective Sketches ( http://arxiv.org/abs/2210.13634v2 )

ライセンス: Link先を確認
Alberto Tono and Heyaojing Huang and Ashwin Agrawal and Martin Fischer(参考訳) 今日の建築工学と建設(AEC)ソフトウェアは、3次元の建物表現を生成するために学習曲線を必要とする。 これにより、単一のスケッチを通じて伝達される初期設計思想のボリューム的含意を迅速に検証する能力が制限される。 デザイナーが1枚のスケッチを3dのビルに翻訳できるので、オーナーは認知的負荷なしに簡単に3dのプロジェクト情報を視覚化できる。 従来のSOTA(State-of-the-art)データ駆動型単一ビュー再構成(SVR)が単一画像やスケッチからの再構成プロセスにおいて優れた結果を示した場合、AECにおける具体的な応用、分析、実験が欠如している。 そこで本研究では,1枚のスケッチを3DビルディングメッシュであるVitruvioに変換することを目的とした,最初のディープラーニング手法を導入する。 Vitruvioは、特定のビルディングデータセット(Manhattan 1K)上のSVRタスクにOccupancy Networkを適用する。 この適応は2つの大きな改善をもたらす。 まず、推理過程を26%以上(0.5sから0.37s)加速させる。 第二に、再建精度(チャンファー距離で測定される)を18%向上させる。 AEC領域におけるこの適応中に、重要な設計要素を構成するため、学習手順における建物配向の影響を評価する。 すべての建物を標準的な姿勢に合わせることで、全体的な定量的指標が向上したが、より複雑な建物形状(質的分析で示されるように)で細粒度の詳細を捉えなかった。 最後に、vitruvioは任意のトポロジーと種数を持つ3dプリント可能なビルディングメッシュを単一の視点スケッチから出力し、所有者とデザイナーが2d、効果的、直感的、そして普遍的なコミュニケーションメディアであるthe sketchを通じて3d情報を伝えるためのステップを提供する。

Today's architectural engineering and construction (AEC) software require a learning curve to generate a three-dimension building representation. This limits the ability to quickly validate the volumetric implications of an initial design idea communicated via a single sketch. Allowing designers to translate a single sketch to a 3D building will enable owners to instantly visualize 3D project information without the cognitive load required. If previous state-of-the-art (SOTA) data-driven methods for single view reconstruction (SVR) showed outstanding results in the reconstruction process from a single image or sketch, they lacked specific applications, analysis, and experiments in the AEC. Therefore, this research addresses this gap, introducing the first deep learning method focused only on buildings that aim to convert a single sketch to a 3D building mesh: Vitruvio. Vitruvio adapts Occupancy Network for SVR tasks on a specific building dataset (Manhattan 1K). This adaptation brings two main improvements. First, it accelerates the inference process by more than 26% (from 0.5s to 0.37s). Second, it increases the reconstruction accuracy (measured by the Chamfer Distance) by 18%. During this adaptation in the AEC domain, we evaluate the effect of the building orientation in the learning procedure since it constitutes an important design factor. While aligning all the buildings to a canonical pose improved the overall quantitative metrics, it did not capture fine-grain details in more complex building shapes (as shown in our qualitative analysis). Finally, Vitruvio outputs a 3D-printable building mesh with arbitrary topology and genus from a single perspective sketch, providing a step forward to allow owners and designers to communicate 3D information via a 2D, effective, intuitive, and universal communication medium: the sketch.
翻訳日:2023-04-12 18:48:18 公開日:2023-04-11
# 凍結学習 : 純粋相関と特徴雑音下での予測表現学習を目指して

Freeze then Train: Towards Provable Representation Learning under Spurious Correlations and Feature Noise ( http://arxiv.org/abs/2210.11075v2 )

ライセンス: Link先を確認
Haotian Ye, James Zou, Linjun Zhang(参考訳) 訓練環境における画像背景などの素早い相関関係の存在は、試験環境において経験的リスク最小化(ERM)を著しく向上させる。 この問題に対処するため、kirinchenkoら(2022年)は、スプリアス相関が存在する場合でも、結果に関連するコアな特徴を十分に学習できることを実証的に発見した。 これにより、最初に分類器ではなく機能学習者を訓練し、テスト環境で線形プローブ(最終層再トレーニング)を実行する、有望な戦略が開かれる。 しかし、いつ、なぜこのアプローチが機能するのかを理論的に理解できない。 本稿では,これらの非実現可能なノイズがスプリアスな特徴よりも小さい場合のみ,コア機能は十分に学習できることを見出した。 この発見を裏付ける理論と実験の両方を提供し、非実現可能なノイズの重要性を説明する。 さらに,まず特定の有能な特徴を凍結し,残りの特徴をEMMを用いて訓練する,Freeze then Train (FTT) というアルゴリズムを提案する。 理論的には、FTTはテスト時間探索に有利な特徴を保存している。 一般的に使われている2つの相関データセットの中で、FTTはEMM, IRM, JTT, CVaR-DROより優れており、特徴雑音が大きい場合には精度(4.5%)が大幅に向上する。 FTTは、一般的な分散シフトベンチマークでも性能が向上する。

The existence of spurious correlations such as image backgrounds in the training environment can make empirical risk minimization (ERM) perform badly in the test environment. To address this problem, Kirichenko et al. (2022) empirically found that the core features that are related to the outcome can still be learned well even with the presence of spurious correlations. This opens a promising strategy to first train a feature learner rather than a classifier, and then perform linear probing (last layer retraining) in the test environment. However, a theoretical understanding of when and why this approach works is lacking. In this paper, we find that core features are only learned well when their associated non-realizable noise is smaller than that of spurious features, which is not necessarily true in practice. We provide both theories and experiments to support this finding and to illustrate the importance of non-realizable noise. Moreover, we propose an algorithm called Freeze then Train (FTT), that first freezes certain salient features and then trains the rest of the features using ERM. We theoretically show that FTT preserves features that are more beneficial to test time probing. Across two commonly used spurious correlation datasets, FTT outperforms ERM, IRM, JTT and CVaR-DRO, with substantial improvement in accuracy (by 4.5%) when the feature noise is large. FTT also performs better on general distribution shift benchmarks.
翻訳日:2023-04-12 18:47:38 公開日:2023-04-11
# 預言的注意: 画像キャプションのための今後の注意による注意の予測

Prophet Attention: Predicting Attention with Future Attention for Image Captioning ( http://arxiv.org/abs/2210.10914v2 )

ライセンス: Link先を確認
Fenglin Liu, Xuancheng Ren, Xian Wu, Wei Fan, Yuexian Zou, Xu Sun(参考訳) 近年,多くのシーケンス・ツー・シーケンス学習システムにおいて注目モデルが広く利用されている。 特に画像キャプションでは、注意に基づくモデルが適切な生成語で正しい画像領域を接地することを期待する。 しかし、デコードプロセスの各時間ステップ毎に、注意に基づくモデルは、通常、画像領域に出席するために現在の入力の隠れた状態を使用する。 この設定下では、これらの注意モデルは、生成する単語ではなく、前の単語に基づいて注意重みを計算し、接地とキャプションの両方のパフォーマンスを損なう「故意の焦点」問題を持つ。 本稿では,自己スーパービジョンの形式に類似した預言的注意を提案する。 トレーニング段階では、このモジュールは将来の情報を利用して画像領域に対する「理想的」注意重みを計算する。 これらの計算された「理想」重みは、「逸脱した」注意を規則化するためにさらに使用される。 このようにして、画像領域を正しい単語で接地する。 提案する預言者の注意は既存の画像キャプションモデルに容易に組み込むことができ、グラウンドとキャプションの両方のパフォーマンスが向上する。 Flickr30k EntitiesとMSCOCOデータセットの実験は、提案された預言意図が自動メトリクスと人的評価の両方において、ベースラインを一貫して上回っていることを示している。 2つのベンチマークデータセットに新しい最先端技術を設定し、デフォルトのランキングスコアであるCIDEr-c40でオンラインMSCOCOベンチマークのリーダーボードで1位を獲得しました。

Recently, attention based models have been used extensively in many sequence-to-sequence learning systems. Especially for image captioning, the attention based models are expected to ground correct image regions with proper generated words. However, for each time step in the decoding process, the attention based models usually use the hidden state of the current input to attend to the image regions. Under this setting, these attention models have a "deviated focus" problem that they calculate the attention weights based on previous words instead of the one to be generated, impairing the performance of both grounding and captioning. In this paper, we propose the Prophet Attention, similar to the form of self-supervision. In the training stage, this module utilizes the future information to calculate the "ideal" attention weights towards image regions. These calculated "ideal" weights are further used to regularize the "deviated" attention. In this manner, image regions are grounded with the correct words. The proposed Prophet Attention can be easily incorporated into existing image captioning models to improve their performance of both grounding and captioning. The experiments on the Flickr30k Entities and the MSCOCO datasets show that the proposed Prophet Attention consistently outperforms baselines in both automatic metrics and human evaluations. It is worth noticing that we set new state-of-the-arts on the two benchmark datasets and achieve the 1st place on the leaderboard of the online MSCOCO benchmark in terms of the default ranking score, i.e., CIDEr-c40.
翻訳日:2023-04-12 18:47:10 公開日:2023-04-11
# 量子エンタングルメントにおける古典的モデル--イジング・ハイゼンベルク二重層に対する量子モンテカルロ研究

Classical model emerges in quantum entanglement: Quantum Monte Carlo study for an Ising-Heisenberg bilayer ( http://arxiv.org/abs/2210.06764v2 )

ライセンス: Link先を確認
Siying Wu, Binbin Yin, Xiaoxue Ran, Qi-Fang Li, Bin-Bin Mao, Yan-Cheng Wang, Zheng Yan(参考訳) 確率級数展開量子モンテカルロ法のクラスターサンプリング法を開発し, 層内強磁性(FM)アイシング結合と反強磁性ハイゼンベルク相互作用を持つ2層正方格子上のスピン-1/2$モデルについて検討した。 fmイジング相と二元化相の間に$g_c=3.045(2)$で起こる連続量子相転移を大規模シミュレーションにより研究した。 臨界指数の解析から、この相転移は (2+1)-次元イジング普遍性クラスに属することを示す。 さらに、量子の絡み合いは2つの層、特に二量化相の間で強い。 単層の有効ハミルトニアンは横場イジング模型のように見える。 しかし、量子絡み合うハミルトニアンは、量子ゆらぎのない純粋古典イジングモデルであることが判明した。 さらに、古典的絡み合いがどのように出現するかをより一般的な説明を与える。

By developing a cluster sampling of stochastic series expansion quantum Monte Carlo method, we investigate a spin-$1/2$ model on a bilayer square lattice with intra-layer ferromagnetic (FM) Ising coupling and inter-layer antiferromagnetic Heisenberg interaction. The continuous quantum phase transition which occurs at $g_c=3.045(2)$ between the FM Ising phase and the dimerized phase is studied via large scale simulations. From the analyzes of critical exponents we show that this phase transition belongs to the (2+1)-dimensional Ising universality class. Besides, the quantum entanglement is strong between the two layers, especially in dimerized phase. The effective Hamiltonian of single layer seems like a transverse field Ising model. However, we found the quantum entanglement Hamiltonian is a pure classical Ising model without any quantum fluctuations. Furthermore, we give a more general explanation about how a classical entanglement Hamiltonian emerges.
翻訳日:2023-04-12 18:46:31 公開日:2023-04-11
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v6 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-04-12 18:46:12 公開日:2023-04-11
# オフライン強化学習のための多元データからの行動推定

Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning ( http://arxiv.org/abs/2211.16078v2 )

ライセンス: Link先を確認
Guoxi Zhang and Hisashi Kashima(参考訳) オフライン強化学習(RL)はその魅力あるデータ効率のために関心が高まっている。 本研究では,多くのオフラインRLアルゴリズムの基礎となる行動推定について述べる。 行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。 特に本研究では,複数のソースからデータを収集するシナリオについて考察する。 この場合、データの不均一性を無視して、行動推定のための既存のアプローチは行動の特定に悩まされる。 この欠点を克服するために,本研究では,データから一連のポリシーを推測する潜在変数モデルを提案する。 このモデルは、マルチソースデータに対するきめ細かいキャラクタリゼーションをエージェントに提供し、振舞いの特定を克服するのに役立つ。 この研究は、このモデルの学習アルゴリズムも提案し、既存のオフラインRLアルゴリズムを拡張してその実用性を示す。 最後に,本研究は,行動の誤特定の存在と提案モデルの有効性を確認した。

Offline reinforcement learning (RL) have received rising interest due to its appealing data efficiency. The present study addresses behavior estimation, a task that lays the foundation of many offline RL algorithms. Behavior estimation aims at estimating the policy with which training data are generated. In particular, this work considers a scenario where the data are collected from multiple sources. In this case, neglecting data heterogeneity, existing approaches for behavior estimation suffers from behavior misspecification. To overcome this drawback, the present study proposes a latent variable model to infer a set of policies from data, which allows an agent to use as behavior policy the policy that best describes a particular trajectory. This model provides with a agent fine-grained characterization for multi-source data and helps it overcome behavior misspecification. This work also proposes a learning algorithm for this model and illustrates its practical usage via extending an existing offline RL algorithm. Lastly, with extensive evaluation this work confirms the existence of behavior misspecification and the efficacy of the proposed model.
翻訳日:2023-04-12 18:40:34 公開日:2023-04-11
# 機械学習による適切な回転フレームの構築

Machine-learning-assisted construction of appropriate rotating frame ( http://arxiv.org/abs/2211.15269v4 )

ライセンス: Link先を確認
Yoshihiro Michishita(参考訳) ニューラルネットワークによる機械学習は、自然言語処理、画像認識、ゲーム勝利、さらには物理学の問題など、さまざまなタスクのための、ますます強力なツールになりつつある。 数値計算への機械学習の適用と実験的な検出の支援については,多くの研究があるが,解析手法の発見に機械学習を適用する方法はあまり研究されていない。 本稿では,機械学習を用いて解析手法を見つける手法を提案する。 本研究では,時間周期ハミルトニアンをニューラルネットワークに入力するだけで,フロッケマグヌス展開を‘導出’することができることを実証し,周期駆動系の適切な回転フレームを導出する。 また,本手法は,他のシステムにおける理論的枠組みの発見にも適用可能であると論じる。

Machine learning with neural networks is now becoming a more and more powerful tool for various tasks, such as natural language processing, image recognition, winning the game, and even for the issues of physics. Although there are many studies on the application of machine learning to numerical calculation and the assistance of experimental detection, the methods of applying machine learning to find the analytical method are poorly studied. In this letter, we propose methods to use machine learning to find the analytical methods. We demonstrate that the recurrent neural networks can ``derive'' the Floquet-Magnus expansion just by inputting the time-periodic Hamiltonian to the neural networks, and derive the appropriate rotating frame in the periodically-driven system. We also argue that this method is also applicable to finding other theoretical frameworks in other systems.
翻訳日:2023-04-12 18:40:19 公開日:2023-04-11
# Ensemble Multi-Quantiles:不確実性量子化のための適応フレキシブル分布予測

Ensemble Multi-Quantiles: Adaptively Flexible Distribution Prediction for Uncertainty Quantification ( http://arxiv.org/abs/2211.14545v2 )

ライセンス: Link先を確認
Xing Yan, Yonghua Su, Wenxuan Ma(参考訳) 本稿では,機械学習における不確実性を定量化する新しい,簡潔かつ効果的な手法を提案する。 これは回帰タスクに$\mathbb{p}(\mathbf{y}|\mathbf{x}=x)$の適応的柔軟な分布予測を組み込む。 この条件分布を予測するために、この間隔を$(0,1)$に広げる確率レベルの量子は、直観と解釈可能性を持つ設計の加法モデルによって促進される。 構造整合性と$\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$の柔軟性の間の適応的バランスを求めるが、ガウスの仮定は実データに対する柔軟性の欠如と高度に柔軟なアプローチ(例えば、分布構造なしでは分位子を別々に推定するなど)が必然的に欠点を持ち、良い一般化には至らない。 EMQと呼ばれるこのアンサンブル方式は完全にデータ駆動であり、ガウスから徐々に離れ、ブーピングにおける最適条件分布を発見することができる。 UCIデータセットからの大規模な回帰タスクでは、最近の不確実な定量化手法と比較して、EMQが最先端のパフォーマンスを達成することを示す。 可視化の結果は、このようなアンサンブルモデルの必要性とメリットをさらに示している。

We propose a novel, succinct, and effective approach to quantify uncertainty in machine learning. It incorporates adaptively flexible distribution prediction for $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$ in regression tasks. For predicting this conditional distribution, its quantiles of probability levels spreading the interval $(0,1)$ are boosted by additive models which are designed by us with intuitions and interpretability. We seek an adaptive balance between the structural integrity and the flexibility for $\mathbb{P}(\mathbf{y}|\mathbf{X}=x)$, while Gaussian assumption results in a lack of flexibility for real data and highly flexible approaches (e.g., estimating the quantiles separately without a distribution structure) inevitably have drawbacks and may not lead to good generalization. This ensemble multi-quantiles approach called EMQ proposed by us is totally data-driven, and can gradually depart from Gaussian and discover the optimal conditional distribution in the boosting. On extensive regression tasks from UCI datasets, we show that EMQ achieves state-of-the-art performance comparing to many recent uncertainty quantification methods. Visualization results further illustrate the necessity and the merits of such an ensemble model.
翻訳日:2023-04-12 18:40:04 公開日:2023-04-11
# 自己教師型学習による文脈からの推論

Reason from Context with Self-supervised Learning ( http://arxiv.org/abs/2211.12817v2 )

ライセンス: Link先を確認
Xiao Liu, Ankur Sikarwar, Gabriel Kreiman, Zenglin Shi, Mengmi Zhang(参考訳) 自己教師付き学習(SSL)は、知識伝達に有用な識別的視覚的特徴を捉えることを学ぶ。 オブジェクト認識や検出など、現在の下流タスクのオブジェクト中心の性質をよりよく適応するために、コンテキストバイアスやコンテキストからのオブジェクトの絡み合いを抑制する様々な手法が提案されている。 しかし、これらの手法は、小さなオブジェクトや未知のオブジェクトの認識や推論など、関連するコンテキストからオブジェクトのアイデンティティを推論する必要がある状況では不十分である。 SSL文献における最初の取り組みとして、SSL体制内の視覚的推論において、文脈的関連性をどのように拡張できるかを調査する。 (a)外部記憶を用いたSeCo(Context Reasoning)のための新たな自己管理手法の提案 (b)コンテキスト推論における"what"と"where"の問題に対処する2つの新しいダウンストリームタスク、lift-the-flapとobject primingを導入する。 どちらのタスクでも、SeCoはすべての最先端(SOTA)SSLメソッドを大幅なマージンで上回りました。 ネットワーク解析の結果,secoで提案する外部メモリは,事前の文脈知識の保存を学習し,リフト・ザ・フラップタスクにおいて目標のアイデンティティ推論を容易にすることが明らかとなった。 さらに,精神物理学実験を行い,対象プライミングデータセット(HOP)にHumanベンチマークを導入した。 以上の結果から,SeCoは人間的な行動を示すことが明らかとなった。

Self-supervised learning (SSL) learns to capture discriminative visual features useful for knowledge transfers. To better accommodate the object-centric nature of current downstream tasks such as object recognition and detection, various methods have been proposed to suppress contextual biases or disentangle objects from contexts. Nevertheless, these methods may prove inadequate in situations where object identity needs to be reasoned from associated context, such as recognizing or inferring tiny or obscured objects. As an initial effort in the SSL literature, we investigate whether and how contextual associations can be enhanced for visual reasoning within SSL regimes, by (a) proposing a new Self-supervised method with external memories for Context Reasoning (SeCo), and (b) introducing two new downstream tasks, lift-the-flap and object priming, addressing the problems of "what" and "where" in context reasoning. In both tasks, SeCo outperformed all state-of-the-art (SOTA) SSL methods by a significant margin. Our network analysis revealed that the proposed external memory in SeCo learns to store prior contextual knowledge, facilitating target identity inference in the lift-the-flap task. Moreover, we conducted psychophysics experiments and introduced a Human benchmark in Object Priming dataset (HOP). Our results demonstrate that SeCo exhibits human-like behaviors.
翻訳日:2023-04-12 18:39:40 公開日:2023-04-11
# EHSNet:大規模リモートセンシング画像セマンティックセグメンテーションのためのエンドツーエンドホロスティック学習ネットワーク

EHSNet: End-to-End Holistic Learning Network for Large-Size Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2211.11316v2 )

ライセンス: Link先を確認
Wei Chen, Yansheng Li, Bo Dang, Yongjun Zhang(参考訳) 本稿では,大規模リモートセンシング画像セマンティクスセグメンテーション(lriss)の総合学習を目的とした,新しいエンドツーエンドセグメンテーションネットワークであるeesnetを提案する。 大規模なリモートセンシング画像(LRI)は、非常に大きなサイズのため、GPUメモリの枯渇につながる可能性がある。 それらとは異なり、EHSNetはLRIの特徴を利用するための3つのメモリフレンドリなモジュール、長距離空間コンテキストを開発する長距離依存モジュール、全体的コンテキスト関係を構築するための効率的な相互相関モジュール、完全なオブジェクト境界を維持するための境界認識拡張モジュールを備えている。 さらに、EHSNetはメモリオフロードの助けを借りて、完全なLRISSを処理している。 我々の知る限りでは、EHSNetはホロスティックLRISSを実行する最初の方法である。 EHSNetは、FBPでは+5.65 mIoU、Inria Aerialでは+4.28 mIoUという大きなマージンで、従来の最先端のライバルより優れている。 EHSNetがLRISSの新しい視点を提供することを期待しています。 コードとモデルは公開される予定だ。

This paper presents EHSNet, a new end-to-end segmentation network designed for the holistic learning of large-size remote sensing image semantic segmentation (LRISS). Large-size remote sensing images (LRIs) can lead to GPU memory exhaustion due to their extremely large size, which has been handled in previous works through either global-local fusion or multi-stage refinement, both of which are limited in their ability to fully exploit the abundant information available in LRIs. Unlike them, EHSNet features three memory-friendly modules to utilize the characteristics of LRIs: a long-range dependency module to develop long-range spatial context, an efficient cross-correlation module to build holistic contextual relationships, and a boundary-aware enhancement module to preserve complete object boundaries. Moreover, EHSNet manages to process holistic LRISS with the aid of memory offloading. To the best of our knowledge, EHSNet is the first method capable of performing holistic LRISS. To make matters better, EHSNet outperforms previous state-of-the-art competitors by a significant margin of +5.65 mIoU on FBP and +4.28 mIoU on Inria Aerial, demonstrating its effectiveness. We hope that EHSNet will provide a new perspective for LRISS. The code and models will be made publicly available.
翻訳日:2023-04-12 18:39:19 公開日:2023-04-11
# 異常だと確信していますか?

Are we certain it's anomalous? ( http://arxiv.org/abs/2211.09224v3 )

ライセンス: Link先を確認
Alessandro Flaborea, Bardh Prenkaj, Bharti Munjal, Marco Aurelio Sterpa, Dario Aragona, Luca Podo, Fabio Galasso(参考訳) 時系列モデリングの進歩と、より一般的に、構造化データのシーケンスは、最近、異常検出の研究を改訂した。 この課題は、金融シリーズ、ITシステム、航空宇宙測定、医療領域における異常な行動の特定であり、異常検出はうつ病の分離や高齢者への参加に役立つ可能性がある。 時系列における異常検出は、高度に非線形な時間相関による異常は稀であり、異常の定義が主観的であるため、複雑なタスクである。 本稿では,異常検出(HypAD)におけるハイパボリック不確かさの新たな利用法を提案する。 HypADは自己指導で入力信号を再構築する。 我々は、LSTMでシーケンスをエンコードするために最先端技術からのベストプラクティスを採用し、GAN評論家の助けを借りて、デコーダと共同で信号の再構築について学んだ。 不確実性は双曲型ニューラルネットワークによってエンドツーエンドに推定される。 不確実性を用いることで、HypADは入力信号について確実であるかどうかを評価することができるが、これは異常であるため再構成に失敗する。 新たな鍵となる考え方は、emph{detectable anomaly} はモデルが確実だが誤った予測をするものであるということである。 HypADは、NASA、Yahoo、Numenta、Amazon、Twitterのデータをベースとした確立したベンチマークで、一変量検出の最先端技術よりも優れている。 また、高齢住宅における異常活動の多変量データセット上での最先端のパフォーマンスも得られ、SWaTのベースラインを上回っている。 全体としてHypADは、検出可能な異常を正常に検出することで、最高のパフォーマンスで最も低い誤報を発生させる。

The progress in modelling time series and, more generally, sequences of structured data has recently revamped research in anomaly detection. The task stands for identifying abnormal behaviors in financial series, IT systems, aerospace measurements, and the medical domain, where anomaly detection may aid in isolating cases of depression and attend the elderly. Anomaly detection in time series is a complex task since anomalies are rare due to highly non-linear temporal correlations and since the definition of anomalous is sometimes subjective. Here we propose the novel use of Hyperbolic uncertainty for Anomaly Detection (HypAD). HypAD learns self-supervisedly to reconstruct the input signal. We adopt best practices from the state-of-the-art to encode the sequence by an LSTM, jointly learned with a decoder to reconstruct the signal, with the aid of GAN critics. Uncertainty is estimated end-to-end by means of a hyperbolic neural network. By using uncertainty, HypAD may assess whether it is certain about the input signal but it fails to reconstruct it because this is anomalous; or whether the reconstruction error does not necessarily imply anomaly, as the model is uncertain, e.g. a complex but regular input signal. The novel key idea is that a \emph{detectable anomaly} is one where the model is certain but it predicts wrongly. HypAD outperforms the current state-of-the-art for univariate anomaly detection on established benchmarks based on data from NASA, Yahoo, Numenta, Amazon, and Twitter. It also yields state-of-the-art performance on a multivariate dataset of anomaly activities in elderly home residences, and it outperforms the baseline on SWaT. Overall, HypAD yields the lowest false alarms at the best performance rate, thanks to successfully identifying detectable anomalies.
翻訳日:2023-04-12 18:38:18 公開日:2023-04-11
# 分子電気双極子モーメント:相対論的vqeアルゴリズムによる光から重分子へ

Molecular electric dipole moments: from light to heavy molecules using a relativistic VQE algorithm ( http://arxiv.org/abs/2211.06907v2 )

ライセンス: Link先を確認
K. R. Swain, V. S. Prasannaa, Kenji Sugisaki, B. P. Das(参考訳) 量子古典的ハイブリッド変分量子固有解法(VQE)アルゴリズムは、ノイズのある中間スケール量子時代における量子多体系の基底状態エネルギーを得るのに最も適した手法である。 本研究では、VQEアルゴリズムを相対論的状態に拡張し、量子シミュレーションを行い、1価二原子分子の分子永続電気双極子モーメントと、光BeH分子から重放射性RaH分子に至るまでの基底状態エネルギーを得る。 これらのシステムの相関傾向を調査し,12キュービットのアクティブ空間における結果の精度を評価した。

The quantum-classical hybrid Variational Quantum Eigensolver (VQE) algorithm is recognized to be the most suitable approach to obtain ground state energies of quantum many-body systems in the noisy intermediate scale quantum era. In this work, we extend the VQE algorithm to the relativistic regime and carry out quantum simulations to obtain ground state energies as well as molecular permanent electric dipole moments of single-valence diatomic molecules, beginning with the light BeH molecule and all the way to the heavy radioactive RaH molecule. We study the correlation trends in these systems as well as assess the precision in our results within our active space of 12 qubits.
翻訳日:2023-04-12 18:37:48 公開日:2023-04-11
# アダプティブ・セマンティクス・コミュニケーションに向けて:オンライン学習非線形トランスフォーメーション・ソース・チャネル符号化による効率的なデータ伝送

Toward Adaptive Semantic Communications: Efficient Data Transmission via Online Learned Nonlinear Transform Source-Channel Coding ( http://arxiv.org/abs/2211.04339v2 )

ライセンス: Link先を確認
Jincheng Dai, Sixian Wang, Ke Yang, Kailin Tan, Xiaoqi Qin, Zhongwei Si, Kai Niu, Ping Zhang(参考訳) 新興分野のセマンティックコミュニケーションは、エンドツーエンドのデータ伝送の研究を駆動している。 ディープラーニングモデルの強力な表現能力を利用することで、学習データ伝送方式は確立されたソースおよびチャネル符号化方式よりも優れた性能を示している。 研究は主に静的なターゲットドメインに向けたアーキテクチャとモデルの改善に集中しています。 それらの成功にもかかわらず、これらの学習モデルはモデルキャパシティの制限と不完全な最適化と一般化のため、特にテストデータ分散やチャネル応答がモデルトレーニングで採用されているものとは異なる場合、依然としてサブ最適である。 そこで本研究では,深層学習モデルの過剰適合性を生かした,新しいオンライン学習ジョイントソースとチャネルコーディング手法を提案する。 具体的には,市販のトレーニング済みモデルを軽量なオンライン方式で展開し,ソースデータと環境領域の分散シフトに適応させる。 オーバーフィッティングの概念を極端に捉え、コーデックモデルや表現を個々のデータやチャネル状態インスタンスに適応させる一連の実装フレンドリーな手法を提案し、帯域幅比・歪み性能の点でさらに大きな利益をもたらす可能性がある。 提案手法は,デコード速度を犠牲にすることなく,ネットワーク内の全てのパラメータに対する通信効率の適応を可能にする。 ユーザによる目標データと無線チャネル環境の継続的な変更を含む実験は,既存の最先端技術伝送方式(VVCと5G LDPC符号化伝送方式)より優れていることを示す。

The emerging field semantic communication is driving the research of end-to-end data transmission. By utilizing the powerful representation ability of deep learning models, learned data transmission schemes have exhibited superior performance than the established source and channel coding methods. While, so far, research efforts mainly concentrated on architecture and model improvements toward a static target domain. Despite their successes, such learned models are still suboptimal due to the limitations in model capacity and imperfect optimization and generalization, particularly when the testing data distribution or channel response is different from that adopted for model training, as is likely to be the case in real-world. To tackle this, we propose a novel online learned joint source and channel coding approach that leverages the deep learning model's overfitting property. Specifically, we update the off-the-shelf pre-trained models after deployment in a lightweight online fashion to adapt to the distribution shifts in source data and environment domain. We take the overfitting concept to the extreme, proposing a series of implementation-friendly methods to adapt the codec model or representations to an individual data or channel state instance, which can further lead to substantial gains in terms of the bandwidth ratio-distortion performance. The proposed methods enable the communication-efficient adaptation for all parameters in the network without sacrificing decoding speed. Our experiments, including user study, on continually changing target source data and wireless channel environments, demonstrate the effectiveness and efficiency of our approach, on which we outperform existing state-of-the-art engineered transmission scheme (VVC combined with 5G LDPC coded transmission).
翻訳日:2023-04-12 18:37:36 公開日:2023-04-11
# リアルタイムマルチロボット協調探索のための非同期マルチエージェント強化学習

Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration ( http://arxiv.org/abs/2301.03398v2 )

ライセンス: Link先を確認
Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin Huang, Huazhong Yang, Yi Wu, Yu Wang(参考訳) 我々は,複数のロボットが協調して未知の領域をできるだけ早く探索する必要がある協調探索の問題を考える。 マルチエージェント強化学習(MARL)はこの課題を解決するためのトレンドパラダイムとなっている。 しかしながら、既存のmarlベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクションメイキングのステップを採用する:すなわち、すべてのエージェントが同時にアクションを生成し、すべてのアクションが各タイムステップで瞬時に実行される。 数学的単純さにもかかわらず、そのような同期MARLの定式化は現実世界のロボットアプリケーションには問題となる。 異なるロボットが、アトミックアクションを達成するためにわずかに異なる壁時計時間を取ることや、ハードウェアの問題のために定期的に失われることが典型的である。 全てのロボットが次のアクションの準備が整うのを待つことは、特に時間非効率だ。 そこで本研究では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。 まず,従来のMARLアルゴリズムであるMAPPO(Multi-agent PPO)を非同期設定に拡張し,さらに動作遅延のランダム化を適用して実世界の様々な動作遅延を一般化する。 さらに、各ナビゲーションエージェントは、チームサイズ不変のCNNベースのポリシーとして表現され、ロボットの紛失を処理し、低次元CNN機能による帯域幅効率の高いエージェント間通信を可能にすることで、実ロボットの展開に大きな恩恵を与える。 まず、グリッドベースのシナリオでアプローチを検証する。 シミュレーションと実ロボット実験の結果から、aceは従来のアプローチに比べて10%以上の探索時間を短縮できることがわかった。 また,このフレームワークを高忠実度なビジュアルベース環境であるhabitatに適用し,探索効率を28%向上させた。

We consider the problem of cooperative exploration where multiple robots need to cooperatively explore an unknown region as fast as possible. Multi-agent reinforcement learning (MARL) has recently become a trending paradigm for solving this challenge. However, existing MARL-based methods adopt action-making steps as the metric for exploration efficiency by assuming all the agents are acting in a fully synchronous manner: i.e., every single agent produces an action simultaneously and every single action is executed instantaneously at each time step. Despite its mathematical simplicity, such a synchronous MARL formulation can be problematic for real-world robotic applications. It can be typical that different robots may take slightly different wall-clock times to accomplish an atomic action or even periodically get lost due to hardware issues. Simply waiting for every robot being ready for the next action can be particularly time-inefficient. Therefore, we propose an asynchronous MARL solution, Asynchronous Coordination Explorer (ACE), to tackle this real-world challenge. We first extend a classical MARL algorithm, multi-agent PPO (MAPPO), to the asynchronous setting and additionally apply action-delay randomization to enforce the learned policy to generalize better to varying action delays in the real world. Moreover, each navigation agent is represented as a team-size-invariant CNN-based policy, which greatly benefits real-robot deployment by handling possible robot lost and allows bandwidth-efficient intra-agent communication through low-dimensional CNN features. We first validate our approach in a grid-based scenario. Both simulation and real-robot results show that ACE reduces over 10% actual exploration time compared with classical approaches. We also apply our framework to a high-fidelity visual-based environment, Habitat, achieving 28% improvement in exploration efficiency.
翻訳日:2023-04-12 18:30:09 公開日:2023-04-11
# ハイパーパラメータ最適化による自律走行システムのモデルパラメータ同定

Model Parameter Identification via a Hyperparameter Optimization Scheme for Autonomous Racing Systems ( http://arxiv.org/abs/2301.01470v4 )

ライセンス: Link先を確認
Hyunki Seong, Chanyoung Chung, and David Hyunchul Shim(参考訳) 本稿では,ハイパーパラメータ最適化方式(MI-HPO)を用いたモデルパラメータ同定手法を提案する。 提案手法は,データ駆動最適化方式で動的モデルのパラメータを同定する効率的な探索探索戦略を採用する。 本手法は,フルスケールの自動運転車であるAV-21のモデルパラメータ同定に有効である。 次に、モデルベースの計画・制御システムの設計に最適化されたパラメータを組み込む。 実験では、MI-HPOは従来のパラメータ同定法より13倍以上早く収束している。 さらに、MI-HPOを用いて学習したパラメトリックモデルは、与えられたデータセットに適合し、目に見えない動的シナリオにおける一般化能力を示す。 我々はさらに,インディアナポリス・モーター・スピードウェイとラスベガス・モーター・スピードウェイで,安定的な障害物回避と最高217km/hの高速走行を実証し,モデルベースのシステムを検証するための広範囲なフィールドテストを実施した。 私たちの仕事とテストのビデオのソースコードは、https://github.com/hynkis/mi-hpoで閲覧できます。

In this letter, we propose a model parameter identification method via a hyperparameter optimization scheme (MI-HPO). Our method adopts an efficient explore-exploit strategy to identify the parameters of dynamic models in a data-driven optimization manner. We utilize our method for model parameter identification of the AV-21, a full-scaled autonomous race vehicle. We then incorporate the optimized parameters for the design of model-based planning and control systems of our platform. In experiments, MI-HPO exhibits more than 13 times faster convergence than traditional parameter identification methods. Furthermore, the parametric models learned via MI-HPO demonstrate good fitness to the given datasets and show generalization ability in unseen dynamic scenarios. We further conduct extensive field tests to validate our model-based system, demonstrating stable obstacle avoidance and high-speed driving up to 217 km/h at the Indianapolis Motor Speedway and Las Vegas Motor Speedway. The source code for our work and videos of the tests are available at https://github.com/hynkis/MI-HPO.
翻訳日:2023-04-12 18:29:38 公開日:2023-04-11
# ニューロモルフィックハードウェアアーキテクチャの生物学的プラウザブル学習

Biologically Plausible Learning on Neuromorphic Hardware Architectures ( http://arxiv.org/abs/2212.14337v2 )

ライセンス: Link先を確認
Christopher Wolters, Brady Taylor, Edward Hanson, Xiaoxuan Yang, Ulf Schlichtmann and Yiran Chen(参考訳) ますます複雑なネットワークを定義するパラメータが増加し、Deep Learningは人間のパフォーマンスを超えたいくつかのブレークスルーをもたらしている。 その結果、これらの数百万のモデルパラメータのデータ移動は、メモリウォールとして知られる不均衡を引き起こします。 ニューロモルフィックコンピューティング(neuromorphic computing)は、アナログメモリで直接計算を行うことで、この不均衡に直面する新しいパラダイムである。 ソフトウェア側では、シーケンシャルバックプロパゲーションアルゴリズムは効率的な並列化と高速収束を防ぐ。 新たな手法であるdirect feedback alignmentは、出力から各レイヤにエラーを直接渡すことで、固有のレイヤ依存性を解決する。 ハードウェア/ソフトウェア共同設計の交差点では、ハードウェアの非理想性に耐性のあるアルゴリズムの開発が要求されている。 そこで本研究では,ニューロモルフィックなハードウェア上でバイオプラウズブルな学習を実現するための相互関係を探究し,エネルギー,面積,レイテンシの制約を強調する。 ベンチマークフレームワークdnn+neurosimを用いて,ハードウェアの非理想性と量子化がアルゴリズム性能に与える影響と,ネットワークトポロジとアルゴリズムレベルの設計選択がチップのレイテンシ,エネルギー,領域消費をスケールする方法について検討する。 私たちの知る限りでは、この研究は、異なる学習アルゴリズムがコンピュート・イン・メモリのハードウェアに与える影響を初めて比較したものです。 精度で達成された最良の結果はバックプロパゲーションベースであり、特にハードウェアの不完全さに直面した場合である。 一方、直接フィードバックアライメントは並列化による大幅な高速化を可能にし、N層ネットワークのNに近づく要因によるトレーニング時間を短縮する。

With an ever-growing number of parameters defining increasingly complex networks, Deep Learning has led to several breakthroughs surpassing human performance. As a result, data movement for these millions of model parameters causes a growing imbalance known as the memory wall. Neuromorphic computing is an emerging paradigm that confronts this imbalance by performing computations directly in analog memories. On the software side, the sequential Backpropagation algorithm prevents efficient parallelization and thus fast convergence. A novel method, Direct Feedback Alignment, resolves inherent layer dependencies by directly passing the error from the output to each layer. At the intersection of hardware/software co-design, there is a demand for developing algorithms that are tolerable to hardware nonidealities. Therefore, this work explores the interrelationship of implementing bio-plausible learning in-situ on neuromorphic hardware, emphasizing energy, area, and latency constraints. Using the benchmarking framework DNN+NeuroSim, we investigate the impact of hardware nonidealities and quantization on algorithm performance, as well as how network topologies and algorithm-level design choices can scale latency, energy and area consumption of a chip. To the best of our knowledge, this work is the first to compare the impact of different learning algorithms on Compute-In-Memory-based hardware and vice versa. The best results achieved for accuracy remain Backpropagation-based, notably when facing hardware imperfections. Direct Feedback Alignment, on the other hand, allows for significant speedup due to parallelization, reducing training time by a factor approaching N for N-layered networks.
翻訳日:2023-04-12 18:29:21 公開日:2023-04-11
# チューナブル有効結合を持つKerrパラメトリック発振器の相関振動

Correlated oscillations in Kerr parametric oscillators with tunable effective coupling ( http://arxiv.org/abs/2212.13682v2 )

ライセンス: Link先を確認
T. Yamaji and S. Masuda and A. Yamaguchi and T. Satoh and A. Morioka and Y. Igarashi and M. Shirane and T. Yamamoto(参考訳) 単一光子kerrレジームにおける2つの分散回路ジョセフソンパラメトリック発振器からなる系の同時パラメトリック振動を静電容量で結合した。 系のエネルギーは、振幅と符号がパラメトリックポンプ間の相対位相に依存する効果的なカップリングを持つ2ビットイジングハミルトニアンによって記述される。 パラメトリック振動の2相相は相互に相関し, ポンプ位相を調整することで相関のパリティと強度を制御できることを実証した。 観測された相関は, 純粋な強調を考慮したシミュレーションで再現される。 本結果は、KPOネットワークからなるIsingマシンハードウェアで使用可能な外部マイクロ波の位相によるハミルトンパラメータのチューニング性を示す。

We study simultaneous parametric oscillations in a system composed of two distributed-element-circuit Josephson parametric oscillators in the single-photon Kerr regime coupled via a static capacitance. The energy of the system is described by a two-bit Ising Hamiltonian with an effective coupling whose amplitude and sign depend on the relative phase between parametric pumps. We demonstrate that the binary phases of the parametric oscillations are correlated with each other, and that the parity and strength of the correlation can be controlled by adjusting the pump phase. The observed correlation is reproduced in our simulation taking pure dephasing into account. The present result demonstrates the tunability of the Hamiltonian parameters by the phase of external microwave, which can be used in the Ising machine hardware composed of the KPO network.
翻訳日:2023-04-12 18:28:36 公開日:2023-04-11
# 特徴帰属に対する不可能定理

Impossibility Theorems for Feature Attribution ( http://arxiv.org/abs/2212.11870v2 )

ライセンス: Link先を確認
Blair Bilodeau, Natasha Jaques, Pang Wei Koh, Been Kim(参考訳) 妥当な説明を生成できる解釈可能性手法の海にもかかわらず、この分野はそのような手法の多くの失敗事例を経験的に見てきた。 これらの結果を踏まえて、実践者がこれらの手法をどのように利用し、それらを原則的に選択するかは定かではない。 本稿では、中程度にリッチなモデルクラス(ニューラルネットワークにより容易に満足できる)において、完全で線形な特徴属性(例えば、積分勾配とSHAP)は、モデル振る舞いを推測するランダムな推測において確実に改善できないことを示す。 本研究は, 局所モデル行動の特徴付け, 突発的特徴の同定, アルゴリズム的リコースなど, 一般的なエンドタスクに適用する。 このようなエンドタスクが定義されれば、繰り返しモデル評価の単純かつ直接的なアプローチが、他の多くの複雑な機能帰属メソッドを上回ることができるのです。

Despite a sea of interpretability methods that can produce plausible explanations, the field has also empirically seen many failure cases of such methods. In light of these results, it remains unclear for practitioners how to use these methods and choose between them in a principled way. In this paper, we show that for moderately rich model classes (easily satisfied by neural networks), any feature attribution method that is complete and linear -- for example, Integrated Gradients and SHAP -- can provably fail to improve on random guessing for inferring model behaviour. Our results apply to common end-tasks such as characterizing local model behaviour, identifying spurious features, and algorithmic recourse. One takeaway from our work is the importance of concretely defining end-tasks: once such an end-task is defined, a simple and direct approach of repeated model evaluations can outperform many other complex feature attribution methods.
翻訳日:2023-04-12 18:28:24 公開日:2023-04-11
# pt対称量子ラビモデル

PT-Symmetric Quantum Rabi Model ( http://arxiv.org/abs/2212.06586v2 )

ライセンス: Link先を確認
Xilin Lu, Hui Li, Jia-Kai Shi, Li-Bao Fan, Vladimir Mangazeev, Zi-Min Li, and Murray T. Batchelor(参考訳) 本研究では,pt対称量子ラビモデル(ptqrm)を用いて,量子化された光場に結合したpt対称量子ビットを記述する。 アディバティック近似(AA)を用いることで、関心のパラメータ構造を解析的に解き、様々な物理的側面を分析することができる。 AAと数値対角化の両方を用いて,モデルの静的および動的特性について検討する。 我々の分析では、モデルのエルミート対応の正確な解点と密接な関係を持つ多数の例外点(EP)を明らかにする。 興味深いことに、これらのEPは光-物質結合強度によって消滅し、復活する。 さらに、非エルミート・ハミルトニアンの下での物理可観測物の時間発展についても論じる。 我々の研究はPT対称性の理論を完全な量子光-物質相互作用系に拡張し、量子光学系の幅広いクラスに容易に拡張できる洞察を提供する。

In this work, we explore the PT-symmetric quantum Rabi model (PTQRM), which describes a PT-symmetric qubit coupled to a quantized light field. By employing the adiabatic approximation (AA), we are able to solve this model analytically in the parameter regime of interest and analyze various physical aspects. We investigate the static and dynamic properties of the model, using both the AA and numerical diagonalization. Our analysis reveals a multitude of exceptional points (EPs) that are closely connected with the exactly solvable points in the Hermitian counterpart of the model. Intriguingly, these EPs vanish and revive depending on the light-matter coupling strength. Furthermore, we discuss the time evolution of physical observables under the non-Hermitian Hamiltonian. Our work extends the theory of PT-symmetry into the full quantum light-matter interaction regime and provides insights that can be readily enlarged to a broad class of quantum optical systems.
翻訳日:2023-04-12 18:28:08 公開日:2023-04-11
# 量子メモリのない量子会議鍵契約に関する普遍的制限を破る

Breaking universal limitations on quantum conference key agreement without quantum memory ( http://arxiv.org/abs/2212.05226v2 )

ライセンス: Link先を確認
Chen-Long Li, Yao Fu, Wen-Bo Liu, Yuan-Mei Xie, Bing-Hong Li, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) quantum conference key agreementは、将来の量子ネットワークにとって重要な暗号プリミティブである。 このプリミティブを実現するには、高明度で堅牢な多光子絡み合い源が必要である。 本稿では,ロスチャネル上の伝送効率を向上した測定デバイス非依存の量子会議キーアグリーメントプロトコルについて報告する。 空間多重化特性と適応演算により,量子メモリを使わずに量子ネットワーク上での量子通信におけるキーレート境界を破ることができる。 従来の手法と比較して,最先端技術における鍵レートと伝送距離の優位性を示す。 さらに, 構成可能なフレームワークにおけるプロトコルのセキュリティを分析し, 有限サイズシステムの性能評価を行い, 実用性を示す。 以上の結果から,マルチパーティタイト量子ネットワーク構築において,我々のプロトコルが不可欠の役割を担うことを予測した。

Quantum conference key agreement is an important cryptographic primitive for future quantum network. Realizing this primitive requires high-brightness and robust multiphoton entanglement sources, which is challenging in experiment and unpractical in application because of limited transmission distance caused by channel loss. Here we report a measurement-device-independent quantum conference key agreement protocol with enhanced transmission efficiency over lossy channel. With spatial multiplexing nature and adaptive operation, our protocol can break key rate bounds on quantum communication over quantum network without quantum memory. Compared with previous work, our protocol shows superiority in key rate and transmission distance within the state-of-the-art technology. Furthermore, we analyse the security of our protocol in the composable framework and evaluate its performance in the finite-size regime to show practicality. Based on our results, we anticipate that our protocol will play an indispensable role in constructing multipartite quantum network.
翻訳日:2023-04-12 18:27:52 公開日:2023-04-11
# 非エルミートハミルトニアンによるフシミダイナミクス

Husimi dynamics generated by non-Hermitian Hamiltonians ( http://arxiv.org/abs/2212.03719v2 )

ライセンス: Link先を確認
Katherine Holmes, Wasim Rehman, Simon Malzard, and Eva-Maria Graefe(参考訳) 非エルミートハミルトニアンによって生成される力学は、しばしば従来のエルミート系よりも直観的ではない。 複素調和振動子のような単純なモデルであっても、ジェネリック初期状態の力学は驚くべき特徴を示す。 ここでは半古典的極限におけるフシミ分布のダイナミクスを解析し、全量子進化の基礎を明らかにした。 古典フシミの進化は2つの要素から成り立っている。 一 位相空間軌道に沿って評価された初期フシミ分布及び (ii)各位相空間点に対応するノルムの最終値。 どちらの要因も、興味深い動的行動を引き起こす。 量子力学が古典的なフジミ力学の上にどのように展開するかを2つの例で示す。

The dynamics generated by non-Hermitian Hamiltonians are often less intuitive than those of conventional Hermitian systems. Even for models as simple as a complexified harmonic oscillator, the dynamics for generic initial states shows surprising features. Here we analyse the dynamics of the Husimi distribution in a semiclassical limit, illuminating the foundations of the full quantum evolution. The classical Husimi evolution is composed of two factors, (i) the initial Husimi distribution evaluated along phase-space trajectories, and (ii) the final value of the norm corresponding to each phase-space point. Both factors conspire to lead to intriguing dynamical behaviours. We demonstrate how the full quantum dynamics unfolds on top of the classical Husimi dynamics for two instructive examples.
翻訳日:2023-04-12 18:27:38 公開日:2023-04-11
# NFTのゲーム:EthereumブロックチェーンにおけるNFTウォッシュ取引の特徴

A Game of NFTs: Characterizing NFT Wash Trading in the Ethereum Blockchain ( http://arxiv.org/abs/2212.01225v2 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini, and Eugenio Nerio Nemmi(参考訳) EthereumブロックチェーンのNon-Fungible Token(NFT)市場は2021年に爆発的な成長を遂げ、2022年1月には月間貿易額が60億ドルに達した。 しかし、ある当事者がNFTを取引してそのボリュームを人工的に膨らませる市場操作の形で、洗剤取引の可能性に関する懸念が浮上している。 本研究は, イーサリアムのNFT市場における洗剤取引が2022年1月までに及ぼす影響を, 複数のアプローチを用いて検討した。 洗濯物取引は全NFTコレクションの5.66%に影響を及ぼし、総人工体積は3,406,110,774米ドルである。 我々は、NFTの価格を人工的に上昇させ、一部のマーケットプレースが提供するトークン報酬システムを活用するという、2つの方法を検討している。 以上の結果から,nftmsのトークン報酬システムの利用ははるかに利益率が高く(成功例の利得はルックスレーアで$1.055m),成功の可能性が高く(オペレーションの80%以上),洗濯取引(活動の50%が損失をもたらす)高い価格でnftを再販売するリスクが低いことが示された。 我々の研究は、Ethereumでは洗剤取引が頻繁に行われており、NFTMはそのような不正行為を防ぐために保護機構を実装するべきであることを強調している。

The Non-Fungible Token (NFT) market in the Ethereum blockchain experienced explosive growth in 2021, with a monthly trade volume reaching \$6 billion in January 2022. However, concerns have emerged about possible wash trading, a form of market manipulation in which one party repeatedly trades an NFT to inflate its volume artificially. Our research examines the effects of wash trading on the NFT market in Ethereum from the beginning until January 2022, using multiple approaches. We find that wash trading affects 5.66% of all NFT collections, with a total artificial volume of \$3,406,110,774. We look at two ways to profit from wash trading: Artificially increasing the price of the NFT and taking advantage of the token reward systems provided by some marketplaces. Our findings show that exploiting the token reward systems of NFTMs is much more profitable (mean gain of successful operations is \$1.055M on LooksRare), more likely to succeed (more than 80% of operations), and less risky than reselling an NFT at a higher price using wash trading (50% of activities result in a loss). Our research highlights that wash trading is frequent in Ethereum and that NFTMs should implement protective mechanisms to stop such illicit behavior.
翻訳日:2023-04-12 18:27:30 公開日:2023-04-11
# Ultra-NeRF: 超音波イメージングのためのニューラルラジアンス場

Ultra-NeRF: Neural Radiance Fields for Ultrasound Imaging ( http://arxiv.org/abs/2301.10520v2 )

ライセンス: Link先を確認
Magdalena Wysocki, Mohammad Farid Azampour, Christine Eilers, Benjamin Busam, Mehrdad Salehi, Nassir Navab(参考訳) 本稿では,超音波(us)イメージングのための物理的に強調された暗黙的神経表現(inr)について述べる。 提案手法は, レイトレーシングに基づくニューラルレンダリングを新しいビューUS合成に活用する。 最近の出版物は、INRモデルが2次元USフレームの集合から3次元シーンの表現を符号化できることを示した。 しかし,これらのモデルでは画像に固有の外観や形状の変化は考慮されていない。 本研究では,映像の方向依存的変化を議論し,物理に触発されたレンダリングが映像合成の忠実性を向上させることを示す。 特に,提案手法が,米国画像の視点依存性による曖昧な表現領域に対して,幾何学的に高精度なbモード画像を生成することを実験的に証明した。 シミュレーションしたBモードUSスイープを用いて実験を行い、ロボットアームで追跡した脊椎ファントムのUSスイープを取得しました。 実験により,従来は見つからなかったビューから一貫した体積合成が可能なUSフレームを生成することが確認された。 我々の知る限りでは、INRを用いたビュー依存US画像合成に最初に取り組む研究である。

We present a physics-enhanced implicit neural representation (INR) for ultrasound (US) imaging that learns tissue properties from overlapping US sweeps. Our proposed method leverages a ray-tracing-based neural rendering for novel view US synthesis. Recent publications demonstrated that INR models could encode a representation of a three-dimensional scene from a set of two-dimensional US frames. However, these models fail to consider the view-dependent changes in appearance and geometry intrinsic to US imaging. In our work, we discuss direction-dependent changes in the scene and show that a physics-inspired rendering improves the fidelity of US image synthesis. In particular, we demonstrate experimentally that our proposed method generates geometrically accurate B-mode images for regions with ambiguous representation owing to view-dependent differences of the US images. We conduct our experiments using simulated B-mode US sweeps of the liver and acquired US sweeps of a spine phantom tracked with a robotic arm. The experiments corroborate that our method generates US frames that enable consistent volume compounding from previously unseen views. To the best of our knowledge, the presented work is the first to address view-dependent US image synthesis using INR.
翻訳日:2023-04-12 18:21:38 公開日:2023-04-11
# EHRSQL: 電子健康記録のための実践的なテキストからSQLのベンチマーク

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records ( http://arxiv.org/abs/2301.07695v3 )

ライセンス: Link先を確認
Gyubok Lee, Hyeonji Hwang, Seongsu Bae, Yeonsu Kwon, Woncheol Shin, Seongjun Yang, Minjoon Seo, Jong-Yeup Kim, Edward Choi(参考訳) 電子健康記録(EHR)のための新しいテキスト間SQLデータセットを提案する。 発話は医師、看護師、保険審査、健康記録チームを含む222人の病院スタッフから集められた。 構造化EMHデータに基づくQAデータセットを構築するため,大学病院で調査を行い,回答をテンプレート化し,種問合せを作成した。 そして、それらをMIMIC-IIIとeICUという2つのオープンソースのEHRデータベースに手動でリンクし、様々な時間表現と、すべてのアンケートから収集されたデータセットに持たない質問を格納した。 私たちのデータセットには、ユニークな課題があります。 1) 病院における幅広いニーズを反映したsqlクエリを生成し、簡単な検索や生存率の計算などの複雑な操作を含む。 2)医療における時間感性質問に対する各種時間表現の理解と対応 3) 予測信頼度に基づいて,ある質問が回答可能か否かを判別する。 当社のデータセットであるEHRSQLは、構造化されたEHRデータ上でのQAモデルの開発と評価のための実用的なベンチマークとして機能し、テキストからSQLまでの研究と、その医療における実際の展開の間のギャップを埋めるための一歩を踏み出すことができると考えています。 EHRSQLはhttps://github.com/glee4810/EHRSQLで入手できる。

We present a new text-to-SQL dataset for electronic health records (EHRs). The utterances were collected from 222 hospital staff, including physicians, nurses, insurance review and health records teams, and more. To construct the QA dataset on structured EHR data, we conducted a poll at a university hospital and templatized the responses to create seed questions. Then, we manually linked them to two open-source EHR databases, MIMIC-III and eICU, and included them with various time expressions and held-out unanswerable questions in the dataset, which were all collected from the poll. Our dataset poses a unique set of challenges: the model needs to 1) generate SQL queries that reflect a wide range of needs in the hospital, including simple retrieval and complex operations such as calculating survival rate, 2) understand various time expressions to answer time-sensitive questions in healthcare, and 3) distinguish whether a given question is answerable or unanswerable based on the prediction confidence. We believe our dataset, EHRSQL, could serve as a practical benchmark to develop and assess QA models on structured EHR data and take one step further towards bridging the gap between text-to-SQL research and its real-life deployment in healthcare. EHRSQL is available at https://github.com/glee4810/EHRSQL.
翻訳日:2023-04-12 18:21:05 公開日:2023-04-11
# OmniObject3D: 現実的知覚・再構成・生成のための大語彙3Dオブジェクトデータセット

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation ( http://arxiv.org/abs/2301.07525v2 )

ライセンス: Link先を確認
Tong Wu, Jiarui Zhang, Xiao Fu, Yuxin Wang, Jiawei Ren, Liang Pan, Wayne Wu, Lei Yang, Jiaqi Wang, Chen Qian, Dahua Lin, Ziwei Liu(参考訳) 3Dオブジェクトのモデリングの最近の進歩は、大規模なリアルタイム3Dデータベースがないため、主に合成データセットに依存している。 実世界の3D知覚・再構築・生成を容易にするため,我々は,大規模で高品質な3Dオブジェクト・データセットであるOmniObject3Dを提案する。 OmniObject3Dにはいくつかの魅力的な特性がある。 1)大語彙:190のカテゴリーで6,000個のスキャンされたオブジェクトで構成され、一般的な2Dデータセット(イメージネットやLVISなど)と共通クラスを共有し、一般化可能な3D表現を追求する。 2)リッチアノテーション: 各3Dオブジェクトは2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。 3) リアルスキャン: プロのスキャナは、正確な形状とリアルな外観の高品質なオブジェクトスキャンをサポートする。 OmniObject3Dが提供する広大な探査スペースでは、慎重に4つの評価トラックを設定しました。 a)ロバストな3d知覚 b) 新規ビュー合成 c) 神経表面の再構築及び d) 3dオブジェクト生成。 これら4つのベンチマークで広範な研究が行われ、リアルな3dビジョンにおける新しい観察、挑戦、将来の研究の機会が明らかになった。

Recent advances in modeling 3D objects mostly rely on synthetic datasets due to the lack of large-scale realscanned 3D databases. To facilitate the development of 3D perception, reconstruction, and generation in the real world, we propose OmniObject3D, a large vocabulary 3D object dataset with massive high-quality real-scanned 3D objects. OmniObject3D has several appealing properties: 1) Large Vocabulary: It comprises 6,000 scanned objects in 190 daily categories, sharing common classes with popular 2D datasets (e.g., ImageNet and LVIS), benefiting the pursuit of generalizable 3D representations. 2) Rich Annotations: Each 3D object is captured with both 2D and 3D sensors, providing textured meshes, point clouds, multiview rendered images, and multiple real-captured videos. 3) Realistic Scans: The professional scanners support highquality object scans with precise shapes and realistic appearances. With the vast exploration space offered by OmniObject3D, we carefully set up four evaluation tracks: a) robust 3D perception, b) novel-view synthesis, c) neural surface reconstruction, and d) 3D object generation. Extensive studies are performed on these four benchmarks, revealing new observations, challenges, and opportunities for future research in realistic 3D vision.
翻訳日:2023-04-12 18:20:42 公開日:2023-04-11
# 偏光からのイベントベース形状

Event-based Shape from Polarization ( http://arxiv.org/abs/2301.06855v2 )

ライセンス: Link先を確認
Manasi Muglikar, Leonard Bauersfeld, Diederik Paul Moeys, Davide Scaramuzza(参考訳) SfP(Shape-from-Polarization)の最先端のソリューションは、フレームレートの制約によって測定された偏極角の数を犠牲にするか、長い取得時間を必要とします。 私たちはイベントカメラを使ってこのトレードオフに取り組む。 イベントカメラはマイクロ秒の解像度で動作し、時間の経過とともに光が非同期にどのように変化するかを正確に測定する連続的なイベントストリームを出力する。 本研究では,イベントカメラの前で高速回転する線形偏光子からなるセットアップを提案する。 本手法では, 回転による連続イベントストリームを用いて, 複数の偏光子角度で相対強度を復元する。 実験により,本手法はフレームを用いた物理ベースラインよりも優れた性能を示し,合成および実世界のデータセットにおいてMAEを25%削減する。 しかし、現実の世界では、難解な条件(事象がほとんど発生しない場合)が物理学に基づく解のパフォーマンスを損なうことが観察される。 これを解決するために,低イベントレートでも表面の正規性を推定し,物理に基づくアプローチを実世界のデータセット上で52%改善する学習ベースアプローチを提案する。 提案システムは,空間解像度1MPを維持しつつ,50fps(→商用偏光センサのフレームレート2倍)の取得速度を実現する。 我々の評価は、イベントベースのSfPのための最初の大規模データセットに基づいている。

State-of-the-art solutions for Shape-from-Polarization (SfP) suffer from a speed-resolution tradeoff: they either sacrifice the number of polarization angles measured or necessitate lengthy acquisition times due to framerate constraints, thus compromising either accuracy or latency. We tackle this tradeoff using event cameras. Event cameras operate at microseconds resolution with negligible motion blur, and output a continuous stream of events that precisely measures how light changes over time asynchronously. We propose a setup that consists of a linear polarizer rotating at high-speeds in front of an event camera. Our method uses the continuous event stream caused by the rotation to reconstruct relative intensities at multiple polarizer angles. Experiments demonstrate that our method outperforms physics-based baselines using frames, reducing the MAE by 25% in synthetic and real-world dataset. In the real world, we observe, however, that the challenging conditions (i.e., when few events are generated) harm the performance of physics-based solutions. To overcome this, we propose a learning-based approach that learns to estimate surface normals even at low event-rates, improving the physics-based approach by 52% on the real world dataset. The proposed system achieves an acquisition speed equivalent to 50 fps (>twice the framerate of the commercial polarization sensor) while retaining the spatial resolution of 1MP. Our evaluation is based on the first large-scale dataset for event-based SfP
翻訳日:2023-04-12 18:20:19 公開日:2023-04-11
# 誰が予測すべきか? 人間に推論する学習のための厳密なアルゴリズム

Who Should Predict? Exact Algorithms For Learning to Defer to Humans ( http://arxiv.org/abs/2301.06197v2 )

ライセンス: Link先を確認
Hussein Mozannar, Hunter Lang, Dennis Wei, Prasanna Sattigeri, Subhro Das, David Sontag(参考訳) 自動AI分類器は、より正確な予測を保証するために、人間の意思決定者に予測を推論することができるべきである。 本研究では,分類器とリジェクタを共同で訓練し,分類器が予測すべきか否かを各データポイントで決定する。 従来のアプローチでは,誤差ゼロの線形分類器やリジェクタ(実現可能な設定)が存在する場合でも,誤分類誤差の低いヒューマンaiシステムを見つけることができない。 誤差の低い線形対を得るには、問題が実現可能であってもNPハードであることが証明される。 この負の結果を補完するために、線形設定で問題を最適に解決できる混合整数線形プログラミング(milp)式を与える。 しかし、MILPは中程度の問題にしかスケールしない。 そこで,本研究では,実現可能で,実証的にも良好に機能する新しい代理損失関数を提案する。 私たちは、包括的なデータセットセットでアプローチをテストし、幅広いベースラインと比較します。

Automated AI classifiers should be able to defer the prediction to a human decision maker to ensure more accurate predictions. In this work, we jointly train a classifier with a rejector, which decides on each data point whether the classifier or the human should predict. We show that prior approaches can fail to find a human-AI system with low misclassification error even when there exists a linear classifier and rejector that have zero error (the realizable setting). We prove that obtaining a linear pair with low error is NP-hard even when the problem is realizable. To complement this negative result, we give a mixed-integer-linear-programming (MILP) formulation that can optimally solve the problem in the linear setting. However, the MILP only scales to moderately-sized problems. Therefore, we provide a novel surrogate loss function that is realizable-consistent and performs well empirically. We test our approaches on a comprehensive set of datasets and compare to a wide range of baselines.
翻訳日:2023-04-12 18:19:03 公開日:2023-04-11
# 振動強い結合下での絡み合った分子集合におけるキャビティ触媒水素移動ダイナミクス

Cavity-Catalyzed Hydrogen Transfer Dynamics in an Entangled Molecular Ensemble under Vibrational Strong Coupling ( http://arxiv.org/abs/2301.04074v3 )

ライセンス: Link先を確認
Eric W. Fischer, Peter Saalfrank(参考訳) マイクロキャビティは分子振動と量子化されたキャビティモードとの強い結合によって分子アンサンブルの反応性に影響を与えることが示されている。 このようなシナリオの量子力学的処理では、単一の分子とスケール化された、効果的な分子-キャビティ相互作用や、単純化されたモデルハミルトニアンによるオルタナブルモデルが頻繁に用いられる。 本研究では,振動強結合(vsc)条件下で水素移動を行うチオアセチルアセトン(taa)分子のアンサンブルにおける空洞誘起量子力学を研究するため,ビブロ・ポーラニオン化学にポーリ・フィエルツ・ハミルトニアンのアンサンブル変種を適用し,基礎となる時間依存シュル・オディンガー方程式を数値的に解いた。 単一分子を単一キャビティモードに結合させることから、キャビティはエノールからエンチオールへの水素移動を実際に強制し、光-物質相互作用の強さによって移動速度が著しく増加することを示した。 この空洞の反応速度に対する正の効果は、これまでのいくつかのシステムと異なり、空洞の反応速度に対する再ターディング効果が発見された。 空洞の「触媒」は仮想光子の分子への移動による反応であると考えられている。 同じ概念は、1つのキャビティモードに最大$n=20$のtaa分子を結合したアンサンブルにも適用される。 後者は、フォン・ノイマン-エントロピーによって定量化されるアンサンブルの複雑な絡み合いダイナミクスに遡る。 アンサンブルサイズに対する力学の非自明な依存は、明らかにスケールした単一分子モデルを超えており、N$が増加するにつれて、マルチモード Rabi からシステムバス型状態への遷移として解釈される。

Microcavities have been shown to influence the reactivity of molecular ensembles by strong coupling of molecular vibrations to quantized cavity modes. In quantum mechanical treatments of such scenarios, frequently idealized models with single molecules and scaled, effective molecule-cavity interactions or alternatively ensemble models with simplified model Hamiltonians are used. In this work, we go beyond these models by applying an ensemble variant of the Pauli-Fierz Hamiltonian for vibro-polaritonic chemistry and numerically solve the underlying time-dependent Schr\"odinger equation to study the cavity-induced quantum dynamics in an ensemble of thioacetylacetone (TAA) molecules undergoing hydrogen transfer under vibrational strong coupling (VSC) conditions. Beginning with a single molecule coupled to a single cavity mode, we show that the cavity indeed enforces hydrogen transfer from an enol to an enethiol configuration with transfer rates significantly increasing with light-matter interaction strength. This positive effect of the cavity on reaction rates is different from several other systems studied so far, where a retarding effect of the cavity on rates was found. It is argued that the cavity ``catalyzes'' the reaction by transfer of virtual photons to the molecule. The same concept applies to ensembles with up to $N=20$ TAA molecules coupled to a single cavity mode, where an additional, significant, ensemble-induced collective isomerization rate enhancement is found. The latter is traced back to complex entanglement dynamics of the ensemble, which we quantify by means of von Neumann-entropies. A non-trivial dependence of the dynamics on ensemble size is found, clearly beyond scaled single-molecule models, which we interpret as transition from a multi-mode Rabi to a system-bath-type regime as $N$ increases.
翻訳日:2023-04-12 18:18:48 公開日:2023-04-11
# 衝突型貯水池の熱処理と脱落

Thermalization and dephasing in collisional reservoirs ( http://arxiv.org/abs/2302.06429v3 )

ライセンス: Link先を確認
Jorge Tabanera-Bravo, Juan M.R. Parrondo, Massimiliano Esposito, Felipe Barra(参考訳) 衝突貯水池で発生する幅広い量子マップを導入し,追加のデファッショニング機構と連動して動作する場合,システムを熱分解することができる。 これらの地図は衝突の影響を記述し、詳細なバランスに従う集団間の遷移を誘導するだけでなく、システムの熱化を防ぐコヒーレンスも生成する。 これらの地図と、衝突の間のポアソニアン時間のランダムに作用するユニタリ進化を組み合わせることで、デファスメントを引き起こす。 衝突率が低ければ、この2つの効果の非自明な組み合わせが系の熱化を引き起こすことが分かる。 このシナリオは平衡での衝突貯水池のモデル化に適している。 このような写像が散乱理論のアプローチで生じる条件を特定してこの主張を正当化し、得られた熱化過程を徹底的に評価する。

We introduce a wide class of quantum maps that arise in collisional reservoirs and are able to thermalize a system if they operate in conjunction with an additional dephasing mechanism. These maps describe the effect of collisions and induce transitions between populations that obey detailed balance, but also create coherences that prevent the system from thermalizing. We combine these maps with a unitary evolution acting during random Poissonian times between collisions and causing dephasing. We find that, at a low collision rate, the nontrivial combination of these two effects causes thermalization in the system. This scenario is suitable for modeling collisional reservoirs at equilibrium. We justify this claim by identifying the conditions for such maps to arise within a scattering theory approach and provide a thorough characterization of the resulting thermalization process.
翻訳日:2023-04-12 18:11:45 公開日:2023-04-11
# 修正条件付きt-sne:最寄りの近傍を見渡す

Revised Conditional t-SNE: Looking Beyond the Nearest Neighbors ( http://arxiv.org/abs/2302.03493v2 )

ライセンス: Link先を確認
Edith Heiter, Bo Kang, Ruth Seurinck, Jefrey Lijffijt(参考訳) Conditional t-SNE (ct-SNE) は t-SNE の最近の拡張で、既知のクラスタ情報を埋め込みから取り除き、ラベル情報以外の可視化構造が得られる。 これは例えば、クラスのセット間の望ましくない違いを解決したい場合に便利である。 その結果、ct-sneは多くの現実的な設定、すなわちデータが元の高次元空間のラベル上によくクラスター化されている場合に失敗することが分かった。 我々は,低次元の類似性の代わりに高次元の類似性を条件付けし,近辺と近辺を別々に保存する改良手法を提案する。 これにより、最近提案されたt-SNEのスピードアップが利用可能になり、スケーラビリティが向上した。 合成データ実験から,提案手法は検討された課題を解決し,組込み品質を向上することがわかった。 バッチ効果を含む実データでは、期待される改善が常に存在するとは限らない。 スケーラビリティが向上していることから,ct-sneの改訂が全体として望ましいと論じる。 結果はまた、クラスタ間の距離変化を処理する方法など、新しいオープンな質問も強調している。

Conditional t-SNE (ct-SNE) is a recent extension to t-SNE that allows removal of known cluster information from the embedding, to obtain a visualization revealing structure beyond label information. This is useful, for example, when one wants to factor out unwanted differences between a set of classes. We show that ct-SNE fails in many realistic settings, namely if the data is well clustered over the labels in the original high-dimensional space. We introduce a revised method by conditioning the high-dimensional similarities instead of the low-dimensional similarities and storing within- and across-label nearest neighbors separately. This also enables the use of recently proposed speedups for t-SNE, improving the scalability. From experiments on synthetic data, we find that our proposed method resolves the considered problems and improves the embedding quality. On real data containing batch effects, the expected improvement is not always there. We argue revised ct-SNE is preferable overall, given its improved scalability. The results also highlight new open questions, such as how to handle distance variations between clusters.
翻訳日:2023-04-12 18:11:30 公開日:2023-04-11
# out-of-distribution (ood) 検出の再検討: マスク付きイメージモデリングは必要なだけ

Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is All You Need ( http://arxiv.org/abs/2302.02615v2 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Shaozuo Yu, Zexin He, Shu Liu, Jiaya Jia(参考訳) out-of-distribution (ood) 検出の中核は、ood サンプルと区別可能な in-distribution (id) 表現を学ぶことである。 従来の研究は、包括的表現の代わりにショートカットを学習する傾向があるID特徴を学習するための認識に基づく手法を適用していた。 本研究は, 簡単な再構成手法を用いることでOOD検出性能が著しく向上することを示す。 我々は,OOD検出の主なコントリビュータを深く掘り下げ,再構成に基づくプレテキストタスクが,一般的に適用可能で効果的な事前情報を提供する可能性を秘め,IDデータセットの本質的なデータ分布を学習するモデルに有効であることを示す。 具体的には、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、Masked Image Modelingを取り上げます。 ベルとホイッスルがなければ、MOODは1級のOOD検出の5.7%、多級のOOD検出の3.0%、ほぼ分布のOOD検出の2.1%において、以前のSOTAよりも優れていた。 OOD検出にはOODサンプルは含まれていませんが、クラス別10ショットのOOD露光を破ります。

The core of out-of-distribution (OOD) detection is to learn the in-distribution (ID) representation, which is distinguishable from OOD samples. Previous work applied recognition-based methods to learn the ID features, which tend to learn shortcuts instead of comprehensive representations. In this work, we find surprisingly that simply using reconstruction-based methods could boost the performance of OOD detection significantly. We deeply explore the main contributors of OOD detection and find that reconstruction-based pretext tasks have the potential to provide a generally applicable and efficacious prior, which benefits the model in learning intrinsic data distributions of the ID dataset. Specifically, we take Masked Image Modeling as a pretext task for our OOD detection framework (MOOD). Without bells and whistles, MOOD outperforms previous SOTA of one-class OOD detection by 5.7%, multi-class OOD detection by 3.0%, and near-distribution OOD detection by 2.1%. It even defeats the 10-shot-per-class outlier exposure OOD detection, although we do not include any OOD samples for our detection
翻訳日:2023-04-12 18:11:13 公開日:2023-04-11
# フォン・ノイマン代数の型分類に関する注記

Notes on the type classification of von Neumann algebras ( http://arxiv.org/abs/2302.01958v2 )

ライセンス: Link先を確認
Jonathan Sorce(参考訳) これらのノートはフォン・ノイマン代数の型分類の説明であり、近年の量子場論と量子重力の絡み合いに関する研究で多くの言及がなされている。 目標は、専門家でない読者には技術的すぎるリソースと、正確な定義を与えずに理論の幅広い直観を説明しようとするリソースの間の文学のギャップを埋めることである。 これらのメモを読むと (i)なぜ「因子」が研究すべき基本フォン・ノイマン代数であるのかという議論。 (二)非正規化正作用素を「有効密度行列」に変換する正規化スキームにおける因子の型分類の直観的説明 (iii) ファクター上の許容トレースの観点で、異なる種類の再正規化スキームの数学的説明 (iv)「標準形」という観点からのi型及びii型要因の直感的特徴付け及び (v) 型分類とモジュラー理論の間の興味深い関係の一覧で、なぜ型III$_1$因子が場の量子論において関連するものと考えられるのかという議論を含む。 これはChandrasekaran氏、Longo氏、Penington氏、Witten氏による最近の重力に関する最近の研究とよく似ている。

These notes provide an explanation of the type classification of von Neumann algebras, which has made many appearances in recent work on entanglement in quantum field theory and quantum gravity. The goal is to bridge a gap in the literature between resources that are too technical for the non-expert reader, and resources that seek to explain the broad intuition of the theory without giving precise definitions. Reading these notes will provide you with: (i) an argument for why "factors" are the fundamental von Neumann algebras that one needs to study; (ii) an intuitive explanation of the type classification of factors in terms of renormalization schemes that turn unnormalizable positive operators into "effective density matrices;" (iii) a mathematical explanation of the different types of renormalization schemes in terms of the allowed traces on a factor; (iv) an intuitive characterization of type I and II factors in terms of their "standard forms;" and (v) a list of some interesting connections between type classification and modular theory, including the argument for why type III$_1$ factors are believed to be the relevant ones in quantum field theory. None of the material is new, but the pedagogy is different from other sources I have read; it is most similar in spirit to the recent work on gravity and the crossed product by Chandrasekaran, Longo, Penington, and Witten.
翻訳日:2023-04-12 18:10:49 公開日:2023-04-11
# 深層学習における勾配降下ダイナミクスと不安定性の連続時間モデルについて

On a continuous time model of gradient descent dynamics and instability in deep learning ( http://arxiv.org/abs/2302.01952v2 )

ライセンス: Link先を確認
Mihaela Rosca and Yan Wu and Chongli Qin and Benoit Dherin(参考訳) ディープラーニングの成功の背景にあるレシピは、ニューラルネットワークと勾配に基づく最適化の組み合わせだ。 しかし、勾配降下の挙動、特に不安定性を理解することは、その経験的成功を後押ししている。 勾配降下の研究に利用可能な理論ツールに加え、勾配降下ダイナミクスを近似した連続時間流である主流れ(PF)を提案する。 我々の知る限り、PFは局所的なミニマ点やサドル点からの脱出を含む勾配降下の発散と振動の挙動を捉える唯一の連続流である。 ヘッセンの固有分解への依存を通じて、PFは深層学習において最近観測された安定性現象の端に光を放つ。 不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。

The recipe behind the success of deep learning has been the combination of neural networks and gradient-based optimization. Understanding the behavior of gradient descent however, and particularly its instability, has lagged behind its empirical success. To add to the theoretical tools available to study gradient descent we propose the principal flow (PF), a continuous time flow that approximates gradient descent dynamics. To our knowledge, the PF is the only continuous flow that captures the divergent and oscillatory behaviors of gradient descent, including escaping local minima and saddle points. Through its dependence on the eigendecomposition of the Hessian the PF sheds light on the recently observed edge of stability phenomena in deep learning. Using our new understanding of instability we propose a learning rate adaptation method which enables us to control the trade-off between training stability and test set evaluation performance.
翻訳日:2023-04-12 18:10:28 公開日:2023-04-11
# 予算とROI制約を伴う自動車:効率性、レグレト、そしてパッシングダイナミクス

Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics ( http://arxiv.org/abs/2301.13306v2 )

ライセンス: Link先を確認
Brendan Lucier, Sarath Pattathil, Aleksandrs Slivkins, Mengxiao Zhang(参考訳) オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。 各オートバイダは、予算および/または投資のリターンの制約の下で、繰り返しオークションの複数のラウンドで広告主の総価値を最大化する。 本稿では,全ての制約を満たすことを保証する勾配に基づく学習アルゴリズムを提案する。 本アルゴリズムはバンディットフィードバックのみを使用し,第1または第2価格オークション,および任意の「中間」オークション方式で使用できる。 我々の主な成果は、これらの自走車同士が互いに対戦するとき、全てのラウンドで得られる液体の福祉は、任意のアロケーションによって達成される最適液体の福祉の少なくとも半分であるということである。 これは、入札ダイナミクスが、広告主のバリュエーション間の相関構造によらず、均衡に収束するかどうかを議論する。

We study a game between autobidding algorithms that compete in an online advertising platform. Each autobidder is tasked with maximizing its advertiser's total value over multiple rounds of a repeated auction, subject to budget and/or return-on-investment constraints. We propose a gradient-based learning algorithm that is guaranteed to satisfy all constraints and achieves vanishing individual regret. Our algorithm uses only bandit feedback and can be used with the first- or second-price auction, as well as with any "intermediate" auction format. Our main result is that when these autobidders play against each other, the resulting expected liquid welfare over all rounds is at least half of the expected optimal liquid welfare achieved by any allocation. This holds whether or not the bidding dynamics converges to an equilibrium and regardless of the correlation structure between advertiser valuations.
翻訳日:2023-04-12 18:10:15 公開日:2023-04-11
# アルゴンの周波数依存性双極子偏光率の第一原理計算

First-principles calculation of the frequency-dependent dipole polarizability of argon ( http://arxiv.org/abs/2301.12502v2 )

ライセンス: Link先を確認
Micha{\l} Lesiuk and Bogumi{\l} Jeziorski(参考訳) 本研究では、アルゴン原子の双極子分極性に関する最新理論計算を報告する。 偏光率の周波数依存性は分散係数(コーシー係数)によって考慮され、これは第一共振周波数以下で実験的に関連する波長に十分である。 理論的な枠組みでは、相対論的、量子電磁力学、有限核質量、有限核サイズの補正を含む全ての既知の物理効果が説明される。 第2および第4の分散係数に対してそれぞれ$\alpha_0=11.0763(19)$と$\alpha_2=27.976(15)$および$\alpha_4=95.02(11)$を得た。 静的偏光率について得られた結果は、最新の実験データ(C. Gaiser and B. Fellmuth, Phys. Rev. 120, 123203 (2018))と一致しているが、精度は低い。 この研究で決定された分散係数は文献において最も正確であり、以前の推定値よりも1桁以上改善されている。 静的偏光率の実験的値と計算結果の分散係数を組み合わせることで、約450,$nm以上の波長に対して約10,$ppmの精度でアルゴンの偏光率を計算することができる。 この結果は量子メトロロジーの観点から、特に気体アルゴンの熱物性に基づく新しい圧力標準に関して重要である。 さらに, 本研究では, 希薄アルゴンガスの屈折率とその圧力に関連するアルゴンの静的磁化率を計算する。 この量の結果は偏光率よりも精度が低いが、ロレンツ・ローレンツの公式により、アルゴンの屈折率の最良の理論的推定値が得られる。

In this work we report state-of-the-art theoretical calculations of the dipole polarizability of the argon atom. Frequency dependence of the polarizability is taken into account by means of the dispersion coefficients (Cauchy coefficients) which is sufficient for experimentally relevant wavelengths below the first resonant frequency. In the proposed theoretical framework, all known physical effects including the relativistic, quantum electrodynamics, finite nuclear mass, and finite nuclear size corrections are accounted for. We obtained $\alpha_0=11.0763(19)$ for the static polarizability and $\alpha_2=27.976(15)$ and $\alpha_4=95.02(11)$ for the second and fourth dispersion coefficients, respectively. The result obtained for the static polarizability agrees (within the estimated uncertainty) with the most recent experimental data [C. Gaiser and B. Fellmuth, Phys. Rev. Lett. 120, 123203 (2018)], but is less accurate. The dispersion coefficients determined in this work appear to be most accurate in the literature, improving by more than an order of magnitude upon previous estimates. By combining the experimentally determined value of the static polarizability with the dispersion coefficients from our calculations, the polarizability of argon can be calculated with accuracy of around $10\,$ppm for wavelengths above roughly $450\,$nm. This result is important from the point of view of quantum metrology, especially for a new pressure standard based on thermophysical properties of gaseous argon. Additionally, in this work we calculate the static magnetic susceptibility of argon which relates the refractive index of dilute argon gas with its pressure. While our results for this quantity are less accurate than in the case of the polarizability, they can provide, via Lorenz-Lorentz formula, the best available theoretical estimate of the refractive index of argon.
翻訳日:2023-04-12 18:09:42 公開日:2023-04-11
# 製品のためのデータ駆動型インテリジェント計算設計:方法、技術、応用

Data-driven intelligent computational design for products: Method, techniques, and applications ( http://arxiv.org/abs/2301.12382v2 )

ライセンス: Link先を確認
Maolin Yang, Pingyu Jiang, Tianshuo Zang, Yuhao Liu(参考訳) data-driven intelligent computational design (dicd) は、高速な人工知能のコンテキスト下で出現した研究ホットスポットである。 ディープラーニングアルゴリズムを活用して、歴史的または製造された設計プロセスデータに隠されたデザイン特徴を抽出し、表現し、設計ソリューションの検索、生成、最適化、評価などのためにこれらのデザイン特徴の組み合わせとマッピングパターンを学ぶ。 自動的かつ効率的に設計ソリューションを生成できる能力と、人力によるインテリジェントで革新的な設計活動を支援する能力から、dcdは学術分野と産業分野の両方から注目を集めてきた。 しかし、新たな研究課題として、具体的なデータセット構築、エンジニアリングデザインに関連する機能工学、製品設計プロセス全体におけるdicd実装のための体系的手法と技術など、dicdの開発と適用を制限する多くの未検討の課題が残っている。 この点に関して、DICDプロジェクト計画の一般的なワークフロー、DICDプロジェクト実装の全体的なフレームワーク、DICD実装のコンピューティングメカニズム、詳細なDICD実装のための重要な実現技術、DICDの3つのアプリケーションシナリオを含む、フルプロセスの観点からDICD実装のための体系的で実行可能なロードマップが確立されている。 road map は既存の dicd 研究の共通機構と計算原理を明らかにしており、探索されていない dicd 応用について体系的なガイダンスを提供することができる。

Data-driven intelligent computational design (DICD) is a research hotspot emerged under the context of fast-developing artificial intelligence. It emphasizes on utilizing deep learning algorithms to extract and represent the design features hidden in historical or fabricated design process data, and then learn the combination and mapping patterns of these design features for the purposes of design solution retrieval, generation, optimization, evaluation, etc. Due to its capability of automatically and efficiently generating design solutions and thus supporting human-in-the-loop intelligent and innovative design activities, DICD has drawn the attentions from both academic and industrial fields. However, as an emerging research subject, there are still many unexplored issues that limit the development and application of DICD, such as specific dataset building, engineering design related feature engineering, systematic methods and techniques for DICD implementation in the entire product design process, etc. In this regard, a systematic and operable road map for DICD implementation from full-process perspective is established, including a general workflow for DICD project planning, an overall framework for DICD project implementation, the computing mechanisms for DICD implementation, key enabling technologies for detailed DICD implementation, and three application scenarios of DICD. The road map reveals the common mechanisms and calculation principles of existing DICD researches, and thus it can provide systematic guidance for the possible DICD applications that have not been explored.
翻訳日:2023-04-12 18:09:07 公開日:2023-04-11
# twitterにまた1日:24時間分のtwitterデータ

Just Another Day on Twitter: A Complete 24 Hours of Twitter Data ( http://arxiv.org/abs/2301.11429v2 )

ライセンス: Link先を確認
Juergen Pfeffer, Daniel Matter, Kokil Jaidka, Onur Varol, Afra Mashhadi, Jana Lasser, Dennis Assenmacher, Siqi Wu, Diyi Yang, Cornelia Brantner, Daniel M. Romero, Jahna Otterbacher, Carsten Schwemmer, Kenneth Joseph, David Garcia, Fred Morstatter(参考訳) 2022年10月末、イーロン・マスクはTwitterの買収を完了した。 その前の数週間と数ヶ月の間に、プラットフォームの将来的な購入者にとって関心があるだけでなく、計算社会科学研究コミュニティに高い関連性を持ついくつかの質問が公に議論された。 例えば、このプラットフォームにはアクティブユーザー数がありますか? サイト上のアカウントの何%がボットか? そして、プラットフォームで主要なトピックとサブトピックの球体は何ですか? 世界中に80人の学者が協力してこれらの疑問に光を当て、他の研究者に同じことをするデータセットを提供するために、私たちは2022年9月21日から24時間以内に3億7500万件のツイートを収集しました。 私たちの知る限りでは、これは研究コミュニティで利用可能な最初の24時間twitterデータセットです。 本研究は2つの目標を達成することを目的としている。 まず、上記の質問に答え、他の研究者の参考となるTwitterに関する説明的な指標を提供しようとしています。 第二に、将来の研究のためのベースラインデータセットを作成し、プラットフォームのオーナシップ変更による潜在的影響を研究するために使用します。

At the end of October 2022, Elon Musk concluded his acquisition of Twitter. In the weeks and months before that, several questions were publicly discussed that were not only of interest to the platform's future buyers, but also of high relevance to the Computational Social Science research community. For example, how many active users does the platform have? What percentage of accounts on the site are bots? And, what are the dominating topics and sub-topical spheres on the platform? In a globally coordinated effort of 80 scholars to shed light on these questions, and to offer a dataset that will equip other researchers to do the same, we have collected all 375 million tweets published within a 24-hour time period starting on September 21, 2022. To the best of our knowledge, this is the first complete 24-hour Twitter dataset that is available for the research community. With it, the present work aims to accomplish two goals. First, we seek to answer the aforementioned questions and provide descriptive metrics about Twitter that can serve as references for other researchers. Second, we create a baseline dataset for future research that can be used to study the potential impact of the platform's ownership change.
翻訳日:2023-04-12 18:08:42 公開日:2023-04-11
# 2次元システムとしての畳み込みニューラルネットワーク

Convolutional Neural Networks as 2-D systems ( http://arxiv.org/abs/2303.03042v2 )

ライセンス: Link先を確認
Dennis Gramlich, Patricia Pauli, Carsten W. Scherer, Frank Allg\"ower and Christian Ebenbauer(参考訳) 本稿では,2次元力学系における畳み込みニューラルネットワーク(CNN)の新たな表現法を提案する。 この目的のために、線形フィルタのインパルス応答である畳み込みカーネルを用いた畳み込み層の通常の記述は、線形時間不変な2次元システムとして状態空間で実現される。 畳み込み層と非線形活性化関数からなる全体的な畳み込みニューラルネットワークは、Lur'eシステムの2次元バージョン、すなわち静的な非線形成分と相互接続された線形力学系と見なされる。 CNNにおけるこの 2-D Lur'e 系の観点の利点の1つは、より効率的にロバスト制御理論をリプシッツ定数推定に利用できることである。

This paper introduces a novel representation of convolutional Neural Networks (CNNs) in terms of 2-D dynamical systems. To this end, the usual description of convolutional layers with convolution kernels, i.e., the impulse responses of linear filters, is realized in state space as a linear time-invariant 2-D system. The overall convolutional Neural Network composed of convolutional layers and nonlinear activation functions is then viewed as a 2-D version of a Lur'e system, i.e., a linear dynamical system interconnected with static nonlinear components. One benefit of this 2-D Lur'e system perspective on CNNs is that we can use robust control theory much more efficiently for Lipschitz constant estimation than previously possible.
翻訳日:2023-04-12 18:02:35 公開日:2023-04-11
# synthaspoof: プライバシフレンドリな合成データに基づく顔提示攻撃検出の開発

SynthASpoof: Developing Face Presentation Attack Detection Based on Privacy-friendly Synthetic Data ( http://arxiv.org/abs/2303.02660v2 )

ライセンス: Link先を確認
Meiling Fang and Marco Huber and Naser Damer(参考訳) 近年,複数の顔PADデータセットが利用可能であることから,顔認識システムによる提示攻撃に対する防御を目的とした顔提示攻撃検出(PAD)が大幅に進歩している。 しかし、すべての利用可能なデータセットは、限られた数の被験者を持つプライバシーと法的に敏感な認証バイオメトリックデータに基づいている。 これらの法的および技術的な課題をターゲットにするため、本研究は大規模パッド開発データセットとしてsynthaspoofと呼ばれる最初の合成ベースのフェイスパッドデータセットを提示する。 synthaspoof中のbonafideサンプルを合成生成し、そのような合成データを提示して攻撃サンプルを収集し、実際の攻撃シナリオでシステムをキャプチャする。 フェースパドの開発にSynthaspoofを用いることが可能であることを示す実験結果を得た。 さらに、ドメイン一般化ツールMixStyleをPADソリューションに組み込むことで、そのようなソリューションの性能を向上させる。 さらに,限られた訓練データの多様性を高め,PAD性能を継続的に向上するために,合成データを利用したサプリメントの有効性を示した。 25,000のボナフィドと78,800の攻撃サンプルを含むSynthASpoofデータセットの実装と事前訓練された重量が公開されている。

Recently, significant progress has been made in face presentation attack detection (PAD), which aims to secure face recognition systems against presentation attacks, owing to the availability of several face PAD datasets. However, all available datasets are based on privacy and legally-sensitive authentic biometric data with a limited number of subjects. To target these legal and technical challenges, this work presents the first synthetic-based face PAD dataset, named SynthASpoof, as a large-scale PAD development dataset. The bona fide samples in SynthASpoof are synthetically generated and the attack samples are collected by presenting such synthetic data to capture systems in a real attack scenario. The experimental results demonstrate the feasibility of using SynthASpoof for the development of face PAD. Moreover, we boost the performance of such a solution by incorporating the domain generalization tool MixStyle into the PAD solutions. Additionally, we showed the viability of using synthetic data as a supplement to enrich the diversity of limited authentic training data and consistently enhance PAD performances. The SynthASpoof dataset, containing 25,000 bona fide and 78,800 attack samples, the implementation, and the pre-trained weights are made publicly available.
翻訳日:2023-04-12 18:02:22 公開日:2023-04-11
# 連続時間遅れシステムのニューラルラプラス制御

Neural Laplace Control for Continuous-time Delayed Systems ( http://arxiv.org/abs/2302.12604v2 )

ライセンス: Link先を確認
Samuel Holt, Alihan H\"uy\"uk, Zhaozhi Qian, Hao Sun, Mihaela van der Schaar(参考訳) 実世界のオフライン強化学習(rl)問題の多くは、遅延を伴う連続時間環境を伴う。 第一に、状態 x(t) は不規則な時間間隔で観測され、第二に、現在の動作 a(t) は、未知の遅延 g > 0 を持つ将来の状態 x(t + g) にのみ影響する。 そのような環境の典型的な例は、地球と衛星間の通信リンクが不規則な観測と遅延を引き起こす衛星制御である。 既存のオフラインRLアルゴリズムは、不規則に観測された状態や既知の遅延のある環境で成功している。 しかしながら、不規則な観測時間と未知の遅延の両方を含む環境は、オープンで困難な問題である。 そこで本研究では,ニューラルラプラスダイナミクスモデルとモデル予測制御(mpc)プランナーを組み合わせた,連続時間モデルに基づくオフラインrl手法であるneural laplace controlを提案する。 専門家の政策性能に近い連続的な遅延環境を実験的に示す。

Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed at irregular time intervals, and secondly, the current action a(t) only affects the future state x(t + g) with an unknown delay g > 0. A prime example of such an environment is satellite control where the communication link between earth and a satellite causes irregular observations and delays. Existing offline RL algorithms have achieved success in environments with irregularly observed states in time or known delays. However, environments involving both irregular observations in time and unknown delays remains an open and challenging problem. To this end, we propose Neural Laplace Control, a continuous-time model-based offline RL method that combines a Neural Laplace dynamics model with a model predictive control (MPC) planner--and is able to learn from an offline dataset sampled with irregular time intervals from an environment that has a inherent unknown constant delay. We show experimentally on continuous-time delayed environments it is able to achieve near expert policy performance.
翻訳日:2023-04-12 18:02:01 公開日:2023-04-11
# DisCO:3D GANを用いた画像歪み補正

DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs ( http://arxiv.org/abs/2302.12253v2 )

ライセンス: Link先を確認
Zhixiang Wang, Yu-Lun Liu, Jia-Bin Huang, Shin'ichi Satoh, Sizhuo Ma, Gurunandan Krishnan, Jian Wang(参考訳) 短い距離で撮影されたクローズアップ顔画像は、しばしば視点歪みに悩まされ、誇張された顔の特徴と非自然な外観をもたらす。 本論文では,単一クローズアップ面における遠近歪みを簡易かつ効果的に補正する手法を提案する。 まず,カメラ内在/外在パラメータと顔潜在コードを共同で最適化し,遠近差入力顔画像を用いてganインバージョンを行う。 協調最適化の曖昧さに対処するために,最適化スケジューリング,焦点長再パラメータ化,近距離からの出発,幾何正規化を開発した。 適切な焦点距離とカメラ距離でポートレートを再レンダリングすることで、視点歪みを効果的に補正し、より自然な結果が得られる。 実験の結果,提案手法は従来手法と定性的,定量的に比較できることがわかった。 野生のポートレート写真に本手法の適用性を検証するサンプルを多数紹介した。 我々は,今後の作業を促進するために,システムと評価プロトコルをリリースする。

Close-up facial images captured at short distances often suffer from perspective distortion, resulting in exaggerated facial features and unnatural/unattractive appearances. We propose a simple yet effective method for correcting perspective distortions in a single close-up face. We first perform GAN inversion using a perspective-distorted input facial image by jointly optimizing the camera intrinsic/extrinsic parameters and face latent code. To address the ambiguity of joint optimization, we develop optimization scheduling, focal length reparametrization, starting from a short distance, and geometric regularization. Re-rendering the portrait at a proper focal length and camera distance effectively corrects perspective distortions and produces more natural-looking results. Our experiments show that our method compares favorably against previous approaches qualitatively and quantitatively. We showcase numerous examples validating the applicability of our method on portrait photos in the wild. We will release our system and the evaluation protocol to facilitate future work.
翻訳日:2023-04-12 18:01:42 公開日:2023-04-11
# UniXGen:マルチビュー胸部X線生成とレポート生成のための統合ビジョン言語モデル

UniXGen: A Unified Vision-Language Model for Multi-View Chest X-ray Generation and Report Generation ( http://arxiv.org/abs/2302.12172v4 )

ライセンス: Link先を確認
Hyungyung Lee, Da Young Lee, Wonjae Kim, Jin-Hwa Kim, Tackeun Kim, Jihang Kim, Leonard Sunwoo, Edward Choi(参考訳) 医学研究で生成された合成データは、プライバシとセキュリティに敏感なデータを大規模にキュレートされたデータセットに置き換え、データ収集とアノテーションのコストを削減できる。 この取り組みの一環として,統合胸部X線および報告生成モデルであるUniXGenを提案する。 まず,胸部x線を離散視覚トークンに識別するベクトル量子化法を採用し,両タスクをシーケンス生成タスクとして定式化することにより,双方向胸部x線とレポート生成のための統一モデルを設計する。 第2に,所望のビューが利用できない場合に有用な,特定のビューを持つ胸部x線を生成するための特別なトークンをいくつか紹介する。 さらに、UnixGenは単一のビューから複数のビューへの様々な入力を柔軟に受け取り、他のX線ビューで利用可能な追加の発見を利用することができる。 我々は,多視点胸部X線の長距離入力シーケンスを高分解能および長文レポートで処理するために,計算およびメモリ効率の効率的な変換器を採用する。 広範な実験により,本モデルがタスク固有モデルのみを訓練するよりも,両生成タスクに相乗効果があることが確認された。 また、ビュー固有の特別なトークンは、データセットに存在しない場合でも、異なるビューを区別し、特定のビューを適切に生成することができ、マルチビュー胸部X線を利用して、追加のX線による異常な発見を忠実に捉えることができる。 ソースコードは、https://github.com/ttumyche/UniXGenで公開されている。

Generated synthetic data in medical research can substitute privacy and security-sensitive data with a large-scale curated dataset, reducing data collection and annotation costs. As part of this effort, we propose UniXGen, a unified chest X-ray and report generation model, with the following contributions. First, we design a unified model for bidirectional chest X-ray and report generation by adopting a vector quantization method to discretize chest X-rays into discrete visual tokens and formulating both tasks as sequence generation tasks. Second, we introduce several special tokens to generate chest X-rays with specific views that can be useful when the desired views are unavailable. Furthermore, UniXGen can flexibly take various inputs from single to multiple views to take advantage of the additional findings available in other X-ray views. We adopt an efficient transformer for computational and memory efficiency to handle the long-range input sequence of multi-view chest X-rays with high resolution and long paragraph reports. In extensive experiments, we show that our unified model has a synergistic effect on both generation tasks, as opposed to training only the task-specific models. We also find that view-specific special tokens can distinguish between different views and properly generate specific views even if they do not exist in the dataset, and utilizing multi-view chest X-rays can faithfully capture the abnormal findings in the additional X-rays. The source code is publicly available at: https://github.com/ttumyche/UniXGen.
翻訳日:2023-04-12 18:01:26 公開日:2023-04-11
# フェアガード:スマートシティにおけるハーネス論理に基づくフェアネスルール

Fairguard: Harness Logic-based Fairness Rules in Smart Cities ( http://arxiv.org/abs/2302.11137v5 )

ライセンス: Link先を確認
Yiqi Zhao, Ziyan An, Xuqing Gao, Ayan Mukhopadhyay, Meiyi Ma(参考訳) スマートシティは、大規模センサーネットワークからデータを収集、集約、活用する計算予測フレームワークで動作する。 しかし、これらのフレームワークは複数のデータソースとアルゴリズムバイアスの傾向があり、しばしば不公平な予測結果につながる。 そこで本研究では,チャタヌーガの都市データを用いて,時間的・空間的に偏差が持続することを示す。 このようなバイアスの問題を緩和するために、複雑な時間空間領域におけるスマートシティ政策調整と生成のためのマイクロレベルの時間論理に基づくアプローチであるFairguardを導入する。 Fairguardフレームワークは2つのフェーズから構成される: まず、選択した属性間の相関を最小化することにより、時間論理条件に基づいてデータのバイアスを低減できる静的ジェネレータを開発する。 次に、予測アルゴリズムの公平性を保証するために、予測結果を制御し、論理規則を利用して将来の公平な予測を生成する動的コンポーネントを設計する。 動的フェアガードは、全体的なパフォーマンスへの影響を最小限に抑えながら、実行時に保護されたグループに対する公平性を保証することができる。

Smart cities operate on computational predictive frameworks that collect, aggregate, and utilize data from large-scale sensor networks. However, these frameworks are prone to multiple sources of data and algorithmic bias, which often lead to unfair prediction results. In this work, we first demonstrate that bias persists at a micro-level both temporally and spatially by studying real city data from Chattanooga, TN. To alleviate the issue of such bias, we introduce Fairguard, a micro-level temporal logic-based approach for fair smart city policy adjustment and generation in complex temporal-spatial domains. The Fairguard framework consists of two phases: first, we develop a static generator that is able to reduce data bias based on temporal logic conditions by minimizing correlations between selected attributes. Then, to ensure fairness in predictive algorithms, we design a dynamic component to regulate prediction results and generate future fair predictions by harnessing logic rules. Evaluations show that logic-enabled static Fairguard can effectively reduce the biased correlations while dynamic Fairguard can guarantee fairness on protected groups at run-time with minimal impact on overall performance.
翻訳日:2023-04-12 18:00:59 公開日:2023-04-11
# 微粒な外科的活動認識のための時間的畳み込みネットワーク

Weakly Supervised Temporal Convolutional Networks for Fine-grained Surgical Activity Recognition ( http://arxiv.org/abs/2302.10834v2 )

ライセンス: Link先を確認
Sanat Ramesh, Diego Dall'Alba, Cristians Gonzalez, Tong Yu, Pietro Mascagni, Didier Mutter, Jacques Marescaux, Paolo Fiorini, and Nicolas Padoy(参考訳) ステップと呼ばれる細かい手術活動の自動認識は、インテリジェントな術中コンピュータ支援にとって困難な作業だが重要な課題である。 現在の視覚に基づく行動認識手法の開発は、大量の手動注釈データに大きく依存している。 このデータは生成が難しく、ドメイン固有の知識を必要とする。 本研究は,より少ないステップアノテートビデオでステップ認識を学ぶための弱い監督として,より粗く,より簡単にアノテートできるアクティビティラベル,すなわちフェーズを使用することを提案する。 弱い監視信号を利用する段階的依存損失を導入する。 次に,ResNet-50のバックボーンを備えた単一段階の時間的畳み込みネットワーク(SS-TCN)を用いて,時間的活動のセグメンテーションと認識を行う。 腹腔鏡下胃バイパス術40例と白内障手術50例を含むCATARACTSを併用した大規模ビデオデータセットにおいて,提案手法の有効性を広く評価し,検討した。

Automatic recognition of fine-grained surgical activities, called steps, is a challenging but crucial task for intelligent intra-operative computer assistance. The development of current vision-based activity recognition methods relies heavily on a high volume of manually annotated data. This data is difficult and time-consuming to generate and requires domain-specific knowledge. In this work, we propose to use coarser and easier-to-annotate activity labels, namely phases, as weak supervision to learn step recognition with fewer step annotated videos. We introduce a step-phase dependency loss to exploit the weak supervision signal. We then employ a Single-Stage Temporal Convolutional Network (SS-TCN) with a ResNet-50 backbone, trained in an end-to-end fashion from weakly annotated videos, for temporal activity segmentation and recognition. We extensively evaluate and show the effectiveness of the proposed method on a large video dataset consisting of 40 laparoscopic gastric bypass procedures and the public benchmark CATARACTS containing 50 cataract surgeries.
翻訳日:2023-04-12 18:00:41 公開日:2023-04-11
# ロングテール認識のための相互排他変調器

Mutual Exclusive Modulator for Long-Tailed Recognition ( http://arxiv.org/abs/2302.09498v2 )

ライセンス: Link先を確認
Haixu Long, Xiaolin Zhang, Yanbin Liu, Zongtai Luo, Jianbo Liu(参考訳) LTR(Long-tailed Recognition)は、カテゴリー間で非常に不均衡なトレーニングサンプルを与えられた高性能な分類器を学習するタスクである。 既存の作品の多くは、テールクラスの特徴を強化するか、帰納的バイアスを減らすために分類器を再バランスさせることでこの問題に対処している。 本稿では,LTRタスクの根本原因,すなわち,各クラスに対するトレーニングサンプルのバランスが著しく不均衡であることについて検討し,簡単な解法を提案する。 トレーニング画像の数に応じて,カテゴリを3つのグループ(多く,中,少数)に分割した。 カテゴリーの3つのグループは別々に予測され、分類の難しさを減らす。 このアイデアは自然に、与えられたサンプルを適切なクラスグループに割り当てる方法という新しい問題を引き起こします。 本稿では,各グループに属する画像の確率を推定できる相互排他変調器を提案する。 特に、変調器は軽量モジュールで構成され、相互排他目的で学習される。 したがって、変調器の出力確率は、トレーニングデータセットのデータボリュームヒントを符号化する。 さらに事前情報として利用して分類器の予測を導く。 提案手法を評価するために、ImageNet-LT、Place-LT、iNaturalist 2018などの複数のデータセットに関する広範な実験を行っている。 提案手法は,最先端のベンチマークと比較して競争性能が向上する。

The long-tailed recognition (LTR) is the task of learning high-performance classifiers given extremely imbalanced training samples between categories. Most of the existing works address the problem by either enhancing the features of tail classes or re-balancing the classifiers to reduce the inductive bias. In this paper, we try to look into the root cause of the LTR task, i.e., training samples for each class are greatly imbalanced, and propose a straightforward solution. We split the categories into three groups, i.e., many, medium and few, according to the number of training images. The three groups of categories are separately predicted to reduce the difficulty for classification. This idea naturally arises a new problem of how to assign a given sample to the right class groups? We introduce a mutual exclusive modulator which can estimate the probability of an image belonging to each group. Particularly, the modulator consists of a light-weight module and learned with a mutual exclusive objective. Hence, the output probabilities of the modulator encode the data volume clues of the training dataset. They are further utilized as prior information to guide the prediction of the classifier. We conduct extensive experiments on multiple datasets, e.g., ImageNet-LT, Place-LT and iNaturalist 2018 to evaluate the proposed approach. Our method achieves competitive performance compared to the state-of-the-art benchmarks.
翻訳日:2023-04-12 18:00:23 公開日:2023-04-11
# GPT-PINN:パラメトリックPDEの非侵入的メタラーニングに向けた物理インフォームニューラルネットワークの生成

GPT-PINN: Generative Pre-Trained Physics-Informed Neural Networks toward non-intrusive Meta-learning of parametric PDEs ( http://arxiv.org/abs/2303.14878v2 )

ライセンス: Link先を確認
Yanlai Chen and Shawn Koohy(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークの表現性と現代の異種ハードウェアの計算能力を活用する非線形偏微分方程式(PDE)の数値解を得るための強力なツールである。 しかし、そのトレーニングは、特にマルチクエリとリアルタイムのシミュレーション設定では、まだ時間がかかり、パラメータ化は過度に過剰になることが多い。 本稿では、パラメトリックPDEの設定における課題を緩和するために、GPT-PINN(Generative Pre-Trained PINN)を提案する。 GPT-PINNはパラメトリックシステムのための新しいメタラーニングパラダイムである。 ネットワークのネットワークとして、その外部/メタネットワークは、ニューロンの数を著しく減らした1つの隠れ層のみを持つハイパーリダクションである。 さらに、各隠れたニューロンの活性化機能は、事前に選択されたシステム構成で事前訓練された(フル)ピンである。 メタネットワークは適応的にシステムのパラメトリック依存を ``learns' とし、この隠れたレイヤ1ニューロンを '`grows' とした。 最後に、この適応的に選択されたパラメータ値のセットで訓練された非常に少数のネットワークを包含することで、メタネットワークはパラメータ領域全体にわたってパラメトリックシステムの代理解を正確かつ効率的に生成することができる。

Physics-Informed Neural Network (PINN) has proven itself a powerful tool to obtain the numerical solutions of nonlinear partial differential equations (PDEs) leveraging the expressivity of deep neural networks and the computing power of modern heterogeneous hardware. However, its training is still time-consuming, especially in the multi-query and real-time simulation settings, and its parameterization often overly excessive. In this paper, we propose the Generative Pre-Trained PINN (GPT-PINN) to mitigate both challenges in the setting of parametric PDEs. GPT-PINN represents a brand-new meta-learning paradigm for parametric systems. As a network of networks, its outer-/meta-network is hyper-reduced with only one hidden layer having significantly reduced number of neurons. Moreover, its activation function at each hidden neuron is a (full) PINN pre-trained at a judiciously selected system configuration. The meta-network adaptively ``learns'' the parametric dependence of the system and ``grows'' this hidden layer one neuron at a time. In the end, by encompassing a very small number of networks trained at this set of adaptively-selected parameter values, the meta-network is capable of generating surrogate solutions for the parametric system across the entire parameter domain accurately and efficiently.
翻訳日:2023-04-12 17:53:06 公開日:2023-04-11
# 逆の例を見つけるのに何次元が必要か?

How many dimensions are required to find an adversarial example? ( http://arxiv.org/abs/2303.14173v2 )

ライセンス: Link先を確認
Charles Godfrey, Henry Kvinge, Elise Bishoff, Myles Mckay, Davis Brown, Tim Doster, and Eleanor Byler(参考訳) 敵の脆弱性を探究する過去の研究は、敵がモデル入力のすべての次元を摂動できる状況に焦点を当ててきた。 一方、近年の研究ではどちらの場合も考慮している。 (i)敵は、限られた数の入力パラメータを乱すことができる。 (ii)マルチモーダル問題におけるモダリティの部分集合。 どちらの場合も、逆例は、周囲の入力空間$\mathcal{X}$内の部分空間$V$に効果的に制約される。 これに動機づけられたこの研究では、敵の脆弱性がどのように$\dim(V)$に依存するかを調べる。 特に、$\ell^p$の通常の制約を持つ標準的なpgd攻撃の敵意的な成功は、$\epsilon (\frac{\dim(v)}{\dim \mathcal{x}})^{\frac{1}{q}}$の単調に増加する関数のように振る舞う。 この関数形式は単純な玩具線形モデルから容易に導出することができ、その結果は高次元空間上の局所線型モデルに対して逆例が固有であるという議論にさらなる信頼を与える。

Past work exploring adversarial vulnerability have focused on situations where an adversary can perturb all dimensions of model input. On the other hand, a range of recent works consider the case where either (i) an adversary can perturb a limited number of input parameters or (ii) a subset of modalities in a multimodal problem. In both of these cases, adversarial examples are effectively constrained to a subspace $V$ in the ambient input space $\mathcal{X}$. Motivated by this, in this work we investigate how adversarial vulnerability depends on $\dim(V)$. In particular, we show that the adversarial success of standard PGD attacks with $\ell^p$ norm constraints behaves like a monotonically increasing function of $\epsilon (\frac{\dim(V)}{\dim \mathcal{X}})^{\frac{1}{q}}$ where $\epsilon$ is the perturbation budget and $\frac{1}{p} + \frac{1}{q} =1$, provided $p > 1$ (the case $p=1$ presents additional subtleties which we analyze in some detail). This functional form can be easily derived from a simple toy linear model, and as such our results land further credence to arguments that adversarial examples are endemic to locally linear models on high dimensional spaces.
翻訳日:2023-04-12 17:52:42 公開日:2023-04-11
# 機械心理学:心理学的手法を用いた大規模言語モデルにおける創発的能力と行動の調査

Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods ( http://arxiv.org/abs/2303.13988v2 )

ライセンス: Link先を確認
Thilo Hagendorff(参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。 急速な技術進歩と極端な汎用性により、LLMは今や数百万人のユーザを抱えており、情報検索、コンテンツ生成、問題解決などの主要なゴート技術になりつつある。 そのため、その能力を徹底的に評価し、精査することが重要である。 現在のllmでは、ますます複雑で新しい行動パターンがみられるため、もともと人間をテストするために設計された心理学実験の参加者として扱うことができる。 そこで本研究では,「機械心理学」と呼ばれる新しい研究分野を紹介する。 この論文は、心理学の異なるサブフィールドがLLMの行動テストにどのように影響するかを概説する。 機械心理学研究の方法論的基準を定義しており、特にプロンプトデザインのポリシーに焦点を当てている。 さらに、LLMで発見された行動パターンがどのように解釈されるかを記述する。 要約すると、機械心理学は従来の自然言語処理ベンチマークでは検出できないLLMの創発的能力を発見することを目的としている。

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Due to rapid technological advances and their extreme versatility, LLMs nowadays have millions of users and are at the cusp of being the main go-to technology for information retrieval, content generation, problem-solving, etc. Therefore, it is of great importance to thoroughly assess and scrutinize their capabilities. Due to increasingly complex and novel behavioral patterns in current LLMs, this can be done by treating them as participants in psychology experiments that were originally designed to test humans. For this purpose, the paper introduces a new field of research called "machine psychology". The paper outlines how different subfields of psychology can inform behavioral tests for LLMs. It defines methodological standards for machine psychology research, especially by focusing on policies for prompt designs. Additionally, it describes how behavioral patterns discovered in LLMs are to be interpreted. In sum, machine psychology aims to discover emergent abilities in LLMs that cannot be detected by most traditional natural language processing benchmarks.
翻訳日:2023-04-12 17:52:10 公開日:2023-04-11
# Decoupled Representation を用いた検索拡張分類

Retrieval-Augmented Classification with Decoupled Representation ( http://arxiv.org/abs/2303.13065v2 )

ライセンス: Link先を確認
Xinnian Liang, Shuangzhi Wu, Hui Huang, Jiaqi Bai, Chao Bian, Zhoujun Li(参考訳) 検索手法は様々な分類タスクにおいて有望な結果を示した。 しかし、既存の手法では、ノイズに敏感で拡張不能な入力を豊かにする余分なコンテキストを取得することに重点を置いている。 本稿では, 予測ラベル分布を抽出したインスタンスのラベル分布と補間する, KNN ($k$-nearest-neighbor) ベースの拡張分類検索手法を提案する。 標準のKNNプロセスとは違って,分類と検索の共有表現が性能を損なうこと,学習の不安定化につながること,といった分離機構を提案する。 本手法を広範囲の分類データセットで評価する。 実験の結果,提案手法の有効性とロバスト性を示した。 モデル内のさまざまなコンポーネントの貢献を分析するために、余分な実験も行っています。 \footnote{\url{https://github.com/xnliang98/knn-cls-w-decoupling}}

Retrieval augmented methods have shown promising results in various classification tasks. However, existing methods focus on retrieving extra context to enrich the input, which is noise sensitive and non-expandable. In this paper, following this line, we propose a $k$-nearest-neighbor (KNN) -based method for retrieval augmented classifications, which interpolates the predicted label distribution with retrieved instances' label distributions. Different from the standard KNN process, we propose a decoupling mechanism as we find that shared representation for classification and retrieval hurts performance and leads to training instability. We evaluate our method on a wide range of classification datasets. Experimental results demonstrate the effectiveness and robustness of our proposed method. We also conduct extra experiments to analyze the contributions of different components in our model.\footnote{\url{https://github.com/xnliang98/knn-cls-w-decoupling}}
翻訳日:2023-04-12 17:51:54 公開日:2023-04-11
# ExBEHRT:病気のサブタイプと進展を予測する電子健康記録用拡張トランス

ExBEHRT: Extended Transformer for Electronic Health Records to Predict Disease Subtypes & Progressions ( http://arxiv.org/abs/2303.12364v2 )

ライセンス: Link先を確認
Maurice Rupp, Oriane Peter, Thirupathi Pattipaka(参考訳) 本研究では、BEHRTの拡張版であるExBEHRT(BERT)を紹介し、その結果を解釈するために異なるアルゴリズムを適用した。 BEHRTは、診断と患者年齢のみを考慮しているが、異なる特徴の周波数と時間次元を統一する新しい手法を適用して、特徴空間を複数のマルチモーダル記録(人口統計、臨床特徴、バイタルサイン、喫煙状態、診断、処置、薬品、検査検査)に拡張する。 さまざまな疾患におけるダウンストリームタスクのモデルパフォーマンスが大幅に向上することを示す。 頑健性を確保するため,従来EHRデータを用いたトランスフォーマーには適用されていなかった期待勾配の適応を用いてモデル予測を解釈し,特徴やトークンの重要度といった従来の手法よりも詳細な解釈を行う。 さらに,腫瘍患者のモデル表現をクラスタ化することにより,本モデルが疾患を暗黙的に理解し,同一型のがん患者を異なるリスクグループに分類できることを示す。 追加の特徴と解釈可能性を考えると、ExBEHRTは疾患の軌跡、診断、および様々な疾患の危険因子に関する情報的決定に役立てることができる。

In this study, we introduce ExBEHRT, an extended version of BEHRT (BERT applied to electronic health records), and apply different algorithms to interpret its results. While BEHRT considers only diagnoses and patient age, we extend the feature space to several multimodal records, namely demographics, clinical characteristics, vital signs, smoking status, diagnoses, procedures, medications, and laboratory tests, by applying a novel method to unify the frequencies and temporal dimensions of the different features. We show that additional features significantly improve model performance for various downstream tasks in different diseases. To ensure robustness, we interpret model predictions using an adaptation of expected gradients, which has not been previously applied to transformers with EHR data and provides more granular interpretations than previous approaches such as feature and token importances. Furthermore, by clustering the model representations of oncology patients, we show that the model has an implicit understanding of the disease and is able to classify patients with the same cancer type into different risk groups. Given the additional features and interpretability, ExBEHRT can help make informed decisions about disease trajectories, diagnoses, and risk factors of various diseases.
翻訳日:2023-04-12 17:51:38 公開日:2023-04-11
# マスクオートエンコーダを用いたマルチモーダル顔影響分析

Multi-modal Facial Affective Analysis based on Masked Autoencoder ( http://arxiv.org/abs/2303.10849v2 )

ライセンス: Link先を確認
Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding(参考訳) 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を深めることに焦点を当てている。 CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW)は、AU(Action Units)、EXPR(Basic Expression category)、VA(Valence-Arousal)などの一般的な感情表現の認識のための高品質で大規模なAff-wild2を提供することを目的としている。 このコンペティションは、実世界のシナリオにおける感情分析研究の精度と実践性を改善するために、大きな努力を払っている。 本稿では,本論文で提案するcvpr 2023: abaw5について述べる。 我々のアプローチにはいくつかの重要な要素がある。 まず,大規模顔画像データセット上で事前学習されたマスク付きオートエンコーダ(mae)モデルからの視覚情報を,自己教師ありで活用する。 次に、au、expr、vaタスクのためのff-wild2から画像フレームにmaeエンコーダを微調整し、静的かつユニモーダルなトレーニングと見なすことができる。 さらに,ビデオからのマルチモーダルとテンポラリ情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを実装した。 ABAW5では,平均F1スコアが55.49\%,EXPRトラックが41.21\%,VAトラックが0.6372である。 提案手法はEXPRおよびAUトラックで第1位,VAトラックで第2位となる。 大規模な定量的実験とアブレーション研究により,提案手法の有効性が示された。

Human affective behavior analysis focuses on analyzing human expressions or other behaviors to enhance the understanding of human psychology. The CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW) is dedicated to providing high-quality and large-scale Aff-wild2 for the recognition of commonly used emotion representations, such as Action Units (AU), basic expression categories(EXPR), and Valence-Arousal (VA). The competition is committed to making significant strides in improving the accuracy and practicality of affective analysis research in real-world scenarios. In this paper, we introduce our submission to the CVPR 2023: ABAW5. Our approach involves several key components. First, we utilize the visual information from a Masked Autoencoder(MAE) model that has been pre-trained on a large-scale face image dataset in a self-supervised manner. Next, we finetune the MAE encoder on the image frames from the Aff-wild2 for AU, EXPR and VA tasks, which can be regarded as a static and uni-modal training. Additionally, we leverage the multi-modal and temporal information from the videos and implement a transformer-based framework to fuse the multi-modal features. Our approach achieves impressive results in the ABAW5 competition, with an average F1 score of 55.49\% and 41.21\% in the AU and EXPR tracks, respectively, and an average CCC of 0.6372 in the VA track. Our approach ranks first in the EXPR and AU tracks, and second in the VA track. Extensive quantitative experiments and ablation studies demonstrate the effectiveness of our proposed method.
翻訳日:2023-04-12 17:51:16 公開日:2023-04-11
# BEVHeight: 視覚に基づく3Dオブジェクト検出のためのロバストフレームワーク

BEVHeight: A Robust Framework for Vision-based Roadside 3D Object Detection ( http://arxiv.org/abs/2303.08498v2 )

ライセンス: Link先を確認
Lei Yang, Kaicheng Yu, Tao Tang, Jun Li, Kun Yuan, Li Wang, Xinyu Zhang, Peng Chen(参考訳) 最近の自律走行システムは、自走車センサーの認識方法の開発に重点を置いているが、人々は視覚範囲を超えて知覚能力を拡張するために、インテリジェントな路面カメラを活用する別のアプローチを見過ごす傾向がある。 最先端の視覚中心の鳥の目視検出手法は, 路面カメラの性能に劣ることがわかった。 これは、車と地面の深度差が急速に縮み、距離が大きくなるときにカメラセンターの深度を回復することに主に焦点が当てられているためである。 本稿では,BEVHeightと呼ばれるシンプルで効果的な手法を提案し,この問題に対処する。 本質的には、画素幅の深さを予測する代わりに、距離に依存しない定式化を実現し、カメラのみの知覚法の最適化プロセスを容易にする。 道路カメラの3D検出ベンチマークでは、従来の視覚中心の手法をはるかに上回っている。 コードは {\url{https://github.com/ADLab-AutoDrive/BEVHeight}}で公開されている。

While most recent autonomous driving system focuses on developing perception methods on ego-vehicle sensors, people tend to overlook an alternative approach to leverage intelligent roadside cameras to extend the perception ability beyond the visual range. We discover that the state-of-the-art vision-centric bird's eye view detection methods have inferior performances on roadside cameras. This is because these methods mainly focus on recovering the depth regarding the camera center, where the depth difference between the car and the ground quickly shrinks while the distance increases. In this paper, we propose a simple yet effective approach, dubbed BEVHeight, to address this issue. In essence, instead of predicting the pixel-wise depth, we regress the height to the ground to achieve a distance-agnostic formulation to ease the optimization process of camera-only perception methods. On popular 3D detection benchmarks of roadside cameras, our method surpasses all previous vision-centric methods by a significant margin. The code is available at {\url{https://github.com/ADLab-AutoDrive/BEVHeight}}.
翻訳日:2023-04-12 17:50:40 公開日:2023-04-11
# 不確実性を考慮した肺結節分節と低信頼領域予測

Lung Nodule Segmentation and Low-Confidence Region Prediction with Uncertainty-Aware Attention Mechanism ( http://arxiv.org/abs/2303.08416v3 )

ライセンス: Link先を確認
Han Yang, Qiuli Wang, Yue Zhang, Zhulin An, Chen Liu, Xiaohong Zhang, S. Kevin Zhou(参考訳) 放射線医は訓練と臨床経験が異なるため、肺結節に対して様々なセグメンテーションアノテーションを提供し、複数のアノテーション間でセグメンテーションの不確実性を引き起こす可能性がある。 従来の手法は通常、学習対象として単一のアノテーションを選択したり、様々なアノテーションの潜在空間を学習しようとしたりした。 それでも、複数のアノテーションの中で合意や意見の不一致の貴重な情報を無駄にした。 本稿では,アノテーション間のコンセンサスや不一致を利用してセグメンテーションを改善する不確実性意識機構(UAAM)を提案する。 UAAMでは、低信頼(LC)マスクと高信頼(HC)マスクを組み合わせたマルチ信頼マスク(MCM)を提案する。 LCマスクはセグメンテーションの信頼性が低い領域を指し、放射線技師の間でセグメンテーションの選択肢が異なる可能性がある。 UAAMの後、我々はさらに3つのモジュールを含むUncertainty-Guide Segmentation Network (UGS-Net)を設計した。 Uncertainty-Aware Moduleはアノテーションの結合、交差、アノテーションセットの3つの機能を生成する。 最後に、Intersection-Union Constraining Moduleは、最終セグメンテーション、LCマスク、HCマスクの予測のバランスをとるために、3つの特徴間の距離を使用する。 そこで本研究では, ugs-net の肺結節における分節性能を, u-net で分節することが困難である ugs-net の分節性能を試験する lidc-idri の複雑な結節課題を提案する。 実験の結果,本手法はu-netによるセグメンテーションが不十分な結節のセグメンテーション性能を著しく向上できることがわかった。

Radiologists have different training and clinical experiences, so they may provide various segmentation annotations for a lung nodule, which causes segmentation uncertainty among multiple annotations. Conventional methods usually chose a single annotation as the learning target or tried to learn a latent space of various annotations. Still, they wasted the valuable information of consensus or disagreements ingrained in the multiple annotations. This paper proposes an Uncertainty-Aware Attention Mechanism (UAAM), which utilizes consensus or disagreements among annotations to produce a better segmentation. In UAAM, we propose a Multi-Confidence Mask (MCM), which is a combination of a Low-Confidence (LC) Mask and a High-Confidence (HC) Mask. LC mask indicates regions with low segmentation confidence, which may cause different segmentation options among radiologists. Following UAAM, we further design an Uncertainty-Guide Segmentation Network (UGS-Net), which contains three modules:Feature Extracting Module captures a general feature of a lung nodule. Uncertainty-Aware Module produce three features for the annotations' union, intersection, and annotation set. Finally, Intersection-Union Constraining Module use distances between three features to balance the predictions of final segmentation, LC mask, and HC mask. To fully demonstrate the performance of our method, we propose a Complex Nodule Challenge on LIDC-IDRI, which tests UGS-Net's segmentation performance on the lung nodules that are difficult to segment by U-Net. Experimental results demonstrate that our method can significantly improve the segmentation performance on nodules with poor segmentation by U-Net.
翻訳日:2023-04-12 17:50:24 公開日:2023-04-11
# ユニタリブロック符号化を用いた量子信号処理による非ユニタリダイナミクスのシミュレーション

Simulating non-unitary dynamics using quantum signal processing with unitary block encoding ( http://arxiv.org/abs/2303.06161v2 )

ライセンス: Link先を確認
Hans Hon Sang Chan, David Mu\~noz Ramo, Nathan Fitzpatrick(参考訳) 我々は、量子回路を正確にエミュレートした初期のフォールトトレラント量子コンピュータ上での非一元的時間進化を探求するために、資源フルーガー量子信号処理の最近の進歩である量子固有値変換(QET-U)を適用した。 所望の仮想時間発展状態の回路深度を最適化する手法と,その実現可能性を試行する。 基底状態準備のタスクでは、初期参照状態における後選択の成功確率は$\gamma$を$o(\gamma^2)$と重なることが確認される。 熱状態生成に代えてQET-Uが指数的コストで分配関数を直接推定できることを示す。 最後に、qet-u とトロッター積公式を組み合わせて、リンドブラジアン開量子系力学の伝播における非正規ハミルトンシミュレーションを行う。 非単体力学のQET-Uは柔軟で直感的で使いやすく、シミュレーションタスクにおける量子優位性を実現する方法を提案する。

We adapt a recent advance in resource-frugal quantum signal processing - the Quantum Eigenvalue Transform with Unitary matrices (QET-U) - to explore non-unitary imaginary time evolution on early fault-tolerant quantum computers using exactly emulated quantum circuits. We test strategies for optimising the circuit depth and the probability of successfully preparing the desired imaginary-time evolved states. For the task of ground state preparation, we confirm that the probability of successful post-selection is quadratic in the initial reference state overlap $\gamma$ as $O(\gamma^2)$. When applied instead to thermal state preparation, we show QET-U can directly estimate partition functions at exponential cost. Finally, we combine QET-U with Trotter product formula to perform non-normal Hamiltonian simulation in the propagation of Lindbladian open quantum system dynamics. We find that QET-U for non-unitary dynamics is flexible, intuitive and straightforward to use, and suggest ways for delivering quantum advantage in simulation tasks.
翻訳日:2023-04-12 17:49:54 公開日:2023-04-11
# 特徴類似知識蒸留による低分解能顔認識の実現

Enhancing Low-resolution Face Recognition with Feature Similarity Knowledge Distillation ( http://arxiv.org/abs/2303.04681v2 )

ライセンス: Link先を確認
Sungho Shin, Yeonguk Yu, Kyoobin Lee(参考訳) 本研究では,高分解能画像から得られた知識を用いて,低分解能(LR)顔認識性能を向上させるための特徴知識蒸留フレームワークを提案する。 提案フレームワークは, HR学習ネットワークからLR学習ネットワークへ, 距離を縮めることで情報的特徴を伝達する。 HRとLRの特徴を効果的に整合させるため,コサイン類似度尺度を距離計として用いた。 このアプローチは、l_p距離メトリクスを使用し、異なる解像度の特徴間の距離を減らす際によく収束する利点を提供する従来の知識蒸留フレームワークとは異なる。 提案手法は従来のAdageDB-30ベンチマークでベルやホイッスルを使わずに3%改善し,HR画像上での強い性能を維持した。 距離距離測定によるコサイン類似性の有効性を統計的解析により検証し,LR画像に頻繁に遭遇する実世界のアプリケーションにとって有望な解であることを示す。 コードと事前訓練されたモデルはhttps://github.com/gist-ailab/feature-similarity-KDで公開されている。

In this study, we introduce a feature knowledge distillation framework to improve low-resolution (LR) face recognition performance using knowledge obtained from high-resolution (HR) images. The proposed framework transfers informative features from an HR-trained network to an LR-trained network by reducing the distance between them. A cosine similarity measure was employed as a distance metric to effectively align the HR and LR features. This approach differs from conventional knowledge distillation frameworks, which use the L_p distance metrics and offer the advantage of converging well when reducing the distance between features of different resolutions. Our framework achieved a 3% improvement over the previous state-of-the-art method on the AgeDB-30 benchmark without bells and whistles, while maintaining a strong performance on HR images. The effectiveness of cosine similarity as a distance metric was validated through statistical analysis, making our approach a promising solution for real-world applications in which LR images are frequently encountered. The code and pretrained models are publicly available on https://github.com/gist-ailab/feature-similarity-KD.
翻訳日:2023-04-12 17:49:38 公開日:2023-04-11
# 横型3次元シーンにおける連続的人間の動きの生成

Generating Continual Human Motion in Diverse 3D Scenes ( http://arxiv.org/abs/2304.02061v2 )

ライセンス: Link先を確認
Aymen Mir, Xavier Puig, Angjoo Kanazawa, Gerard Pons-Moll(参考訳) 本研究では,3次元シーンにおけるアニメーター誘導人間の動作を合成する手法を提案する。 3dシーンにおいて、スパース (3 または 4) のジョイント位置(例えば、人の手と2 フィートの位置)とシード動作シーケンスのセットが与えられると、本手法は、与えられたキーポイントによって課される制約を満足しながら、シード動作から開始される、妥当な動作シーケンスを生成する。 本研究では,連続的な動作合成問題を経路に分解し,キーポイントが指定した動作の内外への遷移を図り,シーン情報を明示的に組み込むことなくシーン制約を満たす動作の長期化を可能にする。 本手法はシーン非依存のモキャップデータのみを用いて訓練する。 結果として,我々のアプローチは,さまざまなジオメトリを備えた3dシーンに展開可能である。 ドリフトを使わずに再現可能な連続運動合成を実現するためには,次の目標が原点に位置する目標中心の正準座標系において運動を生成することが重要となる。 我々のモデルは,HPS, Replica, Matterport, ScanNet, およびNeRFを用いて表現されたシーンにおいて, 任意の順序でつかむ, 座る, 傾くといった多様な動作の長いシーケンスを生成することができる。 いくつかの実験により、3dシーンでパスをナビゲートする既存のメソッドよりも優れていることが証明された。

We introduce a method to synthesize animator guided human motion across 3D scenes. Given a set of sparse (3 or 4) joint locations (such as the location of a person's hand and two feet) and a seed motion sequence in a 3D scene, our method generates a plausible motion sequence starting from the seed motion while satisfying the constraints imposed by the provided keypoints. We decompose the continual motion synthesis problem into walking along paths and transitioning in and out of the actions specified by the keypoints, which enables long generation of motions that satisfy scene constraints without explicitly incorporating scene information. Our method is trained only using scene agnostic mocap data. As a result, our approach is deployable across 3D scenes with various geometries. For achieving plausible continual motion synthesis without drift, our key contribution is to generate motion in a goal-centric canonical coordinate frame where the next immediate target is situated at the origin. Our model can generate long sequences of diverse actions such as grabbing, sitting and leaning chained together in arbitrary order, demonstrated on scenes of varying geometry: HPS, Replica, Matterport, ScanNet and scenes represented using NeRFs. Several experiments demonstrate that our method outperforms existing methods that navigate paths in 3D scenes.
翻訳日:2023-04-12 17:43:37 公開日:2023-04-11
# EGC:単一エネルギーモデルによる画像生成と分類

EGC: Image Generation and Classification via a Single Energy-Based Model ( http://arxiv.org/abs/2304.02012v2 )

ライセンス: Link先を確認
Qiushan Guo, Chuofan Ma, Yi Jiang, Zehuan Yuan, Yizhou Yu, Ping Luo(参考訳) 同じネットワークパラメータ集合を用いた画像分類と画像生成の学習は難しい問題である。 最近の高度なアプローチは、1つのタスクでよく機能し、もう1つのタスクでは性能が悪い。 この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。 イメージが与えられたラベルを出力する従来の分類器(例えば条件付き分布 $p(y|\mathbf{x})$)とは異なり、egcの前方パスはジョイント分布 $p(\mathbf{x},y)$ を出力する分類器であり、ラベル $y$ をマージンアウトすることで後方パスにおける画像生成器を可能にする。 これはフォワードパスにおいてノイズ画像が与えられた場合のエネルギーと分類確率を推定し、後方パスで推定されたスコア関数を用いて除算する。 EGCは、ImageNet-1k、CelebA-HQ、LSUN Churchの最先端のアプローチと比較して、競争力のある生成結果を得ると同時に、CIFAR-10に対する敵攻撃に対して優れた分類精度と堅牢性を達成する。 この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。 EGCは差別学習と生成学習のギャップを埋めると考えている。

Learning image classification and image generation using the same set of network parameters is a challenging problem. Recent advanced approaches perform well in one task often exhibit poor performance in the other. This work introduces an energy-based classifier and generator, namely EGC, which can achieve superior performance in both tasks using a single neural network. Unlike a conventional classifier that outputs a label given an image (i.e., a conditional distribution $p(y|\mathbf{x})$), the forward pass in EGC is a classifier that outputs a joint distribution $p(\mathbf{x},y)$, enabling an image generator in its backward pass by marginalizing out the label $y$. This is done by estimating the energy and classification probability given a noisy image in the forward pass, while denoising it using the score function estimated in the backward pass. EGC achieves competitive generation results compared with state-of-the-art approaches on ImageNet-1k, CelebA-HQ and LSUN Church, while achieving superior classification accuracy and robustness against adversarial attacks on CIFAR-10. This work represents the first successful attempt to simultaneously excel in both tasks using a single set of network parameters. We believe that EGC bridges the gap between discriminative and generative learning.
翻訳日:2023-04-12 17:43:11 公開日:2023-04-11
# purkinjeリフレクションとmlアルゴリズムを用いた動的調節計測

Dynamic accommodation measurement using Purkinje reflections and ML algorithms ( http://arxiv.org/abs/2304.01296v2 )

ライセンス: Link先を確認
Faik Ozan Ozhan, Arda Gulersoy, Ugur Aygun, Afsun Sahin, Hakan Urey(参考訳) 本研究では,ARおよび眼科応用に適した4つのPurkinjeリフレクション(PR)に基づく動的視線および調節測定装置の試作を行った。 PR1&2とPR3&4は、それぞれ正確な視線測定と調節測定に使用される。 眼模型はZEMAXで開発され,実験結果とよく一致した。 モデルは、0.25d以上の精度で4つのディプターから1つのディプターへの調節を予測している。 再現性テストを行い,被験者から正確な視線と調節推定値を得た。 我々は物理的に正確なモデルと機械学習を用いて大規模な合成データセットを作成している。

We developed a prototype device for dynamic gaze and accommodation measurements based on 4 Purkinje reflections (PR) suitable for use in AR and ophthalmology applications. PR1&2 and PR3&4 are used for accurate gaze and accommodation measurements, respectively. Our eye model was developed in ZEMAX and matches the experiments well. Our model predicts the accommodation from 4 diopters to 1 diopter with better than 0.25D accuracy. We performed repeatability tests and obtained accurate gaze and accommodation estimations from subjects. We are generating a large synthetic data set using physically accurate models and machine learning.
翻訳日:2023-04-12 17:42:45 公開日:2023-04-11
# スパイクニューラルネットワークにおける加算結合と乗算結合の等価性

Equivalence of Additive and Multiplicative Coupling in Spiking Neural Networks ( http://arxiv.org/abs/2304.00112v2 )

ライセンス: Link先を確認
Georg B\"orner, Fabio Schittler Neves, Marc Timme(参考訳) スパイキングニューラルネットワークモデルは、生体ニューロンの回路の創発的な集団ダイナミクスを特徴付け、分野をまたがって神経にインスパイアされたソリューションを構築するのに役立つ。 スパイクニューラルネットワークのほとんどの力学系のモデルでは、2つの主要な相互作用の1つが示される: まず、入力パルス信号(スパイクス)に対するニューロンの状態変数の応答は、現在の状態から独立している可能性がある。 第2に、応答は現在のニューロンの状態に依存し、状態変数の関数を乗算することができる。 ここでは,加法的結合を伴うスパイクニューラルネットワークモデルと乗法結合を持つモデルが等価であることを明らかにする。 その結果、同じ集団力学は状態依存の乗法と定数(状態非依存)加法的結合によって達成できる。 このようなマッピングは、異なるタイプの相互作用機構を持つスパイキングニューラルネットワークモデル間の理論的洞察の伝達を可能にすると同時に、よりシンプルで効率的なエンジニアリング応用を可能にする。

Spiking neural network models characterize the emergent collective dynamics of circuits of biological neurons and help engineer neuro-inspired solutions across fields. Most dynamical systems' models of spiking neural networks typically exhibit one of two major types of interactions: First, the response of a neuron's state variable to incoming pulse signals (spikes) may be additive and independent of its current state. Second, the response may depend on the current neuron's state and multiply a function of the state variable. Here we reveal that spiking neural network models with additive coupling are equivalent to models with multiplicative coupling for simultaneously modified intrinsic neuron time evolution. As a consequence, the same collective dynamics can be attained by state-dependent multiplicative and constant (state-independent) additive coupling. Such a mapping enables the transfer of theoretical insights between spiking neural network models with different types of interaction mechanisms as well as simpler and more effective engineering applications.
翻訳日:2023-04-12 17:42:39 公開日:2023-04-11
# パラメータ効率アーキテクチャによる事前学習型言語モデルのスケーリング

Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture ( http://arxiv.org/abs/2303.16753v2 )

ライセンス: Link先を確認
Peiyu Liu, Ze-Feng Gao, Yushuo Chen, Wayne Xin Zhao, Ji-Rong Wen(参考訳) 本稿では,事前学習言語モデル(PLM)をより深いモデル深度に拡張するための,パラメータ効率の高い手法を提案する。 全てのパラメータを共有したり余分なブロックを使う以前の作業とは異なり、行列積演算子(MPO)に基づいたより有能なパラメータ共有アーキテクチャを設計する。 mpo分解は、パラメータ行列の情報を2つの部分に分けて再編成し分解することができる: 主要な情報(中央テンソル)を含む主要部分と、パラメータ(副テンソル)の少ない部分(副テンソル)である。 このような分解に基づいて、我々のアーキテクチャはモデルサイズを縮小する中央テンソルを共有し、一方、適応性を高めるために層固有の補助テンソル(アダプタも使用)を保持する。 モデルトレーニングを改善するために,MPOアーキテクチャに適した安定初期化アルゴリズムを提案する。 大規模実験により,提案モデルの有効性が実証され,性能が向上した。

In this paper, we propose a highly parameter-efficient approach to scaling pre-trained language models (PLMs) to a deeper model depth. Unlike prior work that shares all parameters or uses extra blocks, we design a more capable parameter-sharing architecture based on matrix product operator (MPO). MPO decomposition can reorganize and factorize the information of a parameter matrix into two parts: the major part that contains the major information (central tensor) and the supplementary part that only has a small proportion of parameters (auxiliary tensors). Based on such a decomposition, our architecture shares the central tensor across all layers for reducing the model size and meanwhile keeps layer-specific auxiliary tensors (also using adapters) for enhancing the adaptation flexibility. To improve the model training, we further propose a stable initialization algorithm tailored for the MPO-based architecture. Extensive experiments have demonstrated the effectiveness of our proposed model in reducing the model size and achieving highly competitive performance.
翻訳日:2023-04-12 17:41:58 公開日:2023-04-11
# 非線形振動子を用いたデータからのフロー関数の学習

Learning Flow Functions from Data with Applications to Nonlinear Oscillators ( http://arxiv.org/abs/2303.16656v2 )

ライセンス: Link先を確認
Miguel Aguiar, Amritam Das and Karl H. Johansson(参考訳) 軌道データから因果的・時間不変・連続時間制御系の流れ関数を学習するためのリカレントニューラルネットワーク(RNN)に基づくアーキテクチャについて述べる。 制御入力のクラスを一括定数関数に制限することにより、フロー関数の学習は離散時間力学系の入力状態マップの学習と等価であることを示す。 これにより、RNNをエンコーダとデコーダネットワークと共に使用し、システムの状態をRNNとバックの隠された状態にマッピングする。 提案手法は,システムの因果性と時間不変性を生かしてフロー関数を近似できることを示す。 学習したフロー関数モデルの出力はいつでもいつでも問い合わせることができる。 Van der Pol と FitzHugh Nagumo 振動子のモデルを用いて提案手法を実験的に検証した。 どちらの場合も、アーキテクチャがこれらの2つのシステムの軌跡を忠実に再現できることを示す。 さらに,van der pol 発振器では,トレーニングモデルがシステムの応答を長期予測時間軸で一般化し,トレーニング分布外の入力を制御することを示す。 フィッツヒュー・ナグモ発振器については、モデルが励起性の入力依存現象を正確に捉えていることを示す。

We describe a recurrent neural network (RNN) based architecture to learn the flow function of a causal, time-invariant and continuous-time control system from trajectory data. By restricting the class of control inputs to piecewise constant functions, we show that learning the flow function is equivalent to learning the input-to-state map of a discrete-time dynamical system. This motivates the use of an RNN together with encoder and decoder networks which map the state of the system to the hidden state of the RNN and back. We show that the proposed architecture is able to approximate the flow function by exploiting the system's causality and time-invariance. The output of the learned flow function model can be queried at any time instant. We experimentally validate the proposed method using models of the Van der Pol and FitzHugh Nagumo oscillators. In both cases, the results demonstrate that the architecture is able to closely reproduce the trajectories of these two systems. For the Van der Pol oscillator, we further show that the trained model generalises to the system's response with a prolonged prediction time horizon as well as control inputs outside the training distribution. For the FitzHugh-Nagumo oscillator, we show that the model accurately captures the input-dependent phenomena of excitability.
翻訳日:2023-04-12 17:41:41 公開日:2023-04-11
# 局所特徴マッチングのための構造付きエピポーラマッチング

Structured Epipolar Matcher for Local Feature Matching ( http://arxiv.org/abs/2303.16646v2 )

ライセンス: Link先を確認
Jiahao Chang, Jiahuan Yu, Tianzhu Zhang(参考訳) 局所的な特徴マッチングは、テクスチャレスで反復的なパターンのため難しい。 既存の手法では外観特徴の使用とグローバルインタラクションとマッチングに重点を置いているが、局所的特徴マッチングにおける幾何学的優先の重要性は十分に活用されていない。 これらの手法と異なり、本論文では、幾何の重要さを掘り下げ、局所的特徴マッチングのための構造的エピポーラマッチング(SEM)を提案し、幾何情報を反復的マッチング方式で活用する。 提案モデルはいくつかのメリットを享受する。 まず,提案する構造化特徴抽出器は,画素と高信頼アンカー点間の相対的な位置関係をモデル化することができる。 第二に、提案したエピポーラ注意とマッチングは、エピポーラ制約を利用して無関係な領域をフィルタリングすることができる。 5つの標準ベンチマークの大規模な実験結果は、最先端の手法と比較してSEMの優れた性能を示している。 プロジェクトページ: https://sem2023.github.io

Local feature matching is challenging due to textureless and repetitive patterns. Existing methods focus on using appearance features and global interaction and matching, while the importance of geometry priors in local feature matching has not been fully exploited. Different from these methods, in this paper, we delve into the importance of geometry prior and propose Structured Epipolar Matcher (SEM) for local feature matching, which can leverage the geometric information in an iterative matching way. The proposed model enjoys several merits. First, our proposed Structured Feature Extractor can model the relative positional relationship between pixels and high-confidence anchor points. Second, our proposed Epipolar Attention and Matching can filter out irrelevant areas by utilizing the epipolar constraint. Extensive experimental results on five standard benchmarks demonstrate the superior performance of our SEM compared to state-of-the-art methods. Project page: https://sem2023.github.io.
翻訳日:2023-04-12 17:41:23 公開日:2023-04-11
# 訓練データ再構成のための非漸近下限

Non-Asymptotic Lower Bounds For Training Data Reconstruction ( http://arxiv.org/abs/2303.16372v3 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 本研究では,データ再構成攻撃(dras)の学習能力に対する個人学習アルゴリズムの意味的保証について検討する。 この目的のために, 差分プライバシー (DP) とメートル法差プライバシー (mDP) を満たす学習者に対して, 敵の復元誤差の非漸近的最小限境界を導出する。 さらに,後者に対する下限解析は,入力データ次元が敵の問合せ予算よりも大きい場合の高次元構造にも適用できることを示した。 DP-SGD や Projected Noisy SGD のような一般的な深層学習アルゴリズムのプライバシー解析を拡張して,メートル法差分プライバシーのより広範な概念をカバーする。

We investigate semantic guarantees of private learning algorithms for their resilience to training Data Reconstruction Attacks (DRAs) by informed adversaries. To this end, we derive non-asymptotic minimax lower bounds on the adversary's reconstruction error against learners that satisfy differential privacy (DP) and metric differential privacy (mDP). Furthermore, we demonstrate that our lower bound analysis for the latter also covers the high dimensional regime, wherein, the input data dimensionality may be larger than the adversary's query budget. Motivated by the theoretical improvements conferred by metric DP, we extend the privacy analysis of popular deep learning algorithms such as DP-SGD and Projected Noisy SGD to cover the broader notion of metric differential privacy.
翻訳日:2023-04-12 17:41:11 公開日:2023-04-11
# コミュニケーション要求を低減した非同期オンラインフェデレーション学習

Asynchronous Online Federated Learning with Reduced Communication Requirements ( http://arxiv.org/abs/2303.15226v2 )

ライセンス: Link先を確認
Francois Gauthier, Vinay Chakravarthi Gogineni, Stefan Werner, Yih-Fang Huang, Anthony Kuh(参考訳) online federated learning(fl)は、地理的に分散したデバイスが、ローカルに利用可能なストリーミングデータからグローバルな共有モデルを学ぶことができる。 ほとんどのオンラインFL文献は、参加するクライアントと通信チャネルに関する最良のシナリオを考察している。 しかし、これらの仮定はしばしば実世界のアプリケーションでは満たされない。 非同期設定は、利用可能な計算能力やバッテリ制約による不均一なクライアント参加、通信チャネルやストラグラーデバイスによる遅延など、より現実的な環境を反映することができる。 さらに、ほとんどの応用ではエネルギー効率を考慮する必要がある。 部分共有型コミュニケーションの原理を用いて,通信効率の高い非同期オンライン連合学習(PAO-Fed)戦略を提案する。 参加者のコミュニケーションオーバーヘッドを減らすことで,学習課題への参加をよりアクセスしやすく,効率的に行うことができる。 さらに,提案手法はランダム参加を考慮し,更新の遅延を処理し,精度への影響を緩和する。 提案したPAO-Fed法の1次および2次収束性を証明し,その定常平均平方偏差の式を得る。 最後に,提案手法の有効性を,合成データセットと実生活データセットの両方で検証する。 シミュレーションにより,提案したPAO-Fedは,通信オーバーヘッドを98%削減しつつ,オンライン統合確率勾配と同じ収束特性を実現することができることがわかった。

Online federated learning (FL) enables geographically distributed devices to learn a global shared model from locally available streaming data. Most online FL literature considers a best-case scenario regarding the participating clients and the communication channels. However, these assumptions are often not met in real-world applications. Asynchronous settings can reflect a more realistic environment, such as heterogeneous client participation due to available computational power and battery constraints, as well as delays caused by communication channels or straggler devices. Further, in most applications, energy efficiency must be taken into consideration. Using the principles of partial-sharing-based communications, we propose a communication-efficient asynchronous online federated learning (PAO-Fed) strategy. By reducing the communication overhead of the participants, the proposed method renders participation in the learning task more accessible and efficient. In addition, the proposed aggregation mechanism accounts for random participation, handles delayed updates and mitigates their effect on accuracy. We prove the first and second-order convergence of the proposed PAO-Fed method and obtain an expression for its steady-state mean square deviation. Finally, we conduct comprehensive simulations to study the performance of the proposed method on both synthetic and real-life datasets. The simulations reveal that in asynchronous settings, the proposed PAO-Fed is able to achieve the same convergence properties as that of the online federated stochastic gradient while reducing the communication overhead by 98 percent.
翻訳日:2023-04-12 17:40:56 公開日:2023-04-11
# BotTriNet:メトリック学習によるソーシャルボット検出のための統一的で効率的な埋め込み

BotTriNet: A Unified and Efficient Embedding for Social Bots Detection via Metric Learning ( http://arxiv.org/abs/2304.03144v2 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye, and Yanyuet Man(参考訳) オンラインソーシャルネットワークで絶え間なく人気があるトピックは、本物のユーザーの侵入やハラスメントを防ぐボットアカウントの迅速かつ正確な発見である。 本稿では,ボット検出にアカウントが投稿したテキストコンテンツを利用して,コンテキストがアカウントの個性や習慣を自然に明らかにする,BotTriNetという統合組込みフレームワークを提案する。 組込み技術を用いてボット関連情報を効率的に抽出すれば,コンテンツは豊富で貴重なものとなる。 単語、文、およびアカウントの埋め込みを生成する一般的な埋め込みフレームワークの他に、分類性能を向上させるために生の埋め込み(従来の自然言語処理技術によって生成される)をチューニングするための三重ネットワークを設計する。 3つのボットアカウントカテゴリと5つのボットサンプルセットからなる実世界のデータセットcresci2017における検出精度とf1scoreを評価する。 このシステムは,2つのコンテンツ集約型ボットセットにおいて,98.34%,f1scoreが97.99%という最高精度を達成している。 また、4つのコンテンツレスボットセットでブレークスルーを行い、平均精度が11.52%、平均f1scoreが16.70%向上した。

A persistently popular topic in online social networks is the rapid and accurate discovery of bot accounts to prevent their invasion and harassment of genuine users. We propose a unified embedding framework called BotTriNet, which utilizes textual content posted by accounts for bot detection based on the assumption that contexts naturally reveal account personalities and habits. Content is abundant and valuable if the system efficiently extracts bot-related information using embedding techniques. Beyond the general embedding framework that generates word, sentence, and account embeddings, we design a triplet network to tune the raw embeddings (produced by traditional natural language processing techniques) for better classification performance. We evaluate detection accuracy and f1score on a real-world dataset CRESCI2017, comprising three bot account categories and five bot sample sets. Our system achieves the highest average accuracy of 98.34% and f1score of 97.99% on two content-intensive bot sets, outperforming previous work and becoming state-of-the-art. It also makes a breakthrough on four content-less bot sets, with an average accuracy improvement of 11.52% and an average f1score increase of 16.70%.
翻訳日:2023-04-12 17:33:12 公開日:2023-04-11
# 神経新生、神経ダーウィン主義、そして種進化が、進化的深層ニューラルネットワークの創出のインスピレーションとなり得るだろうか?

Is it conceivable that neurogenesis, neural Darwinism, and species evolution could all serve as inspiration for the creation of evolutionary deep neural networks? ( http://arxiv.org/abs/2304.03122v2 )

ライセンス: Link先を確認
Mohammed Al-Rawi(参考訳) Deep Neural Networks (DNN)は、人工知能ニューラルネットワークを使って構築されている。 それらは、幅広いアプリケーションで使われているデータから学習できる機械学習の方法の一部である。 DNNは主に手作りで、通常多くのレイヤを含んでいる。 進化的アルゴリズムによるDNNの自動構築に関する研究フロンティアが出現している。 本稿では,2次元脳進化と2次元DNN進化モデルの重要性を強調した。 また、DNNの正規化に広く用いられているドロップアウト法と脳神経新生の関連性、そしてこれらの概念がDNNの進化にどう役立つかを強調し、DNNの自動構築を強化するためのいくつかの推奨事項をまとめる。

Deep Neural Networks (DNNs) are built using artificial neural networks. They are part of machine learning methods that are capable of learning from data that have been used in a wide range of applications. DNNs are mainly handcrafted and they usually contain numerous layers. Research frontier has emerged that concerns automated construction of DNNs via evolutionary algorithms. This paper emphasizes the importance of what we call two-dimensional brain evolution and how it can inspire two dimensional DNN evolutionary modeling. We also highlight the connection between the dropout method which is widely-used in regularizing DNNs and neurogenesis of the brain, and how these concepts could benefit DNNs evolution.The paper concludes with several recommendations for enhancing the automatic construction of DNNs.
翻訳日:2023-04-12 17:32:50 公開日:2023-04-11
# 単眼映像におけるスキーヤーの軌跡の可視化

Visualizing Skiers' Trajectories in Monocular Videos ( http://arxiv.org/abs/2304.02994v2 )

ライセンス: Link先を確認
Matteo Dunnhofer, Luca Sordi, Christian Micheloni(参考訳) 軌道はアルペンスキーで勝つのに基本です。 このような曲線を解析できるツールは、トレーニング活動を強化し、放送コンテンツを豊かにする。 本稿では,スキー選手が競技中に横断する点列を可視化するスキートラビスを提案する。 skitravisは単眼ビデオに取り組み、スキーヤーの動きをモデル化するビジュアルトラッカーと、カメラの動きを推定するためのフレーム対応モジュールのパイプラインを構成する。 2つの動きの分離により、移動カメラの視点に応じて軌道の可視化が可能になる。 実世界のプロのコンペティションのビデオで,可視化誤差,計算効率,応用可能性の定量化を目的として実験を行った。 その結果,放送メディアの強化とコーチング支援に対するソリューションの可能性が示された。

Trajectories are fundamental to winning in alpine skiing. Tools enabling the analysis of such curves can enhance the training activity and enrich broadcasting content. In this paper, we propose SkiTraVis, an algorithm to visualize the sequence of points traversed by a skier during its performance. SkiTraVis works on monocular videos and constitutes a pipeline of a visual tracker to model the skier's motion and of a frame correspondence module to estimate the camera's motion. The separation of the two motions enables the visualization of the trajectory according to the moving camera's perspective. We performed experiments on videos of real-world professional competitions to quantify the visualization error, the computational efficiency, as well as the applicability. Overall, the results achieved demonstrate the potential of our solution for broadcasting media enhancement and coach assistance.
翻訳日:2023-04-12 17:32:36 公開日:2023-04-11
# 音声と視覚のセマンティクスセグメンテーションについて

A Closer Look at Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2304.02970v2 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Gustavo Carneiro(参考訳) オーディオ・ビジュアルセグメンテーション(avs)は、オーディオ・ビジュアルのクエリに基づいて対応する音響オブジェクトを正確にセグメンテーションする複雑なタスクである。 オーディオ・ビジュアル学習の成功には2つの重要な要素が必要です。 1)高品質の画素レベルのマルチクラスラベルを持つバイアスのないデータセット 2)オーディオ情報を対応する視覚オブジェクトと効果的にリンクすることができるモデル。 しかしながら、これらの2つの要件は、バイアス付きオーディオビジュアルデータを含むトレーニングセットと、このバイアス付きトレーニングセットを超えて一般化されていないモデルと、現在の方法によって部分的にのみ対処される。 本研究では,コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。 我々の戦略は、Visual Post-production (VPO) と呼ばれ、単一のビデオソースから抽出された明示的な音声と視覚のペアを必要とせず、そのようなベンチマークを構築することである。 また,先行提案のavsbenchを改良し,音声・視覚セマンティクスセグメンテーションベンチマークavsbench-single+に変換する。 さらに,学習セットを超えたモデルの一般化を実現するために,新たなピクセル単位の音声・視覚コントラスト学習法を提案する。 異なるソースからのオーディオとビジュアルデータをマッチングしたデータセットや、同じビデオソースからのオーディオとビジュアルデータを含むデータセットでトレーニングされた最新(sota)モデルが、ほぼ同じ精度を持つことを示すことで、vpo戦略の妥当性を検証する。 そして,提案したVPOベンチマークとAVSBench-Single+を用いて,SOTAモデルよりも高精度な音声・視覚的セマンティックセマンティックセグメンテーションを実現することを示す。 コードとデータセットは利用可能だ。

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.
翻訳日:2023-04-12 17:32:25 公開日:2023-04-11
# オートRLハイパーパラメータの景観

AutoRL Hyperparameter Landscapes ( http://arxiv.org/abs/2304.02396v2 )

ライセンス: Link先を確認
Aditya Mohan, Carolin Benjamins, Konrad Wienecke, Alexander Dockhorn, Marius Lindauer(参考訳) 強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その性能に対するハイパーパラメータの影響によって制限されている。 これはしばしば、実践において良い結果を得るのを難しくする。 オートRL(Automated RL)はこの問題に対処するが、ハイパーパラメータ最適化(HPO)手法が最適構成を探索する際のハイパーパラメータランドスケープのダイナミクスについてはほとんど知られていない。 ハイパーパラメータの設定を動的に調整する既存のautorlアプローチの観点から,ハイパーパラメータのランドスケープを1つのポイントだけではなく,トレーニングを通じて複数のポイントで構築・解析する手法を提案する。 このようなダイナミックなAutoRLアプローチの正当性に関する重要なオープンな疑問に対処するため、様々な環境(Cartpole と Hopper)におけるRL文学(DQN と SAC)の代表的なアルゴリズムにおいて、ハイパーパラメータのランドスケープが時間とともに強く変化することを示す実験的な証拠を提供する。 これは、ハイパーパラメータをトレーニング中に動的に調整し、ランドスケープ解析によって得られるautorl問題に関するさらなる洞察を得る可能性を示す理論を支持する。

Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN and SAC) in different kinds of environments (Cartpole and Hopper). This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses.
翻訳日:2023-04-12 17:31:22 公開日:2023-04-11
# カテゴリー学習におけるスイム変圧器からの頭部温存自己注意マップによる頭蓋内出血分画の監視

Weakly Supervised Intracranial Hemorrhage Segmentation using Head-Wise Gradient-Infused Self-Attention Maps from a Swin Transformer in Categorical Learning ( http://arxiv.org/abs/2304.04902v1 )

ライセンス: Link先を確認
Amirhossein Rasoulian, Soorena Salari, Yiming Xiao(参考訳) 頭蓋内出血(ICH、Intracranial hemorrhage)は、様々な要因によって引き起こされる救命救急疾患である。 ICHのタイムリーかつ正確な診断は、効果的な治療と患者生存率の向上に不可欠である。 深層学習技術は医用画像解析と処理の先駆的アプローチとして現れてきたが、最も一般的に使われているのは、特にピクセル/ボクセル画像のセグメンテーションにおいて、取得にコストがかかるような、大きな高品質のアノテートデータセットである。 この課題に対処し, ich処理の意思決定を容易にするために, スウィン変圧器から得られる頭部傾斜干渉自己付着写像の階層的組合せを利用した, 弱教師付きichセグメンテーション法を提案した。 変換器は分類ラベル付きICH分類タスクを用いて訓練される。 提案手法の構築と検証には, RSNA 2019 Brain CT 出血と PhysioNet という2つの臨床用CTデータセットを使用した。 さらに,二分分類と全 ich サブタイピングの2つの学習戦略を比較し,自発性への影響と弱い教師付き ich セグメンテーションフレームワークについて検討した。 提案アルゴリズムは、ICHセグメンテーションにGrad-CAMを用いた同様の弱教師付きアプローチと同様に、一般的なU-Netと比較された。 平均Diceスコア0.47で、U-Netと同様のICHセグメンテーション性能を達成し、Grad-CAMベースのアプローチより優れ、医用画像セグメンテーションタスクに挑戦する上で、提案するフレームワークの優れた可能性を示した。

Intracranial hemorrhage (ICH) is a life-threatening medical emergency caused by various factors. Timely and precise diagnosis of ICH is crucial for administering effective treatment and improving patient survival rates. While deep learning techniques have emerged as the leading approach for medical image analysis and processing, the most commonly employed supervised learning often requires large, high-quality annotated datasets that can be costly to obtain, particularly for pixel/voxel-wise image segmentation. To address this challenge and facilitate ICH treatment decisions, we proposed a novel weakly supervised ICH segmentation method that leverages a hierarchical combination of head-wise gradient-infused self-attention maps obtained from a Swin transformer. The transformer is trained using an ICH classification task with categorical labels. To build and validate the proposed technique, we used two publicly available clinical CT datasets, namely RSNA 2019 Brain CT hemorrhage and PhysioNet. Additionally, we conducted an exploratory study comparing two learning strategies - binary classification and full ICH subtyping - to assess their impact on self-attention and our weakly supervised ICH segmentation framework. The proposed algorithm was compared against the popular U-Net with full supervision, as well as a similar weakly supervised approach using Grad-CAM for ICH segmentation. With a mean Dice score of 0.47, our technique achieved similar ICH segmentation performance as the U-Net and outperformed the Grad-CAM based approach, demonstrating the excellent potential of the proposed framework in challenging medical image segmentation tasks.
翻訳日:2023-04-12 16:48:39 公開日:2023-04-11
# 可視性を持つバウンディングボックスアノテーション

Bounding Box Annotation with Visible Status ( http://arxiv.org/abs/2304.04901v1 )

ライセンス: Link先を確認
Takuya Kiyokawa, Naoki Shirakura, Hiroki Katayama, Keita Tomochika, Jun Takamatsu(参考訳) ディープラーニングに基づく視覚システムのトレーニングには、深層畳み込みニューラルネットワークのパラメータを最適化するために、大量のデータの手動アノテーションが必要である。 このような手動アノテーションは、非常に時間がかかり、労働集約的です。 この負担を軽減するために、以前の研究では、手動の介入を必要としない完全に自動化されたアノテーションアプローチを提示した。 提案手法は、視覚マーカーと物体を関連付け、同じ画像でそれをキャプチャする。 しかし,前者は固定焦点カメラを用いて物体を撮影範囲内へ移動させることに頼っていたため,収集した画像データセットは撮影視点で制限された。 この制限を克服するために,モバイルアプリケーションを用いた自由視点画像キャプチャ手法を提案する。 提案したアプリケーションでは、カメラを移動させることで、バウンディングボックスにアノテートされたマルチビューイメージデータセットを自動的に収集することができる。 しかし、人間の関与による画像の収集は残酷で単調である。 そこで我々は,コレクション状態の進捗を追跡するためのゲーム化アプリケーション機能を提案する。 実験では,ボックスアノテーションのガミファイドなモバイルアプリケーションを用いて,目に見えるコレクションの進捗状況から,視覚的作業量や時間的プレッシャーの少ない多視点オブジェクトイメージデータセットを収集する動機付けを行い,エンゲージメントが向上することを示した。

Training deep-learning-based vision systems requires the manual annotation of a significant amount of data to optimize several parameters of the deep convolutional neural networks. Such manual annotation is highly time-consuming and labor-intensive. To reduce this burden, a previous study presented a fully automated annotation approach that does not require any manual intervention. The proposed method associates a visual marker with an object and captures it in the same image. However, because the previous method relied on moving the object within the capturing range using a fixed-point camera, the collected image dataset was limited in terms of capturing viewpoints. To overcome this limitation, this study presents a mobile application-based free-viewpoint image-capturing method. With the proposed application, users can collect multi-view image datasets automatically that are annotated with bounding boxes by moving the camera. However, capturing images through human involvement is laborious and monotonous. Therefore, we propose gamified application features to track the progress of the collection status. Our experiments demonstrated that using the gamified mobile application for bounding box annotation, with visible collection progress status, can motivate users to collect multi-view object image datasets with less mental workload and time pressure in an enjoyable manner, leading to increased engagement.
翻訳日:2023-04-12 16:48:09 公開日:2023-04-11
# スマートフォンカメラペアからのポイント・アンド・ショット全焦点写真合成

Point-and-Shoot All-in-Focus Photo Synthesis from Smartphone Camera Pair ( http://arxiv.org/abs/2304.04917v1 )

ライセンス: Link先を確認
Xianrui Luo, Juewen Peng, Weiyue Zhao, Ke Xian, Hao Lu, and Zhiguo Cao(参考訳) All-in-Focus(AIF)写真は、現代のスマートフォンの商業的セールスポイントになるだろう。 標準的なaif合成には、focal stack compositingのような手動で時間を要する操作が必要である。 スマートフォンで一眼レフ撮影を実現するため,同じカメラで撮影した複数の写真ではなく,一眼カメラからAIF写真を生成することができると期待している。 現代のスマートフォンにおけるマルチカメラモジュールの利点として、メイン(ワイド)およびウルトラワイドカメラからのAIF合成の新しいタスクを導入する。 ゴールは、超ワイドカメラの助けを借りて、メインカメラの写真の焦点がずれた領域の鮮明な詳細を回収することだ。 カメラ設定は、視差による閉塞やカメラ間の一貫性のない色といった新しい課題を提起する。 そこで本研究では,オクルージョンを軽減し,色補正のための動的周波数領域アライメントを提案する。 効果的なトレーニングと評価を可能にするために,2686のユニークなシーンを持つaifデータセットも構築する。 各シーンにはメインカメラで撮影した2枚の写真、超ワイドカメラで撮影した1枚の写真、合成されたAIF写真が含まれる。 その結果,我々のソリューションはeasyaifと呼ばれ,高品質なaif写真を生成することができ,定量的かつ定性的に強力なベースラインを上回ることがわかった。 初めて、メインカメラとウルトラワイドカメラを用いて、ポイント・アンド・ショットのAIF写真合成に成功した。

All-in-Focus (AIF) photography is expected to be a commercial selling point for modern smartphones. Standard AIF synthesis requires manual, time-consuming operations such as focal stack compositing, which is unfriendly to ordinary people. To achieve point-and-shoot AIF photography with a smartphone, we expect that an AIF photo can be generated from one shot of the scene, instead of from multiple photos captured by the same camera. Benefiting from the multi-camera module in modern smartphones, we introduce a new task of AIF synthesis from main (wide) and ultra-wide cameras. The goal is to recover sharp details from defocused regions in the main-camera photo with the help of the ultra-wide-camera one. The camera setting poses new challenges such as parallax-induced occlusions and inconsistent color between cameras. To overcome the challenges, we introduce a predict-and-refine network to mitigate occlusions and propose dynamic frequency-domain alignment for color correction. To enable effective training and evaluation, we also build an AIF dataset with 2686 unique scenes. Each scene includes two photos captured by the main camera, one photo captured by the ultrawide camera, and a synthesized AIF photo. Results show that our solution, termed EasyAIF, can produce high-quality AIF photos and outperforms strong baselines quantitatively and qualitatively. For the first time, we demonstrate point-and-shoot AIF photo synthesis successfully from main and ultra-wide cameras.
翻訳日:2023-04-12 16:37:20 公開日:2023-04-11
# 動的離散選択モデルのためのデータ駆動状態集約手法

A Data-Driven State Aggregation Approach for Dynamic Discrete Choice Models ( http://arxiv.org/abs/2304.04916v1 )

ライセンス: Link先を確認
Sinong Geng, Houssam Nassif and Carlos A. Manzanares(参考訳) 本研究では,エージェント行動データを用いてエージェント報酬関数(構造的パラメータとも呼ばれる)のパラメータを推定する動的離散選択モデルについて検討する。 そのようなモデルの最大確率推定には、次元の呪いによって制限される動的プログラミングが必要である。 本稿では,状態の選択と集約のためのデータ駆動型手法を提供する新しいアルゴリズムを提案する。 我々の方法は2つの段階で動作する。 第1段階では,フレキシブルな逆強化学習手法を用いてエージェントq関数を推定する。 これらの推定されたq関数とクラスタリングアルゴリズムを用いて、q関数の変化を駆動する最も重要な状態のサブセットを選択する。 第2段階では、これらの選択された「集約」状態を用いて、一般に使用されるネスト固定点アルゴリズムを用いて最大確率推定を行う。 提案手法は,問題次元を小さくすることで次元の呪いを軽減する。 理論的には、関連する推定誤差の有限サンプル境界を導出し、計算複雑性、推定誤差、サンプル複雑性のトレードオフを特徴付ける。 2つの古典的動的離散的選択推定法におけるアルゴリズムの実証的性能を示す。

We study dynamic discrete choice models, where a commonly studied problem involves estimating parameters of agent reward functions (also known as "structural" parameters), using agent behavioral data. Maximum likelihood estimation for such models requires dynamic programming, which is limited by the curse of dimensionality. In this work, we present a novel algorithm that provides a data-driven method for selecting and aggregating states, which lowers the computational and sample complexity of estimation. Our method works in two stages. In the first stage, we use a flexible inverse reinforcement learning approach to estimate agent Q-functions. We use these estimated Q-functions, along with a clustering algorithm, to select a subset of states that are the most pivotal for driving changes in Q-functions. In the second stage, with these selected "aggregated" states, we conduct maximum likelihood estimation using a commonly used nested fixed-point algorithm. The proposed two-stage approach mitigates the curse of dimensionality by reducing the problem dimension. Theoretically, we derive finite-sample bounds on the associated estimation error, which also characterize the trade-off of computational complexity, estimation error, and sample complexity. We demonstrate the empirical performance of the algorithm in two classic dynamic discrete choice estimation applications.
翻訳日:2023-04-12 16:36:57 公開日:2023-04-11
# AffectMachine-Classical: 感情的なクラシック音楽を生み出す新しいシステム

AffectMachine-Classical: A novel system for generating affective classical music ( http://arxiv.org/abs/2304.04915v1 )

ライセンス: Link先を確認
Kat R. Agres, Adyasha Dash, Phoebe Chua(参考訳) この研究はAffectMachine-Classicalと呼ばれる新しい音楽生成システムを導入し、リアルタイムで感情的なクラシック音楽を生成する。 affectmachineはバイオフィードバックシステム(脳-コンピューター-インターフェースなど)に組み込まれ、ユーザが自身の動的情動状態を認識し、最終的に仲介するように設計されている。 すなわち,音楽ベースのMedTechにおいて,ユーザのリアルタイム感情自己制御を支援するシステムを開発した。 本稿では,ルールベースで確率的なシステムアーキテクチャの概要を説明し,システムの主な側面とその新規性について述べる。 そこで本研究では,対象の感情を聴取者に確実に伝達するシステムの有効性を検証するために,聴取者実験の結果を提示する。 その結果,AffectMachine-Classicalは聴取者に様々なレベルの覚醒(R^2 = .96$)を伝えるのに非常に効果的であり,Valence(R^2 = .90)についても極めて説得力があることがわかった。 今後は、AffectMachine-Classicalをバイオフィードバックシステムに組み込んで、リスナーの感情的幸福のために感情的な音楽の効果を活用する予定だ。

This work introduces a new music generation system, called AffectMachine-Classical, that is capable of generating affective Classic music in real-time. AffectMachine was designed to be incorporated into biofeedback systems (such as brain-computer-interfaces) to help users become aware of, and ultimately mediate, their own dynamic affective states. That is, this system was developed for music-based MedTech to support real-time emotion self-regulation in users. We provide an overview of the rule-based, probabilistic system architecture, describing the main aspects of the system and how they are novel. We then present the results of a listener study that was conducted to validate the ability of the system to reliably convey target emotions to listeners. The findings indicate that AffectMachine-Classical is very effective in communicating various levels of Arousal ($R^2 = .96$) to listeners, and is also quite convincing in terms of Valence (R^2 = .90). Future work will embed AffectMachine-Classical into biofeedback systems, to leverage the efficacy of the affective music for emotional well-being in listeners.
翻訳日:2023-04-12 16:36:41 公開日:2023-04-11
# 規制市場:AIガバナンスの未来

Regulatory Markets: The Future of AI Governance ( http://arxiv.org/abs/2304.04914v1 )

ライセンス: Link先を確認
Gillian K. Hadfield, Jack Clark(参考訳) 人工知能を適切に規制することは、ますます緊急の政策課題である。 立法府や規制当局は、公共の要求を法的要件に最善に翻訳するために必要な専門知識を欠いている。 産業の自己規制への過度な依存は、民主的要求に責任を負うAIシステムの生産者とユーザを保持することに失敗する。 民間規制当局から規制サービスを購入するための規制対象を政府が求める規制市場が提案されている。 ai規制に対するこのアプローチは、指揮統制規制と自己規制の両方の限界を克服する可能性がある。 規制市場は、政策立案者の指示された目的を最も達成するための規制方法を開拓する市場力と産業R&Dの努力に頼りながら、AI規制のための政策優先順位を確立することができる。

Appropriately regulating artificial intelligence is an increasingly urgent policy challenge. Legislatures and regulators lack the specialized knowledge required to best translate public demands into legal requirements. Overreliance on industry self-regulation fails to hold producers and users of AI systems accountable to democratic demands. Regulatory markets, in which governments require the targets of regulation to purchase regulatory services from a private regulator, are proposed. This approach to AI regulation could overcome the limitations of both command-and-control regulation and self-regulation. Regulatory market could enable governments to establish policy priorities for the regulation of AI, whilst relying on market forces and industry R&D efforts to pioneer the methods of regulation that best achieve policymakers' stated objectives.
翻訳日:2023-04-12 16:36:17 公開日:2023-04-11
# CNNとトランスを用いた財務時系列予測

Financial Time Series Forecasting using CNN and Transformer ( http://arxiv.org/abs/2304.04912v1 )

ライセンス: Link先を確認
Zhen Zeng, Rachneet Kaur, Suchetha Siddagangappa, Saba Rahimi, Tucker Balch, Manuela Veloso(参考訳) 時系列予測は意思決定のために様々な領域で重要である。 特に、データポイント間の短期的・長期的依存関係をモデル化することが困難であるため、株価などの金融時系列は予測が難しい。 畳み込みニューラルネットワーク(CNN)は、短期的依存関係をモデル化するためのローカルパターンのキャプチャに長けている。 しかし、CNNは受容領域が限られているため、長期的な依存関係を学習できない。 一方、トランスフォーマーは、グローバルコンテキストと長期的な依存関係を学ぶことができる。 本稿では,CNN と Transformer のパワーを活用して,時系列内の短期的および長期的依存関係をモデル化し,将来価格が上がるか,下降するか,あるいは同じ(フラットな)状態に留まるかを予測する。 本研究では,S&P500成分の日内株価変動予測における統計的・深層学習法と比較して,提案手法の有効性を実証した。

Time series forecasting is important across various domains for decision-making. In particular, financial time series such as stock prices can be hard to predict as it is difficult to model short-term and long-term temporal dependencies between data points. Convolutional Neural Networks (CNN) are good at capturing local patterns for modeling short-term dependencies. However, CNNs cannot learn long-term dependencies due to the limited receptive field. Transformers on the other hand are capable of learning global context and long-term dependencies. In this paper, we propose to harness the power of CNNs and Transformers to model both short-term and long-term dependencies within a time series, and forecast if the price would go up, down or remain the same (flat) in the future. In our experiments, we demonstrated the success of the proposed method in comparison to commonly adopted statistical and deep learning methods on forecasting intraday stock price change of S&P 500 constituents.
翻訳日:2023-04-12 16:36:03 公開日:2023-04-11
# 直列弾性アクチュエータの力制御のための実時間モデルフリー深層補強学習

Real-Time Model-Free Deep Reinforcement Learning for Force Control of a Series Elastic Actuator ( http://arxiv.org/abs/2304.04911v1 )

ライセンス: Link先を確認
Ruturaj Sambhus, Aydin Gokce, Stephen Welch, Connor W. Herron, and Alexander Leonessa(参考訳) 多くの最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用している。 モデルフリーPID制御法は、ケースドモデルベースロバストコントローラがこれらの効果を除去して安定した力制御を実現するSEAの非線形性により不安定になりやすい。 しかし、これらのモデルに基づく手法は、システムを正確に特徴づけるために詳細な調査を必要とする。 深層強化学習(DRL)は,ハードウェア学習を扱う作業がほとんどない継続的制御タスクにおいて,効果的なモデルレス手法であることが証明されている。 本稿では、近位ポリシー最適化(ppo)アルゴリズムを用いて、50n振幅における0.05hzから0.35hzの追従力制御軌跡を追跡するシー振り子システムのハードウェアに関するdrlポリシーの訓練過程について述べる。 安全機構は、全21時間トレーニング期間内にオペレーターがいない状態で、12時間(夜間)にポリシーを訓練するために開発され、利用される。 追尾性能は,最初の18分を50N振幅のフル21時間,0.1Hzの正弦波所望の力軌跡と比較した場合の平均絶対誤差として25ドルNの改善を示す。 最後に、DRLポリシは50Nチャープ力軌跡のモデルフリーPIDコントローラと比較して、より良いトラッキングと安定性のマージンを示す。

Many state-of-the art robotic applications utilize series elastic actuators (SEAs) with closed-loop force control to achieve complex tasks such as walking, lifting, and manipulation. Model-free PID control methods are more prone to instability due to nonlinearities in the SEA where cascaded model-based robust controllers can remove these effects to achieve stable force control. However, these model-based methods require detailed investigations to characterize the system accurately. Deep reinforcement learning (DRL) has proved to be an effective model-free method for continuous control tasks, where few works deal with hardware learning. This paper describes the training process of a DRL policy on hardware of an SEA pendulum system for tracking force control trajectories from 0.05 - 0.35 Hz at 50 N amplitude using the Proximal Policy Optimization (PPO) algorithm. Safety mechanisms are developed and utilized for training the policy for 12 hours (overnight) without an operator present within the full 21 hours training period. The tracking performance is evaluated showing improvements of $25$ N in mean absolute error when comparing the first 18 min. of training to the full 21 hours for a 50 N amplitude, 0.1 Hz sinusoid desired force trajectory. Finally, the DRL policy exhibits better tracking and stability margins when compared to a model-free PID controller for a 50 N chirp force trajectory.
翻訳日:2023-04-12 16:35:49 公開日:2023-04-11
# 一次元ボースガスの一般化流体力学の理論

The Theory of Generalised Hydrodynamics for the One-dimensional Bose Gas ( http://arxiv.org/abs/2304.04910v1 )

ライセンス: Link先を確認
M. L. Kerr and K. V. Kheruntsyan(参考訳) 本稿では, 一般流体力学(GHD)理論の最近の発展を, 反発型1次元ボース気体を中心に概説する。 本稿では, 積分可能な量子多体系の熱化機構と, 様々な量子クエンチシナリオにおける可積分系および近可積分系の非平衡挙動を記述する能力について論じる。 寒冷原子ガス中のghdの実験実験と他の微視的理論的手法によるベンチマークについて概説する。 最後に,GHDの発展に向けた今後の方向性について考察する。

This article reviews the recent developments in the theory of generalised hydrodynamics (GHD) with emphasis on the repulsive one-dimensional Bose gas. We discuss the implications of GHD on the mechanisms of thermalisation in integrable quantum many-body systems as well as its ability to describe far-from-equilibrium behaviour of integrable and near integrable systems in a variety of quantum quench scenarios. We outline the experimental tests of GHD in cold-atom gases and its benchmarks with other microscopic theoretical approaches. Finally, we offer some perspectives on the future direction of the development of GHD.
翻訳日:2023-04-12 16:35:24 公開日:2023-04-11
# satr: 3d形状のゼロショット意味セグメンテーション

SATR: Zero-Shot Semantic Segmentation of 3D Shapes ( http://arxiv.org/abs/2304.04909v1 )

ライセンス: Link先を確認
Ahmed Abdelreheem, Ivan Skorokhodov, Maks Ovsjanikov, Peter Wonka(参考訳) 3次元形状のゼロショット意味セグメンテーションの課題を,大規模市販2次元画像認識モデルを用いて検討する。 驚くべきことに、現代のゼロショット2dオブジェクト検出器は、現代のテキスト/画像類似性予測器やゼロショット2dセグメンテーションネットワークよりもこのタスクに適している。 我々の重要な発見は、基底表面の位相特性を用いて、多視点境界ボックス予測から正確な3次元セグメンテーションマップを抽出できることである。 本研究では,Segmentation Assignment with Topological Reweighting (SATR)アルゴリズムを開発し,FAUSTとShapeNetPartの2つのベンチマークで評価する。 これらのデータセット上では、SATRは最先端のパフォーマンスを達成し、mIoUの観点で平均して少なくとも22\%の先行処理を達成している。 ソースコードとデータは公開される予定だ。 プロジェクトWebページ: https://samir55.github.io/SATR/

We explore the task of zero-shot semantic segmentation of 3D shapes by using large-scale off-the-shelf 2D image recognition models. Surprisingly, we find that modern zero-shot 2D object detectors are better suited for this task than contemporary text/image similarity predictors or even zero-shot 2D segmentation networks. Our key finding is that it is possible to extract accurate 3D segmentation maps from multi-view bounding box predictions by using the topological properties of the underlying surface. For this, we develop the Segmentation Assignment with Topological Reweighting (SATR) algorithm and evaluate it on two challenging benchmarks: FAUST and ShapeNetPart. On these datasets, SATR achieves state-of-the-art performance and outperforms prior work by at least 22\% on average in terms of mIoU. Our source code and data will be publicly released. Project webpage: https://samir55.github.io/SATR/
翻訳日:2023-04-12 16:35:17 公開日:2023-04-11
# future-viewイメージセマンティクス生成による視覚・言語ナビゲーションの改善

Improving Vision-and-Language Navigation by Generating Future-View Image Semantics ( http://arxiv.org/abs/2304.04907v1 )

ライセンス: Link先を確認
Jialu Li, Mohit Bansal(参考訳) VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。 各ステップでエージェントは、ナビゲート可能な場所のセットから選択することで次のアクションを取る。 本稿では,さらに一歩進めて,エージェントがナビゲーション中に将来的なビューを生成できるかどうかを検討することを目的とする。 直感的には、自然言語による指示と周囲の視点に基づいて、人間は将来の環境がどのように見えるかを期待できる。 そこで,このエージェントに将来のナビゲーションビューのセマンティクスを生成する能力を持たせるために,まず,エージェントのドメイン内事前トレーニング中の3つのプロキシタスクを提案する: マスクパノラマモデリング(mpm),マスク軌道モデリング(mtm),および画像生成によるアクション予測(apig)。 これらの3つの目的は、パノラマ(MPM)における行方不明の視点を予測し、全軌跡(MTM)における行方不明のステップを予測し、フルインストラクションとナビゲーション履歴(APIG)に基づいて次のビューを生成する。 次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップの地上真実ビューセマンティクスとの差を最小限に抑える。 経験的に、VLN-SIGはRoom-to-RoomデータセットとCVDNデータセットの両方で新しい最先端を実現する。 さらに, エージェントは, エージェントの予測した行動よりも解釈性を高めるために, 将来的な視点で欠落するパッチを定性的に埋めることを学ぶ。 最後に、将来のビューセマンティクスを予測する学習により、エージェントがより長いパスでより良いパフォーマンスを得られることを示す。

Vision-and-Language Navigation (VLN) is the task that requires an agent to navigate through the environment based on natural language instructions. At each step, the agent takes the next action by selecting from a set of navigable locations. In this paper, we aim to take one step further and explore whether the agent can benefit from generating the potential future view during navigation. Intuitively, humans will have an expectation of how the future environment will look like, based on the natural language instructions and surrounding views, which will aid correct navigation. Hence, to equip the agent with this ability to generate the semantics of future navigation views, we first propose three proxy tasks during the agent's in-domain pre-training: Masked Panorama Modeling (MPM), Masked Trajectory Modeling (MTM), and Action Prediction with Image Generation (APIG). These three objectives teach the model to predict missing views in a panorama (MPM), predict missing steps in the full trajectory (MTM), and generate the next view based on the full instruction and navigation history (APIG), respectively. We then fine-tune the agent on the VLN task with an auxiliary loss that minimizes the difference between the view semantics generated by the agent and the ground truth view semantics of the next step. Empirically, our VLN-SIG achieves the new state-of-the-art on both the Room-to-Room dataset and the CVDN dataset. We further show that our agent learns to fill in missing patches in future views qualitatively, which brings more interpretability over agents' predicted actions. Lastly, we demonstrate that learning to predict future view semantics also enables the agent to have better performance on longer paths.
翻訳日:2023-04-12 16:35:03 公開日:2023-04-11
# 信頼に値するディープニューラルネットワークに向けた不確実性推定の活用に関する調査--リジェクションオプションとポストトレーニング処理の場合

Survey on Leveraging Uncertainty Estimation Towards Trustworthy Deep Neural Networks: The Case of Reject Option and Post-training Processing ( http://arxiv.org/abs/2304.04906v1 )

ライセンス: Link先を確認
Mehedi Hasan, Moloud Abdar, Abbas Khosravi, Uwe Aickelin, Pietro Lio', Ibrahim Hossain, Ashikur Rahman and Saeid Nahavandi(参考訳) ニューラルネットワーク(特にディープニューラルネットワーク)は、多くの分野で \textit{better- than-human} のパフォーマンスを達成しているが、その知識の限界に対する認識の欠如により、現実の展開には疑問が残る。 このような認識を機械学習モデルに組み込むために、リジェクションオプションによる予測(選択的分類または棄権的分類とも呼ばれる)が文献で提案されている。 本稿では,様々なニューラルネットワークの文脈において,rejectオプションを用いた予測を体系的に検討する。 私たちの知る限りでは、ニューラルネットワークのこの側面に焦点を当てた最初の研究です。 さらに,モデルの知識認識に適した測定値を生成するために,ネットワーク出力のリジェクトオプションとトレーニング後処理(if)に関連する新たな損失関数について検討する。 最後に、実時間問題に対する予測時間を削減するためのリジェクションオプションの適用に対処し、幅広いニューラルネットワークの文脈においてリジェクションオプションに関連するテクニックの包括的な要約を示す。 私たちのコードはgithubで入手できる。 \url{https://github.com/mehedihasantutul/reject_option}

Although neural networks (especially deep neural networks) have achieved \textit{better-than-human} performance in many fields, their real-world deployment is still questionable due to the lack of awareness about the limitation in their knowledge. To incorporate such awareness in the machine learning model, prediction with reject option (also known as selective classification or classification with abstention) has been proposed in literature. In this paper, we present a systematic review of the prediction with the reject option in the context of various neural networks. To the best of our knowledge, this is the first study focusing on this aspect of neural networks. Moreover, we discuss different novel loss functions related to the reject option and post-training processing (if any) of network output for generating suitable measurements for knowledge awareness of the model. Finally, we address the application of the rejection option in reducing the prediction time for the real-time problems and present a comprehensive summary of the techniques related to the reject option in the context of extensive variety of neural networks. Our code is available on GitHub: \url{https://github.com/MehediHasanTutul/Reject_option}
翻訳日:2023-04-12 16:34:32 公開日:2023-04-11
# 条件適応器:高速推論によるパラメータ効率変換学習

Conditional Adapters: Parameter-efficient Transfer Learning with Fast Inference ( http://arxiv.org/abs/2304.04947v1 )

ライセンス: Link先を確認
Tao Lei, Junwen Bai, Siddhartha Brahma, Joshua Ainslie, Kenton Lee, Yanqi Zhou, Nan Du, Vincent Y. Zhao, Yuexin Wu, Bo Li, Yu Zhang, Ming-Wei Chang(参考訳) 本稿では,パラメータ効率の高い伝達学習手法である条件付きアダプタ(coda)を提案する。 CoDAは標準アダプタアプローチを超越して一般化し、条件計算を用いて速度と精度のバランスをとる新しい方法を実現する。 既存の密集した事前学習モデルから始め、codaは少量の新しいパラメータと軽量トレーニングフェーズと共にスパースアクティベーションを追加している。 我々の実験は、CoDAアプローチが予想外の効果的な知識伝達方法を提供することを示した。 様々な言語、視覚、音声のタスクを通して、codaは精度の損失が少なくパラメータ効率が同じで、最先端アダプタアプローチと比較して2倍から8倍の速度アップを実現している。

We propose Conditional Adapter (CoDA), a parameter-efficient transfer learning method that also improves inference efficiency. CoDA generalizes beyond standard adapter approaches to enable a new way of balancing speed and accuracy using conditional computation. Starting with an existing dense pretrained model, CoDA adds sparse activation together with a small number of new parameters and a light-weight training phase. Our experiments demonstrate that the CoDA approach provides an unexpectedly efficient way to transfer knowledge. Across a variety of language, vision, and speech tasks, CoDA achieves a 2x to 8x inference speed-up compared to the state-of-the-art Adapter approach with moderate to no accuracy loss and the same parameter efficiency.
翻訳日:2023-04-12 16:28:42 公開日:2023-04-11
# 直接量子波動関数再構成によるデジタルホログラフィー

Digital Holographic Imaging via Direct Quantum Wavefunction Reconstruction ( http://arxiv.org/abs/2304.04936v1 )

ライセンス: Link先を確認
Meng-Jun Hu and Yong-Sheng ZHang(参考訳) 波動関数は量子論の基本概念である。 近年の研究では、弱い値の測定によって波動関数を直接再構成できることが示されている。 弱値に基づく直接波動関数再構成は波動関数の操作的意味を与えるだけでなく、全く新しい量子アプローチでホログラフィックイメージングを実現する可能性をもたらす。 本稿では,弱値に基づく直接波動関数再構成の背景知識と最近の実験結果について概説する。 本研究の主な目的は、直接波動関数再構成によるホログラフィーイメージングの考え方である。 このトピックに関する研究はまだ初期段階にあるので、この研究が従来のホログラフィックイメージングの分野に関心を惹きつけることを期待している。 さらに、波動関数ホログラフィックイメージングは量子情報科学において重要な応用を見出しうる。

Wavefunction is a fundamental concept of quantum theory. Recent studies have shown surprisingly that wavefunction can be directly reconstructed via the measurement of weak value. The weak value based direct wavefunction reconstruction not only gives the operational meaning of wavefunction, but also provides the possibility of realizing holographic imaging with a totally new quantum approach. Here, we review the basic background knowledge of weak value based direct wavefunction reconstruction combined with recent experimental demonstrations. The main purpose of this work focuses on the idea of holographic imaging via direct wavefunction reconstruction. Since research on this topic is still in its early stage, we hope that this work can attract interest in the field of traditional holographic imaging. In addition, the wavefunction holographic imaging may find important applications in quantum information science.
翻訳日:2023-04-12 16:28:27 公開日:2023-04-11
# 記述型関係プロンプトを用いたコントラスト学習による文レベル関係抽出

Sentence-Level Relation Extraction via Contrastive Learning with Descriptive Relation Prompts ( http://arxiv.org/abs/2304.04935v1 )

ライセンス: Link先を確認
Jiewen Zheng, Ze Chen(参考訳) 文レベルの関係抽出は、与えられた文に対する2つのエンティティ間の関係を識別することを目的としている。 既存の作品は、より優れたエンティティ表現の獲得と、関係抽出のためのマルチラベル分類器の採用に重点を置いている。 これらの研究の大きな制限は、背景関係知識を無視し、エンティティタイプと候補関係の相互関係を無視することである。 本研究では, エンティティ情報, 関係知識, エンティティタイプ制約を共同で検討するための, コントラスト学習(Contrastive Learning with Descriptive Relation Prompts, CTL-DRP)を提案する。 特に,コンテクスト埋め込み生成時に改良されたエンティティマーカーと記述関係プロンプトを導入し,コントラスト学習を用いて制限された候補関係をランク付けする。 CTL-DRPはTACREDで76.7%のF1スコアを獲得している。 さらに、新しい提案パラダイムは、最先端のパフォーマンスであるTACREVとRe-TACREDでそれぞれ85.8%と91.6%のF1スコアを達成する。

Sentence-level relation extraction aims to identify the relation between two entities for a given sentence. The existing works mostly focus on obtaining a better entity representation and adopting a multi-label classifier for relation extraction. A major limitation of these works is that they ignore background relational knowledge and the interrelation between entity types and candidate relations. In this work, we propose a new paradigm, Contrastive Learning with Descriptive Relation Prompts(CTL-DRP), to jointly consider entity information, relational knowledge and entity type restrictions. In particular, we introduce an improved entity marker and descriptive relation prompts when generating contextual embedding, and utilize contrastive learning to rank the restricted candidate relations. The CTL-DRP obtains a competitive F1-score of 76.7% on TACRED. Furthermore, the new presented paradigm achieves F1-scores of 85.8% and 91.6% on TACREV and Re-TACRED respectively, which are both the state-of-the-art performance.
翻訳日:2023-04-12 16:28:14 公開日:2023-04-11
# モデルのスパーシフィケーションは機械学習を単純化する

Model sparsification can simplify machine unlearning ( http://arxiv.org/abs/2304.04934v1 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制は、モデルから特定の例の効果を取り除き、マシン・アンラーニング(mu)を必要としている。 残りのデータをスクラッチから再トレーニングすることで、正確なアンラーニングが可能になるが、計算コストは近似的だが効率的なアンラーニングスキームの開発につながった。 データ中心のMUソリューション以外にも、新しいモデルベースの視点でMUを前進させます。 理論と実践の両方の結果から,モデルのスパーシティは,効率を保ちながら近似ギャップを閉じながら,近似未学習者のマルチクリテリアアンラーニング性能を向上できることが示唆された。 この知見を活かして,「prune first, then unlearn」と「sparsity-aware unlearning」の2つの新しい非学習メタスキームを開発した。 大規模な実験により,クラスワイドデータスクレイビング,ランダムデータスクレイビング,バックドアデータスレッディングなど,さまざまなシナリオにおいてMUのメリットが一貫して示された。 1つのハイライトは、提案されているスパーシティ・アウェア・アンラーニングパラダイムにおける微調整(最も近似的なアンラーニング手法の1つ)による77%のアンラーニング効果向上である。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

Recent data regulations necessitate machine unlearning (MU): The removal of the effect of specific examples from the model. While exact unlearning is possible by conducting a model retraining with the remaining data from scratch, its computational cost has led to the development of approximate but efficient unlearning schemes. Beyond data-centric MU solutions, we advance MU through a novel model-based viewpoint: sparsification via weight pruning. Our results in both theory and practice indicate that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. With this insight, we develop two new sparsity-aware unlearning meta-schemes, termed `prune first, then unlearn' and `sparsity-aware unlearning'. Extensive experiments show that our findings and proposals consistently benefit MU in various scenarios, including class-wise data scrubbing, random data scrubbing, and backdoor data forgetting. One highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest approximate unlearning methods) in the proposed sparsity-aware unlearning paradigm. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-04-12 16:27:55 公開日:2023-04-11
# 強化学習指導員が算数課題で低学力者を支援する

Reinforcement Learning Tutor Better Supported Lower Performers in a Math Task ( http://arxiv.org/abs/2304.04933v1 )

ライセンス: Link先を確認
Sherry Ruan, Allen Nie, William Steenbergen, Jiayu He, JQ Zhang, Meng Guo, Yao Liu, Kyle Dang Nguyen, Catherine Y Wang, Rui Ying, James A Landay, Emma Brunskill. Sherry Ruan, Allen Nie, William Steenbergen, Jiayu He, JQ Zhang, Meng Guo, Yao Liu, Kyle Dang Nguyen, Catherine Y Wang, Rui Ying, James A Landay, Emma Brunskill(参考訳) リソース制限は、すべての学生に最も効果的な教育介入の1つ、パーソナライズドインストラクションを提供することを困難にしている。 強化学習は、学生に適切なサポートを提供することを目的として、開発コストを削減し、インテリジェントな学習ソフトウェアの有効性を向上させるための重要なツールとなり得る。 本稿では,物語ストーリーラインソフトウェアにおけるボリュームの概念を学習する学生に適応的な教育支援を提供するために,深層強化学習が利用できることを示す。 また、説明可能な人工知能ツールを用いて、学習した教育政策に関する解釈可能な洞察を抽出し、その結果、異なる学生群で同様の性能を示した。 最も重要なことは、両方の研究において、強化学習の物語システムは、最下位の事前試験スコアを持つ学生にとって最大の利益をもたらし、AIが最も必要な学生に適応し支援する機会を示唆したことである。

Resource limitations make it hard to provide all students with one of the most effective educational interventions: personalized instruction. Reinforcement learning could be a key tool to reduce the development cost and improve the effectiveness of, intelligent tutoring software that aims to provide the right support, at the right time, to a student. Here we illustrate that deep reinforcement learning can be used to provide adaptive pedagogical support to students learning about the concept of volume in a narrative storyline software. Using explainable artificial intelligence tools, we also extracted interpretable insights about the pedagogical policy learned, and we demonstrate that the resulting policy had similar performance in a different student population. Most importantly, in both studies the reinforcement-learning narrative system had the largest benefit for those students with the lowest initial pretest scores, suggesting the opportunity for AI to adapt and provide support for those most in need.
翻訳日:2023-04-12 16:27:33 公開日:2023-04-11
# 量子特異値変換と量子機械学習アルゴリズムのロバスト量子化

Robust Dequantization of the Quantum Singular value Transformation and Quantum Machine Learning Algorithms ( http://arxiv.org/abs/2304.04932v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall(参考訳) 線形代数問題、特に量子機械学習問題に対するいくつかの量子アルゴリズムは、ここ数年で「不等化」されてきた。 これらの重複化の結果は、古典的なアルゴリズムが長さ2乗サンプリングによってデータにアクセスできることが典型的である。 本研究では,これらの分散化結果がいかに堅牢かを検討する。 本稿では,古典的アルゴリズムが全変動距離における理想分布に近い分布からのみサンプリングできるような,近似長2乗サンプリングの概念を導入する。 量子アルゴリズムは小さな摂動に対して本質的に堅牢であるが、復調の現在の技術はそうではない。 我々の主要な技術的貢献は、ランダム化された線型代数の技法が、この弱い仮定の下でどのように機能するかを示すことです。 次に、これらの手法を用いて、近年のChia, Gily\'en, Li, Lin, Tang and Wang (JACM 2022)による低ランク化フレームワークと、量子特異値変換に基づくGharibian and Le Gall (STOC 2022)によるスパース行列の分位化フレームワークが、入力への近似長二乗サンプリングアクセスの場合に一般化可能であることを示す。 また、これらの結果を用いて、推薦システムのための量子アルゴリズム、教師付きクラスタリング、低ランク行列反転を含む、多くの量子機械学習アルゴリズムのロバストな非量子化を得る。

Several quantum algorithms for linear algebra problems, and in particular quantum machine learning problems, have been "dequantized" in the past few years. These dequantization results typically hold when classical algorithms can access the data via length-squared sampling. In this work we investigate how robust these dequantization results are. We introduce the notion of approximate length-squared sampling, where classical algorithms are only able to sample from a distribution close to the ideal distribution in total variation distance. While quantum algorithms are natively robust against small perturbations, current techniques in dequantization are not. Our main technical contribution is showing how many techniques from randomized linear algebra can be adapted to work under this weaker assumption as well. We then use these techniques to show that the recent low-rank dequantization framework by Chia, Gily\'en, Li, Lin, Tang and Wang (JACM 2022) and the dequantization framework for sparse matrices by Gharibian and Le Gall (STOC 2022), which are both based on the Quantum Singular Value Transformation, can be generalized to the case of approximate length-squared sampling access to the input. We also apply these results to obtain a robust dequantization of many quantum machine learning algorithms, including quantum algorithms for recommendation systems, supervised clustering and low-rank matrix inversion.
翻訳日:2023-04-12 16:27:18 公開日:2023-04-11
# ライフレグレッションに基づく視覚トランスフォーマーのパッチスリム化

Life Regression based Patch Slimming for Vision Transformers ( http://arxiv.org/abs/2304.04926v1 )

ライセンス: Link先を確認
Jiawei Chen, Lin Chen, Jiang Yang, Tianqi Shi, Lechao Cheng, Zunlei Feng, Mingli Song(参考訳) ビジョントランスフォーマーは、画像内の長距離依存関係をキャプチャするためにマルチヘッド自己アテンションモジュールを使用することで、コンピュータビジョンタスクにおいて顕著な成功を収めた。 しかし、高い推論計算コストは新たな課題をもたらす。 この問題に対処するいくつかの手法が提案されている。 推論の段階では、これらのメソッドはパッチを2つのクラスに分類する。 このアプローチでは、パッチが破棄されるすべての層で追加の計算が行われ、推論の加速が妨げられる。 本研究では,各画像パッチの寿命を決定するライフレグレッションモジュールを提案することで,異なる視点からパッチスリム化問題に取り組む。 推論中、現在のレイヤインデックスがその寿命を超えると、パッチは破棄される。 提案手法は,競合性能を維持しつつ推論速度を向上させるため,複数層での計算やパラメータの追加を回避できる。 さらに、我々のアプローチでは、他のパッチスリムメソッドよりもトレーニングエポックが少ない。

Vision transformers have achieved remarkable success in computer vision tasks by using multi-head self-attention modules to capture long-range dependencies within images. However, the high inference computation cost poses a new challenge. Several methods have been proposed to address this problem, mainly by slimming patches. In the inference stage, these methods classify patches into two classes, one to keep and the other to discard in multiple layers. This approach results in additional computation at every layer where patches are discarded, which hinders inference acceleration. In this study, we tackle the patch slimming problem from a different perspective by proposing a life regression module that determines the lifespan of each image patch in one go. During inference, the patch is discarded once the current layer index exceeds its life. Our proposed method avoids additional computation and parameters in multiple layers to enhance inference speed while maintaining competitive performance. Additionally, our approach requires fewer training epochs than other patch slimming methods.
翻訳日:2023-04-12 16:26:53 公開日:2023-04-11
# 作用素空間多様体理論:リーマン多様体による量子作用素のモデリング

Operator Space Manifold Theory: Modeling Quantum Operators with a Riemannian Manifold ( http://arxiv.org/abs/2304.04921v1 )

ライセンス: Link先を確認
Gabriel Nowaskie(参考訳) 半変換アンサッツ(英: half-transform ansatz, hta)は、微分作用素を代数変数に変換し、波動関数に特定の指数係数を含む量子位相空間における超幾何方程式の解法である。 HTAの水素原子への応用の分析は、HTAが関与する基盤となるメカニズムを示唆している。 波動関数に作用する指数関数の観測は、自然に4次元作用素空間内のリーマン多様体上の点として量子作用素の定義をモデル化することを示唆する。 この概念を拡張して、HTAの真の性質と、量子状態が位置と運動量をどのように知覚するかを操作することによって、作用素空間マニフォールド理論を量子システムを記述し、解決する方法を見出した。

The Half-Transform Ansatz (HTA) is a proposed method to solve hyper-geometric equations in Quantum Phase Space by transforming a differential operator to an algebraic variable and including a specific exponential factor in the wave function, but the mechanism which provides this solution scheme is not known. Analysis of the HTA's application to the Hydrogen atom suggests an underlying mechanism which the HTA is a part of. Observations of exponential factors that act on the wave function naturally suggest modeling quantum operator definitions as a point on a Riemannian manifold in the 4D Operator Space, a novel idea we call the Operator Space Manifold Theory. Expanding on this concept, we find the true nature of the HTA and how Operator Space Manifold Theory can be used to describe and solve quantum systems by manipulating how a quantum state perceives position and momentum.
翻訳日:2023-04-12 16:26:38 公開日:2023-04-11
# 言語モデルによる医用イメージングの促進:N-gramからChatGPTへの旅

Advancing Medical Imaging with Language Models: A Journey from N-grams to ChatGPT ( http://arxiv.org/abs/2304.04920v1 )

ライセンス: Link先を確認
Mingzhe Hu, Shaoyan Pan, Yuheng Li, Xiaofeng Yang(参考訳) 本稿では,言語モデルを用いた医用画像の分野の研究者に対して,手作業の改善のためのレビューとチュートリアルの提供を目的とした。 最初は、言語モデルの歴史と概念の概要を提供し、特に大きな言語モデルに焦点をあてることから始めました。 次に, 画像キャプション, レポート生成, レポート分類, 発見抽出, 視覚的質問応答, 解釈可能な診断など, 様々な形態や臓器の様々な応用に, 言語モデルがどのように使われているかについて, 現状の文献をレビューした。 ChatGPTは、研究者がさらなる応用を探求するために特別に強調された。 臨床ワークフロー効率の向上,診断エラーの低減,医療専門家の時間的かつ正確な診断支援など,医用画像解析のための正確かつ効率的な言語モデルの有用性について検討した。 私たちの目標は、言語モデルと医療画像のギャップを埋め、このエキサイティングな研究領域で新しいアイデアとイノベーションを刺激することでした。 本論文は,この分野の研究者にとって有用な資料となり,医療画像における言語モデルの可能性のさらなる探究を促すことを期待する。

In this paper, we aimed to provide a review and tutorial for researchers in the field of medical imaging using language models to improve their tasks at hand. We began by providing an overview of the history and concepts of language models, with a special focus on large language models. We then reviewed the current literature on how language models are being used to improve medical imaging, emphasizing different applications such as image captioning, report generation, report classification, finding extraction, visual question answering, interpretable diagnosis, and more for various modalities and organs. The ChatGPT was specially highlighted for researchers to explore more potential applications. We covered the potential benefits of accurate and efficient language models for medical imaging analysis, including improving clinical workflow efficiency, reducing diagnostic errors, and assisting healthcare professionals in providing timely and accurate diagnoses. Overall, our goal was to bridge the gap between language models and medical imaging and inspire new ideas and innovations in this exciting area of research. We hope that this review paper will serve as a useful resource for researchers in this field and encourage further exploration of the possibilities of language models in medical imaging.
翻訳日:2023-04-12 16:26:21 公開日:2023-04-11
# 明示的かつ暗黙的なセマンティックランキングフレームワーク

Explicit and Implicit Semantic Ranking Framework ( http://arxiv.org/abs/2304.04918v1 )

ライセンス: Link先を確認
Xiaofeng Zhu, Thomas Lin, Vishal Anand, Matthew Calderwood, Eric Clausen-Brown, Gord Lueck, Wen-wai Yim, Cheng Wu(参考訳) 多くの実世界の応用における中核的な課題は、変更可能で有限な候補の集合から最高のドキュメントを探すことである。 既存の業界ソリューション、特にレイテンシに制約のあるサービスは、しばしば、スピードの質を犠牲にする類似性アルゴリズムに依存しています。 本稿では,srank(self-training semantic cross-attention ranking)という,汎用的な意味学習・ランク付けフレームワークを提案する。 このトランスフォーマーベースのフレームワークは、可変トレーニングバッチサイズで線形ペアワイズロスを使用し、品質向上と高効率を実現し、現実の大規模データセットであるスマートリプライ(SR)とアンビエント・クリニティ・インテリジェンス(ACI)に対するMicrosoftの2つの業界タスクの利益を効果的に適用している。 Smart Replyでは、$sRank$は、コンシューマとサポートエージェントメッセージに基づいた事前定義されたソリューションから、最高の応答を選択することによって、テクニカルサポートのライブユーザを支援する。 以前のシステムよりもsrタスクのオフライントップワンの精度が11.7%向上し、2021年1月の一般リリース以来のテレメトリにおけるメッセージ生成時間の38.7%削減を実現している。 ACIタスクでは、sRankはテキスト要約モデルのガイダンスとして、関連する歴史的な医師テンプレートを選択して、高品質な医療ノートを生成する。 35.5%の精度向上を達成し、46%の相対ルージュl上昇を達成した。

The core challenge in numerous real-world applications is to match an inquiry to the best document from a mutable and finite set of candidates. Existing industry solutions, especially latency-constrained services, often rely on similarity algorithms that sacrifice quality for speed. In this paper we introduce a generic semantic learning-to-rank framework, Self-training Semantic Cross-attention Ranking (sRank). This transformer-based framework uses linear pairwise loss with mutable training batch sizes and achieves quality gains and high efficiency, and has been applied effectively to show gains on two industry tasks at Microsoft over real-world large-scale data sets: Smart Reply (SR) and Ambient Clinical Intelligence (ACI). In Smart Reply, $sRank$ assists live customers with technical support by selecting the best reply from predefined solutions based on consumer and support agent messages. It achieves 11.7% gain in offline top-one accuracy on the SR task over the previous system, and has enabled 38.7% time reduction in composing messages in telemetry recorded since its general release in January 2021. In the ACI task, sRank selects relevant historical physician templates that serve as guidance for a text summarization model to generate higher quality medical notes. It achieves 35.5% top-one accuracy gain, along with 46% relative ROUGE-L gain in generated medical notes.
翻訳日:2023-04-12 16:26:00 公開日:2023-04-11
# GRIL: 機械学習のための2ドルのパラメータ永続化に基づくベクトル化

GRIL: A $2$-parameter Persistence Based Vectorization for Machine Learning ( http://arxiv.org/abs/2304.04970v1 )

ライセンス: Link先を確認
Cheng Xin, Soham Mukherjee, Shreyas N. Samaga, Tamal K. Dey(参考訳) トポロジカルデータ分析(TDA)の基盤となる1ドルパラメトリ・永続ホモロジーは、連結成分やデータに隠されたサイクルなどのトポロジ的特徴の進化を研究する。 グラフニューラルネットワーク(GNN)のようなディープラーニングモデルの表現力を向上するために応用されている。 トポロジカルな特徴の表現を豊かにするために,双濾過関数によって誘導されるパラメータ持続モジュールについて検討する。 これらの表現を機械学習モデルに組み込むために,2ドルのパラメータ持続モジュールに対して一般化ランク不変景観 \textsc{gril} と呼ばれる新しいベクトル表現を導入する。 このベクトル表現は、基礎となる濾過関数に対して安定で微分可能であり、トポロジ的特徴を符号化するために機械学習モデルに容易に組み込むことができることを示す。 ベクトル表現を効率的に計算するアルゴリズムを提案する。 私たちはまた、合成グラフとベンチマークグラフデータセットでメソッドをテストし、その結果を1ドルのパラメータと2ドルのパーシステンスモジュールの以前のベクター表現と比較します。

$1$-parameter persistent homology, a cornerstone in Topological Data Analysis (TDA), studies the evolution of topological features such as connected components and cycles hidden in data. It has been applied to enhance the representation power of deep learning models, such as Graph Neural Networks (GNNs). To enrich the representations of topological features, here we propose to study $2$-parameter persistence modules induced by bi-filtration functions. In order to incorporate these representations into machine learning models, we introduce a novel vector representation called Generalized Rank Invariant Landscape \textsc{Gril} for $2$-parameter persistence modules. We show that this vector representation is $1$-Lipschitz stable and differentiable with respect to underlying filtration functions and can be easily integrated into machine learning models to augment encoding topological features. We present an algorithm to compute the vector representation efficiently. We also test our methods on synthetic and benchmark graph datasets, and compare the results with previous vector representations of $1$-parameter and $2$-parameter persistence modules.
翻訳日:2023-04-12 16:20:03 公開日:2023-04-11
# 負のプロンプトアルゴリズムを再想像する: 2次元拡散を3Dに変換し、ヤヌス問題を緩和する

Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond ( http://arxiv.org/abs/2304.04968v1 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Huangjie Zheng, Ali Sadeghian, Amir Sadeghian, Mingyuan Zhou(参考訳) テキスト間の拡散モデルは、テキストから画像を生成するために大きな進歩を遂げてきたが、提供されるテキストではなく、モデルがトレーニングされたデータのような画像を生成する傾向が強かった。 この制限は、2Dアプリケーションと3Dアプリケーションの両方での使用を妨げる。 この問題に対処するため,我々は負のプロンプトの使用を検討したが,現在の実装では望ましい結果が得られず,特に主プロンプトと負のプロンプトが重複していることが判明した。 この問題を克服するために,スコア空間の幾何学的性質を活かし,現在の負のプロンプトアルゴリズムの欠点に対処する新しいアルゴリズムであるperp-negを提案する。 Perp-Negはモデルのトレーニングや微調整を一切必要としない。 さらに,初期生成画像から不要な概念を2Dケースで編集可能にすることにより,Perp-Negは画像生成の柔軟性を向上することを示した。 さらに,3dへのperp-negの適用を拡大するために,2dでのperp-negの利用法を徹底的に検討し,標準的視点に偏ることなく,拡散モデルを用いて所望のビューを生成するように条件づけた。 最後に,2次元直観を用いてPerp-Negを最先端のテキスト・トゥ・3D(DreamFusion)手法に統合し,Janus(マルチヘッド)問題を効果的に解決した。

Although text-to-image diffusion models have made significant strides in generating images from text, they are sometimes more inclined to generate images like the data on which the model was trained rather than the provided text. This limitation has hindered their usage in both 2D and 3D applications. To address this problem, we explored the use of negative prompts but found that the current implementation fails to produce desired results, particularly when there is an overlap between the main and negative prompts. To overcome this issue, we propose Perp-Neg, a new algorithm that leverages the geometrical properties of the score space to address the shortcomings of the current negative prompts algorithm. Perp-Neg does not require any training or fine-tuning of the model. Moreover, we experimentally demonstrate that Perp-Neg provides greater flexibility in generating images by enabling users to edit out unwanted concepts from the initially generated images in 2D cases. Furthermore, to extend the application of Perp-Neg to 3D, we conducted a thorough exploration of how Perp-Neg can be used in 2D to condition the diffusion model to generate desired views, rather than being biased toward the canonical views. Finally, we applied our 2D intuition to integrate Perp-Neg with the state-of-the-art text-to-3D (DreamFusion) method, effectively addressing its Janus (multi-head) problem.
翻訳日:2023-04-12 16:19:42 公開日:2023-04-11
# モンテカルロ雑音化における補助的特徴を利用した画素分割指導

Pixel-wise Guidance for Utilizing Auxiliary Features in Monte Carlo Denoising ( http://arxiv.org/abs/2304.04967v1 )

ライセンス: Link先を確認
Kyu Beom Han, Olivia G. Odenthal, Woo Jae Kim, Sung-Eui Yoon(参考訳) 幾何バッファ(Gバッファ)やパスディスクリプタ(Pバッファ)のような補助的特徴はモンテカルロ(MC)の認知を著しく改善することが示されている。 しかし,近年のアプローチでは,補助的特徴の活用が暗黙的に学習されているため,補助的特徴の活用が不十分な場合がある。 このような問題を克服するために,補助的特徴を活用するために,明示的な画素単位のガイダンスに依存するデノイングフレームワークを提案する。 まず、2つのデノイザーを訓練し、それぞれ異なる補助的特徴(GバッファまたはPバッファ)で訓練する。 そこで我々は,各画素の再構成において補助的特徴が支配される画素単位の重みマップを設計し,それを用いてデノシエの2つの識別結果をアンサンブルする。 また,ディノワザーとアンサンブルネットワークを共同で訓練し,ディノワザーにGバッファやPバッファが比較的重要となる領域に焦点を合わせることで,ディノワザーに対するピクセルワイドガイダンスを広める。 その結果,gバッファとpバッファを併用したベースライン雑音化モデルと比較して,ノイズ除去性能が大幅に向上した。

Auxiliary features such as geometric buffers (G-buffers) and path descriptors (P-buffers) have been shown to significantly improve Monte Carlo (MC) denoising. However, recent approaches implicitly learn to exploit auxiliary features for denoising, which could lead to insufficient utilization of each type of auxiliary features. To overcome such an issue, we propose a denoising framework that relies on an explicit pixel-wise guidance for utilizing auxiliary features. First, we train two denoisers, each trained by a different auxiliary feature (i.e., G-buffers or P-buffers). Then we design our ensembling network to obtain per-pixel ensembling weight maps, which represent pixel-wise guidance for which auxiliary feature should be dominant at reconstructing each individual pixel and use them to ensemble the two denoised results of our denosiers. We also propagate our pixel-wise guidance to the denoisers by jointly training the denoisers and the ensembling network, further guiding the denoisers to focus on regions where G-buffers or P-buffers are relatively important for denoising. Our result and show considerable improvement in denoising performance compared to the baseline denoising model using both G-buffers and P-buffers.
翻訳日:2023-04-12 16:19:14 公開日:2023-04-11
# コンピュータビジョンによるコーヒーのインテリジェントモニタリング:持続可能なコーヒー生産を目指して

Computer Vision-Aided Intelligent Monitoring of Coffee: Towards Sustainable Coffee Production ( http://arxiv.org/abs/2304.04966v1 )

ライセンス: Link先を確認
Francisco Eron, Muhammad Noman, Raphael Ricon de Oliveira, Deigo de Souza Marques, Rafael Serapilha Durelli, Andre Pimenta Freire, Antonio Chalfun Junior(参考訳) 収穫したコーヒーチェリーの焼いた種から作られるコーヒーは、世界中で最も消費される飲食品の1つである。 コーヒー畑を定期的に手動で監視し、植物や土壌の健康を知らせると共に、収量及び収穫時間を推定し、労働集約的で、時間がかかり、エラーが発生しやすいようにする。 近年の研究では収穫時のコーヒー収量推定センサーが開発されているが、より包括的で適用可能な技術は、畑の複数のパラメータをリモートで監視し、収穫前の段階でもコーヒー収量と品質を推定できる。 精密農業のアプローチに従って,コーヒープラントの画像処理に機械学習アルゴリズムであるyoloを用いた。 本研究では,最新のアルゴリズムであるyolov7の最新バージョンを324の注釈付き画像で学習し,82の無注釈画像をテストデータとして評価した。 次に、トレーニングデータを注釈付けするための革新的なアプローチとして、コーヒーフルーツの機械生成色クラスに導いたK平均モデルを訓練し、画像中の情報オブジェクトを特徴付けることができた。 最後に、収穫時間を効率的に予測し、コーヒーの収量と品質を推定するだけでなく、植物の健康を知らせるAIベースの便利なモバイルアプリケーションの開発を試みた。 その結果, 実験データを平均精度0.89で効率的に解析した。 提案手法は,マルチクラスモードの平均平均精度が0.77であり,平均平均精度が0.60に留まり,より高速かつ高精度なアノテーションが得られた。 開発したコードに基づいて設計したモバイルアプリケーションはCoffeAppという名前で、携帯電話カメラがフィールドで撮影した画像から果実を分析し、リアルタイムで果実の熟成を追跡できる。

Coffee which is prepared from the grinded roasted seeds of harvested coffee cherries, is one of the most consumed beverage and traded commodity, globally. To manually monitor the coffee field regularly, and inform about plant and soil health, as well as estimate yield and harvesting time, is labor-intensive, time-consuming and error-prone. Some recent studies have developed sensors for estimating coffee yield at the time of harvest, however a more inclusive and applicable technology to remotely monitor multiple parameters of the field and estimate coffee yield and quality even at pre-harvest stage, was missing. Following precision agriculture approach, we employed machine learning algorithm YOLO, for image processing of coffee plant. In this study, the latest version of the state-of-the-art algorithm YOLOv7 was trained with 324 annotated images followed by its evaluation with 82 unannotated images as test data. Next, as an innovative approach for annotating the training data, we trained K-means models which led to machine-generated color classes of coffee fruit and could thus characterize the informed objects in the image. Finally, we attempted to develop an AI-based handy mobile application which would not only efficiently predict harvest time, estimate coffee yield and quality, but also inform about plant health. Resultantly, the developed model efficiently analyzed the test data with a mean average precision of 0.89. Strikingly, our innovative semi-supervised method with an mean average precision of 0.77 for multi-class mode surpassed the supervised method with mean average precision of only 0.60, leading to faster and more accurate annotation. The mobile application we designed based on the developed code, was named CoffeApp, which possesses multiple features of analyzing fruit from the image taken by phone camera with in field and can thus track fruit ripening in real time.
翻訳日:2023-04-12 16:18:49 公開日:2023-04-11
# 波動シミュレータのための畳み込みニューラルネットワークの事前圧縮

A priori compression of convolutional neural networks for wave simulators ( http://arxiv.org/abs/2304.04964v1 )

ライセンス: Link先を確認
Hamza Boukraichi, Nissrine Akkari, Fabien Casenave, David Ryckelynck(参考訳) 畳み込みニューラルネットワークは、画像分類、顔と物体の認識、医療画像解析など、さまざまな分野で広く利用されている。 さらに、物理インフォームドシミュレータのようなアプリケーションでは、最小遅延でリアルタイムに正確な予測を行う必要がある。 現在のニューラルネットワークの設計には数百万のパラメータが含まれており、メモリに制限のあるデバイスにそのような複雑なモデルをインストールすることは困難である。 圧縮技術は、モデルの複雑さに寄与するパラメータの数を減らすことによって生成されるCNNモデルのサイズを小さくすることで、これらの問題を解決することができるかもしれない。 本稿では,ニューラルネットワークのトレーニングに先立って,畳み込み層を圧縮したテンソル形式,先行処理を提案する。 畳み込み層内の3方向カーネルまたは2方向カーネルは片方向適合器に置き換えられる。 過度に適合する現象も減少する。 オリジナルの畳み込みニューラルネットワークモデルを使用してトレーニングを行うのに必要な時間や時間は、処理すべきパラメータが少なければ大幅に削減される。 本稿では,物理データの有限要素(fe)予測のための先行圧縮畳み込みニューラルネットワークの手法を提案する。 その後、2次元波動方程式を解くFEモデルから物理データに対する事前圧縮モデルを検証した。 提案する畳み込み圧縮手法は,学習可能なパラメータが少なくメモリフットプリントの少ない古典畳み込み層と同等の性能を実現する。

Convolutional neural networks are now seeing widespread use in a variety of fields, including image classification, facial and object recognition, medical imaging analysis, and many more. In addition, there are applications such as physics-informed simulators in which accurate forecasts in real time with a minimal lag are required. The present neural network designs include millions of parameters, which makes it difficult to install such complex models on devices that have limited memory. Compression techniques might be able to resolve these issues by decreasing the size of CNN models that are created by reducing the number of parameters that contribute to the complexity of the models. We propose a compressed tensor format of convolutional layer, a priori, before the training of the neural network. 3-way kernels or 2-way kernels in convolutional layers are replaced by one-way fiters. The overfitting phenomena will be reduced also. The time needed to make predictions or time required for training using the original Convolutional Neural Networks model would be cut significantly if there were fewer parameters to deal with. In this paper we present a method of a priori compressing convolutional neural networks for finite element (FE) predictions of physical data. Afterwards we validate our a priori compressed models on physical data from a FE model solving a 2D wave equation. We show that the proposed convolutinal compression technique achieves equivalent performance as classical convolutional layers with fewer trainable parameters and lower memory footprint.
翻訳日:2023-04-12 16:18:18 公開日:2023-04-11
# PlantDet: 3リバーソース領域におけるプラント検出のベンチマーク

PlantDet: A benchmark for Plant Detection in the Three-Rivers-Source Region ( http://arxiv.org/abs/2304.04963v1 )

ライセンス: Link先を確認
Huanhuan Li, Xuechao Zou, Yu-an Zhang, Jiangcai Zhaba, Guomei Li, Lamao Yongga(参考訳) 三河水源地域は中国の非常に重要な自然保護区であり、無汚染の植物資源が豊富にある。 植物研究と知的植物管理の実践的要件を満たすため,三河水源地域(PTRS)における植物検出のための大規模データセットを構築した。 このデータセットは、2160*3840ピクセルの6965の高解像度画像で構成され、様々なセンサーやプラットフォームで撮影され、様々な形状や大きさのオブジェクトが特徴である。 その後、植物画像解釈の専門家のチームは、これらの画像を21の一般的なオブジェクトカテゴリで注釈付けした。 PTRS画像には122,300個の植物の葉があり、それぞれ水平長方形でラベル付けされている。 ptrsは植物間の密集した咬合、葉の分解能の変化、高機能な類似性などの課題を提示し、plantdetと呼ばれる新しい物体検出ネットワークの開発を促した。 このネットワークは、ウィンドウベースの効率的なセルフアテンションモジュール(stブロック)を使用して、複数のスケールでロバストな特徴表現を生成し、小さくて密集したオブジェクトの検出効率を向上させる。 実験により,提案するプラント検出ベンチマークの有効性を88.1%,平均平均精度(map)77.6%,基準値と比較して高いリコール率で検証した。 さらに,本手法は,小型オブジェクトの欠落を効果的に克服する。 この分野のさらなる研究を進めるために、私たちのデータとコードを関係者と共有するつもりです。

The Three-River-Source region is a highly significant natural reserve in China that harbors a plethora of untamed botanical resources. To meet the practical requirements of botanical research and intelligent plant management, we construct a large-scale dataset for Plant detection in the Three-River-Source region (PTRS). This dataset comprises 6965 high-resolution images of 2160*3840 pixels, captured by diverse sensors and platforms, and featuring objects of varying shapes and sizes. Subsequently, a team of botanical image interpretation experts annotated these images with 21 commonly occurring object categories. The fully annotated PTRS images contain 122, 300 instances of plant leaves, each labeled by a horizontal rectangle. The PTRS presents us with challenges such as dense occlusion, varying leaf resolutions, and high feature similarity among plants, prompting us to develop a novel object detection network named PlantDet. This network employs a window-based efficient self-attention module (ST block) to generate robust feature representation at multiple scales, improving the detection efficiency for small and densely-occluded objects. Our experimental results validate the efficacy of our proposed plant detection benchmark, with a precision of 88.1%, a mean average precision (mAP) of 77.6%, and a higher recall compared to the baseline. Additionally, our method effectively overcomes the issue of missing small objects. We intend to share our data and code with interested parties to advance further research in this field.
翻訳日:2023-04-12 16:17:59 公開日:2023-04-11
# MRVM-NeRF: マスクによるニューラルラジアンス場の事前学習

MRVM-NeRF: Mask-Based Pretraining for Neural Radiance Fields ( http://arxiv.org/abs/2304.04962v1 )

ライセンス: Link先を確認
Ganlin Yang, Guoqiang Wei, Zhizheng Zhang, Yan Lu, Dong Liu(参考訳) ほとんどのneural radiance field (nerfs) は一般化能力に乏しく、単一のモデルで複数のシーンを表現する場合のアプリケーションを制限する。 この問題を改善するため、既存の手法では、画像の特徴に対してNeRFモデルを単純に条件付けし、3Dシーン全体のグローバルな理解とモデリングを欠いている。 マスクベースモデリングの他の研究分野における有意な成功に触発されて,mrvm-nerf (generalizable nerf) のマスクレイおよびビューモデリング手法を提案し,マスクベースプリトレーニングを3次元暗黙表現に組み込む最初の試みである。 具体的には、NeRFのコアは、光線に沿った3次元表現をモデル化し、視野を横切ることで、多視点から得られる部分情報を排除し、粗い分岐で生成された対応する特徴を予測することで、光線に沿ったサンプル点の割合をランダムにマスクする。 このように、事前訓練中に学習した3Dシーンの事前知識は、微調整後の新しいシナリオへの一般化に役立つ。 MRVM-NeRFは,定性的かつ定量的に,様々な合成および実世界の環境下での優位性を示す。 実験により,NeRFモデルに特化して設計された革新的MRVMの有効性が明らかになった。

Most Neural Radiance Fields (NeRFs) have poor generalization ability, limiting their application when representing multiple scenes by a single model. To ameliorate this problem, existing methods simply condition NeRF models on image features, lacking the global understanding and modeling of the entire 3D scene. Inspired by the significant success of mask-based modeling in other research fields, we propose a masked ray and view modeling method for generalizable NeRF (MRVM-NeRF), the first attempt to incorporate mask-based pretraining into 3D implicit representations. Specifically, considering that the core of NeRFs lies in modeling 3D representations along the rays and across the views, we randomly mask a proportion of sampled points along the ray at fine stage by discarding partial information obtained from multi-viewpoints, targeting at predicting the corresponding features produced in the coarse branch. In this way, the learned prior knowledge of 3D scenes during pretraining helps the model generalize better to novel scenarios after finetuning. Extensive experiments demonstrate the superiority of our proposed MRVM-NeRF under various synthetic and real-world settings, both qualitatively and quantitatively. Our empirical studies reveal the effectiveness of our proposed innovative MRVM which is specifically designed for NeRF models.
翻訳日:2023-04-12 16:17:36 公開日:2023-04-11
# パノラマ画像から画像への変換

Panoramic Image-to-Image Translation ( http://arxiv.org/abs/2304.04960v1 )

ライセンス: Link先を確認
Soohyun Kim, Junho Kim, Taekyung Kim, Hwan Heo, Seungryong Kim, Jiyoung Lee, Jin-Hwa Kim(参考訳) 本稿では,パノラマ画像対画像変換(pano-i2i)の課題に初めて取り組む。 この課題は、パノラマ画像の幾何学的歪みと、天候や時間といった様々な条件を持つパノラマ画像データセットの欠如のために難しい。 そこで本研究では,パノラマ画像の構造を保存しつつ,ピンホール画像から参照されるグローバルスタイルを一貫して翻訳するパノラマ歪み認識i2iモデルを提案する。 直交360パノラマ変換における歪み問題を緩和するため,変換器エンコーダに球面位置埋め込みを導入し,歪みのない判別器を導入し,球面回転を拡大とアンサンブルに適用した。 また,パノラマ画像とピンホール画像の間の大きな領域ギャップに対処するために,変形を考慮したコンテンツエンコーダとスタイルエンコーダを設計した。 また,パノラマ画像とピンホール画像の相違が大きいことから,パノラマ画像再構成段階の学習手順を翻訳段階から分離する。 日中のstreetlearnデータセットを多種多様な条件に翻訳する上で,既存のi2iモデルと異なる改善点を示す。 コードはコミュニティ向けにオンラインで公開される予定だ。

In this paper, we tackle the challenging task of Panoramic Image-to-Image translation (Pano-I2I) for the first time. This task is difficult due to the geometric distortion of panoramic images and the lack of a panoramic image dataset with diverse conditions, like weather or time. To address these challenges, we propose a panoramic distortion-aware I2I model that preserves the structure of the panoramic images while consistently translating their global style referenced from a pinhole image. To mitigate the distortion issue in naive 360 panorama translation, we adopt spherical positional embedding to our transformer encoders, introduce a distortion-free discriminator, and apply sphere-based rotation for augmentation and its ensemble. We also design a content encoder and a style encoder to be deformation-aware to deal with a large domain gap between panoramas and pinhole images, enabling us to work on diverse conditions of pinhole images. In addition, considering the large discrepancy between panoramas and pinhole images, our framework decouples the learning procedure of the panoramic reconstruction stage from the translation stage. We show distinct improvements over existing I2I models in translating the StreetLearn dataset in the daytime into diverse conditions. The code will be publicly available online for our community.
翻訳日:2023-04-12 16:17:11 公開日:2023-04-11
# Pose Forecastingのためのマルチグラフ畳み込みネットワーク

Multi-Graph Convolution Network for Pose Forecasting ( http://arxiv.org/abs/2304.04956v1 )

ライセンス: Link先を確認
Hongwei Ren, Yuhong Shi, Kewei Liang(参考訳) 近年,観察されたポーズシーケンスに基づいて将来の身体のポーズを予測する人の動きを予測することへの関心が高まっている。 このタスクは空間的および時間的関係をモデル化するため複雑である。 このタスクで最も一般的に使用されるモデルは、リカレントニューラルネットワーク(RNN)や変種、Transformer Networksなどの自己回帰モデルである。 しかし、RNNには、消滅や爆発的な勾配など、いくつかの欠点がある。 他の研究者は、グラフ畳み込みネットワーク(GCN)とLong Short-Term Memory(LSTM)モデルを統合することにより、空間次元における通信問題の解決を試みた。 これらの作品は時間的・空間的な情報を別々に扱い、有効性を制限する。 そこで本研究では,3次元人物ポーズ予測のためのマルチグラフ畳み込みネットワーク(mgcn)と呼ばれる新しい手法を提案する。 このモデルは、ポーズシーケンスのための拡張グラフを導入することで、空間的および時間的情報を同時にキャプチャする。 複数のフレームは複数の部分を与え、単一のグラフインスタンスに結合する。 さらに,本モデルに対する自然構造の影響とシーケンスアウェアメントの影響についても検討する。 大規模ベンチマークデータセットであるHuman3.6M, AMSS, 3DPWの実験評価において, MGCNはポーズ予測における最先端性を上回る性能を示した。

Recently, there has been a growing interest in predicting human motion, which involves forecasting future body poses based on observed pose sequences. This task is complex due to modeling spatial and temporal relationships. The most commonly used models for this task are autoregressive models, such as recurrent neural networks (RNNs) or variants, and Transformer Networks. However, RNNs have several drawbacks, such as vanishing or exploding gradients. Other researchers have attempted to solve the communication problem in the spatial dimension by integrating Graph Convolutional Networks (GCN) and Long Short-Term Memory (LSTM) models. These works deal with temporal and spatial information separately, which limits the effectiveness. To fix this problem, we propose a novel approach called the multi-graph convolution network (MGCN) for 3D human pose forecasting. This model simultaneously captures spatial and temporal information by introducing an augmented graph for pose sequences. Multiple frames give multiple parts, joined together in a single graph instance. Furthermore, we also explore the influence of natural structure and sequence-aware attention to our model. In our experimental evaluation of the large-scale benchmark datasets, Human3.6M, AMSS and 3DPW, MGCN outperforms the state-of-the-art in pose prediction.
翻訳日:2023-04-12 16:16:47 公開日:2023-04-11
# 注意パスデコーダを用いたデータ効率の良い画像品質評価

Data-Efficient Image Quality Assessment with Attention-Panel Decoder ( http://arxiv.org/abs/2304.04952v1 )

ライセンス: Link先を確認
Guanyi Qin, Runze Hu, Yutao Liu, Xiawu Zheng, Haotian Liu, Xiu Li, Yan Zhang(参考訳) ブラインド画像品質評価(BIQA)はコンピュータビジョンの基本課題であるが、複雑な歪み条件と多様な画像内容のために未解決のままである。 そこで本研究では,トランスフォーマーアーキテクチャに基づく新しいbiqaパイプラインを提案する。 より具体的には、BIQAにおける従来の微調整は、事前訓練されたモデルの解釈であると考えている。 このようにして、異なる視点からCLSトークンの知覚情報を洗練するためのTransformerデコーダも導入する。 これにより,高品質な特徴多様体を効率的に確立し,強力な一般化能力を実現することができる。 一方,人間の主観的評価行動に触発されて,モデル性能を改善し,同時に予測の不確実性を低減する新しい注意パネル機構を導入する。 提案したBIQA法は、デコーダの1層のみで軽量な設計を維持しているが、8つの標準BIQAデータセット(合成および認証の両方)の広範な実験では、最先端のBIQA法よりも優れた性能を示しており、すなわち、SRCC値が0.875(LIVECでは0.859)と0.980(LIVEでは0.969)である。

Blind Image Quality Assessment (BIQA) is a fundamental task in computer vision, which however remains unresolved due to the complex distortion conditions and diversified image contents. To confront this challenge, we in this paper propose a novel BIQA pipeline based on the Transformer architecture, which achieves an efficient quality-aware feature representation with much fewer data. More specifically, we consider the traditional fine-tuning in BIQA as an interpretation of the pre-trained model. In this way, we further introduce a Transformer decoder to refine the perceptual information of the CLS token from different perspectives. This enables our model to establish the quality-aware feature manifold efficiently while attaining a strong generalization capability. Meanwhile, inspired by the subjective evaluation behaviors of human, we introduce a novel attention panel mechanism, which improves the model performance and reduces the prediction uncertainty simultaneously. The proposed BIQA method maintains a lightweight design with only one layer of the decoder, yet extensive experiments on eight standard BIQA datasets (both synthetic and authentic) demonstrate its superior performance to the state-of-the-art BIQA methods, i.e., achieving the SRCC values of 0.875 (vs. 0.859 in LIVEC) and 0.980 (vs. 0.969 in LIVE).
翻訳日:2023-04-12 16:16:26 公開日:2023-04-11
# IBM量子プロセッサ上の大きなテトラ素数とペンタ素数の因子化

Factorization of large tetra and penta prime numbers on IBM quantum processor ( http://arxiv.org/abs/2304.04999v1 )

ライセンス: Link先を確認
Ritu Dhaulakhandi, Bikash K. Behera, and Felix J. Seo(参考訳) 多項式時間における大桁整数の分解は、解読する難しい計算課題である。 一般化グローバーのアルゴリズムと適切な解析代数学を持つ量子計算過程の最適化問題に分解問題を変更すると、計算の指数的成長が軽減される。 本稿では、一般化グローバーのプロトコルを用いて、必要な状態の振幅を増幅し、ibmq perth (7-qubit processor) の3および4量子ビットを用いて 875, 1269636549803, 4375 を含む異なる整数の概念の証明として、テトラ素数とペンタ素数の量子分解の実行を支援する。 IBMQパース量子ビットによる量子分解の忠実性は、ほぼ統一的であった。

The factorization of a large digit integer in polynomial time is a challenging computational task to decipher. The exponential growth of computation can be alleviated if the factorization problem is changed to an optimization problem with the quantum computation process with the generalized Grover's algorithm and a suitable analytic algebra. In this article, the generalized Grover's protocol is used to amplify the amplitude of the required states and, in turn, help in the execution of the quantum factorization of tetra and penta primes as a proof of concept for distinct integers, including 875, 1269636549803, and 4375 using 3 and 4 qubits of IBMQ Perth (7-qubit processor). The fidelity of quantum factorization with the IBMQ Perth qubits was near unity.
翻訳日:2023-04-12 16:10:47 公開日:2023-04-11
# 人間-オブジェクト間インタラクション検出のための関係コンテキスト学習

Relational Context Learning for Human-Object Interaction Detection ( http://arxiv.org/abs/2304.04997v1 )

ライセンス: Link先を確認
Sanghyun Kim, Deunsol Jung, Minsu Cho(参考訳) 最近のHOI検出の最先端手法は、典型的には2つのデコーダ分岐を持つトランスフォーマーアーキテクチャ上に構築されている。 しかし、このような非絡み合ったトランスフォーマーは、分岐間のコンテキスト交換が不十分で、関係推論のためのコンテキスト情報が欠如し、hoiインスタンスの発見に不可欠である。 本研究では,人間,オブジェクト,インタラクショントークンのユニタリ,ペアワイズ,三元関係を用いて,3つのデコーダブランチ間のリッチなコンテキスト交換を行うマルチプレックス関係ネットワーク(muren)を提案する。 提案手法は,HOI検出のための標準ベンチマークであるHICO-DETとV-COCOの2つを用いて,HOIインスタンスの検索と最先端性能を実現する。

Recent state-of-the-art methods for HOI detection typically build on transformer architectures with two decoder branches, one for human-object pair detection and the other for interaction classification. Such disentangled transformers, however, may suffer from insufficient context exchange between the branches and lead to a lack of context information for relational reasoning, which is critical in discovering HOI instances. In this work, we propose the multiplex relation network (MUREN) that performs rich context exchange between three decoder branches using unary, pairwise, and ternary relations of human, object, and interaction tokens. The proposed method learns comprehensive relational contexts for discovering HOI instances, achieving state-of-the-art performance on two standard benchmarks for HOI detection, HICO-DET and V-COCO.
翻訳日:2023-04-12 16:10:32 公開日:2023-04-11
# ソーシャルレコメンデーションに向けたニューラルネットワーク拡散

Neural Multi-network Diffusion towards Social Recommendation ( http://arxiv.org/abs/2304.04994v1 )

ライセンス: Link先を確認
Boxin Du, Lihui Liu, Jiejun Xu, Fei Wang, Hanghang Tong(参考訳) グラフニューラルネットワーク(gnns)は,ソーシャルレコメンデーションなど,現実世界のさまざまなアプリケーションに広く適用されてきた。 しかし,社会的レコメンデーションに基づく既存のgnnモデルでは,未熟な否定的サンプリング法と市販gnnモデルへの直接注入により,一般化と過度さの深刻な問題が発生している。 本稿では,ソーシャルレコメンデーションのための簡潔なマルチネットワークGNNベースニューラルモデル(NeMo)を提案する。 既存の手法と比較して,提案手法は生成的ネガティブサンプリング戦略を探求し,ユーザ関心の伝播に肯定的かつネガティブなユーザ・イテム相互作用を利用する。 実験の結果、NeMoは様々な実世界のベンチマークデータセット(NDCG@15では最大38.8%)で最先端のベースラインを上回っていることがわかった。

Graph Neural Networks (GNNs) have been widely applied on a variety of real-world applications, such as social recommendation. However, existing GNN-based models on social recommendation suffer from serious problems of generalization and oversmoothness, because of the underexplored negative sampling method and the direct implanting of the off-the-shelf GNN models. In this paper, we propose a succinct multi-network GNN-based neural model (NeMo) for social recommendation. Compared with the existing methods, the proposed model explores a generative negative sampling strategy, and leverages both the positive and negative user-item interactions for users' interest propagation. The experiments show that NeMo outperforms the state-of-the-art baselines on various real-world benchmark datasets (e.g., by up to 38.8% in terms of NDCG@15).
翻訳日:2023-04-12 16:10:18 公開日:2023-04-11
# Sim-T: 音声認識のための多重化手法によるトランスフォーマーネットワークの簡易化

Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition ( http://arxiv.org/abs/2304.04991v1 )

ライセンス: Link先を確認
Guangyong Wei, Zhikui Duan, Shiren Li, Guangguang Yang, Xinmei Yu, Junhua Li(参考訳) 近年,その優れたモデル性能から,音声認識タスクのトランスフォーマーネットワークに注目が集まっている。 しかし、トランスフォーマーネットワークは常に重い計算と大量のパラメータを伴い、計算ソースやストレージメモリの制限されたデバイスに深刻なデプロイ問題を引き起こす。 本稿では,トランスフォーマーモデルの拡張のために,Sim-Tと呼ばれる新しい軽量モデルを提案する。 新しく開発された多重化技術により、sim-tはその性能を犠牲にして効率的にモデルを圧縮することができる。 より正確に言うと、提案手法はモジュール重み多重化とアテンションスコア多重化という2つの部分を含む。 また,注意スコア多重化を容易にするために,新しいデコーダ構造が提案されている。 Sim-Tの有効性を検証するために大規模な実験が行われた。 Aishell-1データセットでは、提案したSim-Tがベースライントランスよりも48%少ないパラメータである場合、0.4%のCER改善が得られる。 あるいは、Sim-Tがベースライン変換器と同じ性能を与えると、69%のパラメータ削減が達成される。 HKUSTとWSJ eval92データセットに関して、Sim-Tのパラメータがベースライントランスフォーマーよりも40%少ない場合、CERとWERはそれぞれ0.3%と0.2%改善される。

In recent years, a great deal of attention has been paid to the Transformer network for speech recognition tasks due to its excellent model performance. However, the Transformer network always involves heavy computation and large number of parameters, causing serious deployment problems in devices with limited computation sources or storage memory. In this paper, a new lightweight model called Sim-T has been proposed to expand the generality of the Transformer model. Under the help of the newly developed multiplexing technique, the Sim-T can efficiently compress the model with negligible sacrifice on its performance. To be more precise, the proposed technique includes two parts, that are, module weight multiplexing and attention score multiplexing. Moreover, a novel decoder structure has been proposed to facilitate the attention score multiplexing. Extensive experiments have been conducted to validate the effectiveness of Sim-T. In Aishell-1 dataset, when the proposed Sim-T is 48% parameter less than the baseline Transformer, 0.4% CER improvement can be obtained. Alternatively, 69% parameter reduction can be achieved if the Sim-T gives the same performance as the baseline Transformer. With regard to the HKUST and WSJ eval92 datasets, CER and WER will be improved by 0.3% and 0.2%, respectively, when parameters in Sim-T are 40% less than the baseline Transformer.
翻訳日:2023-04-12 16:10:02 公開日:2023-04-11
# MUD活動の動的モニタリングによるIoTボリューム攻撃における異常なマイクロフローの検出

Detecting Anomalous Microflows in IoT Volumetric Attacks via Dynamic Monitoring of MUD Activity ( http://arxiv.org/abs/2304.04987v1 )

ライセンス: Link先を確認
Ayyoob Hamza and Hassan Habibi Gharakheili and Theophilus A. Benson and Gustavo Batista and Vijay Sivaraman(参考訳) IoTネットワークはますます、高度なサイバー攻撃の標的になりつつある。 異常に基づく検出手法は、新しい攻撃を見つけるには有望だが、偽陽性のアラーム、説明が難しい、コスト効率のよいスケールが難しいといった実用的な課題がある。 IETFの最近の標準であるManufacturer Usage Description (MUD)は、意図したネットワーク動作を正式に指定することで、IoTデバイスの攻撃面を制限することを約束しているようだ。 本稿では,各iotデバイスの期待される動作の強制と監視にsdnを使用し,ボリュームアタックを検出するために1つのクラス分類モデルをトレーニングする。 私たちの貢献は4倍です。 1)MUD対応トラフィックフローのネットワーク活動における異常パターンをSDNテレメトリにより動的に検出するマルチレベル推論モデルを構築し,次いで異常フローのパケット検査を行う。 これにより、分散およびダイレクトアタックに対するきめ細かい可視性が向上し、マイクロフロー(5-タプル)の解像度でボリュームアタックを正確に分離することができます。 2) 研究室内のIoTデバイスのネットワーク動作からトラフィックトレース(良性および多種多様なボリューム攻撃)を収集し,ラベル付きデータセットを生成し,それらを一般公開する。 (3) フル動作システム(モジュールはオープンソースとしてリリースされている)のプロトタイプを試作し,低偽陽性を維持しながら高い精度で複数のコンシューマIoTデバイスに対するボリューム攻撃を検出することの有効性を示し,システムのコストと性能に関する洞察を提供する。 (4) 多数の接続型IoT(大学キャンパス内のIPカメラのネットワークから収集したデータセット)を用いた環境における我々のモデルは、様々なトレーニング戦略(デバイス単位とデバイスタイプ別)を考慮し、サイズとトレーニング時間の観点からモデルのコストに対する予測精度のバランスをとることで、どのようにスケールするかを示す。

IoT networks are increasingly becoming target of sophisticated new cyber-attacks. Anomaly-based detection methods are promising in finding new attacks, but there are certain practical challenges like false-positive alarms, hard to explain, and difficult to scale cost-effectively. The IETF recent standard called Manufacturer Usage Description (MUD) seems promising to limit the attack surface on IoT devices by formally specifying their intended network behavior. In this paper, we use SDN to enforce and monitor the expected behaviors of each IoT device, and train one-class classifier models to detect volumetric attacks. Our specific contributions are fourfold. (1) We develop a multi-level inferencing model to dynamically detect anomalous patterns in network activity of MUD-compliant traffic flows via SDN telemetry, followed by packet inspection of anomalous flows. This provides enhanced fine-grained visibility into distributed and direct attacks, allowing us to precisely isolate volumetric attacks with microflow (5-tuple) resolution. (2) We collect traffic traces (benign and a variety of volumetric attacks) from network behavior of IoT devices in our lab, generate labeled datasets, and make them available to the public. (3) We prototype a full working system (modules are released as open-source), demonstrates its efficacy in detecting volumetric attacks on several consumer IoT devices with high accuracy while maintaining low false positives, and provides insights into cost and performance of our system. (4) We demonstrate how our models scale in environments with a large number of connected IoTs (with datasets collected from a network of IP cameras in our university campus) by considering various training strategies (per device unit versus per device type), and balancing the accuracy of prediction against the cost of models in terms of size and training time.
翻訳日:2023-04-12 16:09:41 公開日:2023-04-11
# 二元畳み込みニューラルネットワークを用いた小体相対ナビゲーションのための効率的な特徴記述

Efficient Feature Description for Small Body Relative Navigation using Binary Convolutional Neural Networks ( http://arxiv.org/abs/2304.04985v1 )

ライセンス: Link先を確認
Travis Driver and Panagiotis Tsiotras(参考訳) 小さな天体へのミッションは、光学的特徴追跡に大きく依存し、対象天体の周囲の相対的な航法を特徴づける。 深層学習に基づく特徴追跡技術は、現在の人間によるループプロセスに代わる有望な手法である一方、宇宙船で運用できる深層アーキテクチャの設計は、オンボード計算とメモリの制約のために困難である。 本稿では,バイナリ畳み込みニューラルネットワーク層を利用して計算とメモリ要求を大幅に削減する,新しい深部局所的特徴記述アーキテクチャを提案する。 我々は、レガシーで進行中のミッションから、小さな物体の実際のイメージに基づいてモデルをトレーニングし、テストし、従来の手作りの手法と比較してパフォーマンスの向上を実証する。 さらに,次世代宇宙船プロセッサのサロゲートにモデルを実装し,オンライン機能トラッキングの実現可能性を示す。

Missions to small celestial bodies rely heavily on optical feature tracking for characterization of and relative navigation around the target body. While techniques for feature tracking based on deep learning are a promising alternative to current human-in-the-loop processes, designing deep architectures that can operate onboard spacecraft is challenging due to onboard computational and memory constraints. This paper introduces a novel deep local feature description architecture that leverages binary convolutional neural network layers to significantly reduce computational and memory requirements. We train and test our models on real images of small bodies from legacy and ongoing missions and demonstrate increased performance relative to traditional handcrafted methods. Moreover, we implement our models onboard a surrogate for the next-generation spacecraft processor and demonstrate feasible runtimes for online feature tracking.
翻訳日:2023-04-12 16:09:04 公開日:2023-04-11
# 生体因子制御ニューラルネットワーク

Biological Factor Regulatory Neural Network ( http://arxiv.org/abs/2304.04982v1 )

ライセンス: Link先を確認
Xinnan Dai, Caihua Shan, Jie Zheng, Xiaoxiao Li, Dongsheng Li(参考訳) 遺伝子は生物学的システムの解析に基本的であり, 深層学習モデルによる様々な生物学的タスクに遺伝子発現を活用するための最近の研究が数多く提案されている。 有望な性能にもかかわらず、深いニューラルネットワークはブラックボックスの性質のため、人間に生物学的洞察を提供するのは難しい。 近年、ニューラルネットワークと生物学的知識を統合して、モデルの透明性と性能を改善している研究もある。 しかし、これらの手法は部分的な生物学的知識のみを組み込むことができ、最適以下の性能をもたらす。 本稿では,細胞系の生物学的因子間の関係をモデル化する汎用的な枠組みであるBFReg-NNを提案する。 BFReg-NNは遺伝子発現データから始まり、遺伝子またはタンパク質間の調節関係(例えば、遺伝子調節ネットワーク(GRN)、タンパク質-タンパク質相互作用ネットワーク(PPI))、遺伝子、タンパク質、経路間の階層関係(例えば、いくつかの遺伝子/タンパク質が経路に含まれる)を含む、既存の生物学的知識をモデルにマージすることができる。 さらに、BFReg-NNはホワイトボックスの特徴から、生物学的に意味のある新たな洞察を提供する能力も持っている。 BFReg-NNの優位性は,BFReg-NNとBFReg-NNの相違に比較して検証した。 BFReg-NNが発見した重要な知見は生物学的文献と一致している。

Genes are fundamental for analyzing biological systems and many recent works proposed to utilize gene expression for various biological tasks by deep learning models. Despite their promising performance, it is hard for deep neural networks to provide biological insights for humans due to their black-box nature. Recently, some works integrated biological knowledge with neural networks to improve the transparency and performance of their models. However, these methods can only incorporate partial biological knowledge, leading to suboptimal performance. In this paper, we propose the Biological Factor Regulatory Neural Network (BFReg-NN), a generic framework to model relations among biological factors in cell systems. BFReg-NN starts from gene expression data and is capable of merging most existing biological knowledge into the model, including the regulatory relations among genes or proteins (e.g., gene regulatory networks (GRN), protein-protein interaction networks (PPI)) and the hierarchical relations among genes, proteins and pathways (e.g., several genes/proteins are contained in a pathway). Moreover, BFReg-NN also has the ability to provide new biologically meaningful insights because of its white-box characteristics. Experimental results on different gene expression-based tasks verify the superiority of BFReg-NN compared with baselines. Our case studies also show that the key insights found by BFReg-NN are consistent with the biological literature.
翻訳日:2023-04-12 16:08:50 公開日:2023-04-11
# stageinteractor: クロスステージインタラクションを備えたクエリベースのオブジェクト検出

StageInteractor: Query-based Object Detector with Cross-stage Interaction ( http://arxiv.org/abs/2304.04978v1 )

ライセンス: Link先を確認
Yao Teng, Haisong Liu, Sheng Guo, Limin Wang(参考訳) 従来の物体検出器は、密集した格子点や多数のプリセットアンカーに基づいて予測を行う。 これらの検出器のほとんどは1対多のラベル割り当て戦略で訓練されている。 逆に、最近のクエリベースのオブジェクト検出器は、学習可能なクエリのスパースセットと一連のデコーダ層に依存している。 1対1のラベル割り当ては、トレーニング中の深い監視のために各レイヤに独立に適用される。 しかし、クエリベースのオブジェクト検出に大きな成功を収めたにもかかわらず、この1対1のラベル割り当て戦略は、検出器に強力なきめ細かい識別とモデリング能力を持つことを要求する。 そこで,本稿では,StageInteractorと呼ばれる,複数段階間相互作用を持つ新しいクエリベースのオブジェクト検出器を提案する。 フォワードプロパゲーションでは,動的演算子を軽量なアダプタで再利用することで,このモデリング能力を向上させる効率的な方法が考案される。 ラベル代入については、1対1のラベル代入の後、クロスステージラベル代入が適用される。 この代入器では、トレーニング対象クラスラベルがステージにまたがって収集され、各デコーダ層で適切な予測に再配置される。 MS COCOベンチマークでは,ベースラインを2.2 AP改善し,バックボーンとしてResNet-50,100クエリ,12トレーニングエポックとして44.8 APを達成した。 トレーニング時間と300クエリにより、StageInteractorはそれぞれResNeXt-101-DCNとSwin-Sで51.1 APと52.2 APを達成した。

Previous object detectors make predictions based on dense grid points or numerous preset anchors. Most of these detectors are trained with one-to-many label assignment strategies. On the contrary, recent query-based object detectors depend on a sparse set of learnable queries and a series of decoder layers. The one-to-one label assignment is independently applied on each layer for the deep supervision during training. Despite the great success of query-based object detection, however, this one-to-one label assignment strategy demands the detectors to have strong fine-grained discrimination and modeling capacity. To solve the above problems, in this paper, we propose a new query-based object detector with cross-stage interaction, coined as StageInteractor. During the forward propagation, we come up with an efficient way to improve this modeling ability by reusing dynamic operators with lightweight adapters. As for the label assignment, a cross-stage label assigner is applied subsequent to the one-to-one label assignment. With this assigner, the training target class labels are gathered across stages and then reallocated to proper predictions at each decoder layer. On MS COCO benchmark, our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50 as backbone, 100 queries and 12 training epochs. With longer training time and 300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN and Swin-S, respectively.
翻訳日:2023-04-12 16:08:26 公開日:2023-04-11
# Wav2code: ノイズロスASRのためのコードブック検索によるクリーンな音声表現の復元

Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR ( http://arxiv.org/abs/2304.04974v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng(参考訳) 自動音声認識(asr)は、ディープラーニングの最近の進歩により、目覚ましい成功を収めているが、現実世界の雑音条件下では、格段に劣化することが多い。 近年,音声品質向上のためのフロントエンドとして音声強調(se)が提案されているが,音声歪み問題により下流asrでは最適ではない可能性がある。 最新の研究はSEと現在人気の自己教師付き学習(SSL)を組み合わせて歪みを緩和し、ノイズの堅牢性を改善する。 有効性にもかかわらず、従来のseによる音声歪みはいまだ完全に排除できない。 本稿では,ノイズロスASRの歪みを伴わない汎用SEを実装するために,Wav2codeという自己教師型フレームワークを提案する。 まず、トレーニング前の段階でSSLモデルからクリーンな音声表現を送信して、隣り合う特徴マッチングを通じて個別のコードブックを検索し、結果のコードシーケンスを使用して元のクリーンな表現を再構築し、コードブックに予め保存する。 次に, 入力ノイズ表現のグローバル依存性をモデル化することにより, 歪みのない高品質なクリーン表現の発見と復元を可能にするトランスフォーマーベースのコード予測器を提案する。 さらに、元の雑音と復元されたクリーン表現を組み合わせ、忠実度と品質を両立させるインタラクティブな特徴融合ネットワークを提案する。 最後に、合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができ、強靭性をもたらすことを示した。

Automatic speech recognition (ASR) has gained a remarkable success thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhancement (SE) as front-end to improve speech quality, which is proved effective but may not be optimal for downstream ASR due to speech distortion problem. Based on that, latest works combine SE and currently popular self-supervised learning (SSL) to alleviate distortion and improve noise robustness. Despite the effectiveness, the speech distortion caused by conventional SE still cannot be completely eliminated. In this paper, we propose a self-supervised framework named Wav2code to implement a generalized SE without distortions for noise-robust ASR. First, in pre-training stage the clean speech representations from SSL model are sent to lookup a discrete codebook via nearest-neighbor feature matching, the resulted code sequence are then exploited to reconstruct the original clean representations, in order to store them in codebook as prior. Second, during finetuning we propose a Transformer-based code predictor to accurately predict clean codes by modeling the global dependency of input noisy representations, which enables discovery and restoration of high-quality clean representations without distortions. Furthermore, we propose an interactive feature fusion network to combine original noisy and the restored clean representations to consider both fidelity and quality, resulting in even more informative features for downstream ASR. Finally, experiments on both synthetic and real noisy datasets demonstrate that Wav2code can solve the speech distortion and improve ASR performance under various noisy conditions, resulting in stronger robustness.
翻訳日:2023-04-12 16:08:04 公開日:2023-04-11
# クラス不均衡のための分類器シフトを用いたフェデレーション学習

Federated Learning with Classifier Shift for Class Imbalance ( http://arxiv.org/abs/2304.04972v1 )

ライセンス: Link先を確認
Yunheng Shen, Haoxiang Wang, Hairong Lv(参考訳) 連合学習は、トレーニングデータが異なるクライアントに属し、交換できない間、グローバルなモデルを協調的に学習することを目的としている。 しかしながら、分類のクラス不均衡のような非iidデータに対する統計的不均質性課題は、クライアントのドリフトを引き起こし、グローバルモデルの性能を著しく低下させる。 本稿では,クラス不均衡の負の影響を軽減するため,局所学習期間中の分類器出力の変化を緩和するFedShiftという,シンプルで効果的な手法を提案する。 理論的には、FedShiftの分類器シフトは局所最適化を大域最適化と一致させ、アルゴリズムの収束を保証することができる。 さらに,FedShiftは,他の最先端のフェデレーション学習手法よりも,精度と通信効率に関して,様々なデータセットにおいて優れていることを示す。

Federated learning aims to learn a global model collaboratively while the training data belongs to different clients and is not allowed to be exchanged. However, the statistical heterogeneity challenge on non-IID data, such as class imbalance in classification, will cause client drift and significantly reduce the performance of the global model. This paper proposes a simple and effective approach named FedShift which adds the shift on the classifier output during the local training phase to alleviate the negative impact of class imbalance. We theoretically prove that the classifier shift in FedShift can make the local optimum consistent with the global optimum and ensure the convergence of the algorithm. Moreover, our experiments indicate that FedShift significantly outperforms the other state-of-the-art federated learning approaches on various datasets regarding accuracy and communication efficiency.
翻訳日:2023-04-12 16:07:33 公開日:2023-04-11
# 雨の日にどんな食べ物をツイートしますか。

What Food Do We Tweet about on a Rainy Day? ( http://arxiv.org/abs/2304.05041v1 )

ライセンス: Link先を確認
Maija K\=ale and Mat\=iss Rikters(参考訳) 食品選択は、味、環境、文化、天候などの要因によって形成される複雑な現象である。 本稿では,異なる気象条件下での食品関連ツイートについて検討する。 我々は過去10年間にわたるラトビアの食料ツイートデータセットと、平均気温、降水量、その他の現象からなる気象観測データセットを検査する。 ツイートの感情を自動的に分類し、天気に応じてどのように変化するかについて議論する。 本研究は,食品消費者の選択や知覚に関する大規模ソーシャルネットワークデータ理解の進展に寄与する。

Food choice is a complex phenomenon shaped by factors such as taste, ambience, culture or weather. In this paper, we explore food-related tweeting in different weather conditions. We inspect a Latvian food tweet dataset spanning the past decade in conjunction with a weather observation dataset consisting of average temperature, precipitation, and other phenomena. We find which weather conditions lead to specific food information sharing; automatically classify tweet sentiment and discuss how it changes depending on the weather. This research contributes to the growing area of large-scale social network data understanding of food consumers' choices and perceptions.
翻訳日:2023-04-12 16:00:41 公開日:2023-04-11
# ロボット誘導型網膜微小手術における非教師なし分布検出

Unsupervised out-of-distribution detection for safer robotically-guided retinal microsurgery ( http://arxiv.org/abs/2304.05040v1 )

ライセンス: Link先を確認
Alain Jungo, Lars Doorenbos, Tommaso Da Col, Maarten Beelen, Martin Zinkernagel, Pablo M\'arquez-Neila, Raphael Sznitman(参考訳) 目的: 安全な機械学習システムを設計する上での基本的な問題は、デプロイされたモデルに提示されたサンプルがトレーニング時に観測されたものとは異なる場合の識別である。 いわゆるout-of-distribution (ood) サンプルの検出は、ロボット誘導網膜マイクロサージのような安全上重要な応用において不可欠であり、機器と網膜の距離は、機器統合型光コヒーレンストモグラフィ(iioct)プローブによって取得された1d画像のシーケンスから導かれる。 方法: 本研究は, iioctプローブからの画像が後続の機械学習に基づく距離推定に不適切である場合の識別にood検出器を用いた場合の可能性を検討する。 我々は、マハラノビス距離に基づく単純なOoD検出器が、現実の生きたブタの眼から得られた劣化サンプルをうまく除去できることを示す。 結果: 提案手法はOoDサンプルの検出に成功し, ダウンストリームタスクの性能を妥当なレベルに維持できることを示した。 MahaADは、同じ種類の汚職で訓練された監督されたアプローチを上回り、現実世界の汚職を伴うiiOCTサンプルのコレクションからOoDのケースを検出する最高のパフォーマンスを達成した。 結論: ood検出による劣化したiioctデータの検出は実現可能であり,腐敗の可能性に関する事前知識は不要である。 その結果、mahaadは、展開された予測モデルが患者を危険にさらす距離を推定することを防ぎ、ロボット誘導型マイクロサージにおける患者の安全性の確保を支援することができた。

Purpose: A fundamental problem in designing safe machine learning systems is identifying when samples presented to a deployed model differ from those observed at training time. Detecting so-called out-of-distribution (OoD) samples is crucial in safety-critical applications such as robotically-guided retinal microsurgery, where distances between the instrument and the retina are derived from sequences of 1D images that are acquired by an instrument-integrated optical coherence tomography (iiOCT) probe. Methods: This work investigates the feasibility of using an OoD detector to identify when images from the iiOCT probe are inappropriate for subsequent machine learning-based distance estimation. We show how a simple OoD detector based on the Mahalanobis distance can successfully reject corrupted samples coming from real-world ex-vivo porcine eyes. Results: Our results demonstrate that the proposed approach can successfully detect OoD samples and help maintain the performance of the downstream task within reasonable levels. MahaAD outperformed a supervised approach trained on the same kind of corruptions and achieved the best performance in detecting OoD cases from a collection of iiOCT samples with real-world corruptions. Conclusion: The results indicate that detecting corrupted iiOCT data through OoD detection is feasible and does not need prior knowledge of possible corruptions. Consequently, MahaAD could aid in ensuring patient safety during robotically-guided microsurgery by preventing deployed prediction models from estimating distances that put the patient at risk.
翻訳日:2023-04-12 16:00:34 公開日:2023-04-11
# マルチピッチ推定のためのソフトダイナミック・タイムワープ

Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond ( http://arxiv.org/abs/2304.05032v1 )

ライセンス: Link先を確認
Michael Krause, Christof Wei{\ss}, Meinard M\"uller(参考訳) 音楽情報検索(MIR)における多くのタスクは、正確な時間的対応が不明な弱い整列データを含む。 コネクショニスト時間分類(ctc)損失は、弱いアライントレーニングデータに基づいて特徴表現を学ぶための標準的な手法である。 しかし、CTCは離散値のターゲットシーケンスに限られており、マルチラベル問題に拡張することは困難である。 本稿では,従来のDTWの微分可能な変種であるSoftDTW(SoftDTW)が,CTCの代替としてどのように使用できるかを示す。 マルチピッチ推定を例に挙げると,SoftDTW は CTC の最先端のマルチラベル拡張と同等の結果が得られることを示す。 アルゴリズムの定式化に関してよりエレガントなことに加えて、SoftDTWは自然に実数値のターゲットシーケンスにまで拡張する。

Many tasks in music information retrieval (MIR) involve weakly aligned data, where exact temporal correspondences are unknown. The connectionist temporal classification (CTC) loss is a standard technique to learn feature representations based on weakly aligned training data. However, CTC is limited to discrete-valued target sequences and can be difficult to extend to multi-label problems. In this article, we show how soft dynamic time warping (SoftDTW), a differentiable variant of classical DTW, can be used as an alternative to CTC. Using multi-pitch estimation as an example scenario, we show that SoftDTW yields results on par with a state-of-the-art multi-label extension of CTC. In addition to being more elegant in terms of its algorithmic formulation, SoftDTW naturally extends to real-valued target sequences.
翻訳日:2023-04-12 16:00:05 公開日:2023-04-11
# マルチクラス分類のための最適フェアスコーリングシステムの学習

Learning Optimal Fair Scoring Systems for Multi-Class Classification ( http://arxiv.org/abs/2304.05023v1 )

ライセンス: Link先を確認
Julien Rouzot (LAAS-ROC), Julien Ferry (LAAS-ROC), Marie-Jos\'e Huguet (LAAS-ROC)(参考訳) 機械学習モデルは、特に信用スコア、医療、再分配予測などの高度な応用において、意思決定にますます使われている。 しかし、これらのモデルについて、解釈可能性の欠如と彼らが生成または再現できる望ましくないバイアスに関する懸念が高まっている。 近年、解釈可能性と公正性の概念は科学界で広く研究されているが、公正性制約の下での一般的な多クラス分類問題に取り組む研究はほとんどなく、そのどれもが多クラス分類のための公平で解釈可能なモデルを作成することを提案していない。 本稿では,Mixed-Integer Linear Programming (MILP) 技術を用いて,汎用の多クラス分類設定において,疎性および公平性制約の下で本質的に解釈可能なスコアリングシステムを生成する。 本稿では,Rudin と Ustun が提案した SLIM (Supersparse Linear Integer Models) フレームワークを一般化し,バイナリ分類のための最適スコアリングシステムについて検討する。 MILP技術を使用することで、様々な運用上の制約(フェアネスやスパシティなどに限定されない)を簡単に統合できるだけでなく、最適モデル(もしくは境界最適性ギャップを持つ準最適モデル)を構築することもできる。

Machine Learning models are increasingly used for decision making, in particular in high-stakes applications such as credit scoring, medicine or recidivism prediction. However, there are growing concerns about these models with respect to their lack of interpretability and the undesirable biases they can generate or reproduce. While the concepts of interpretability and fairness have been extensively studied by the scientific community in recent years, few works have tackled the general multi-class classification problem under fairness constraints, and none of them proposes to generate fair and interpretable models for multi-class classification. In this paper, we use Mixed-Integer Linear Programming (MILP) techniques to produce inherently interpretable scoring systems under sparsity and fairness constraints, for the general multi-class classification setup. Our work generalizes the SLIM (Supersparse Linear Integer Models) framework that was proposed by Rudin and Ustun to learn optimal scoring systems for binary classification. The use of MILP techniques allows for an easy integration of diverse operational constraints (such as, but not restricted to, fairness or sparsity), but also for the building of certifiably optimal models (or sub-optimal models with bounded optimality gap).
翻訳日:2023-04-12 15:59:50 公開日:2023-04-11
# 病理組織像を用いた転移学習に基づく乳癌検出の深部解析

A Deep Analysis of Transfer Learning Based Breast Cancer Detection Using Histopathology Images ( http://arxiv.org/abs/2304.05022v1 )

ライセンス: Link先を確認
Md Ishtyaq Mahmud, Muntasir Mamun, Ahmed Abdelgawad(参考訳) 乳癌は女性にとって最も一般的で危険ながんの1つであり、男性を苦しめることもある。 乳癌の治療と検出は,十分な表現型データを含むため,病理組織像の使用によって大いに助けられる。 ディープニューラルネットワーク(dnn)は、精度と乳がん検出を改善するために一般的に用いられる。 本研究では, resnet50, resnet101, vgg16, vgg19などの事前学習された深層伝達学習モデルを用いて, 2453 histopathology imagesデータセットを用いて乳癌の検出を行った。 画像は浸潤性胆管癌 (idc) と非浸潤性胆管癌 (idc) の2つの分類に分類された。 転送学習モデルを解析した結果,ResNet50の精度は90.2%,曲線下面積(AUC)は90.0%,リコール率は94.7%,限界損失は3.5%であった。

Breast cancer is one of the most common and dangerous cancers in women, while it can also afflict men. Breast cancer treatment and detection are greatly aided by the use of histopathological images since they contain sufficient phenotypic data. A Deep Neural Network (DNN) is commonly employed to improve accuracy and breast cancer detection. In our research, we have analyzed pre-trained deep transfer learning models such as ResNet50, ResNet101, VGG16, and VGG19 for detecting breast cancer using the 2453 histopathology images dataset. Images in the dataset were separated into two categories: those with invasive ductal carcinoma (IDC) and those without IDC. After analyzing the transfer learning model, we found that ResNet50 outperformed other models, achieving accuracy rates of 90.2%, Area under Curve (AUC) rates of 90.0%, recall rates of 94.7%, and a marginal loss of 3.5%.
翻訳日:2023-04-12 15:59:29 公開日:2023-04-11
# 非分離型大規模ブラックボックス最適化のための協調的共進化:収束解析と分散加速

Cooperative Coevolution for Non-Separable Large-Scale Black-Box Optimization: Convergence Analyses and Distributed Accelerations ( http://arxiv.org/abs/2304.05020v1 )

ライセンス: Link先を確認
Qiqi Duan and Chang Shao and Guochen Zhou and Haobin Yang and Qi Zhao, and Yuhui Shi(参考訳) 本稿では,実世界における非分離最適化問題の普遍性を考慮し,非分離関数の分割・分割最適化フレームワークであるよく知られた協調共進化(cc)の大規模バージョンを解析・拡張する。 まず,多くのCC論文で指摘されていない非分離性大規模問題に対して,分解法が好まれるかどうかを実証的に明らかにする。 そして、ccを単純化によって連続的なゲームモデルに形式化するが、本質的な性質を失うことはない。 ccの以前の進化ゲーム理論と異なり、新しいモデルは、純粋なナッシュ均衡の概念のみが必要であり、より一般的なフィットネスランドスケープを明示的に考慮できるので、その収束を分析するためのずっと単純だが有用な視点を提供する。 収束解析に基づいて, 任意の分解が最適下ナッシュ平衡に閉じ込められるリスクがあるため, より優れた一般化のための階層的分解戦略を提案する。 最後に,CMA-ESの分散特性と分解による微調整能力を組み合わせた多層学習フレームワークを用いて,分散コンピューティングを高速化する。 一連の高次元関数の実験は、400コアのクラスタリングコンピューティングプラットフォーム上での検索性能とスケーラビリティ(CPUコア)の両方を検証する。

Given the ubiquity of non-separable optimization problems in real worlds, in this paper we analyze and extend the large-scale version of the well-known cooperative coevolution (CC), a divide-and-conquer optimization framework, on non-separable functions. First, we reveal empirical reasons of why decomposition-based methods are preferred or not in practice on some non-separable large-scale problems, which have not been clearly pointed out in many previous CC papers. Then, we formalize CC to a continuous game model via simplification, but without losing its essential property. Different from previous evolutionary game theory for CC, our new model provides a much simpler but useful viewpoint to analyze its convergence, since only the pure Nash equilibrium concept is needed and more general fitness landscapes can be explicitly considered. Based on convergence analyses, we propose a hierarchical decomposition strategy for better generalization, as for any decomposition there is a risk of getting trapped into a suboptimal Nash equilibrium. Finally, we use powerful distributed computing to accelerate it under the multi-level learning framework, which combines the fine-tuning ability from decomposition with the invariance property of CMA-ES. Experiments on a set of high-dimensional functions validate both its search performance and scalability (w.r.t. CPU cores) on a clustering computing platform with 400 CPU cores.
翻訳日:2023-04-12 15:59:12 公開日:2023-04-11
# 自動記憶サンプル選択による連続的意味セグメンテーション

Continual Semantic Segmentation with Automatic Memory Sample Selection ( http://arxiv.org/abs/2304.05015v1 )

ライセンス: Link先を確認
Lanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, Jun Liu(参考訳) 継続的セマンティックセグメンテーション(CSS)は、トレーニング用の新しいクラスを漸進的に導入することによって、静的セマンティックセグメンテーションを拡張する。 CSSの破滅的な忘れの問題を軽減するため、前のクラスの少数のサンプルを格納するメモリバッファがリプレイ用に構築されている。 しかし、既存の手法ではランダムにメモリサンプルを選択するか、あるいは単一要素による手作り戦略に基づいて選択する。 本研究では,サンプルの多様性やクラス性能などの包括的要因を考慮し,効果的な再生のための情報的サンプルを選択する新しいメモリサンプル選択機構を提案する。 本機構は,選択操作を意思決定プロセスとみなし,報酬セット上での検証性能を直接最大化する最適選択ポリシーを学習する。 選択決定を容易にするために,新しい状態表現と2段階の動作空間を設計する。 Pascal-VOC 2012 と ADE 20K データセットに関する広範な実験は、私たちのアプローチが最先端(SOTA)のパフォーマンスを実現したことを示すものである。

Continual Semantic Segmentation (CSS) extends static semantic segmentation by incrementally introducing new classes for training. To alleviate the catastrophic forgetting issue in CSS, a memory buffer that stores a small number of samples from the previous classes is constructed for replay. However, existing methods select the memory samples either randomly or based on a single-factor-driven handcrafted strategy, which has no guarantee to be optimal. In this work, we propose a novel memory sample selection mechanism that selects informative samples for effective replay in a fully automatic way by considering comprehensive factors including sample diversity and class performance. Our mechanism regards the selection operation as a decision-making process and learns an optimal selection policy that directly maximizes the validation performance on a reward set. To facilitate the selection decision, we design a novel state representation and a dual-stage action space. Our extensive experiments on Pascal-VOC 2012 and ADE 20K datasets demonstrate the effectiveness of our approach with state-of-the-art (SOTA) performance achieved, outperforming the second-place one by 12.54% for the 6stage setting on Pascal-VOC 2012.
翻訳日:2023-04-12 15:58:49 公開日:2023-04-11
# 意味的特徴提示のためのヒューマンマシン協調

Human-machine cooperation for semantic feature listing ( http://arxiv.org/abs/2304.05012v1 )

ライセンス: Link先を確認
Kushin Mukherjee and Siddharth Suresh and Timothy T. Rogers(参考訳) 意味的特徴規範(semantic feature norms)は、概念が持っていない特徴の一覧であり、人間の概念的知識を特徴付ける中心的な役割を担っているが、広範な人間の労働を必要とする。 大規模言語モデル(LLM)は、そのような特徴リストの自動生成のための新しい道を提供するが、重大なエラーを起こす傾向がある。 本稿では,LLM生成データと限られたデータから学習した人間語彙のモデルを組み合わせて,高品質な特徴ノルムを効率的に生成する方法を提案する。

Semantic feature norms, lists of features that concepts do and do not possess, have played a central role in characterizing human conceptual knowledge, but require extensive human labor. Large language models (LLMs) offer a novel avenue for the automatic generation of such feature lists, but are prone to significant error. Here, we present a new method for combining a learned model of human lexical-semantics from limited data with LLM-generated data to efficiently generate high-quality feature norms.
翻訳日:2023-04-12 15:58:27 公開日:2023-04-11
# シナジーの習慣と目標:-行動の変分ベイズ的枠組み

Habits and goals in synergy: a variational Bayesian framework for behavior ( http://arxiv.org/abs/2304.05008v1 )

ライセンス: Link先を確認
Dongqi Han, Kenji Doya, Dongsheng Li, Jun Tani(参考訳) 効率的に柔軟に振る舞う方法は、生物学的エージェントを理解し、インテリジェントなエンボディAIを作成するための中心的な問題である。 行動が2つのタイプに分類できることはよく知られており、報酬の最大化 習慣的行動は柔軟性がないが速いこと、ゴール指向の行動は遅くても柔軟であることである。 従来、習慣的行動とゴール指向行動は脳内の2つの異なるシステムによって扱われると考えられていた。 ここでは、変分ベイズ理論の原理に基づいて、2つの挙動のギャップを埋めることを提案する。 我々は,「意図」と呼ばれるベイズ潜伏変数を導入することにより,両方の挙動を一つの枠組みに組み込む。 習慣行動は、目的のない意図の事前分布を用いて生成され、目標に条件づけられた意図の後方分布によってゴール指向の行動が生成される。 この考え方に基づいて,行動モデリングのための新しいベイズフレームワークを提案する。 提案フレームワークは,2つの行動間のスキル共有を可能にし,予測符号化のアイデアを活用することで,エージェントが追加のトレーニングを必要とせずに,日常的行動から目標指向行動へとシームレスに一般化できる。 提案したフレームワークは、認知科学とAIを具現化した新たな視点を示唆し、習慣的行動と目標指向行動とのさらなる統合の可能性を強調している。

How to behave efficiently and flexibly is a central problem for understanding biological agents and creating intelligent embodied AI. It has been well known that behavior can be classified as two types: reward-maximizing habitual behavior, which is fast while inflexible; and goal-directed behavior, which is flexible while slow. Conventionally, habitual and goal-directed behaviors are considered handled by two distinct systems in the brain. Here, we propose to bridge the gap between the two behaviors, drawing on the principles of variational Bayesian theory. We incorporate both behaviors in one framework by introducing a Bayesian latent variable called "intention". The habitual behavior is generated by using prior distribution of intention, which is goal-less; and the goal-directed behavior is generated by the posterior distribution of intention, which is conditioned on the goal. Building on this idea, we present a novel Bayesian framework for modeling behaviors. Our proposed framework enables skill sharing between the two kinds of behaviors, and by leveraging the idea of predictive coding, it enables an agent to seamlessly generalize from habitual to goal-directed behavior without requiring additional training. The proposed framework suggests a fresh perspective for cognitive science and embodied AI, highlighting the potential for greater integration between habitual and goal-directed behaviors.
翻訳日:2023-04-12 15:58:16 公開日:2023-04-11
# ベイズ相関平衡と非回帰力学

Bayes correlated equilibria and no-regret dynamics ( http://arxiv.org/abs/2304.05005v1 )

ライセンス: Link先を確認
Kaito Fujii(参考訳) 本稿では,不完全情報を持つゲームの基本モデルであるベイズゲームに対する平衡概念について考察する。 平衡の3つの望ましい性質を目指しています。 まず、ゲームにメディエータを導入することで、平衡を自然に実現できる。 第二に、平衡は分散的に効率的に計算できる。 第3に、このクラスのいかなる均衡も、アナキシーの価格によって測定されるように、幅広い種類のゲームに対する社会福祉をほぼ最大化する。 これら3つの性質により、プレイヤーは平衡を計算し、仲介者を通してそれを実現することができ、それによってほぼ最適な社会福祉を持つ安定した状態に定着する。 私たちの主な結果は、これら3つの性質を満たす平衡概念の存在です。 この目的に向けて、同値平衡の様々な(非等価な)拡張を特徴づけ、まとめてベイズ同値平衡(Bayes equilibria)と呼ぶ。 特に,コミュニケーション均衡(コーディネーション機構とも呼ばれる)に着目し,各プレイヤーのプライベート情報を収集し,関連するレコメンデーションをプレイヤーに送信する仲介者によって実現される。 ベイズゲームの繰り返しプレイにおいて、各プレイヤーが不完全スワップ後悔と呼ばれる後悔の変種を最小化すれば、これらのダイナミクスの実験的分布はコミュニケーション均衡に収束する。 そこで本研究では,不真理なスワップ後悔を部分線形上界で最小化する効率的なアルゴリズムを提案する。 その結果、我々のアルゴリズムで力学をシミュレートすることで、近似通信平衡を効率的に計算することができる。 さらに,提案手法により得られた不定値に対する既定下限をベイズナッシュ平衡から平衡までスムース性議論に基づいて拡張する。

This paper explores equilibrium concepts for Bayesian games, which are fundamental models of games with incomplete information. We aim at three desirable properties of equilibria. First, equilibria can be naturally realized by introducing a mediator into games. Second, an equilibrium can be computed efficiently in a distributed fashion. Third, any equilibrium in that class approximately maximizes social welfare, as measured by the price of anarchy, for a broad class of games. These three properties allow players to compute an equilibrium and realize it via a mediator, thereby settling into a stable state with approximately optimal social welfare. Our main result is the existence of an equilibrium concept that satisfies these three properties. Toward this goal, we characterize various (non-equivalent) extensions of correlated equilibria, collectively known as Bayes correlated equilibria. In particular, we focus on communication equilibria (also known as coordination mechanisms), which can be realized by a mediator who gathers each player's private information and then sends correlated recommendations to the players. We show that if each player minimizes a variant of regret called untruthful swap regret in repeated play of Bayesian games, the empirical distribution of these dynamics converges to a communication equilibrium. We present an efficient algorithm for minimizing untruthful swap regret with a sublinear upper bound, which we prove to be tight up to a multiplicative constant. As a result, by simulating the dynamics with our algorithm, we can efficiently compute an approximate communication equilibrium. Furthermore, we extend existing lower bounds on the price of anarchy based on the smoothness arguments from Bayes Nash equilibria to equilibria obtained by the proposed dynamics.
翻訳日:2023-04-12 15:57:55 公開日:2023-04-11
# SPIRiT拡散:加速MRIのための自己整合駆動拡散モデル

SPIRiT-Diffusion: Self-Consistency Driven Diffusion Model for Accelerated MRI ( http://arxiv.org/abs/2304.05060v1 )

ライセンス: Link先を確認
Zhuo-Xu Cui, Chentao Cao, Jing Cheng, Sen Jia, Hairong Zheng, Dong Liang, Yanjie Zhu(参考訳) 拡散モデルは画像生成の先駆的手法であり、磁気共鳴画像再構成(MRI)に成功している。 現在の拡散法に基づく再構成法は、コイル感度マップ(CSM)を用いてマルチコイルデータを再構成する。 しかし, 実使用時のcsmを正確に推定することは困難であり, コンストラクション品質の低下を招いた。 そこで本稿では,SPIRiT-Diffusionという反復型自己一貫性並列イメージング(SPIRiT)にインスパイアされた自己一貫性駆動拡散モデルを提案する。 具体的には、SPIRiTにおける自己整合項の反復解法を用いて、拡散過程のための新しい確率微分方程式(SDE)を設計する。 次に$\textit{k}$-spaceデータは、個々のコイルイメージを分離・結合するためにCSMを使う代わりに、逆拡散プロセス中に直接補間することができる。 本手法は, 拡散モデルにおけるsde設計に最適化モデルを用いることができ, 拡散過程はモデル駆動拡散と呼ばれる最適化モデルに関わる物理に強く準拠していることを示す。 提案法を頭蓋内および頸動脈内血管壁イメージングデータセットを用いて評価した。 その結果, CSMをベースとした再建法よりも優れ, 高加速率10。

Diffusion models are a leading method for image generation and have been successfully applied in magnetic resonance imaging (MRI) reconstruction. Current diffusion-based reconstruction methods rely on coil sensitivity maps (CSM) to reconstruct multi-coil data. However, it is difficult to accurately estimate CSMs in practice use, resulting in degradation of the reconstruction quality. To address this issue, we propose a self-consistency-driven diffusion model inspired by the iterative self-consistent parallel imaging (SPIRiT), namely SPIRiT-Diffusion. Specifically, the iterative solver of the self-consistent term in SPIRiT is utilized to design a novel stochastic differential equation (SDE) for diffusion process. Then $\textit{k}$-space data can be interpolated directly during the reverse diffusion process, instead of using CSM to separate and combine individual coil images. This method indicates that the optimization model can be used to design SDE in diffusion models, driving the diffusion process strongly conforming with the physics involved in the optimization model, dubbed model-driven diffusion. The proposed SPIRiT-Diffusion method was evaluated on a 3D joint Intracranial and Carotid Vessel Wall imaging dataset. The results demonstrate that it outperforms the CSM-based reconstruction methods, and achieves high reconstruction quality at a high acceleration rate of 10.
翻訳日:2023-04-12 15:51:34 公開日:2023-04-11
# 階層不均衡ノード分類のための双曲幾何グラフ表現学習

Hyperbolic Geometric Graph Representation Learning for Hierarchy-imbalance Node Classification ( http://arxiv.org/abs/2304.05059v1 )

ライセンス: Link先を確認
Xingcheng Fu, Yuecen Wei, Qingyun Sun, Haonan Yuan, Jia Wu, Hao Peng and Jianxin Li(参考訳) グラフ内の不均衡なサンプルに対する偏りのないノード表現の学習は、より顕著で重要なトピックになっている。 グラフにとって、重要な課題は、ノードの位相的特性(例えば、位置、役割)が、ラベル付きノードのトレーニング数(量的不均衡)以外の非バランス(トポロジー不均衡)であることである。 トポロジー不均衡に関する既存の研究は、ノードの位置や局所的な近傍構造に注目し、グラフのグローバルな階層性、すなわち階層性を無視している。 実世界のシナリオでは、グラフデータの階層構造はグラフの重要な位相的性質を示し、幅広いアプリケーションに関連している。 階層特性の異なるラベル付きノードのトレーニングは,ノード分類タスクに大きな影響を与え,実験で確認する。 双曲幾何学はグラフの階層構造を表現する上で一意な利点を持つことはよく知られている。 そこで本研究では,グラフニューラルネットワークのノード分類における階層不均衡問題を,その特徴と原因を含む双曲幾何学の新しい視点で検討する。 そこで本稿では,階層レベルの不均一化やラベル付きノードの階層間接続パターンによる階層不均衡問題を軽減するために,HyperIMBAというハイパーボリックな幾何的階層不均衡学習フレームワークを提案する。

Learning unbiased node representations for imbalanced samples in the graph has become a more remarkable and important topic. For the graph, a significant challenge is that the topological properties of the nodes (e.g., locations, roles) are unbalanced (topology-imbalance), other than the number of training labeled nodes (quantity-imbalance). Existing studies on topology-imbalance focus on the location or the local neighborhood structure of nodes, ignoring the global underlying hierarchical properties of the graph, i.e., hierarchy. In the real-world scenario, the hierarchical structure of graph data reveals important topological properties of graphs and is relevant to a wide range of applications. We find that training labeled nodes with different hierarchical properties have a significant impact on the node classification tasks and confirm it in our experiments. It is well known that hyperbolic geometry has a unique advantage in representing the hierarchical structure of graphs. Therefore, we attempt to explore the hierarchy-imbalance issue for node classification of graph neural networks with a novelty perspective of hyperbolic geometry, including its characteristics and causes. Then, we propose a novel hyperbolic geometric hierarchy-imbalance learning framework, named HyperIMBA, to alleviate the hierarchy-imbalance issue caused by uneven hierarchy-levels and cross-hierarchy connectivity patterns of labeled nodes.Extensive experimental results demonstrate the superior effectiveness of HyperIMBA for hierarchy-imbalance node classification tasks.
翻訳日:2023-04-12 15:51:11 公開日:2023-04-11
# ディープグラフ表現学習に関する包括的調査

A Comprehensive Survey on Deep Graph Representation Learning ( http://arxiv.org/abs/2304.05055v1 )

ライセンス: Link先を確認
Wei Ju, Zheng Fang, Yiyang Gu, Zequn Liu, Qingqing Long, Ziyue Qiao, Yifang Qin, Jianhao Shen, Fang Sun, Zhiping Xiao, Junwei Yang, Jingyang Yuan, Yusheng Zhao, Xiao Luo, Ming Zhang(参考訳) グラフ表現学習は、高次元スパースグラフ構造化データを低次元密度ベクトルに効果的に符号化することを目的としており、これは機械学習やデータマイニングなど様々な分野で広く研究されている基本的なタスクである。 古典的なグラフ埋め込み手法は、グラフ内の連結ノードの埋め込みベクトルが比較的近い距離を維持できるという基本的な考え方に従っており、グラフ内のノード間の構造情報を保存できる。 しかし、これは以下の点で最適である。 (i)従来の手法は、学習性能を制限する限られたモデル能力を有する。 (二)既存の技術は一般に教師なしの学習戦略に依存し、最新の学習パラダイムと相容れない。 (iii)表現学習と下流課題は相互に依存し、協調的に強化されるべきである。 ディープラーニングの成功により、深層グラフ表現学習は、浅い(伝統的な)手法よりも大きな可能性と利点を示し、過去10年間、特にグラフニューラルネットワークにおいて、多くの深層グラフ表現学習技術が提案されてきた。 本研究では,現在の深層グラフ表現学習アルゴリズムの包括的調査を行い,現状の文献の新しい分類法を提案する。 具体的には,グラフ表現学習の基本要素を体系的に要約し,グラフニューラルネットワークアーキテクチャと最新の学習パラダイムを用いて既存のアプローチを分類する。 さらに,本調査は,深層グラフ表現学習の実践的かつ有望な応用も提供する。 最後に、我々は新たな視点を述べ、今後のさらなる調査に値する挑戦的な方向性を提案する。

Graph representation learning aims to effectively encode high-dimensional sparse graph-structured data into low-dimensional dense vectors, which is a fundamental task that has been widely studied in a range of fields, including machine learning and data mining. Classic graph embedding methods follow the basic idea that the embedding vectors of interconnected nodes in the graph can still maintain a relatively close distance, thereby preserving the structural information between the nodes in the graph. However, this is sub-optimal due to: (i) traditional methods have limited model capacity which limits the learning performance; (ii) existing techniques typically rely on unsupervised learning strategies and fail to couple with the latest learning paradigms; (iii) representation learning and downstream tasks are dependent on each other which should be jointly enhanced. With the remarkable success of deep learning, deep graph representation learning has shown great potential and advantages over shallow (traditional) methods, there exist a large number of deep graph representation learning techniques have been proposed in the past decade, especially graph neural networks. In this survey, we conduct a comprehensive survey on current deep graph representation learning algorithms by proposing a new taxonomy of existing state-of-the-art literature. Specifically, we systematically summarize the essential components of graph representation learning and categorize existing approaches by the ways of graph neural network architectures and the most recent advanced learning paradigms. Moreover, this survey also provides the practical and promising applications of deep graph representation learning. Last but not least, we state new perspectives and suggest challenging directions which deserve further investigations in the future.
翻訳日:2023-04-12 15:50:45 公開日:2023-04-11
# コヒーレント重ね合わせ量子状態に対する低次および高次非古典性

Lower- versus higher-order nonclassicalities for a coherent superposed quantum state ( http://arxiv.org/abs/2304.05054v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) コヒーレント状態は、通常、変位した真空状態、消滅作用素の固有値、フォック状態の無限次元ポアソニアン重ね合わせなど、異なる方法で定義される。 本研究では,連続変数コヒーレント状態である ||{\alpha}\rangle$ に作用するフィールド消滅と生成演算子の重ね合わせ $(ta+ra^\dagger)$ を記述し, ||\psi\rangle$ で指定する。 我々は、$|\psi\rangle$ の下限と高階非古典的性質を解析する。 この比較は、非古典性の目撃者の集合(例えば、高次光子統計、高次アンチバンチング、高次ポアソニアン統計、高次スクイージング、アガルワル・タラパラメータ、クリシュコ条件、比較的新しい概念である位相空間分布行列)を用いて行われる。 高次基準は低次条件と比較して非古典性の存在を検出するのにはるかに効率的であることがわかった。

A coherent state is defined conventionally in different ways such as a displaced vacuum state, an eigenket of annihilation operator or as an infinite dimensional Poissonian superposition of Fock states. In this work, we describe a superposition $(ta+ra^\dagger)$ of field annihilation and creation operators acting on a continuous variable coherent state $|{\alpha}\rangle$ and specify it by $|\psi\rangle$. We analyze the lower- as well as the higher-order nonclassical properties of $|\psi\rangle$. The comparison is performed by using a set of nonclassicality witnesses (e.g., higher-order photon-statistics, higher-order antibunching, higher-order sub-Poissonian statistics, higher-order squeezing, Agarwal-Tara parameter, Klyshko's condition and a relatively new concept, matrix of phase-space distribution). It is found that higher-order criteria are much more efficient to detect the presence of nonclassicality as compared to lower-order conditions.
翻訳日:2023-04-12 15:50:22 公開日:2023-04-11
# 相互作用するフォック空間における原子空洞場系のダイナミクス

Dynamics of an atom cavity field system in interacting Fock space ( http://arxiv.org/abs/2304.05052v1 )

ライセンス: Link先を確認
P. K. Das and Arpita Chatterjee(参考訳) 本稿では,キャビティ内の単一モード相互作用場を介して,v$-type 3レベル原子の1回通過について検討する。 場ベクトルが相互作用するフォック空間に属することを仮定して、素Jaynes-Cummingsモデルの概念を拡張した。 この過程で、システムの進化した状態の非古典性を研究するために解析される状態ベクトルに到達する。

In this paper, we investigate one-time passing of a $V$-type three-level atom through a single-mode interacting field in a cavity. We extend the idea of elementary Jaynes-Cummings model by assuming that the field vector belongs to interacting Fock space. In the process, we arrive at a state vector which will be analyzed to study the nonclassicality of the evolved state of the system.
翻訳日:2023-04-12 15:49:59 公開日:2023-04-11
# FashionSAP:Fashion Vision-Language Pre-trainingのためのシンボルと属性

FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion Vision-Language Pre-training ( http://arxiv.org/abs/2304.05051v1 )

ライセンス: Link先を確認
Yunpeng Han, Lisai Zhang, Qingcai Chen, Zhijian Chen, Zhonghua Li, Jianxin Yang, Zhao Cao(参考訳) Fashion Vision-Language Pre-training Modelは、幅広い下流タスクに有効である。 しかし、一般的な視覚言語による事前学習モデルは、特定のドメインタスクと一般的なタスクを区別する上で重要である一方で、きめ細かいドメイン機能にはあまり注意を払わない。 本稿では,ファッションシンボルと属性プロンプト(FashionSAP)に基づく,きめ細かなファッションビジョン言語事前学習手法を提案する。 まず,新しい抽象的なファッション概念層であるファッションシンボルを提案する。これは,異なるファッションアイテムを表現し,さまざまなきめ細かいファッション特徴を一般化し,きめ細かい属性のモデル化をより効果的にする。 次に、モデルにファッションアイテムの特定の属性を明示的に学習させる属性プロンプト手法を提案する。 ファッションデータの形式に応じて適切なプロンプトテンプレートを設計する。 FashionGenとFashionIQの2つの公開ファッションベンチマークで総合的な実験が行われ、FashionSAPは4つの人気のあるファッションタスクに対してSOTAパフォーマンスを得る。 アブレーション研究は,提案する抽象ファッションシンボルも示すとともに,属性プロンプト手法により,ファッション領域における細粒度セマンティクスを効果的に獲得できることを示す。 FashionSAPによる明らかなパフォーマンス向上は、将来のファッションタスク研究の新たなベースラインを提供する。

Fashion vision-language pre-training models have shown efficacy for a wide range of downstream tasks. However, general vision-language pre-training models pay less attention to fine-grained domain features, while these features are important in distinguishing the specific domain tasks from general tasks. We propose a method for fine-grained fashion vision-language pre-training based on fashion Symbols and Attributes Prompt (FashionSAP) to model fine-grained multi-modalities fashion attributes and characteristics. Firstly, we propose the fashion symbols, a novel abstract fashion concept layer, to represent different fashion items and to generalize various kinds of fine-grained fashion features, making modelling fine-grained attributes more effective. Secondly, the attributes prompt method is proposed to make the model learn specific attributes of fashion items explicitly. We design proper prompt templates according to the format of fashion data. Comprehensive experiments are conducted on two public fashion benchmarks, i.e., FashionGen and FashionIQ, and FashionSAP gets SOTA performances for four popular fashion tasks. The ablation study also shows the proposed abstract fashion symbols, and the attribute prompt method enables the model to acquire fine-grained semantics in the fashion domain effectively. The obvious performance gains from FashionSAP provide a new baseline for future fashion task research.
翻訳日:2023-04-12 15:49:52 公開日:2023-04-11
# 量子プログラムの静的絡み合い解析

Static Entanglement Analysis of Quantum Programs ( http://arxiv.org/abs/2304.05049v1 )

ライセンス: Link先を確認
Shangzhou Xia, Jianjun Zhao(参考訳) 量子エンタングルメントは量子コンピューティングにおいて重要な役割を果たす。 情報絡み合いは量子プログラムの振る舞いを理解し、絡み合いによるエラーを避ける上で重要な意味を持つ。 エンタングルメント解析(Entanglement analysis)は、どのクビットが他のクビットと絡み合うかを決定する静的コード解析手法であり、エンタングルメントグラフは、絡み合ったクビット間の相互作用の全体像を表す。 本稿では,量子プログラミング言語q\#で開発された量子プログラムに対する最初の静的絡み合い解析法を提案する。 本手法は,まずq\#プログラムのための手続き間制御フローグラフ(icfg)を構築し,次に各モジュール内だけでなく,プログラムモジュール間の絡み合い情報を計算する。 解析結果は、量子プログラムの信頼性とセキュリティを向上させるのに役立つ。

Quantum entanglement plays a crucial role in quantum computing. Entangling information has important implications for understanding the behavior of quantum programs and avoiding entanglement-induced errors. Entanglement analysis is a static code analysis technique that determines which qubit may entangle with another qubit and establishes an entanglement graph to represent the whole picture of interactions between entangled qubits. This paper presents the first static entanglement analysis method for quantum programs developed in the practical quantum programming language Q\#. Our method first constructs an interprocedural control flow graph (ICFG) for a Q\# program and then calculates the entanglement information not only within each module but also between modules of the program. The analysis results can help improve the reliability and security of quantum programs.
翻訳日:2023-04-12 15:49:28 公開日:2023-04-11
# 複数顔認識システムコンポーネントに対する同時対向攻撃

Simultaneous Adversarial Attacks On Multiple Face Recognition System Components ( http://arxiv.org/abs/2304.05048v1 )

ライセンス: Link先を確認
Inderjeet Singh, Kazuya Kakizaki, Toshinori Araki(参考訳) 本研究では,顔認識システムのセキュリティに対する敵例の潜在的な脅威について検討する。 従来の研究では、FRSの個々のコンポーネントに対する敵対的リスクを調査してきたが、FRSパイプラインの顔検出器と特徴抽出器の2つのコンポーネントを同時に騙す敵の探索を行った。 本研究では,FRSに対する3つの多目的攻撃を提案し,その有効性を示す。 我々の攻撃は顔検出装置と特徴抽出器の両方に対して最大100%の攻撃成功率を達成し,敵の目的に応じて最大50%まで顔検出確率を操作できた。 本研究は、FRSに対する新たな攻撃ベクトルを特定し、FRSコンポーネントのトレーニング中に攻撃ベクトルの知識を活用することにより、ロバスト性を高める方法を提案する。

In this work, we investigate the potential threat of adversarial examples to the security of face recognition systems. Although previous research has explored the adversarial risk to individual components of FRSs, our study presents an initial exploration of an adversary simultaneously fooling multiple components: the face detector and feature extractor in an FRS pipeline. We propose three multi-objective attacks on FRSs and demonstrate their effectiveness through a preliminary experimental analysis on a target system. Our attacks achieved up to 100% Attack Success Rates against both the face detector and feature extractor and were able to manipulate the face detection probability by up to 50% depending on the adversarial objective. This research identifies and examines novel attack vectors against FRSs and suggests possible ways to augment the robustness by leveraging the attack vector's knowledge during training of an FRS's components.
翻訳日:2023-04-12 15:49:13 公開日:2023-04-11
# 半教師付きリレーショナルコントラスト学習

Semi-Supervised Relational Contrastive Learning ( http://arxiv.org/abs/2304.05047v1 )

ライセンス: Link先を確認
Attiano Purpura-Pontoniere, Adam Wang, Demetri Terzopoulos, Abdullah-Al-Zubaer Imran(参考訳) 教師付き学習による医療画像からの疾患診断は、通常、医療専門家による退屈でエラーを起こしやすい画像ラベリングに依存する。 あるいは、半教師付き学習と自己教師付き学習は、容易に利用可能なラベル付き画像から貴重な洞察を得ることによって有効性を提供する。 自己教師付きコントラスト損失とサンプル関係一貫性を利用した,ラベルなしデータのより有意義で効果的な活用のための,新しい半教師付きコントラスト学習モデルsrclを提案する。 SRCLモデルを用いた実験では,事前学習と事前学習(コントラスト学習)と下流学習(診断的分類)の両方を探索する。 我々は,ISIC 2018 Challengeベンチマーク皮膚病変分類データセットに対して検証を行い,各種ラベル付きデータに対する半教師あり手法の有効性を実証した。

Disease diagnosis from medical images via supervised learning is usually dependent on tedious, error-prone, and costly image labeling by medical experts. Alternatively, semi-supervised learning and self-supervised learning offer effectiveness through the acquisition of valuable insights from readily available unlabeled images. We present Semi-Supervised Relational Contrastive Learning (SRCL), a novel semi-supervised learning model that leverages self-supervised contrastive loss and sample relation consistency for the more meaningful and effective exploitation of unlabeled data. Our experimentation with the SRCL model explores both pre-train/fine-tune and joint learning of the pretext (contrastive learning) and downstream (diagnostic classification) tasks. We validate against the ISIC 2018 Challenge benchmark skin lesion classification dataset and demonstrate the effectiveness of our semi-supervised method on varying amounts of labeled data.
翻訳日:2023-04-12 15:48:59 公開日:2023-04-11
# FPGAの効率的な実装のための通信におけるANNと従来のデマッピングを組み合わせたハイブリッドアプローチ

A Hybrid Approach combining ANN-based and Conventional Demapping in Communication for Efficient FPGA-Implementation ( http://arxiv.org/abs/2304.05042v1 )

ライセンス: Link先を確認
Jonas Ney, Bilal Hammoud, Norbert Wehn(参考訳) 通信システムにおいて、オートエンコーダ(autoencoder、ae)とは、送信機と受信機の一部をニューラルネットワーク(anns)で置き換えて、チャネルモデル上でシステムのエンドツーエンドをトレーニングするという概念を指す。 このアプローチは、特に様々なチャネル条件において、訓練と推論のために高い計算複雑性のコストで通信性能を改善することを目的としている。 フィールドプログラマブルゲートアレイ(FPGA)はエネルギー効率の良いANN実装に適したプラットフォームであることが示されている。 しかし、ANNの操作数やモデルサイズが大きいため、リソース制約のあるデバイスでは性能が制限され、低レイテンシや高スループット通信システムでは重要となる。 そこで本研究では,AEの適応性と従来のデマッピングアルゴリズムの効率性を組み合わせたFPGA上での効率的なANNリマッピング手法を提案する。 チャネル条件への適応後、ANNが暗黙的に学習したチャネル特性を抽出し、最適化された従来のデマッピングアルゴリズムを用いて推論を行う。 FPGAの実装結果を提供し,通信性能を従来のシステムと比較することにより,提案手法のハードウェア効率を検証する。 我々の研究は、FPGA上でのANNベースの通信アルゴリズムの実用化への扉を開く。

In communication systems, Autoencoder (AE) refers to the concept of replacing parts of the transmitter and receiver by artificial neural networks (ANNs) to train the system end-to-end over a channel model. This approach aims to improve communication performance, especially for varying channel conditions, with the cost of high computational complexity for training and inference. Field-programmable gate arrays (FPGAs) have been shown to be a suitable platform for energy-efficient ANN implementation. However, the high number of operations and the large model size of ANNs limit the performance on resource-constrained devices, which is critical for low latency and high-throughput communication systems. To tackle his challenge, we propose a novel approach for efficient ANN-based remapping on FPGAs, which combines the adaptability of the AE with the efficiency of conventional demapping algorithms. After adaption to channel conditions, the channel characteristics, implicitly learned by the ANN, are extracted to enable the use of optimized conventional demapping algorithms for inference. We validate the hardware efficiency of our approach by providing FPGA implementation results and by comparing the communication performance to that of conventional systems. Our work opens a door for the practical application of ANN-based communication algorithms on FPGAs.
翻訳日:2023-04-12 15:48:43 公開日:2023-04-11
# WEAR: ウェアラブルとエゴセントリックなビデオアクティビティ認識のためのマルチモーダルデータセット

WEAR: A Multimodal Dataset for Wearable and Egocentric Video Activity Recognition ( http://arxiv.org/abs/2304.05088v1 )

ライセンス: Link先を確認
Marius Bock, Michael Moeller, Kristof Van Laerhoven, Hilde Kuehne(参考訳) カメラと慣性ベースのデータの相補性は研究されているが、両方のモダリティを提供するデータセットは乏しい。 本稿では,視覚とウェアラブルをベースとしたヒューマンアクティビティ認識(HAR)のためのマルチモーダルベンチマークデータセットWEARを紹介する。 データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。 WEARは、クラス間の類似性が低く、以前の自我中心のデータセットとは異なり、人間とオブジェクトの相互作用によって定義されておらず、本質的に異なるアクティビティカテゴリから派生している。 ベンチマークの結果、シングルモダリティアーキテクチャは予測性能の長所と短所が異なることが判明した。 さらに, 変圧器を用いた映像動作検出モデルの最近の成功を踏まえ, 視覚, 慣性, 複合(視覚+慣性)機能を入力として平易な方法で適用することにより, その汎用性を示す。 その結果、視覚トランスフォーマーは慣性データのみを使用して競争力のある結果を生成することができるだけでなく、単純な結合によって両方のモダリティを融合するアーキテクチャとして機能し、マルチモーダルアプローチは最高平均マップ、精度、最高に近いf1-scoreを生成することができる。 これまで、視覚ベースのトランスフォーマーは慣性やマルチモーダルな人間の活動認識では研究されておらず、私たちのアプローチは初めてです。 mariusbock.github.io/wearを通じて実験を再現するデータセットとコードが公開されている。

Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both modalities remain scarce. In this paper we introduce WEAR, a multimodal benchmark dataset for both vision- and wearable-based Human Activity Recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. WEAR features a diverse set of activities which are low in inter-class similarity and, unlike previous egocentric datasets, not defined by human-object-interactions nor originate from inherently distinct activity categories. Provided benchmark results reveal that single-modality architectures have different strengths and weaknesses in their prediction performance. Further, in light of the recent success of transformer-based video action detection models, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results show that vision transformers are not only able to produce competitive results using only inertial data, but also can function as an architecture to fuse both modalities by means of simple concatenation, with the multimodal approach being able to produce the highest average mAP, precision and close-to-best F1-scores. Up until now, vision-based transformers have neither been explored in inertial nor in multimodal human activity recognition, making our approach the first to do so. The dataset and code to reproduce experiments is publicly available via: mariusbock.github.io/wear
翻訳日:2023-04-12 15:41:56 公開日:2023-04-11
# 超伝導半導体singlet-triplet qubitsの高忠実性2量子ビットゲート

High-fidelity two-qubit gates of hybrid superconducting-semiconducting singlet-triplet qubits ( http://arxiv.org/abs/2304.05086v1 )

ライセンス: Link先を確認
Maria Spethmann, Stefano Bosco, Andrea Hofmann, Jelena Klinovaja, Daniel Loss(参考訳) 超伝導材料と半導体材料からなるハイブリッドシステムは量子コンピューティングにとって有望なアーキテクチャである。 超伝導体は、半導体量子ドットの自由度の間の長距離相互作用を誘導する。 これらの相互作用は、半導体材料が強いスピン軌道相互作用を持つときに広く異方性を持つ。 この異方性は可変であり、シングルトリップ(ST)スピンキュービット間の高速かつ高忠実な2ビットゲートを可能にする。 我々の設計は量子情報の非計算状態への漏洩を免れ、量子ビット間の常にオンな相互作用を取り除き、これらのアーキテクチャの重要なオープン課題を解決します。 我々のST量子ビットは、追加の技術要求コンポーネントやパラメータの微調整を必要としない。 数ミリテスラの低磁場で動作し、超伝導体と完全に互換性がある。 現実的なデバイスでは、大規模なハイブリッド超伝導-半導体量子プロセッサへの道を開くことができる10^{-3}$以下の不完全性を推定する。

Hybrid systems comprising superconducting and semiconducting materials are promising architectures for quantum computing. Superconductors induce long-range interactions between the spin degrees of freedom of semiconducting quantum dots. These interactions are widely anisotropic when the semiconductor material has strong spin-orbit interactions. We show that this anisotropy is tunable and enables fast and high-fidelity two-qubit gates between singlet-triplet (ST) spin qubits. Our design is immune to leakage of the quantum information into non-computational states and removes always-on interactions between the qubits, thus resolving key open challenges for these architectures. Our ST qubits do not require additional technologically-demanding components nor fine-tuning of parameters. They operate at low magnetic fields of a few milli Tesla and are fully compatible with superconductors. In realistic devices, we estimate infidelities below $10^{-3}$, that could pave the way toward large-scale hybrid superconducting-semiconducting quantum processors.
翻訳日:2023-04-12 15:41:26 公開日:2023-04-11
# 浅層循環下における市販リチウムイオン電池状態推定のためのセルフアテンションナレッジドメイン適応ネットワーク

A Self-attention Knowledge Domain Adaptation Network for Commercial Lithium-ion Batteries State-of-health Estimation under Shallow Cycles ( http://arxiv.org/abs/2304.05084v1 )

ライセンス: Link先を確認
Xin Chen, Yuwen Qin, Weidong Zhao, Qiming Yang, Ningbo Cai, Kai Wu(参考訳) 正確なSOH推定は、バッテリー駆動アプリケーションの安全性、効率、信頼性を保証するために重要である。 ほとんどのSOH推定法は、同様の分布を持つ0-100\%完全電荷(SOC)範囲にフォーカスする。 しかし、現実のアプリケーションにおける電池は通常、浅いサイクル条件下で部分的なSOC範囲で動作し、ラベル付きデータを使用せずに異なる劣化プロファイルに従うため、SOH推定は困難である。 浅いサイクルの電池SOHを推定するために, 自己アテンション蒸留モジュールとマルチカーネル最大平均離散化技術を用いて, 異なるドメインをブリッジする新しい教師なし深層移動学習法を提案する。 提案手法は, 電荷曲線から領域変動特徴を自動的に抽出し, 大規模ラベル付き全サイクルから未ラベルの浅いサイクルへ伝達する。 提案手法の有効性を検証するために,calceとsnlのバッテリデータセットを用いて,soc範囲,温度,放電速度の異なるバッテリsohを推定した。 提案手法はルート平均二乗誤差を 2 % 以内で達成し,SOC の異なる範囲の移動学習法より優れる。 異なる動作条件と異なる製造元からの電池に適用した場合, 提案手法は優れたSOH推定性能を示す。 提案手法は, 全サイクル特性試験を必要とせず, 浅周期条件下でバッテリーsohを正確に推定する最初の試みである。

Accurate state-of-health (SOH) estimation is critical to guarantee the safety, efficiency and reliability of battery-powered applications. Most SOH estimation methods focus on the 0-100\% full state-of-charge (SOC) range that has similar distributions. However, the batteries in real-world applications usually work in the partial SOC range under shallow-cycle conditions and follow different degradation profiles with no labeled data available, thus making SOH estimation challenging. To estimate shallow-cycle battery SOH, a novel unsupervised deep transfer learning method is proposed to bridge different domains using self-attention distillation module and multi-kernel maximum mean discrepancy technique. The proposed method automatically extracts domain-variant features from charge curves to transfer knowledge from the large-scale labeled full cycles to the unlabeled shallow cycles. The CALCE and SNL battery datasets are employed to verify the effectiveness of the proposed method to estimate the battery SOH for different SOC ranges, temperatures, and discharge rates. The proposed method achieves a root-mean-square error within 2\% and outperforms other transfer learning methods for different SOC ranges. When applied to batteries with different operating conditions and from different manufacturers, the proposed method still exhibits superior SOH estimation performance. The proposed method is the first attempt at accurately estimating battery SOH under shallow-cycle conditions without needing a full-cycle characteristic test.
翻訳日:2023-04-12 15:41:12 公開日:2023-04-11
# トポロジカルインタフェースによる高速量子状態移動を用いたロバストビームスプリッタ

Robust beam splitter with fast quantum state transfer through a topological interface ( http://arxiv.org/abs/2304.05081v1 )

ライセンス: Link先を確認
Jia-Ning Zhang, Jin-Xuan Han, Jin-Lei Wu, Jie Song, and Yong-Yuan Jiang(参考訳) Su-Schrieffer-Heeger(SSH)モデルは、トポロジカルに保護されたエッジポンプによる堅牢な状態伝達に一般的に使用されるが、一般化され、様々な機能量子デバイスを設計するために利用されている。 本稿では,量子状態移動(QST)過程を本質的に断熱的要求によって制限し,一般化SSHモデルに基づく高速なトポロジカルビーム分割器を実現することを提案する。 このスキームは、近接する隣り合う結合強度とオンサイトエネルギーの指数変調による瞬時エネルギースペクトルの微妙な調整を伴い、ビーム分割過程を著しく加速させる。 トポロジカルポンプと加速QSTの特性により、ビームスプリッタはパラメータ障害やシステムの損失に対して強い堅牢性を示す。 さらに、このモデルは優れたスケーラビリティを示し、2次元のクロスチェーン構造に拡張して、出力ポートの可変数のトポロジ的ルータを実現することができる。 本研究は,大規模量子情報処理における実現可能な量子デバイスにおける高速でロバストな位相qstの実用的展望を提供する。

The Su-Schrieffer-Heeger (SSH) model, commonly used for robust state transfers through topologically protected edge pumping, has been generalized and exploited to engineer diverse functional quantum devices. Here, we propose to realize a fast topological beam splitter based on a generalized SSH model by accelerating the quantum state transfer (QST) process essentially limited by adiabatic requirements. The scheme involves delicate orchestration of the instantaneous energy spectrum through exponential modulation of nearest neighbor coupling strengths and onsite energies, yielding a significantly accelerated beam splitting process. Due to properties of topological pumping and accelerated QST, the beam splitter exhibits strong robustness against parameter disorders and losses of system. In addition, the model demonstrates good scalability and can be extended to two-dimensional crossed-chain structures to realize a topological router with variable numbers of output ports. Our work provides practical prospects for fast and robust topological QST in feasible quantum devices in large-scale quantum information processing.
翻訳日:2023-04-12 15:40:47 公開日:2023-04-11
# マルチモーダル都市マッピングにおけるSARと光利用の不均衡の検討

Investigating Imbalances Between SAR and Optical Utilization for Multi-Modal Urban Mapping ( http://arxiv.org/abs/2304.05080v1 )

ライセンス: Link先を確認
Sebastian Hafner, Yifang Ban, Andrea Nascetti(参考訳) 正確な都市地図は持続可能な都市開発を支援するために重要な情報を提供する。 最近の都市マッピング手法では、多モードディープニューラルネットワークを用いて合成開口レーダ(SAR)と光学データを融合している。 しかし、マルチモーダルネットワークは学習の欲深い性質のため、1つのモダリティに依存するかもしれない。 逆に、モダリティの不均衡利用はネットワークの一般化能力に悪影響を及ぼす可能性がある。 本稿では,都市マッピングにおけるSARと光データの利用について検討する。 そのために、中間核融合モジュールを用いた二重分岐ネットワークアーキテクチャを用いて、ユニモーダル分岐間の情報共有を行う。 融合モジュールの遮断機構により、ネットワークのSARと光学データへの依存性を推定するために使用される枝間の情報の流れを停止することができる。 sen12グローバルアーバンマッピングデータセットに関する実験では、従来のsar-opticalデータ融合(f1スコア = 0.682$\pm$ 0.014)で優れた性能が得られることが示されましたが、光学データの明確な利用不足も観察しました。 したがって、SARと光データのよりバランスのとれた利用が性能改善につながるかどうかを調べるためには、今後の研究が必要である。

Accurate urban maps provide essential information to support sustainable urban development. Recent urban mapping methods use multi-modal deep neural networks to fuse Synthetic Aperture Radar (SAR) and optical data. However, multi-modal networks may rely on just one modality due to the greedy nature of learning. In turn, the imbalanced utilization of modalities can negatively affect the generalization ability of a network. In this paper, we investigate the utilization of SAR and optical data for urban mapping. To that end, a dual-branch network architecture using intermediate fusion modules to share information between the uni-modal branches is utilized. A cut-off mechanism in the fusion modules enables the stopping of information flow between the branches, which is used to estimate the network's dependence on SAR and optical data. While our experiments on the SEN12 Global Urban Mapping dataset show that good performance can be achieved with conventional SAR-optical data fusion (F1 score = 0.682 $\pm$ 0.014), we also observed a clear under-utilization of optical data. Therefore, future work is required to investigate whether a more balanced utilization of SAR and optical data can lead to performance improvements.
翻訳日:2023-04-12 15:40:29 公開日:2023-04-11
# TodyNet:多変量時系列分類のための時間動的グラフニューラルネットワーク

TodyNet: Temporal Dynamic Graph Neural Network for Multivariate Time Series Classification ( http://arxiv.org/abs/2304.05078v1 )

ライセンス: Link先を確認
Huaiyuan Liu, Xianzhang Liu, Donghua Yang, Zhiyu Liang, Hongzhi Wang, Yong Cui, Jun Gu(参考訳) 多変量時系列分類(MTSC)は、一般的なディープラーニング技術によって効果的に解決できる重要なデータマイニングタスクである。 残念なことに、既存のディープラーニングベースの手法は、異なる次元の隠れた依存関係を無視すると同時に、適切な分類精度を得るために十分な特徴抽出能力を持たない時系列のユニークな動的特徴をほとんど考慮しない。 そこで本研究では,非定義のグラフ構造を必要とせず,隠れた時空間依存を抽出できる新しい時空間動的グラフニューラルネットワーク(todynet)を提案する。 孤立しているが暗黙的な相互依存変数間の情報フローを可能にし、動的グラフ機構により異なる時間スロット間の関連をキャプチャし、モデルの分類性能をさらに向上する。 一方、グラフの階層的表現は、GNNの制限のため学べない。 また,学習可能な時間パラメータを用いたグラフ学習のためのグローバルグラフレベル表現を得るために,時間グラフプーリング層を設計する。 動的グラフ、グラフ情報伝搬、時間的畳み込みは、エンドツーエンドのフレームワークで共同で学習される。 26のUEAベンチマークデータセットの実験は、提案されたTodyNetがMTSCタスクで既存のディープラーニングベースのメソッドより優れていることを示している。

Multivariate time series classification (MTSC) is an important data mining task, which can be effectively solved by popular deep learning technology. Unfortunately, the existing deep learning-based methods neglect the hidden dependencies in different dimensions and also rarely consider the unique dynamic features of time series, which lack sufficient feature extraction capability to obtain satisfactory classification accuracy. To address this problem, we propose a novel temporal dynamic graph neural network (TodyNet) that can extract hidden spatio-temporal dependencies without undefined graph structure. It enables information flow among isolated but implicit interdependent variables and captures the associations between different time slots by dynamic graph mechanism, which further improves the classification performance of the model. Meanwhile, the hierarchical representations of graphs cannot be learned due to the limitation of GNNs. Thus, we also design a temporal graph pooling layer to obtain a global graph-level representation for graph learning with learnable temporal parameters. The dynamic graph, graph information propagation, and temporal convolution are jointly learned in an end-to-end framework. The experiments on 26 UEA benchmark datasets illustrate that the proposed TodyNet outperforms existing deep learning-based methods in the MTSC tasks.
翻訳日:2023-04-12 15:40:08 公開日:2023-04-11
# 意識が動的に関係しているなら 人工知能は意識を持たない

If consciousness is dynamically relevant, artificial intelligence isn't conscious ( http://arxiv.org/abs/2304.05077v1 )

ライセンス: Link先を確認
Johannes Kleiner, Tim Ludwig(参考訳) 意識がシステムの状態の時間的発展(すなわち動的に関係している場合)に関係しているならば、aiシステムは意識できないことを実証する。 これは、aiシステムがcpu、gpu、tpusなどのプロセッサ上で動作し、系統的に偏差を妨げたり抑制したりする計算力学に準拠するように設計され、検証されているためである。 設計と検証は、特に潜在的な意識関連動的効果を阻害または抑制し、意識が動的に関連している場合、aiシステムは意識できない。

We demonstrate that if consciousness is relevant for the temporal evolution of a system's states -- that is, if it is dynamically relevant -- then AI systems cannot be conscious. That is because AI systems run on CPUs, GPUs, TPUs or other processors which have been designed and verified to adhere to computational dynamics that systematically preclude or suppress deviations. The design and verification preclude or suppress, in particular, potential consciousness-related dynamical effects, so that if consciousness is dynamically relevant, AI systems cannot be conscious.
翻訳日:2023-04-12 15:39:47 公開日:2023-04-11
# 割引強化学習におけるサンプリングと推定の物語

A Tale of Sampling and Estimation in Discounted Reinforcement Learning ( http://arxiv.org/abs/2304.05073v1 )

ライセンス: Link先を確認
Alberto Maria Metelli, Mirco Mutti, Marcello Restelli(参考訳) 割引強化学習における最も関連する問題は、政策評価の期待リターンや政策最適化の政策勾配など、マルコフ報酬プロセスの定常分布下の関数の平均を推定することである。 実際には、これらの推定はマルコフ過程の混合特性を無視した有限水平エピソードサンプリングによって生成される。 この実用的設定と理想的設定のミスマッチが推定にどのように影響するかはほとんど不明であり、文献にはエピソジックサンプリングの落とし穴に関する形式的な研究が欠けている。 本稿では,推定誤差をマルコフ過程の混合特性と割引係数とを明示的に結合する,割引平均推定問題に対する最小値の最小値について述べる。 次に,実際によく用いられる有限ホライゾン推定器を含む,注目すべき推定器群と対応するサンプリング手順に関する統計解析を行う。 重要となるのは,マルコフ過程の割引カーネルから直接サンプリングすることで平均を推定することは,エピソードの地平線を注意深く調整することなく下限と一致するため,w.r.t.代替推定器を説得力のある統計特性をもたらすことである。

The most relevant problems in discounted reinforcement learning involve estimating the mean of a function under the stationary distribution of a Markov reward process, such as the expected return in policy evaluation, or the policy gradient in policy optimization. In practice, these estimates are produced through a finite-horizon episodic sampling, which neglects the mixing properties of the Markov process. It is mostly unclear how this mismatch between the practical and the ideal setting affects the estimation, and the literature lacks a formal study on the pitfalls of episodic sampling, and how to do it optimally. In this paper, we present a minimax lower bound on the discounted mean estimation problem that explicitly connects the estimation error with the mixing properties of the Markov process and the discount factor. Then, we provide a statistical analysis on a set of notable estimators and the corresponding sampling procedures, which includes the finite-horizon estimators often used in practice. Crucially, we show that estimating the mean by directly sampling from the discounted kernel of the Markov process brings compelling statistical properties w.r.t. the alternative estimators, as it matches the lower bound without requiring a careful tuning of the episode horizon.
翻訳日:2023-04-12 15:39:37 公開日:2023-04-11
# YOLOv8アルゴリズムを用いた小児関節外傷X線画像の破壊検出

Fracture Detection in Pediatric Wrist Trauma X-ray Images Using YOLOv8 Algorithm ( http://arxiv.org/abs/2304.05071v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Weiming Cai(参考訳) 病院の救急部門では、多くの骨折が頻繁に発生し、そのほとんどが小児手首外傷骨折である。 小児外科医が手術を行う前は,骨折がどのように発生したか患者に質問し,x線像を解釈して骨折状況を分析する必要がある。 X線画像の解釈は、しばしば放射線医と外科医の技法の組み合わせを必要とする。 コンピュータビジョンの分野におけるディープラーニングの台頭に伴い、破壊検出に適用するネットワークモデルが重要な研究課題となっている。 本稿では,手首外傷患者6,091人のX線画像を含むGRAZPEDWRI-DXデータセット上で,YOLOv8アルゴリズムを用いてモデルをトレーニングする。 実験結果は、yolov8lモデルが63.6\%の最高平均精度(map 50)を達成し、yolov8nモデルが1つのcpuで1つのx線画像あたり67.4msの推論時間を低消費電力で達成するなど、yolov8のアルゴリズムモデルは異なるモデルサイズに対して異なる利点を持つことを示した。 このようにして,放射線科医の助けなしにx線画像の解釈を支援する「yolov8アプリによるフラクチャー検出」を作成する。 実装コードはhttps://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8で公開されています。

Hospital emergency departments frequently receive lots of bone fracture cases, with pediatric wrist trauma fracture accounting for the majority of them. Before pediatric surgeons perform surgery, they need to ask patients how the fracture occurred and analyze the fracture situation by interpreting X-ray images. The interpretation of X-ray images often requires a combination of techniques from radiologists and surgeons, which requires time-consuming specialized training. With the rise of deep learning in the field of computer vision, network models applying for fracture detection has become an important research topic. In this paper, YOLOv8 algorithm is used to train models on the GRAZPEDWRI-DX dataset, which includes X-ray images from 6,091 pediatric patients with wrist trauma. The experimental results show that YOLOv8 algorithm models have different advantages for different model sizes, with YOLOv8l model achieving the highest mean average precision (mAP 50) of 63.6\%, and YOLOv8n model achieving the inference time of 67.4ms per X-ray image on one single CPU with low computing power. In this way, we create "Fracture Detection Using YOLOv8 App" to assist surgeons in interpreting X-ray images without the help of radiologists. Our implementation code is released at https://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8.
翻訳日:2023-04-12 15:39:16 公開日:2023-04-11
# 深層学習による肺癌危険因子の予測に基づく人工知能

Artificial intelligence based prediction on lung cancer risk factors using deep learning ( http://arxiv.org/abs/2304.05065v1 )

ライセンス: Link先を確認
Muhammad Sohaib, Mary Adewunmi(参考訳) そこで本研究では,肺癌リスク因子に関する重要な研究課題を明らかにした。 早期の症状の捕捉と定義は、患者にとって最も難しい段階の1つである。 患者記録の変遷から,現在,肺癌とその様々な研究段階について,いくつかの研究成果を概説した。 肺癌は早期がんの予測において重要な研究課題の1つであると確認した。 本研究では,深層学習アプローチ(畳み込みニューラルネットワーク)を用いて,極めて高い精度で肺癌を検出できるモデルを開発することを目的とした。 この手法は過去の研究において大きなギャップを考慮し解決する。 我々は、vgg16、inceptionv3、resnet50とモデルの精度レベルと損失値を比較した。 我々のモデルは94%の精度を達成し、最小の損失は0.1%であった。 したがって医師は、畳み込みニューラルネットワークモデルを使用して、現実の肺がんの危険因子を予測することができる。 さらに, 扁平上皮癌, 正常, 腺癌, 大細胞癌が最も重要な危険因子であることが明らかとなった。 さらに、残りの属性は最高のパフォーマンスを達成するためにも重要です。

In this proposed work, we identified the significant research issues on lung cancer risk factors. Capturing and defining symptoms at an early stage is one of the most difficult phases for patients. Based on the history of patients records, we reviewed a number of current research studies on lung cancer and its various stages. We identified that lung cancer is one of the significant research issues in predicting the early stages of cancer disease. This research aimed to develop a model that can detect lung cancer with a remarkably high level of accuracy using the deep learning approach (convolution neural network). This method considers and resolves significant gaps in previous studies. We compare the accuracy levels and loss values of our model with VGG16, InceptionV3, and Resnet50. We found that our model achieved an accuracy of 94% and a minimum loss of 0.1%. Hence physicians can use our convolution neural network models for predicting lung cancer risk factors in the real world. Moreover, this investigation reveals that squamous cell carcinoma, normal, adenocarcinoma, and large cell carcinoma are the most significant risk factors. In addition, the remaining attributes are also crucial for achieving the best performance.
翻訳日:2023-04-12 15:38:52 公開日:2023-04-11
# ビデオ異常検出のためのキーフレームに基づく映像イベント復元

Video Event Restoration Based on Keyframes for Video Anomaly Detection ( http://arxiv.org/abs/2304.05112v1 )

ライセンス: Link先を確認
Zhiwei Yang, Jing Liu, Zhaoyang Wu, Peng Wu, Xiaotao Liu(参考訳) ビデオ異常検出(VAD)は重要なコンピュータビジョン問題である。 既存のディープニューラルネットワーク(DNN)ベースのVAD手法は、主にフレーム再構成やフレーム予測の経路に従う。 しかしながら、高レベルな視覚特徴のマイニングと学習の欠如とビデオにおける時間的文脈関係は、これらの2つのアプローチのさらなるパフォーマンスを阻害している。 まず,ビデオコーデック理論に着想を得て,これらの制約を克服するための新しいvadパラダイムを提案する。 DNNをビデオキーフレームに基づいて欠落した複数のフレームを推論してビデオイベントを復元させることで、DNNをより効果的に動機付け、より高レベルな視覚的特徴やビデオ内の包括的な時間的関係を学習することができる。 そこで本研究では,ビデオイベント復元のためのデュアルスキップ接続(ustn-dsc)を備えたu字型スウィントランスネットワークを提案する。 さらに,ビデオシーケンスの動作の整合性を抑えるため,フレーム差分を簡易かつ効果的に除去する手法を提案する。 ベンチマーク実験の結果,USTN-DSCは既存の手法よりも優れており,本手法の有効性が検証された。

Video anomaly detection (VAD) is a significant computer vision problem. Existing deep neural network (DNN) based VAD methods mostly follow the route of frame reconstruction or frame prediction. However, the lack of mining and learning of higher-level visual features and temporal context relationships in videos limits the further performance of these two approaches. Inspired by video codec theory, we introduce a brand-new VAD paradigm to break through these limitations: First, we propose a new task of video event restoration based on keyframes. Encouraging DNN to infer missing multiple frames based on video keyframes so as to restore a video event, which can more effectively motivate DNN to mine and learn potential higher-level visual features and comprehensive temporal context relationships in the video. To this end, we propose a novel U-shaped Swin Transformer Network with Dual Skip Connections (USTN-DSC) for video event restoration, where a cross-attention and a temporal upsampling residual skip connection are introduced to further assist in restoring complex static and dynamic motion object features in the video. In addition, we propose a simple and effective adjacent frame difference loss to constrain the motion consistency of the video sequence. Extensive experiments on benchmarks demonstrate that USTN-DSC outperforms most existing methods, validating the effectiveness of our method.
翻訳日:2023-04-12 15:33:45 公開日:2023-04-11
# 別の垂直視点:スペクトルによる不均一軌道予測のための階層的ネットワーク

Another Vertical View: A Hierarchical Network for Heterogeneous Trajectory Prediction via Spectrums ( http://arxiv.org/abs/2304.05106v1 )

ライセンス: Link先を確認
Conghao Wong and Beihao Xia and Qinmu Peng and Xinge You(参考訳) AI関連の技術の急速な発展により、軌道予測の応用は、より簡単なシーンや軌道に限らない。 2Dまたは3D座標や2Dまたは3D境界ボックス、さらには高次元の人間の骨格など、表現形態の異なるより異質な軌道を解析・予測する必要がある。 これらの異種軌道のうち、軌道のフレーム内の異なる要素間の相互作用は「次元的相互作用」と呼ばれ、より複雑で困難である。 しかし、従来のほとんどのアプローチは、主に特定の形の軌跡に焦点をあてており、つまり、これらの手法は次元的な相互作用だけでなく、異種軌跡の予測には使用できなかった。 さらに、従来の手法は軌道予測を通常の時間列生成タスクとして扱うことが多く、エージェントの行動や社会的相互作用を異なる時間スケールで直接分析する作業がより必要であることを示している。 本稿では,スペクトル領域の異なる周波数領域に階層的に分布する軌跡をモデル化・予測し,その周波数応答を考慮して軌跡予測を学ぶために,軌跡予測のための新しい「ビュー」を提案する。 さらに, ``another view'' から $m$ 次元を導入することで,現在の軌道予測タスクを拡張して,その適用シナリオを垂直に異種軌道へ拡張する。 最後に、周波数応答と次元的相互作用を含む2つの因子を融合する双線型構造を用いて、スペクトルを階層的に階層的に予測する。 実験の結果,提案手法はETH-UCY,Stanford Drone Dataset,nuScenesにおいて,2次元座標,2次元および3次元境界ボックスを含む異種軌道を用いた手法よりも優れていた。

With the fast development of AI-related techniques, the applications of trajectory prediction are no longer limited to easier scenes and trajectories. More and more heterogeneous trajectories with different representation forms, such as 2D or 3D coordinates, 2D or 3D bounding boxes, and even high-dimensional human skeletons, need to be analyzed and forecasted. Among these heterogeneous trajectories, interactions between different elements within a frame of trajectory, which we call the ``Dimension-Wise Interactions'', would be more complex and challenging. However, most previous approaches focus mainly on a specific form of trajectories, which means these methods could not be used to forecast heterogeneous trajectories, not to mention the dimension-wise interaction. Besides, previous methods mostly treat trajectory prediction as a normal time sequence generation task, indicating that these methods may require more work to directly analyze agents' behaviors and social interactions at different temporal scales. In this paper, we bring a new ``view'' for trajectory prediction to model and forecast trajectories hierarchically according to different frequency portions from the spectral domain to learn to forecast trajectories by considering their frequency responses. Moreover, we try to expand the current trajectory prediction task by introducing the dimension $M$ from ``another view'', thus extending its application scenarios to heterogeneous trajectories vertically. Finally, we adopt the bilinear structure to fuse two factors, including the frequency response and the dimension-wise interaction, to forecast heterogeneous trajectories via spectrums hierarchically in a generic way. Experiments show that the proposed model outperforms most state-of-the-art methods on ETH-UCY, Stanford Drone Dataset and nuScenes with heterogeneous trajectories, including 2D coordinates, 2D and 3D bounding boxes.
翻訳日:2023-04-12 15:33:19 公開日:2023-04-11
# 深部ニューラルネットワークの不確かさ校正におけるテスト時間増大へのアプローチ

Approaching Test Time Augmentation in the Context of Uncertainty Calibration for Deep Neural Networks ( http://arxiv.org/abs/2304.05104v1 )

ライセンス: Link先を確認
Pedro Conde, Tiago Barros, Rui L. Lopes, Cristiano Premebida, Urbano J. Nunes(参考訳) Deep Neural Networksの台頭により、機械学習システムは、現在、多くの現実世界のアプリケーションにおいてユビキタスであり、信頼性の高いモデルを必要としている。 このためには、システムの正確性だけでなく、予測の不確実性も徹底的に調べる必要がある。 そこで我々は,画像分類のための深部モデルの不確実性校正を改善するために,テスト時間増大に基づく新しい手法(M-ATTAとV-ATTA)を提案する。 他のテスト時間拡張手法とは異なり、m/v-attaは適応重み付けシステムを利用してモデルの精度に影響を与えずに不確実性校正を改善する。 我々は不確実性校正の異なる指標について,その手法の性能を評価する。 CIFAR-10, CIFAR-100, およびベンチマークのAerial Image Datasetで得られた実験結果から, 提案手法は, ベースライン分類性能を維持しつつ, 最先端校正技術より優れていることを示す。 コード: https://github.com/pedrormconde/mv-atta。

With the rise of Deep Neural Networks, machine learning systems are nowadays ubiquitous in a number of real-world applications, which bears the need for highly reliable models. This requires a thorough look not only at the accuracy of such systems, but also to their predictive uncertainty. Hence, we propose a novel technique (with two different variations, named M-ATTA and V-ATTA) based on test time augmentation, to improve the uncertainty calibration of deep models for image classification. Unlike other test time augmentation approaches, M/V-ATTA improves uncertainty calibration without affecting the model's accuracy, by leveraging an adaptive weighting system. We evaluate the performance of the technique with respect to different metrics of uncertainty calibration. Empirical results, obtained on CIFAR-10, CIFAR-100, as well as on the benchmark Aerial Image Dataset, indicate that the proposed approach outperforms state-of-the-art calibration techniques, while maintaining the baseline classification performance. Code for M/V-ATTA available at: https://github.com/pedrormconde/MV-ATTA.
翻訳日:2023-04-12 15:32:26 公開日:2023-04-11
# 封建グラフ強化学習

Feudal Graph Reinforcement Learning ( http://arxiv.org/abs/2304.05099v1 )

ライセンス: Link先を確認
Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi(参考訳) 我々は、様々な物理的エージェントを制御できる構成可能なポリシーを学習することに注力する。 最先端の手法では、グラフベースの表現と、メッセージパッシングフレームワークに基づいた重み付けモジュールポリシーを利用する。 しかし、最近の文献で示されているように、メッセージパッシングは情報伝達のボトルネックを生じさせ、グローバルな協調を妨げる可能性がある。 この欠点は、高レベルの計画が重要であるタスクでさらに問題となる可能性がある。 実際、同様のシナリオでは、各モジュラーポリシー(例えば、ロボットの関節を制御)は、基本的な移動だけでなく、迷路をナビゲートするといった高い目標を達成するための調整を要求する。 同様の落とし穴を避ける古典的な解決策は階層的な意思決定に頼ることである。 本研究では,制御動作が階層的(ピラミダル)メッセージパッシングプロセスの結果となるエージェントを開発するために,フェイダル強化学習パラダイムを採用する。 提案したFGRL(Feudal Graph Reinforcement Learning)フレームワークでは,階層階層の上位レベルにおける高レベルな決定が,ポリシー階層を表す階層グラフを通じて伝達される。 下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャできる。 この予備作業の目的は、フレームワークを形式化し、ベンチマーク環境で概念実証実験(mujoco locomotion tasks)を提供することである。 実験的な評価は、標準ベンチマークとゼロショット転送学習設定の両方で有望な結果を示す。

We focus on learning composable policies to control a variety of physical agents with possibly different structures. Among state-of-the-art methods, prominent approaches exploit graph-based representations and weight-sharing modular policies based on the message-passing framework. However, as shown by recent literature, message passing can create bottlenecks in information propagation and hinder global coordination. This drawback can become even more problematic in tasks where high-level planning is crucial. In fact, in similar scenarios, each modular policy - e.g., controlling a joint of a robot - would request to coordinate not only for basic locomotion but also achieve high-level goals, such as navigating a maze. A classical solution to avoid similar pitfalls is to resort to hierarchical decision-making. In this work, we adopt the Feudal Reinforcement Learning paradigm to develop agents where control actions are the outcome of a hierarchical (pyramidal) message-passing process. In the proposed Feudal Graph Reinforcement Learning (FGRL) framework, high-level decisions at the top level of the hierarchy are propagated through a layered graph representing a hierarchy of policies. Lower layers mimic the morphology of the physical system and upper layers can capture more abstract sub-modules. The purpose of this preliminary work is to formalize the framework and provide proof-of-concept experiments on benchmark environments (MuJoCo locomotion tasks). Empirical evaluation shows promising results on both standard benchmarks and zero-shot transfer learning settings.
翻訳日:2023-04-12 15:31:57 公開日:2023-04-11
# 車両検出の物理世界対向ロバスト性に関するベンチマーク

Benchmarking the Physical-world Adversarial Robustness of Vehicle Detection ( http://arxiv.org/abs/2304.05098v1 )

ライセンス: Link先を確認
Tianyuan Zhang, Yisong Xiao, Xiaoya Zhang, Hao Li, Lu Wang(参考訳) 物理世界の敵攻撃は、検出モデルの堅牢性を損なう可能性がある。 物理世界における検出モデルの堅牢性を評価することは、多くの実験の時間と労働集約性のために困難である。 したがって、仮想シミュレーション実験はこの課題に対する解決策を提供することができる。 しかし,仮想シミュレーション環境に基づく統一検出ベンチマークは存在しなかった。 この課題に対処するため、我々はCARLAシミュレータに基づくインスタントレベルデータ生成パイプラインを提案する。 このパイプラインを用いてdciデータセットを作成し、3つの検出モデルと3つの物理敵攻撃に関する広範な実験を行った。 データセットは7つの連続シーンと1つの離散シーンをカバーしており、40以上の角度、20の距離、20,000の位置に位置している。 その結果、Yolo v6は6.59%のAP降下率で強い抵抗を示し、ASAは他のアルゴリズムの2倍の14.51%のAP減少率を持つ最も効果的な攻撃アルゴリズムであった。 静的なシーンはAPの認知度が高く、異なる気象条件下での結果も同様であった。 敵攻撃アルゴリズムの改善は「上昇」に近づいている可能性がある。

Adversarial attacks in the physical world can harm the robustness of detection models. Evaluating the robustness of detection models in the physical world can be challenging due to the time-consuming and labor-intensive nature of many experiments. Thus, virtual simulation experiments can provide a solution to this challenge. However, there is no unified detection benchmark based on virtual simulation environment. To address this challenge, we proposed an instant-level data generation pipeline based on the CARLA simulator. Using this pipeline, we generated the DCI dataset and conducted extensive experiments on three detection models and three physical adversarial attacks. The dataset covers 7 continuous and 1 discrete scenes, with over 40 angles, 20 distances, and 20,000 positions. The results indicate that Yolo v6 had strongest resistance, with only a 6.59% average AP drop, and ASA was the most effective attack algorithm with a 14.51% average AP reduction, twice that of other algorithms. Static scenes had higher recognition AP, and results under different weather conditions were similar. Adversarial attack algorithm improvement may be approaching its 'limitation'.
翻訳日:2023-04-12 15:31:35 公開日:2023-04-11
# 変形可能なニューラルラミアンスフィールドを用いたワンショット高忠実音声ヘッド合成

One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field ( http://arxiv.org/abs/2304.05097v1 )

ライセンス: Link先を確認
Weichuang Li, Longhao Zhang, Dong Wang, Bin Zhao, Zhigang Wang, Mulin Chen, Bang Zhang, Zhongjian Wang, Liefeng Bo, Xuelong Li(参考訳) トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。 ほとんどの先駆的手法は主に2次元表現に依存しており、大きな頭部回転に遭遇すると必然的に顔の歪みに悩まされる。 最近の研究では、3D構造表現や暗黙的なニューラルレンダリングを採用して、大きなポーズ変化によるパフォーマンス向上を実現している。 それでも、アイデンティティと表現の忠実性は、特に新しい視点の合成では望ましくない。 本稿では,高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。 最近提案されたDeformable Neural Radiance Fieldsに基づいて、HiDe-NeRFは3次元ダイナミックシーンを標準の外観場と暗黙の変形場に表現し、前者は標準の音源面、後者は駆動のポーズと表現をモデル化する。 特に,2つの側面から忠実性を改善する。 i) 識別表現性を高めるため, 顔の形状と細部を保存するため, 複数スケールの容積特徴を利用した汎用外観モジュールを設計する。 2) 表現精度を向上させるために, ポーズと表現を明示的に分離し, 正確な表現モデリングを可能にする軽量な変形モジュールを提案する。 広範な実験により,提案手法が従来の手法よりも優れた結果を生み出すことを実証した。 プロジェクトページ: https://www.waytron.net/hidenerf/

Talking head generation aims to generate faces that maintain the identity information of the source image and imitate the motion of the driving image. Most pioneering methods rely primarily on 2D representations and thus will inevitably suffer from face distortion when large head rotations are encountered. Recent works instead employ explicit 3D structural representations or implicit neural rendering to improve performance under large pose changes. Nevertheless, the fidelity of identity and expression is not so desirable, especially for novel-view synthesis. In this paper, we propose HiDe-NeRF, which achieves high-fidelity and free-view talking-head synthesis. Drawing on the recently proposed Deformable Neural Radiance Fields, HiDe-NeRF represents the 3D dynamic scene into a canonical appearance field and an implicit deformation field, where the former comprises the canonical source face and the latter models the driving pose and expression. In particular, we improve fidelity from two aspects: (i) to enhance identity expressiveness, we design a generalized appearance module that leverages multi-scale volume features to preserve face shape and details; (ii) to improve expression preciseness, we propose a lightweight deformation module that explicitly decouples the pose and expression to enable precise expression modeling. Extensive experiments demonstrate that our proposed approach can generate better results than previous works. Project page: https://www.waytron.net/hidenerf/
翻訳日:2023-04-12 15:31:17 公開日:2023-04-11
# 被写体検出のための作物関連多様性の増大による特徴生成

Generating Features with Increased Crop-related Diversity for Few-Shot Object Detection ( http://arxiv.org/abs/2304.05096v1 )

ライセンス: Link先を確認
Jingyi Xu, Hieu Le, Dimitris Samaras(参考訳) 2段階のオブジェクト検出器は、オブジェクトの提案を生成し、画像内のオブジェクトを検出するために分類する。 これらの提案は、しばしばオブジェクトを完全に含まないが、多くの可能な方法でオブジェクトと重複し、提案の難易度において大きなばらつきを示す。 この作物関連変動に対するロバストな分類器の訓練には豊富なトレーニングデータが必要である。 この問題を緩和するために, 作物の多様性が増大するデータを生成する新しい変分オートエンコーダ(VAE)ベースのデータ生成モデルを提案する。 主な考え方は、異なる規範を持つ潜在空間を、異なる作物に関連するバリエーションを表すために変換することである。 これにより、潜在規範を単に変化させることで、作物に関連する難易度を増大させる特徴を生成できる。 特に、各潜伏符号は、そのノルムが入力作物w.r.t.の接地木箱のIoUスコアと線形に相関するように再スケールされる。 ここでIoUスコアは、作物の難易度を表すプロキシです。 このVAEモデルを各クラスのセマンティックコードで条件付けられたベースクラスでトレーニングし、トレーニングされたモデルを使用して新しいクラスの機能を生成する。 実験では,PASCAL VOCおよびMS COCOデータセット上での最先端の複数ショットオブジェクト検出手法を改良した。

Two-stage object detectors generate object proposals and classify them to detect objects in images. These proposals often do not contain the objects perfectly but overlap with them in many possible ways, exhibiting great variability in the difficulty levels of the proposals. Training a robust classifier against this crop-related variability requires abundant training data, which is not available in few-shot settings. To mitigate this issue, we propose a novel variational autoencoder (VAE) based data generation model, which is capable of generating data with increased crop-related diversity. The main idea is to transform the latent space such latent codes with different norms represent different crop-related variations. This allows us to generate features with increased crop-related diversity in difficulty levels by simply varying the latent norm. In particular, each latent code is rescaled such that its norm linearly correlates with the IoU score of the input crop w.r.t. the ground-truth box. Here the IoU score is a proxy that represents the difficulty level of the crop. We train this VAE model on base classes conditioned on the semantic code of each class and then use the trained model to generate features for novel classes. In our experiments our generated features consistently improve state-of-the-art few-shot object detection methods on the PASCAL VOC and MS COCO datasets.
翻訳日:2023-04-12 15:30:54 公開日:2023-04-11
# Schr{\"o}dinger Bridgeによる時系列生成モデル

Generative modeling for time series via Schr{\"o}dinger bridge ( http://arxiv.org/abs/2304.05093v1 )

ライセンス: Link先を確認
Mohamed Hamdouche (LPSM), Pierre Henry-Labordere, Huy\^en Pham (LPSM)(参考訳) 本稿では,Schr{\"o}dinger Bridge (SB) に基づく時系列生成モデルを提案する。 これは、経路空間上の基準確率測度と、時系列の合同データ分布に一致した目標測度との間の最適な輸送によるエントロピー補間からなる。 この解は、経路依存のドリフト関数を持つ有限地平線上の確率微分方程式によって特徴づけられ、したがって時系列分布の時間的ダイナミクスを尊重する。 カーネル回帰法またはLSTMニューラルネットワークを用いてデータサンプルからドリフト関数を推定し,SB拡散シミュレーションにより時系列の新しい合成データサンプルを生成する。 生成モデルの性能を一連の数値実験により評価した。 まず, おもちゃの自動回帰モデル, GARCHモデル, および分数的ブラウン運動の例を用いて試行し, 限界および時間的依存度を用いてアルゴリズムの精度を測定した。 次に,SB生成した合成試料を用いて,実データ集合の深層処理を行う。 最後に,画像列生成のためのsb手法について述べる。

We propose a novel generative model for time series based on Schr{\"o}dinger bridge (SB) approach. This consists in the entropic interpolation via optimal transport between a reference probability measure on path space and a target measure consistent with the joint data distribution of the time series. The solution is characterized by a stochastic differential equation on finite horizon with a path-dependent drift function, hence respecting the temporal dynamics of the time series distribution. We can estimate the drift function from data samples either by kernel regression methods or with LSTM neural networks, and the simulation of the SB diffusion yields new synthetic data samples of the time series. The performance of our generative model is evaluated through a series of numerical experiments. First, we test with a toy autoregressive model, a GARCH Model, and the example of fractional Brownian motion, and measure the accuracy of our algorithm with marginal and temporal dependencies metrics. Next, we use our SB generated synthetic samples for the application to deep hedging on real-data sets. Finally, we illustrate the SB approach for generating sequence of images.
翻訳日:2023-04-12 15:30:33 公開日:2023-04-11
# 実際にスパース変分ガウス過程

Actually Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2304.05091v1 )

ライセンス: Link先を確認
Harry Jake Cunningham, Daniel Augusto de Souza, So Takao, Mark van der Wilk, Marc Peter Deisenroth(参考訳) ガウス過程(GP)は一般に、計算とメモリの両方の要求において、望ましくないスケーリングによって批判される。 大規模なデータセットでは、データの要約用に設計された変数の小さなセットを条件にすることで、スパースGPはこれらの要求を減らす。 しかし、実際には、低スケール空間データのような多くの誘導変数を必要とする大規模なデータセットでは、スパースGPでさえ計算コストが高くなり、使用可能な誘導変数の数によって制限される。 本研究では,コンパクトに支持されたB-スプライン基底関数の集合にGPを射影して構築した領域間変分GPの新しいクラスを提案する。 我々のアプローチの主な利点は、B-スプライン基底関数のコンパクトなサポートは、スパース線型代数を用いることで行列演算を著しく高速化し、メモリフットプリントを大幅に減少させることである。 これにより、高速変動空間現象を数万の誘導変数で非常に効率的にモデル化することができる。

Gaussian processes (GPs) are typically criticised for their unfavourable scaling in both computational and memory requirements. For large datasets, sparse GPs reduce these demands by conditioning on a small set of inducing variables designed to summarise the data. In practice however, for large datasets requiring many inducing variables, such as low-lengthscale spatial data, even sparse GPs can become computationally expensive, limited by the number of inducing variables one can use. In this work, we propose a new class of inter-domain variational GP, constructed by projecting a GP onto a set of compactly supported B-spline basis functions. The key benefit of our approach is that the compact support of the B-spline basis functions admits the use of sparse linear algebra to significantly speed up matrix operations and drastically reduce the memory footprint. This allows us to very efficiently model fast-varying spatial phenomena with tens of thousands of inducing variables, where previous approaches failed.
翻訳日:2023-04-12 15:30:16 公開日:2023-04-11
# CrowdSim2:オブジェクト検出のためのオープンシンセティックベンチマーク

CrowdSim2: an Open Synthetic Benchmark for Object Detectors ( http://arxiv.org/abs/2304.05090v1 )

ライセンス: Link先を確認
Pawe{\l} Foszner, Agnieszka Szcz\k{e}sna, Luca Ciampi, Nicola Messina, Adam Cygan, Bartosz Bizo\'n, Micha{\l} Cogiel, Dominik Golba, El\.zbieta Macioszek, Micha{\l} Staniszewski(参考訳) データ不足は、コンピュータビジョンにおける人工知能に基づく教師付きモデルの開発における主要な障害の1つになっている。 実際、ディープラーニングベースのモデルは、トレーニング中に見たことのない新しいシナリオに適用された場合、体系的に苦労する。 本稿では,人に適した画像の新たな合成コレクションであるCrowdSim2を,Unityグラフィカルエンジンをベースとしたシミュレータから収集した車両検出を行う。 現実に類似した様々な合成シナリオから収集された何千もの画像で構成されており、天気条件やシーン内の物体の数など、興味のある要素も様々である。 ラベルは自動的に収集され、2つのオブジェクトクラスに属するオブジェクトを正確にローカライズするバウンディングボックスで構成され、アノテーションパイプラインから人間を除外する。 私たちはこのベンチマークを最先端の検出器のテスト基盤として活用し、シミュレーションされたシナリオが制御された環境でのパフォーマンスを測定する上で有用なツールであることを示しました。

Data scarcity has become one of the main obstacles to developing supervised models based on Artificial Intelligence in Computer Vision. Indeed, Deep Learning-based models systematically struggle when applied in new scenarios never seen during training and may not be adequately tested in non-ordinary yet crucial real-world situations. This paper presents and publicly releases CrowdSim2, a new synthetic collection of images suitable for people and vehicle detection gathered from a simulator based on the Unity graphical engine. It consists of thousands of images gathered from various synthetic scenarios resembling the real world, where we varied some factors of interest, such as the weather conditions and the number of objects in the scenes. The labels are automatically collected and consist of bounding boxes that precisely localize objects belonging to the two object classes, leaving out humans from the annotation pipeline. We exploited this new benchmark as a testing ground for some state-of-the-art detectors, showing that our simulated scenarios can be a valuable tool for measuring their performances in a controlled environment.
翻訳日:2023-04-12 15:30:00 公開日:2023-04-11
# recup-fl: ユーザ設定可能なプライバシ防御による連合学習におけるユーティリティとプライバシの調整

RecUP-FL: Reconciling Utility and Privacy in Federated Learning via User-configurable Privacy Defense ( http://arxiv.org/abs/2304.05135v1 )

ライセンス: Link先を確認
Yue Cui, Syed Irfan Ali Meerza, Zhuohang Li, Luyang Liu, Jiaxin Zhang, Jian Liu(参考訳) フェデレーション学習(fl)は、クライアントがプライベートデータを共有せずに協調的にモデルをトレーニングできるようにすることで、さまざまなプライバシ上のメリットを提供する。 しかし、近年の研究では、共有勾配によってまだ個人情報がリークできることが示されている。 プライバシリークのリスクをさらに最小化するため、既存の防御策では、クライアントがサーバと共有する前に、勾配(差分プライバシなど)をローカルに変更する必要がある。 これらのアプローチは特定のケースでは有効だが、データ全体を保護するための単一のエンティティと見なしている。 本稿では,ユーザ設定可能なプライバシ防御であるrelayup-flを提案することで,従来の防御よりも有用性が大幅に向上しつつ,ユーザの特定した機密属性に重点を置くことにより,flにおけるユーティリティとプライバシの和解を目指す。 さらに、既存の推論攻撃は、プライベート情報(属性など)を抽出するために機械学習モデルに依存することが多いことを観察する。 そこで我々は,recup-flがわずかな摂動を発生させ,その勾配に加えることにより,相反するモデルを共有することを可能にする,相反学習問題として,このようなプライバシー保護を定式化する。 メタラーニングのアイデアに触発されて、検索不能なブラックボックス敵モデルの転送性を向上させるため、recup-flは置換モデルのセットを含むモデル動物園を形成し、ホワイトボックスとブラックボックス敵攻撃シナリオのシミュレーションを反復的に交互に切り替えて摂動を生成する。 4つのデータセット(属性推論攻撃とデータ再構成攻撃の両方)に対する大規模な実験により、RecUP-FLは機密属性に対するユーザの指定したプライバシ制約を満たすことができ、最先端のプライバシ防御と比較してモデルの有用性を著しく向上させることができる。

Federated learning (FL) provides a variety of privacy advantages by allowing clients to collaboratively train a model without sharing their private data. However, recent studies have shown that private information can still be leaked through shared gradients. To further minimize the risk of privacy leakage, existing defenses usually require clients to locally modify their gradients (e.g., differential privacy) prior to sharing with the server. While these approaches are effective in certain cases, they regard the entire data as a single entity to protect, which usually comes at a large cost in model utility. In this paper, we seek to reconcile utility and privacy in FL by proposing a user-configurable privacy defense, RecUP-FL, that can better focus on the user-specified sensitive attributes while obtaining significant improvements in utility over traditional defenses. Moreover, we observe that existing inference attacks often rely on a machine learning model to extract the private information (e.g., attributes). We thus formulate such a privacy defense as an adversarial learning problem, where RecUP-FL generates slight perturbations that can be added to the gradients before sharing to fool adversary models. To improve the transferability to un-queryable black-box adversary models, inspired by the idea of meta-learning, RecUP-FL forms a model zoo containing a set of substitute models and iteratively alternates between simulations of the white-box and the black-box adversarial attack scenarios to generate perturbations. Extensive experiments on four datasets under various adversarial settings (both attribute inference attack and data reconstruction attack) show that RecUP-FL can meet user-specified privacy constraints over the sensitive attributes while significantly improving the model utility compared with state-of-the-art privacy defenses.
翻訳日:2023-04-12 15:23:23 公開日:2023-04-11
# ニューラルネットワークアーキテクチャ

Neural Network Architectures ( http://arxiv.org/abs/2304.05133v1 )

ライセンス: Link先を確認
Evelyn Herberg(参考訳) これらの講義ノートは、数学的観点からニューラルネットワークアーキテクチャの概要を提供する。 特に、ニューラルネットワークを用いた機械学習は最適化の問題と見なされる。 coverは、ニューラルネットワークと以下のアーキテクチャを紹介する。feedforwardニューラルネットワーク、畳み込みニューラルネットワーク、resnet、recurrentニューラルネットワーク。

These lecture notes provide an overview of Neural Network architectures from a mathematical point of view. Especially, Machine Learning with Neural Networks is seen as an optimization problem. Covered are an introduction to Neural Networks and the following architectures: Feedforward Neural Network, Convolutional Neural Network, ResNet, and Recurrent Neural Network.
翻訳日:2023-04-12 15:22:50 公開日:2023-04-11
# 大規模言語モデルに自己デバッグを教える

Teaching Large Language Models to Self-Debug ( http://arxiv.org/abs/2304.05128v1 )

ライセンス: Link先を確認
Xinyun Chen, Maxwell Lin, Nathanael Sch\"arli, Denny Zhou(参考訳) 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 しかし、複雑なプログラミングタスクでは、1つのgoで正しいソリューションを生成するのが難しくなり、コード生成性能を改善するためにプログラム修復アプローチを設計済みの作業もある。 本研究では,大規模な言語モデルに対して,数発のデモによる予測プログラムのデバッグを行うセルフデバッグを提案する。 特に,自己デバッグが大規模言語モデルにゴム製のアヒルデバッギングを実行することを実証する。つまり,コードの正確性やエラーメッセージに対するフィードバックがなければ,生成したコードを自然言語で説明することで,その誤りを識別することができる。 セルフデバッグは、テキストからSQL生成のためのSpiderデータセット、C++からPythonへの変換のためのTransCoder、テキストからPython生成のためのMBPPなど、いくつかのコード生成ベンチマークにおける最先端のパフォーマンスを実現する。 予測の正確性を検証するユニットテストが存在しないspiderベンチマークでは、コード説明による自己デバッグがベースラインを一貫して2~3%改善し、最も難しいラベルの問題に対する予測精度を9%向上している。 TransCoderとMBPPでは、ユニットテストが利用可能であり、Self-Debuggingはベースラインの精度を最大12%改善する。 一方、フィードバックメッセージの活用と失敗予測の再利用によって、セルフデバッグはサンプル効率が著しく向上し、10倍以上の候補プログラムを生成するベースラインモデルにマッチまたは性能が向上する。

Large language models (LLMs) have achieved impressive performance on code generation. However, for complex programming tasks, generating the correct solution in one go becomes challenging, thus some prior works have designed program repair approaches to improve code generation performance. In this work, we propose Self-Debugging, which teaches a large language model to debug its predicted program via few-shot demonstrations. In particular, we demonstrate that Self-Debugging can teach the large language model to perform rubber duck debugging; i.e., without any feedback on the code correctness or error messages, the model is able to identify its mistakes by explaining the generated code in natural language. Self-Debugging achieves the state-of-the-art performance on several code generation benchmarks, including the Spider dataset for text-to-SQL generation, TransCoder for C++-to-Python translation, and MBPP for text-to-Python generation. On the Spider benchmark where there are no unit tests to verify the correctness of predictions, Self-Debugging with code explanation consistently improves the baseline by 2-3%, and improves the prediction accuracy on problems of the hardest label by 9%. On TransCoder and MBPP where unit tests are available, Self-Debugging improves the baseline accuracy by up to 12%. Meanwhile, by leveraging feedback messages and reusing failed predictions, Self-Debugging notably improves sample efficiency, and can match or outperform baseline models that generate more than 10x candidate programs.
翻訳日:2023-04-12 15:22:45 公開日:2023-04-11
# 医用画像解析におけるプライベートフェデレーションモデルの性能向上

Improving Performance of Private Federated Models in Medical Image Analysis ( http://arxiv.org/abs/2304.05127v1 )

ライセンス: Link先を確認
Xiangjian Hou, Sarit Khirirat, Mohammad Yaqub, and Samuel Horvath(参考訳) Federated Learning(FL)は、データを集中せずにトレーニングできる分散機械学習(ML)アプローチである。 このアプローチは、プライバシ、セキュリティ、データオーナシップなど、医療データに関連するいくつかの重要な課題に対処するため、医療アプリケーションにとって特に有用である。 さらにflは、医療アプリケーションで使用されるmlモデルの品質を向上させることができる。 医療データは多種多様であり、患者数によって大きく異なる場合があるため、正確で一般化可能なMLモデルの開発は困難である。 FLは、複数のソースから医療データを使用することで、MLモデルの品質と一般化性を改善するのに役立つ。 differential privacy (dp)は、このプロセスを安全かつプライベートにするためのアルゴリズムツールである。 本研究では,flの通信効率向上のための一般的なアプローチであるローカルステップを採用し,通信ラウンド数をチューニングすることで,モデルの性能をさらに向上できることを示す。 具体的には、プライバシー予算を考慮すると、ローカルなステップやコミュニケーションラウンドの最適な数を示す。 本研究は, 実世界医用画像の課題に関する実験評価とさらに一致した理論的動機を与える。

Federated learning (FL) is a distributed machine learning (ML) approach that allows data to be trained without being centralized. This approach is particularly beneficial for medical applications because it addresses some key challenges associated with medical data, such as privacy, security, and data ownership. On top of that, FL can improve the quality of ML models used in medical applications. Medical data is often diverse and can vary significantly depending on the patient population, making it challenging to develop ML models that are accurate and generalizable. FL allows medical data to be used from multiple sources, which can help to improve the quality and generalizability of ML models. Differential privacy (DP) is a go-to algorithmic tool to make this process secure and private. In this work, we show that the model performance can be further improved by employing local steps, a popular approach to improving the communication efficiency of FL, and tuning the number of communication rounds. Concretely, given the privacy budget, we show an optimal number of local steps and communications rounds. We provide theoretical motivations further corroborated with experimental evaluations on real-world medical imaging tasks.
翻訳日:2023-04-12 15:22:20 公開日:2023-04-11
# 超伝導量子プロセッサにおける統計的位相推定と誤差緩和

Statistical phase estimation and error mitigation on a superconducting quantum processor ( http://arxiv.org/abs/2304.05126v1 )

ライセンス: Link先を確認
Nick S. Blunt, Laura Caune, R\'obert Izs\'ak, Earl T. Campbell, Nicole Holzmann(参考訳) 量子位相推定(QPE)は、将来のフォールトトレラント量子コンピュータで化学計算や固体計算を行う方法として広く研究されている重要な量子アルゴリズムである。 最近、いくつかの著者がQPEの統計的代替案を提案しており、これは早期耐故障性デバイスに利点がある。 しかし、実際の量子プロセッサに対するアルゴリズムの実践的実装は不足している。 本稿では,リゲッティの超伝導プロセッサ上での統計的位相推定を実践する。 wan et al の改良したフーリエ近似を用いて,lin と tong [prx quantum 3, 010318 (2022)] の手法を具体的に用いた。 [prl 129, 030503 (2022)]、回路の深さを減らすために可変コンパイル技術を適用する。 次に,ビットフリップ平均化によるゼロノイズ外挿とリードアウト誤り緩和を含む誤差軽減戦略を取り入れた。 統計的位相推定データからエネルギーを簡易に推定する方法を提案し, 最終エネルギー推定の精度を事前理論境界に対して1~2桁向上させ, 正確な位相推定計算を行うためのコストを低減できることを示した。 これらの手法を4つの軌道上の4電子までの活性空間の化学問題に適用し、量子埋め込み法の応用を含め、化学的精度でエネルギーを正確に推定する。 我々の研究は、統計的位相推定は、特にコヒーレントな誤差を緩和した後に自然にノイズに耐性があることを示し、以前の分析よりはるかに高い精度を達成でき、早期耐故障デバイスにとって価値のある量子アルゴリズムとしての可能性を示している。

Quantum phase estimation (QPE) is a key quantum algorithm, which has been widely studied as a method to perform chemistry and solid-state calculations on future fault-tolerant quantum computers. Recently, several authors have proposed statistical alternatives to QPE that have benefits on early fault-tolerant devices, including shorter circuits and better suitability for error mitigation techniques. However, practical implementations of the algorithm on real quantum processors are lacking. In this paper we practically implement statistical phase estimation on Rigetti's superconducting processors. We specifically use the method of Lin and Tong [PRX Quantum 3, 010318 (2022)] using the improved Fourier approximation of Wan et al. [PRL 129, 030503 (2022)], and applying a variational compilation technique to reduce circuit depth. We then incorporate error mitigation strategies including zero-noise extrapolation and readout error mitigation with bit-flip averaging. We propose a simple method to estimate energies from the statistical phase estimation data, which is found to improve the accuracy in final energy estimates by one to two orders of magnitude with respect to prior theoretical bounds, reducing the cost to perform accurate phase estimation calculations. We apply these methods to chemistry problems for active spaces up to 4 electrons in 4 orbitals, including the application of a quantum embedding method, and use them to correctly estimate energies within chemical precision. Our work demonstrates that statistical phase estimation has a natural resilience to noise, particularly after mitigating coherent errors, and can achieve far higher accuracy than suggested by previous analysis, demonstrating its potential as a valuable quantum algorithm for early fault-tolerant devices.
翻訳日:2023-04-12 15:22:04 公開日:2023-04-11
# 量子メッセージに対する1サーバの量子プライベート情報検索を指数関数的に改善する事前絡み合い

Prior Entanglement Exponentially Improves One-Server Quantum Private Information Retrieval for Quantum Messages ( http://arxiv.org/abs/2304.05125v1 )

ライセンス: Link先を確認
Seunghoan Song, Francois Le Gall, Masahito Hayashi(参考訳) 量子メッセージのための量子プライベート情報検索(QPIR)は、ユーザーがどの状態が検索されたかを明らかにすることなく、サーバから複数の量子状態の1つを検索する量子通信タスクである。 1サーバ設定では、この問題における先行絡みの有無と1サーバ設定との通信複雑性の指数的なギャップが見つかる。 この目的を達成するために、最初のステップとして、全てのメッセージをダウンロードする自明な解決策が量子メッセージのQPIRにおいて最適であることを示す。 第2のステップとして,従来のメッセージ用QPIRプロトコルから量子メッセージ用QPIRプロトコルに事前の絡み込みが存在する場合の低減を図り,より効率的なワンサーバワンラウンドQPIRプロトコルを提案する。

Quantum private information retrieval (QPIR) for quantum messages is a quantum communication task, in which a user retrieves one of the multiple quantum states from the server without revealing which state is retrieved. In the one-server setting, we find an exponential gap in the communication complexities between the presence and absence of prior entanglement in this problem with the one-server setting. To achieve this aim, as the first step, we prove that the trivial solution of downloading all messages is optimal under QPIR for quantum messages, which is a similar result to that of classical PIR but different from QPIR for classical messages. As the second step, we propose an efficient one-server one-round QPIR protocol with prior entanglement by constructing a reduction from a QPIR protocol for classical messages to a QPIR protocol for quantum messages in the presence of prior entanglement.
翻訳日:2023-04-12 15:21:36 公開日:2023-04-11
# ターゲット投影によるオンライン時空間学習

Online Spatio-Temporal Learning with Target Projection ( http://arxiv.org/abs/2304.05124v1 )

ライセンス: Link先を確認
Thomas Ortner and Lorenzo Pes and Joris Gentinetta and Charlotte Frenkel and Angeliki Pantazi(参考訳) BPTTアルゴリズムでトレーニングされた反復ニューラルネットワークは、様々な時間的タスクで驚くべき成功を収めている。 しかしBPTTは、時間を通して情報を後方に伝播する要求、重量対称性の要求、空間と時間の更新ロックといった厳しい制限を導入している。 これらの問題は、オンライントレーニング機能が不可欠であるAIシステムの障害となる。 最近、研究者は生物学的にインスパイアされたトレーニングアルゴリズムを開発し、それらの問題の一部に対処している。 本研究では,上記のBPTTの課題を全て解決するターゲットプロジェクション(OSTTP)を用いたオンライン時空間学習という新しい学習アルゴリズムを提案する。 特にOSTTPは、新しい入ってくるデータを同時に処理し、学習する能力を持つネットワークを備え、重み対称性と更新ロックの問題を軽減する。 BPTTと比較して,OSTTPを2つの時間的タスクで評価した。 さらに,OSTTPの知識制約型ハードウェアシステムにおける概念実証を行い,その汎用性と資源制約型AIデバイスへの適用性を実証した。

Recurrent neural networks trained with the backpropagation through time (BPTT) algorithm have led to astounding successes in various temporal tasks. However, BPTT introduces severe limitations, such as the requirement to propagate information backwards through time, the weight symmetry requirement, as well as update-locking in space and time. These problems become roadblocks for AI systems where online training capabilities are vital. Recently, researchers have developed biologically-inspired training algorithms, addressing a subset of those problems. In this work, we propose a novel learning algorithm called online spatio-temporal learning with target projection (OSTTP) that resolves all aforementioned issues of BPTT. In particular, OSTTP equips a network with the capability to simultaneously process and learn from new incoming data, alleviating the weight symmetry and update-locking problems. We evaluate OSTTP on two temporal tasks, showcasing competitive performance compared to BPTT. Moreover, we present a proof-of-concept implementation of OSTTP on a memristive neuromorphic hardware system, demonstrating its versatility and applicability to resource-constrained AI devices.
翻訳日:2023-04-12 15:21:17 公開日:2023-04-11
# 相対運動ヘッセンによる無点グローバルバンドル調整

Pointless Global Bundle Adjustment With Relative Motions Hessians ( http://arxiv.org/abs/2304.05118v1 )

ライセンス: Link先を確認
Ewelina Rupnik and Marc Pierrot-Deseilligny(参考訳) バンドル調整(BA)は、カメラのポーズを最適化し、シーンのスパース表現を生成する標準的な方法である。 しかし、カメラのポーズや機能が増えていくにつれて、バンドル調整による精細化は非効率になる。 我々は,大域的な動き平均化手法に触発されて,画像特徴の再投影誤差に依存しず,従来のbaと同等精度を維持した新しいバンドル調整目標を提案する。 本手法は, 相対運動を平均し, 調整における構造の寄与を暗黙的に取り入れる。 この目的のために、ポーズ初期化段階における相対運動(ペアや三重項など)において局所的な束調整の副産物である局所ヘッセン行列による目的関数を重み付けする。 このようなヘッセン人は、特徴のランダムエラーとカメラ間の幾何学的配置の両方をカプセル化するので、非常に豊かである。 これらの情報がグローバルフレームに伝播することで、最終的な最適化をより厳密な方法で導くのに役立つ。 我々は、この手法がモーション平均化手法のアップグレード版であり、フォトグラムデータセットとコンピュータビジョンベンチマークの両方でその効果を実証していると論じる。

Bundle adjustment (BA) is the standard way to optimise camera poses and to produce sparse representations of a scene. However, as the number of camera poses and features grows, refinement through bundle adjustment becomes inefficient. Inspired by global motion averaging methods, we propose a new bundle adjustment objective which does not rely on image features' reprojection errors yet maintains precision on par with classical BA. Our method averages over relative motions while implicitly incorporating the contribution of the structure in the adjustment. To that end, we weight the objective function by local hessian matrices - a by-product of local bundle adjustments performed on relative motions (e.g., pairs or triplets) during the pose initialisation step. Such hessians are extremely rich as they encapsulate both the features' random errors and the geometric configuration between the cameras. These pieces of information propagated to the global frame help to guide the final optimisation in a more rigorous way. We argue that this approach is an upgraded version of the motion averaging approach and demonstrate its effectiveness on both photogrammetric datasets and computer vision benchmarks.
翻訳日:2023-04-12 15:21:02 公開日:2023-04-11
# グラフに基づく軌道予測のための差動モデルの評価

Evaluation of Differentially Constrained Motion Models for Graph-Based Trajectory Prediction ( http://arxiv.org/abs/2304.05116v1 )

ライセンス: Link先を確認
Theodor Westny, Joel Oskarsson, Bj\"orn Olofsson and Erik Frisk(参考訳) 適応性とパフォーマンスの促進を考えると、ディープラーニングモデルは自動運転における動き予測の標準になりつつある。 しかし、柔軟性は解釈可能性の欠如と物理的制約の違反が伴う。 物理的に実現可能な軌道を提供するために、これらのデータ駆動方式を差分制約された運動モデルに適合させることは、将来有望な方向である。 この研究の基礎は、以前導入されたグラフニューラルネットワークベースのモデル、MTP-GOである。 ニューラルネットワークは、基礎となる運動モデルへの入力を計算し、物理的に実現可能な軌道を提供する。 本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。 この研究は、低階積分子モデルのような単純なモデルは、正確な予測を達成するために、キネマティックモデルのようなより複雑なモデルよりも好ましいことを示している。 さらに、数値解法は性能に大きな影響を与え、オイラーフォワードのような一般的な一階法に対して助言することができる。 代わりに、Heun'sのような二階法は予測を大幅に改善することができる。

Given their adaptability and encouraging performance, deep-learning models are becoming standard for motion prediction in autonomous driving. However, with great flexibility comes a lack of interpretability and possible violations of physical constraints. Accompanying these data-driven methods with differentially-constrained motion models to provide physically feasible trajectories is a promising future direction. The foundation for this work is a previously introduced graph-neural-network-based model, MTP-GO. The neural network learns to compute the inputs to an underlying motion model to provide physically feasible trajectories. This research investigates the performance of various motion models in combination with numerical solvers for the prediction task. The study shows that simpler models, such as low-order integrator models, are preferred over more complex ones, e.g., kinematic models, to achieve accurate predictions. Further, the numerical solver can have a substantial impact on performance, advising against commonly used first-order methods like Euler forward. Instead, a second-order method like Heun's can significantly improve predictions.
翻訳日:2023-04-12 15:20:42 公開日:2023-04-11
# 日内ニューススクリーニングの体系化に向けて : 流動性に着目したアプローチ

Towards systematic intraday news screening: a liquidity-focused approach ( http://arxiv.org/abs/2304.05115v1 )

ライセンス: Link先を確認
Jianfei Zhang and Mathieu Rosenbaum(参考訳) ニュースは金融資産に対するアベリッシュまたは強気な見方を伝えることができる。 機関投資家は、テキストデータに基づいて含意されたニュース感情を自動的に評価する必要がある。 毎日発行されるニュース記事の量を考えると,そのほとんどは中立的であり,より効果的なニュース感情学習手法の開発を目指して,‘true’の影響のあるニュースを識別するための体系的なニューススクリーニング手法を提案する。 ボラティリティ, ターンオーバー, ビッド・アズクスプレッド, ブックサイズなどの流動性駆動型変数に基づいて, それぞれの5分間の時間ビンを2つの特異流動性モードの1つに関連付ける。 1つは「カルム」状態を表し、もう1つは市場の変動性と取引量が比較的高い状態にあり、いくつかの外生的な出来事によって引き起こされる体制を表している。 次に,流動性モードが前者から後者に切り替わる瞬間に焦点を合わせ,近隣に掲載されるニュース記事について考察する。 ニューズ感情分類の例として,これらのフィルタサンプルにナイーブベイズを適用した。 スクリーニングされたデータセットは,従来のデータセットと比較して,より効率的な特徴キャプチャを実現し,短期的資産返却予測の性能が向上することを示す。

News can convey bearish or bullish views on financial assets. Institutional investors need to evaluate automatically the implied news sentiment based on textual data. Given the huge amount of news articles published each day, most of which are neutral, we present a systematic news screening method to identify the ``true'' impactful ones, aiming for more effective development of news sentiment learning methods. Based on several liquidity-driven variables, including volatility, turnover, bid-ask spread, and book size, we associate each 5-min time bin to one of two specific liquidity modes. One represents the ``calm'' state at which the market stays for most of the time and the other, featured with relatively higher levels of volatility and trading volume, describes the regime driven by some exogenous events. Then we focus on the moments where the liquidity mode switches from the former to the latter and consider the news articles published nearby impactful. We apply naive Bayes on these filtered samples for news sentiment classification as an illustrative example. We show that the screened dataset leads to more effective feature capturing and thus superior performance on short-term asset return prediction compared to the original dataset.
翻訳日:2023-04-12 15:20:27 公開日:2023-04-11
# 捕捉表面状態電子駆動によるミリ波電界の感度検出

Sensitive detection of millimeter wave electric field by driving trapped surface-state electrons ( http://arxiv.org/abs/2304.05154v1 )

ライセンス: Link先を確認
Miao Zhang, Y. F. Wang, X. Y. Peng, X. N. Feng, S. R. He, Y. F. Li, L. F. Wei(参考訳) 電磁波電界の感度検出は、電磁通信やセンシングにおいて重要な役割を果たす。 本稿では、ミリ波(mm)の電界を感度よく検出する量子センサを提案する。 量子センサーは、ヘリウム膜下部のスケーラブルな電極ネットワークによって液体ヘリウム上に個別に捕捉された多くの表面状態電子からなる。 このようなチップでは、捕捉された電子はそれぞれ、バイアスドdc電流によって操作され、強いスピン軌道結合をもたらす。 検出されるmm波信号は、捕捉された電子の軌道状態を非分散的に駆動するために印加され、その結果、服を着たスピン軌道状態のスタークシフトが生じる。 その結果、液体ヘリウムに閉じ込められた電子の長寿命スピン状態のスピンエコー干渉法を用いて、印加されたmm波の電界を敏感に検出することができた。 検出の適度な精度と提案の実現可能性について考察した。

Sensitive detection of electromagnetic wave electric field plays an important role for electromagnetic communication and sensing. Here, we propose a quantum sensor to sensitively detect the electric field of the millimeter (mm) wave. The quantum sensor consists of many surface-state electrons trapped individually on liquid helium by a scalable electrode-network at the bottom of the helium film. On such a chip, each of the trapped electrons can be manipulated by the biased dc-current to deliver the strong spin-orbit couplings. The mm wave signal to be detected is applied to non-dispersively drive the orbital states of the trapped electrons, just resulting in the Stark shifts of the dressed spin-orbital states. As a consequence, the electric field of the applied mm wave could be detected sensitively by using the spin-echo interferometry of the long-lived spin states of the electrons trapped on liquid helium. The reasonable accuracy of the detection and also the feasibility of the proposal are discussed.
翻訳日:2023-04-12 15:14:52 公開日:2023-04-11
# 回帰型ディープラーニングは病理スライドから分子バイオマーカーを予測する

Regression-based Deep-Learning predicts molecular biomarkers from pathology slides ( http://arxiv.org/abs/2304.05153v1 )

ライセンス: Link先を確認
Omar S. M. El Nahhas, Chiara M. L. Loeffler, Zunamys I. Carrero, Marko van Treeck, Fiona R. Kolbinger, Katherine J. Hewitt, Hannah S. Muti, Mara Graziani, Qinghe Zeng, Julien Calderaro, Nadina Ortiz-Br\"uchle, Tanwei Yuan, Michael Hoffmeister, Hermann Brenner, Alexander Brobeil, Jorge S. Reis-Filho, Jakob Nikolas Kather(参考訳) deep learning (dl) は癌病理からバイオマーカーを予測することができる。 臨床に承認されたいくつかのアプリケーションは、この技術を使用する。 しかし、ほとんどのアプローチは分類ラベルを予測するが、バイオマーカーはしばしば連続的な測定である。 回帰型DLは分類型DLよりも優れていると仮定した。 そこで我々は,9種類の癌患者11,671人の画像から直接連続的バイオマーカーを予測する自己監督型弱監督回帰法を開発し,評価した。 臨床および生物学的に関連のある複数のバイオマーカー(homologous repair defect (hrd) score, pan-cancer biomarker,および腫瘍微小環境における重要な生物学的過程のマーカー)について検討した。 回帰を用いることでバイオマーカー予測の精度が大幅に向上すると同時に、分類よりも結果の解釈性も向上する。 大腸癌患者の大きなコホートでは、回帰に基づく予測スコアは分類に基づくスコアよりも高い予後値をもたらす。 我々のオープンソースレグレッションアプローチは、計算病理学における連続バイオマーカー解析に有望な代替手段を提供する。

Deep Learning (DL) can predict biomarkers from cancer histopathology. Several clinically approved applications use this technology. Most approaches, however, predict categorical labels, whereas biomarkers are often continuous measurements. We hypothesized that regression-based DL outperforms classification-based DL. Therefore, we developed and evaluated a new self-supervised attention-based weakly supervised regression method that predicts continuous biomarkers directly from images in 11,671 patients across nine cancer types. We tested our method for multiple clinically and biologically relevant biomarkers: homologous repair deficiency (HRD) score, a clinically used pan-cancer biomarker, as well as markers of key biological processes in the tumor microenvironment. Using regression significantly enhances the accuracy of biomarker prediction, while also improving the interpretability of the results over classification. In a large cohort of colorectal cancer patients, regression-based prediction scores provide a higher prognostic value than classification-based scores. Our open-source regression approach offers a promising alternative for continuous biomarker analysis in computational pathology.
翻訳日:2023-04-12 15:14:40 公開日:2023-04-11
# PP-MobileSeg: モバイルデバイス上での高速かつ正確なセマンティックセグメンテーションモデル

PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model on Mobile Devices ( http://arxiv.org/abs/2304.05152v1 )

ライセンス: Link先を確認
Shiyu Tang, Ting Sun, Juncai Peng, Guowei Chen, Yuying Hao, Manhui Lin, Zhihong Xiao, Jiangbin You, Yi Liu(参考訳) コンピュータビジョンにおけるトランスフォーマーの成功は、それをモバイルデバイスに適用しようとするいくつかの試みにつながったが、現実のアプリケーションでは性能が不十分である。 そこで本研究では,モバイルデバイス上での最先端性能を実現するセマンティックセグメンテーションモデルPP-MobileSegを提案する。 pp-mobileseg は strideformer backbone と aggregated attention module (aam) と valid interpolate module (vim) の3つの新しい部分からなる。 4段のstrideformer backboneはmv3ブロックで構築されており、シーアテンションが強化されている。 AAMはまずセマンティックな特徴アンサンブル投票を通じて詳細な機能をフィルタリングし、セマンティックな情報を強化するためにセマンティックな特徴と組み合わせる。 さらに,入力画像の解像度に見合った特徴をアップサンプリングするためにVIMを提案する。 最終的な予測にあるクラスのみを補間することで、モデルレイテンシを大幅に削減する。 実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。 ADE20Kデータセットでは、PP-MobileSegはSeaFormer-Baseよりも1.57%精度が高く、パラメータは32.9%少なく、Qualcomm Snapdragon 855では42.3%高速化された。 ソースコードはhttps://github.com/paddlepaddle/paddleseg/tree/release/2.8で入手できる。

The success of transformers in computer vision has led to several attempts to adapt them for mobile devices, but their performance remains unsatisfactory in some real-world applications. To address this issue, we propose PP-MobileSeg, a semantic segmentation model that achieves state-of-the-art performance on mobile devices. PP-MobileSeg comprises three novel parts: the StrideFormer backbone, the Aggregated Attention Module (AAM), and the Valid Interpolate Module (VIM). The four-stage StrideFormer backbone is built with MV3 blocks and strided SEA attention, and it is able to extract rich semantic and detailed features with minimal parameter overhead. The AAM first filters the detailed features through semantic feature ensemble voting and then combines them with semantic features to enhance the semantic information. Furthermore, we proposed VIM to upsample the downsampled feature to the resolution of the input image. It significantly reduces model latency by only interpolating classes present in the final prediction, which is the most significant contributor to overall model latency. Extensive experiments show that PP-MobileSeg achieves a superior tradeoff between accuracy, model size, and latency compared to other methods. On the ADE20K dataset, PP-MobileSeg achieves 1.57% higher accuracy in mIoU than SeaFormer-Base with 32.9% fewer parameters and 42.3% faster acceleration on Qualcomm Snapdragon 855. Source codes are available at https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8.
翻訳日:2023-04-12 15:14:25 公開日:2023-04-11
# 木テンソルネットワーク状態による運動の階層方程式の解法

Tree tensor network state approach for solving hierarchical equations of motions ( http://arxiv.org/abs/2304.05151v1 )

ライセンス: Link先を確認
Yaling Ke(参考訳) 階層的運動方程式 (heom) 法は、数値的に厳密な開量子系力学のアプローチである。 本手法は, 浴場相関関数の指数関数的拡張に根ざし, 本質的には連続環境を, 有限温度でのより効率的な遮断を可能にする効果的な浴場モードの集合に再結合させる。 この理解に基づいて、中央系波動関数のテンソル積とこれらの有効浴モードのフォック状態である拡張波動関数に対する非エルミート超ハミルトニアンを持つschr\"odinger-like方程式にヘム法を写像することができる。 本研究では, このシステムとこれらの有効浴モードが星型絡み合い構造を形成していることを認識し, 拡張波動関数を効率的なツリーテンソルネットワーク状態 (TTNS) として表す可能性, 同一構造のツリーテンソルネットワークオペレータとしてのスーパーハミルトン, 時間依存性変動原理を用いた時間伝搬アルゴリズムの適用について検討する。 提案手法は従来のHEOM法と一貫した結果が得られるのに対して,計算は数桁の差でかなり高速化されていることを示す。 さらに、真のTTNSによるシミュレーションは、1次元の行列積状態分解スキームの4倍高速である。

The hierarchical equations of motion (HEOM) method is a numerically exact open quantum system dynamics approach. The method is rooted in an exponential expansion of the bath correlation function, which in essence strategically reshapes a continuous environment into a set of effective bath modes that allow for more efficient cutoff at finite temperatures. Based on this understanding, one can map the HEOM method into a Schr\"odinger-like equation with a non-Hermitian super Hamiltonian for an extended wavefunction being the tensor product of the central system wave function and the Fock state of these effective bath modes. Recognizing that the system and these effective bath modes form a star-shaped entanglement structure, in this work, we explore the possibility of representing the extended wave function as an efficient tree tensor network state (TTNS), the super Hamiltonian as a tree tensor network operator of the same structure, as well as the application of a time propagation algorithm using the time-dependent variational principle. Our benchmark calculations based on the spin-boson model with a slow-relaxing bath show that, the proposed HEOM+TTNS approach yields consistent results with that of the conventional HEOM method, while the computation is considerably sped up by a factor of a few orders of magnitude. Besides, the simulation with a genuine TTNS is four times faster than a one-dimensional matrix product state decomposition scheme.
翻訳日:2023-04-12 15:13:56 公開日:2023-04-11
# 数値行列分解を確率ゲージとしたフェルミオン相空間表現を用いた量子力学のシミュレーション

Simulations of quantum dynamics with fermionic phase-space representations using numerical matrix factorizations as stochastic gauges ( http://arxiv.org/abs/2304.05149v1 )

ライセンス: Link先を確認
F Rousse, M Fasi, A Dmytryshyn, M Gulliksson, M Ogren(参考訳) ガウス位相空間表現はフェルミオン粒子の量子力学を数値的に実装するために用いられる。 数値的な結果を改善するために,そのような実装における動的拡散ゲージの利用について検討する。 これは、少数の体系の量子力学を独立した正確な解に対してベンチマークすることで達成される。 ここで拡散ゲージは、位相空間表現の対応するフォッカー・プランク方程式で定義される行列方程式を満たすいわゆるノイズ行列として実装される。 ここでは, フェルミオン粒子を用いた物理系において, 新しい拡散ゲージの数値評価により, 既知分析ノイズ行列と比較して, 実数値シミュレーション時間を2倍にすることができる。 この発展は、多体系の将来の量子力学シミュレーションに多大な影響を与える可能性がある。

The Gaussian phase-space representation can be used to implement quantum dynamics for fermionic particles numerically. To improve numerical results, we explore the use of dynamical diffusion gauges in such implementations. This is achieved by benchmarking quantum dynamics of few-body systems against independent exact solutions. A diffusion gauge is implemented here as a so-called noise-matrix, which satisfies a matrix equation defined by the corresponding Fokker--Planck equation of the phase-space representation. For the physical systems with fermionic particles considered here, the numerical evaluation of the new diffusion gauges allows us to double the practical simulation time, compared with hitherto known analytic noise-matrices. This development may have far reaching consequences for future quantum dynamical simulations of many-body systems.
翻訳日:2023-04-12 15:13:29 公開日:2023-04-11
# 人工知能工学 : 概念と展望の調査

Artificial Collective Intelligence Engineering: a Survey of Concepts and Perspectives ( http://arxiv.org/abs/2304.05147v1 )

ライセンス: Link先を確認
Roberto Casadei(参考訳) 集合性は自然と人工の両方の多くのシステムの重要な特性である。 多数の個人を搾取することで、最も賢い個人の能力をはるかに超える効果を生み出すことや、あまり知性のない個人から知的な集団行動を生み出すこともしばしば可能となる。 実際、集団知性、すなわち集団が、一見知的な方法で集団的に行動する能力は、しばしば、モノのインターネット(Internet of Things)やスウォームロボティクス(Swarm Roboticss)、クラウドコンピューティングといった最近の技術科学的トレンドに動機づけられた、エンジニアリングされた計算システムの設計目標である。 自然システムや人工システムで観測された集団知性は、エンジニアリングのアイデア、モデル、メカニズムのインスピレーションの源となっている。 今日、人工的および計算的集合知能は、様々な技術、ターゲットシステムの種類、アプリケーションドメインにまたがる研究トピックとして認識されている。 しかし、コンピュータ科学における研究のパノラマにはまだ断片化が残っており、ほとんどのコミュニティやコントリビューションの垂直性は、コアとなる考え方や参照の枠組みを抽出することを困難にしている。 課題は、共通の構造を識別し、配置し、最終的には知的集団に対処する異なる領域とメソッドを接続することである。 このギャップに対処するため,本稿では,コンピュータ科学者や技術者の観点から,集団知能研究の地図を提供する幅広い質問の組について考察する。 それゆえ、予備的な概念、基本的な概念、主要な研究の視点、人工的および計算的集団知能工学における研究者の機会と挑戦を特定する。

Collectiveness is an important property of many systems--both natural and artificial. By exploiting a large number of individuals, it is often possible to produce effects that go far beyond the capabilities of the smartest individuals, or even to produce intelligent collective behaviour out of not-so-intelligent individuals. Indeed, collective intelligence, namely the capability of a group to act collectively in a seemingly intelligent way, is increasingly often a design goal of engineered computational systems--motivated by recent techno-scientific trends like the Internet of Things, swarm robotics, and crowd computing, just to name a few. For several years, the collective intelligence observed in natural and artificial systems has served as a source of inspiration for engineering ideas, models, and mechanisms. Today, artificial and computational collective intelligence are recognised research topics, spanning various techniques, kinds of target systems, and application domains. However, there is still a lot of fragmentation in the research panorama of the topic within computer science, and the verticality of most communities and contributions makes it difficult to extract the core underlying ideas and frames of reference. The challenge is to identify, place in a common structure, and ultimately connect the different areas and methods addressing intelligent collectives. To address this gap, this paper considers a set of broad scoping questions providing a map of collective intelligence research, mostly by the point of view of computer scientists and engineers. Accordingly, it covers preliminary notions, fundamental concepts, and the main research perspectives, identifying opportunities and challenges for researchers on artificial and computational collective intelligence engineering.
翻訳日:2023-04-12 15:13:17 公開日:2023-04-11
# オブジェクトレベルの空間レイアウトとセマンティック一貫性に基づくループクロージャ検出

Loop Closure Detection Based on Object-level Spatial Layout and Semantic Consistency ( http://arxiv.org/abs/2304.05146v1 )

ライセンス: Link先を確認
Xingwu Ji, Peilin Liu, Haochen Niu, Xiang Chen, Rendong Ying, Fei Wen(参考訳) 視覚的同時ローカライゼーションとマッピング(SLAM)システムは、大きな視点変化の状況下でループ閉鎖を検出する上で課題に直面している。 本稿では3次元シーングラフの空間的レイアウトとセマンティック一貫性に基づくオブジェクトベースのループ閉鎖検出手法を提案する。 まず,semantic labels,intersection over union (iou),object color,object embeddedからのセマンティック情報に基づくオブジェクトレベルのデータアソシエーション手法を提案する。 その後、関連するオブジェクトとのマルチビューバンドル調整を利用して、オブジェクトとカメラのポーズを共同で最適化する。 改良されたオブジェクトを意味論とトポロジーを備えた3次元空間グラフとして表現する。 次に,頂点近傍の構造レイアウトと意味的性質の類似性に基づいて対応オブジェクトを選択するグラフマッチング手法を提案する。 最後に、オブジェクトレベルのポーズグラフ最適化において、カメラトラジェクトリとオブジェクトのポーズを共同で最適化する。 実験により,提案手法によりより正確な3次元セマンティックマップを構築でき,大きな視点変化のある状況下では,ループクロージャ法はポイントベース法やオブジェクトベース法よりも堅牢であることが示された。

Visual simultaneous localization and mapping (SLAM) systems face challenges in detecting loop closure under the circumstance of large viewpoint changes. In this paper, we present an object-based loop closure detection method based on the spatial layout and semanic consistency of the 3D scene graph. Firstly, we propose an object-level data association approach based on the semantic information from semantic labels, intersection over union (IoU), object color, and object embedding. Subsequently, multi-view bundle adjustment with the associated objects is utilized to jointly optimize the poses of objects and cameras. We represent the refined objects as a 3D spatial graph with semantics and topology. Then, we propose a graph matching approach to select correspondence objects based on the structure layout and semantic property similarity of vertices' neighbors. Finally, we jointly optimize camera trajectories and object poses in an object-level pose graph optimization, which results in a globally consistent map. Experimental results demonstrate that our proposed data association approach can construct more accurate 3D semantic maps, and our loop closure method is more robust than point-based and object-based methods in circumstances with large viewpoint changes.
翻訳日:2023-04-12 15:12:48 公開日:2023-04-11
# 実世界の視線追跡データと速度閾値に基づく視線関係指標を用いた教師の視力評価

Measuring Teachers' Visual Expertise Using the Gaze Relational Index Based on Real-world Eye-tracking Data and Varying Velocity Thresholds ( http://arxiv.org/abs/2304.05143v1 )

ライセンス: Link先を確認
Christian Kosel (1), Angelina Mooseder (2), Tina Seidl (1) and Juergen Pfeffer (2) ((1) Friedl Schoeller Endowed Chair for Educational Psychology, School of Social Science and Technology, Technical University Munich, Germany, (2) Computational Social Science and Big Data, School of Social Science and Technology, Technical University Munich, Germany)(参考訳) 本稿では,新たに導入された注視関係指数(gri)指標を用いて,実世界の教室における視覚情報処理(モバイルアイトラッキング)を計測することで,教師の視覚知識の理解を深める。 また、眼球運動イベント検出アルゴリズムの選択された構成(速度閾値の変動と固定マージ)が、眼球追跡研究の結果にどの程度影響するかを示すことにより、今後の研究への方法論的貢献を提供することを目的としている。 まず,初級-熟練のパラダイム(初級教師2名,経験者教師2名)に従うことで,GRIが視覚的専門知識の繊細な尺度として機能することを発見した。 仮説として、経験豊富な教師のGRIは低く、ドメイン固有の知識のよりきめ細やかな組織化によって、より早く頻繁に教室に定着することが示唆された。 第2に,選択した速度閾値パラメータが変化し,最悪の場合,視線追跡研究の結果に偏ることがわかった。 したがって、視覚専門知識研究における結果のさらなる一般化可能性の観点から、眼球運動の同定に関連する構成を報告することが極めて重要であることを強調する。

This article adds to the understanding of teachers' visual expertise by measuring visual information processing in real-world classrooms (mobile eye-tracking) with the newly introduced Gaze Relational Index (GRI) metric, which is defined as the ratio of mean fixation duration to mean fixation number. In addition, the aim was to provide a methodological contribution to future research by showing to what extent the selected configurations (i.e. varying velocity thresholds and fixation merging) of the eye movement event detection algorithm for detecting fixations and saccades influence the results of eye-tracking studies. Our study leads to two important take-home messages: First, by following a novice-expert paradigm (2 novice teachers & 2 experienced teachers), we found that the GRI can serve as a sensitive measure of visual expertise. As hypothesized, experienced teachers' GRI was lower, suggesting that their more fine-graded organization of domain-specific knowledge allows them to fixate more rapidly and frequently in the classroom. Second, we found that the selected velocity threshold parameter alter and, in the worst case, bias the results of an eye-tracking study. Therefore, in the interest of further generalizability of the results within visual expertise research, we emphasize that it is highly important to report configurations that are relevant for the identification of eye movements.
翻訳日:2023-04-12 15:12:29 公開日:2023-04-11
# NeAT:美しいスタイルのトランスファーのためのニューラルアートトラクション

NeAT: Neural Artistic Tracing for Beautiful Style Transfer ( http://arxiv.org/abs/2304.05139v1 )

ライセンス: Link先を確認
Dan Ruta, Andrew Gilbert, John Collomosse, Eli Shechtman, Nicholas Kolkin(参考訳) スタイル転送は、第2のターゲット画像の芸術的スタイルにおいて、ソース画像の意味的内容を再現するタスクである。 本稿では,新しい最先端のフィードフォワード型転送方式NeATを提案する。 我々は、画像生成ではなく、フィードフォワードスタイルの転送を画像編集として再フォーマットし、ソースコンテンツの保存とターゲットスタイルの整合性の両方において最先端のモデルを構築する。 私たちのモデルの成功の重要なコンポーネントは、多くのスタイル転送テクニックで一般的に発生するアーティファクトである"style halos"を特定し、修正することです。 標準データセットのトレーニングとテストに加えて,新たな大規模で高解像度な4M画像データセットであるBBST-4Mデータセットを導入している。 このデータをキュレートする要素として、画像がスタイリスティックかどうかを分類できる新しいモデルを提案する。 我々はBBST-4Mを用いて、様々なスタイルにわたるNeATの一般化を改善し、測定する。 NeATは最先端の品質と一般化を提供するだけでなく、高速な推論を高解像度で設計し、訓練する。

Style transfer is the task of reproducing the semantic contents of a source image in the artistic style of a second target image. In this paper, we present NeAT, a new state-of-the art feed-forward style transfer method. We re-formulate feed-forward style transfer as image editing, rather than image generation, resulting in a model which improves over the state-of-the-art in both preserving the source content and matching the target style. An important component of our model's success is identifying and fixing "style halos", a commonly occurring artefact across many style transfer techniques. In addition to training and testing on standard datasets, we introduce the BBST-4M dataset, a new, large scale, high resolution dataset of 4M images. As a component of curating this data, we present a novel model able to classify if an image is stylistic. We use BBST-4M to improve and measure the generalization of NeAT across a huge variety of styles. Not only does NeAT offer state-of-the-art quality and generalization, it is designed and trained for fast inference at high resolution.
翻訳日:2023-04-12 15:12:03 公開日:2023-04-11
# 生成的深層学習と付加的製造を用いた異種階層型バイオインスピレーションクモウェブ構造のモデル化と設計

Modeling and design of heterogeneous hierarchical bioinspired spider web structures using generative deep learning and additive manufacturing ( http://arxiv.org/abs/2304.05137v1 )

ライセンス: Link先を確認
Wei Lu, Nic A. Lee, Markus J. Buehler(参考訳) クモの巣は驚くほどの生物学的構造であり、薄いが強い絹のフィラメントからなり、印象的な機械的特性を持つ複雑な階層構造(軽量だが高い強度、多様な機械的応答を達成するなど)に配置される。 単純な2Dオーブウェブは簡単に模倣できるが、3Dベースのウェブ構造のモデリングと合成は、設計上の豊富な特徴のために難しいままである。 ここでは,スパイダーウェブの異種グラフ構造を詳細に分析し,ディープラーニングを用いて人工的,生物に触発された3dウェブ構造をモデル化し,合成する。 生成AIモデルは、鍵となる幾何学的パラメータ(平均エッジ長、ノード数、平均ノード次数など)に基づいて条件付けされる。 グラフの構成原理を同定するために、実験によって決定された大きなスパイダーウェブグラフの帰納的表現サンプリングを用いて、3つの条件付き生成モデルのトレーニングに使用されるデータセットを生成する。 1) 疎近傍表現をもつ非平衡熱力学にインスパイアされたアナログ拡散モデル 2)完全隣接表現を持つ離散拡散モデル、および 3) 完全隣接表現を持つ自己回帰変換器アーキテクチャ。 これら3つのモデルはスケーラブルで複雑で、生物に触発されたスパイダーウェブを模倣し、設計目標に合致したグラフをうまく構築する。 さらに, 生成モデルによって生成されたWebサンプルを, ヘリカル形状やパラメトリック形状, 模倣, 自然設計の原理を, 工学的目的の多様化への統合に向けて拡張した, 一連の幾何学的設計目標に基づいて, 大規模構造に組み立てるアルゴリズムを提案する。 いくつかのウェブは3dプリンティングを使って製造され、機械的特性を評価するためにテストされている。

Spider webs are incredible biological structures, comprising thin but strong silk filament and arranged into complex hierarchical architectures with striking mechanical properties (e.g., lightweight but high strength, achieving diverse mechanical responses). While simple 2D orb webs can easily be mimicked, the modeling and synthesis of 3D-based web structures remain challenging, partly due to the rich set of design features. Here we provide a detailed analysis of the heterogenous graph structures of spider webs, and use deep learning as a way to model and then synthesize artificial, bio-inspired 3D web structures. The generative AI models are conditioned based on key geometric parameters (including average edge length, number of nodes, average node degree, and others). To identify graph construction principles, we use inductive representation sampling of large experimentally determined spider web graphs, to yield a dataset that is used to train three conditional generative models: 1) An analog diffusion model inspired by nonequilibrium thermodynamics, with sparse neighbor representation, 2) a discrete diffusion model with full neighbor representation, and 3) an autoregressive transformer architecture with full neighbor representation. All three models are scalable, produce complex, de novo bio-inspired spider web mimics, and successfully construct graphs that meet the design objectives. We further propose algorithm that assembles web samples produced by the generative models into larger-scale structures based on a series of geometric design targets, including helical and parametric shapes, mimicking, and extending natural design principles towards integration with diverging engineering objectives. Several webs are manufactured using 3D printing and tested to assess mechanical properties.
翻訳日:2023-04-12 15:11:44 公開日:2023-04-11
# ウェアラブル多色RAPDスクリーニング装置

Wearable multi-color RAPD screening device ( http://arxiv.org/abs/2304.05182v1 )

ライセンス: Link先を確認
Arda Gulersoy, Ahmet Berk Tuzcu, Doga Gunduzalp, Koray Kavakl, Abdullah Kucukoduk, Umit Yasar Guleser, Ugur Aygun, Murat Hasanreisoglu, Afsun Sahin, Hakan Urey(参考訳) そこで本研究では, 頭部装着型ウェアラブルデバイスを開発し, 患者の相対求心性瞳孔欠損(rapd)値を自動的に算出した。 2つのRGBLED、2つの赤外線カメラ、1つのマイクロコントローラで構成される。 RAPDテストでは、LEDオンオフ時間、明るさレベル、色などのパラメータをユーザーが制御できる。 データ取得時、計算部は、データを処理し、rapdスコアを算出し、ユーザフレンドリーなインターフェースでテスト結果を可視化する。guiで使用されるマルチプロセッシング手法により、処理パイプラインを最適化する。 RAPD,緑内障,非対称緑内障,異所性コーリアなどの神経疾患に対する早期診断・スクリーニングの目的で,頭部縫合器の使用が容易で,かつ迅速かつ適していることが確認できた。

In this work, we developed a wearable, head-mounted device that automatically calculates the precise Relative Afferent Pupillary Defect (RAPD) value of a patient. The device consists of two RGB LEDs, two infrared cameras, and one microcontroller. In the RAPD test, the parameters like LED on-off durations, brightness level, and color of the light can be controlled by the user. Upon data acquisition, a computational unit processes the data, calculates the RAPD score and visualizes the test results with a user-friendly interface.Multiprocessing methods used on GUI to optimize the processing pipeline. We have shown that our head-worn instrument is easy to use, fast, and suitable for early-diagnostics and screening purposes for various neurological conditions such as RAPD, glaucoma, asymmetric glaucoma, and anisocoria.
翻訳日:2023-04-12 15:04:50 公開日:2023-04-11
# 異常識別と表現学習の分離:属性グラフ上の異常検出のための自己教師付き学習

Decoupling anomaly discrimination and representation learning: self-supervised learning for anomaly detection on attributed graph ( http://arxiv.org/abs/2304.05176v1 )

ライセンス: Link先を確認
YanMing Hu, Chuan Chen, BoWen Deng, YuJing Lai, Hao Lin, ZiBin Zheng and Jing Bian(参考訳) 属性グラフ上の異常検出は、その実用上重要なトピックである。 既存の手法は、主に異常識別に焦点を合わせ、表現学習を無視しているため、意味的混合と不均衡に苦しむ。 これは、異常ノードが通常ノードと直接接続するという非合理性仮定と矛盾する。 さらに、通常のノードよりもはるかに少ない異常ノードが存在し、ロングテールデータ分布を示す。 これらの課題に対処するために,一意のアルゴリズムであるDecoupled Self-supervised Learning for AnomalyDetection (DSLAD)を提案する。 DSLADは、異常検出のために分離された異常識別と表現学習を備えた自己教師型手法である。 DSLADは、異常識別器としてバイリニアプーリングとマスク付きオートエンコーダを使用している。 異常判別と表現学習を分離することにより、ノードがより意味的に識別可能なバランスの取れた特徴空間を構築し、不均衡問題を解決できる。 6つのベンチマークデータセットで実施された実験は、DSLADの有効性を明らかにしている。

Anomaly detection on attributed graphs is a crucial topic for its practical application. Existing methods suffer from semantic mixture and imbalance issue because they mainly focus on anomaly discrimination, ignoring representation learning. It conflicts with the assortativity assumption that anomalous nodes commonly connect with normal nodes directly. Additionally, there are far fewer anomalous nodes than normal nodes, indicating a long-tailed data distribution. To address these challenges, a unique algorithm,Decoupled Self-supervised Learning forAnomalyDetection (DSLAD), is proposed in this paper. DSLAD is a self-supervised method with anomaly discrimination and representation learning decoupled for anomaly detection. DSLAD employs bilinear pooling and masked autoencoder as the anomaly discriminators. By decoupling anomaly discrimination and representation learning, a balanced feature space is constructed, in which nodes are more semantically discriminative, as well as imbalance issue can be resolved. Experiments conducted on various six benchmark datasets reveal the effectiveness of DSLAD.
翻訳日:2023-04-12 15:04:35 公開日:2023-04-11
# ハイブリッド統計・機械学習アルゴリズムによる電力需要予測:ウクライナを事例として

Electricity Demand Forecasting with Hybrid Statistical and Machine Learning Algorithms: Case Study of Ukraine ( http://arxiv.org/abs/2304.05174v1 )

ライセンス: Link先を確認
Tatiana Gonzalez Grandon, Johannes Schwenzer, Thomas Steens, Julia Breuing(参考訳) 本稿では,電力需要予測のための統計と機械学習を用いた新しいハイブリッド手法を提案する。 将来のエネルギーシステムの投資と運用は、時間分解能の長期電力需要予測を必要とするため、我々の数学的モデルはエネルギー予測のギャップを埋める。 提案手法は2013年から2020年までのウクライナの電力消費の時間データを用いて構築された。 この目的のために, 時間帯, 日毎, 年毎の電力消費の基本的な構造を分析した。 長期的傾向をマクロ経済回帰分析を用いて評価する。 中期モデルは、温度とカレンダーの回帰器を統合し、基盤構造を記述し、ARIMAとLSTM ``black-box''パターンに基づくアプローチを組み合わせてエラー項を記述する。 短期モデルでは、カレンダーレグレッタと残余のための複数のARMAモデルを通じて、時間ごとの季節をキャプチャする。 その結果,複数の回帰モデルとLSTMハイブリッドモデルを組み合わせた残差予測モデルの有効性が示唆された。 我々のハイブリッドモデルは1時間単位での長期電力消費予測に非常に効果的である。 17520の時間ステップを持つ2年間のサンプル外予測では、96.83%の精度で予測される。

This article presents a novel hybrid approach using statistics and machine learning to forecast the national demand of electricity. As investment and operation of future energy systems require long-term electricity demand forecasts with hourly resolution, our mathematical model fills a gap in energy forecasting. The proposed methodology was constructed using hourly data from Ukraine's electricity consumption ranging from 2013 to 2020. To this end, we analysed the underlying structure of the hourly, daily and yearly time series of electricity consumption. The long-term yearly trend is evaluated using macroeconomic regression analysis. The mid-term model integrates temperature and calendar regressors to describe the underlying structure, and combines ARIMA and LSTM ``black-box'' pattern-based approaches to describe the error term. The short-term model captures the hourly seasonality through calendar regressors and multiple ARMA models for the residual. Results show that the best forecasting model is composed by combining multiple regression models and a LSTM hybrid model for residual prediction. Our hybrid model is very effective at forecasting long-term electricity consumption on an hourly resolution. In two years of out-of-sample forecasts with 17520 timesteps, it is shown to be within 96.83 \% accuracy.
翻訳日:2023-04-12 15:04:20 公開日:2023-04-11
# Webスケール画像テキストデータからの検索による画像認識の改善

Improving Image Recognition by Retrieving from Web-Scale Image-Text Data ( http://arxiv.org/abs/2304.05173v1 )

ライセンス: Link先を確認
Ahmet Iscen, Alireza Fathi, Cordelia Schmid(参考訳) nlp問題で最近成功したコンピュータビジョンタスクでは,検索拡張モデルの人気が高まっている。 その目的は、外部メモリセットからの視覚入力の類似の例を検索することで、モデルの認識能力を高めることである。 本稿では,メモリから抽出された各サンプルの重要性を学習する,注意に基づくメモリモジュールを提案する。 既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。 また、メモリデータセット構築の様々な方法についても徹底的に研究する。 実験では,1b画像テキスト対の大規模メモリデータセットを使用することの利点を示し,異なるメモリ表現の性能を示す。 本手法は,長尾認識,ノイズラベルによる学習,細粒度分類の3つの異なる分類タスクで評価し,imagenet-lt,places-lt,webvisionデータセットにおける最先端の精度を実現することを示す。

Retrieval augmented models are becoming increasingly popular for computer vision tasks after their recent success in NLP problems. The goal is to enhance the recognition capabilities of the model by retrieving similar examples for the visual input from an external memory set. In this work, we introduce an attention-based memory module, which learns the importance of each retrieved example from the memory. Compared to existing approaches, our method removes the influence of the irrelevant retrieved examples, and retains those that are beneficial to the input query. We also thoroughly study various ways of constructing the memory dataset. Our experiments show the benefit of using a massive-scale memory dataset of 1B image-text pairs, and demonstrate the performance of different memory representations. We evaluate our method in three different classification tasks, namely long-tailed recognition, learning with noisy labels, and fine-grained classification, and show that it achieves state-of-the-art accuracies in ImageNet-LT, Places-LT and Webvision datasets.
翻訳日:2023-04-12 15:03:58 公開日:2023-04-11
# LRRNet:赤外線と可視画像のための新しい表現学習ガイド融合ネットワーク

LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images ( http://arxiv.org/abs/2304.05172v1 )

ライセンス: Link先を確認
Hui Li, Tianyang Xu, Xiao-Jun Wu, Jiwen Lu, Josef Kittler(参考訳) 深層学習に基づく融合法は画像融合タスクにおいて有望な性能を実現している。 これは、融合プロセスにおいて非常に重要な役割を果たすネットワークアーキテクチャに起因する。 しかし、一般的には、優れた融合アーキテクチャを特定することは困難であり、そのため、融合ネットワークの設計は科学というよりは、まだブラックアートである。 この問題に対処するために,融合タスクを数学的に定式化し,その最適解と実装可能なネットワークアーキテクチャとの接続を確立する。 このアプローチは、軽量核融合ネットワークを構築するための論文で提案される新しい手法に繋がる。 試行錯誤戦略により、時間を要する経験的ネットワーク設計を避ける。 特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。 低ランク表現(LRR)の目的は、学習可能なモデルの基礎である。 解の中心にある行列の乗算は畳み込み演算に変換され、最適化の反復過程は特別なフィードフォワードネットワークに置き換えられる。 この新しいネットワークアーキテクチャに基づき、赤外線と可視光画像を融合するエンドツーエンドの軽量核融合ネットワークを構築する。 そのトレーニングの成功は、画像の詳細を保存し、ソース画像の健全な特徴を高めるために提案された詳細から意味までの情報損失関数によって促進される。 実験により,提案した核融合ネットワークは,公開データセット上の最先端核融合手法よりも優れた核融合性能を示すことが示された。 興味深いことに、われわれのネットワークは既存の方法よりも少ないトレーニングパラメータを必要とする。

Deep learning based fusion methods have been achieving promising performance in image fusion tasks. This is attributed to the network architecture that plays a very important role in the fusion process. However, in general, it is hard to specify a good fusion architecture, and consequently, the design of fusion networks is still a black art, rather than science. To address this problem, we formulate the fusion task mathematically, and establish a connection between its optimal solution and the network architecture that can implement it. This approach leads to a novel method proposed in the paper of constructing a lightweight fusion network. It avoids the time-consuming empirical network design by a trial-and-test strategy. In particular we adopt a learnable representation approach to the fusion task, in which the construction of the fusion network architecture is guided by the optimisation algorithm producing the learnable model. The low-rank representation (LRR) objective is the foundation of our learnable model. The matrix multiplications, which are at the heart of the solution are transformed into convolutional operations, and the iterative process of optimisation is replaced by a special feed-forward network. Based on this novel network architecture, an end-to-end lightweight fusion network is constructed to fuse infrared and visible light images. Its successful training is facilitated by a detail-to-semantic information loss function proposed to preserve the image details and to enhance the salient features of the source images. Our experiments show that the proposed fusion network exhibits better fusion performance than the state-of-the-art fusion methods on public datasets. Interestingly, our network requires a fewer training parameters than other existing methods.
翻訳日:2023-04-12 15:03:41 公開日:2023-04-11
# カリキュラムによるVersatile Skillの模倣

Curriculum-Based Imitation of Versatile Skills ( http://arxiv.org/abs/2304.05171v1 )

ライセンス: Link先を確認
Maximilian Xiling Li, Onur Celik, Philipp Becker, Denis Blessing, Rudolf Lioutikov, Gerhard Neumann(参考訳) 模倣による学習技術はロボットの直感的な教育に有望な概念である。 そのようなスキルを学ぶ一般的な方法は、デモンストレーションの確率を最大化することでパラメトリックモデルを学ぶことである。 しかし、人間の実演はしばしばマルチモーダルであり、同じタスクは複数の方法で解決され、このような最大可能性(ML)の目的に基づくほとんどの模倣学習手法にとって大きな課題である。 mlの目的は、モデルにすべてのデータをカバーするように強制し、コンテキスト空間の特殊化を防止し、動作空間におけるモード平均化を引き起こす可能性がある。 ここでは,各データポイントに重みを用いたカリキュラムを導入し,モデルが表現可能なデータに特化しつつ,エントロピーボーナスによって可能な限り多くのデータをカバーするインセンティブを付与することで,これらの問題を緩和する。 我々はアルゴリズムを(線形)エキスパートの混合(Mixture of (linear) Experts (MoE))に拡張し、単一のコンポーネントがローカルなコンテキスト領域に特化できるようにし、MoEはすべてのデータポイントをカバーする。 我々は,複雑なシミュレーションと実ロボット制御タスクにおけるアプローチを評価し,多目的な人間の実演から学習し,現在のSOTA法を著しく上回っていることを示す。 リファレンス実装はhttps://github.com/intuitive-robots/ml-curにある。

Learning skills by imitation is a promising concept for the intuitive teaching of robots. A common way to learn such skills is to learn a parametric model by maximizing the likelihood given the demonstrations. Yet, human demonstrations are often multi-modal, i.e., the same task is solved in multiple ways which is a major challenge for most imitation learning methods that are based on such a maximum likelihood (ML) objective. The ML objective forces the model to cover all data, it prevents specialization in the context space and can cause mode-averaging in the behavior space, leading to suboptimal or potentially catastrophic behavior. Here, we alleviate those issues by introducing a curriculum using a weight for each data point, allowing the model to specialize on data it can represent while incentivizing it to cover as much data as possible by an entropy bonus. We extend our algorithm to a Mixture of (linear) Experts (MoE) such that the single components can specialize on local context regions, while the MoE covers all data points. We evaluate our approach in complex simulated and real robot control tasks and show it learns from versatile human demonstrations and significantly outperforms current SOTA methods. A reference implementation can be found at https://github.com/intuitive-robots/ml-cur
翻訳日:2023-04-12 15:03:19 公開日:2023-04-11
# sportsmot: 複数のスポーツシーンにおける大規模マルチオブジェクトトラッキングデータセット

SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes ( http://arxiv.org/abs/2304.05170v1 )

ライセンス: Link先を確認
Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu and Limin Wang(参考訳) スポーツシーンにおける多目的追跡は、プレイヤーの統計収集において重要な役割を担い、自動戦術分析などのさらなる分析を支援する。 しかし、既存のMOTベンチマークはドメインにほとんど関心を持たず、開発を制限した。 本研究では,多種多様なスポーツシーンにおいて,新たな大規模マルチオブジェクト追跡データセットを提示する。「\emph{sportsmot}」と呼ばれ,コート上のすべての選手を追跡する。 240以上のビデオシーケンス、150kフレーム(ほぼ15\times mot17)、バスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから集められた1.6mバウンディングボックス(3\times mot17)で構成される。 私たちのデータセットには2つの重要な特性があります。 1)高速・可変速運動 2)類似しているが区別できる外観。 SportsMOTは,MOTトラッカーに対して,動きに基づくアソシエーションと外見に基づくアソシエーションの促進を奨励することを期待している。 いくつかの最先端トラッカーをベンチマークし、SportsMOTの重要な課題がオブジェクトアソシエーションにあることを示す。 この問題を軽減するため,我々はさらに,<emph{mixsort}>と呼ばれる新しいマルチオブジェクト追跡フレームワークを提案し,追跡・検出トラッカを普及させるための補助的なアソシエーションモデルとしてmixformerのような構造を導入した。 オリジナルのモーションベースアソシエーションとカスタマイズされた外観ベースアソシエーションを統合することで、SportsMOTとMOT17の最先端パフォーマンスを実現する。 MixSortに基づいて、詳細な分析を行い、SportsMOTに関する深い洞察を提供する。 データセットとコードはhttps://deeperaction.github.io/datasets/sportsmot.htmlで入手できる。

Multi-object tracking in sports scenes plays a critical role in gathering players statistics, supporting further analysis, such as automatic tactical analysis. Yet existing MOT benchmarks cast little attention on the domain, limiting its development. In this work, we present a new large-scale multi-object tracking dataset in diverse sports scenes, coined as \emph{SportsMOT}, where all players on the court are supposed to be tracked. It consists of 240 video sequences, over 150K frames (almost 15\times MOT17) and over 1.6M bounding boxes (3\times MOT17) collected from 3 sports categories, including basketball, volleyball and football. Our dataset is characterized with two key properties: 1) fast and variable-speed motion and 2) similar yet distinguishable appearance. We expect SportsMOT to encourage the MOT trackers to promote in both motion-based association and appearance-based association. We benchmark several state-of-the-art trackers and reveal the key challenge of SportsMOT lies in object association. To alleviate the issue, we further propose a new multi-object tracking framework, termed as \emph{MixSort}, introducing a MixFormer-like structure as an auxiliary association model to prevailing tracking-by-detection trackers. By integrating the customized appearance-based association with the original motion-based association, MixSort achieves state-of-the-art performance on SportsMOT and MOT17. Based on MixSort, we give an in-depth analysis and provide some profound insights into SportsMOT. The dataset and code will be available at https://deeperaction.github.io/datasets/sportsmot.html.
翻訳日:2023-04-12 15:02:56 公開日:2023-04-11
# 不完全多視点分類の不確かさの探索と活用

Exploring and Exploiting Uncertainty for Incomplete Multi-View Classification ( http://arxiv.org/abs/2304.05165v1 )

ライセンス: Link先を確認
Mengyao Xie, Zongbo Han, Changqing Zhang, Yichen Bai, Qinghua Hu(参考訳) 不完全なマルチビューデータの分類は、現実のアプリケーションに広く存在しない任意のビューが存在するため、避けられない。 大きな進歩はあったが、既存の不完全なマルチビュー手法は、失われたビューが比較的不確実性が高いため、信頼に値する予測を得ることは依然として困難である。 第一に、欠如した見解は不確実性が高く、1つの決定論的含意を与えるのは合理的ではない。 第二に、インプットされたデータの品質は高い不確実性である。 この不確実性を探索し、活用するために、安定かつ信頼性の高いフレームワークの下で不完全多視点データ分類(UIMC)モデルを提案する。 本研究では,不確かさを特徴付けるために,複数回の分布とサンプルを作成し,そのサンプリング品質に応じて適応的に活用する。 そこで,提案手法はより知覚可能な計算と制御可能な融合を実現する。 具体的には、各欠落したデータを、利用可能なビューに基づいて分散条件でモデル化し、不確実性を導入する。 次にエビデンスに基づく核融合戦略を用いて、虚偽の見解の信頼に値する統合を保証する。 複数のベンチマークデータセットに対して大規模な実験を行い,性能と信頼性の両面で最先端の性能を確立する。

Classifying incomplete multi-view data is inevitable since arbitrary view missing widely exists in real-world applications. Although great progress has been achieved, existing incomplete multi-view methods are still difficult to obtain a trustworthy prediction due to the relatively high uncertainty nature of missing views. First, the missing view is of high uncertainty, and thus it is not reasonable to provide a single deterministic imputation. Second, the quality of the imputed data itself is of high uncertainty. To explore and exploit the uncertainty, we propose an Uncertainty-induced Incomplete Multi-View Data Classification (UIMC) model to classify the incomplete multi-view data under a stable and reliable framework. We construct a distribution and sample multiple times to characterize the uncertainty of missing views, and adaptively utilize them according to the sampling quality. Accordingly, the proposed method realizes more perceivable imputation and controllable fusion. Specifically, we model each missing data with a distribution conditioning on the available views and thus introducing uncertainty. Then an evidence-based fusion strategy is employed to guarantee the trustworthy integration of the imputed views. Extensive experiments are conducted on multiple benchmark data sets and our method establishes a state-of-the-art performance in terms of both performance and trustworthiness.
翻訳日:2023-04-12 15:02:26 公開日:2023-04-11
# 医用画像分類のための自己監督:1クラス100のラベル付きトレーニングサンプルによる最先端のパフォーマンス

Self-supervision for medical image classification: state-of-the-art performance with ~100 labeled training samples per class ( http://arxiv.org/abs/2304.05163v1 )

ライセンス: Link先を確認
Maximilian Nielsen, Laura Wenderoth, Thilo Sentker, Ren\'e Werner(参考訳) 医用画像解析のための自己教師型深層学習(DL)は、既にエンドツーエンドの訓練型監視型DLの事実上の標準に取って代わるものか? 医療画像分類におけるこの問題に特に焦点をあて、この分野で現在最も制限されている要因の1つ、ラベル付きデータの(非)利用性に焦点をあてた。 3つの一般的な医用画像法(骨髄顕微鏡,消化管内視鏡,皮膚内視鏡)と公開データセットに基づいて,ラベルのない自己蒸留法(DINO)における自己監督型DLの性能を解析した。 画像ラベルを使わずに画像表現を学習した後、従来の機械学習分類器を適用する。 分類器は、体系的に異なるラベル付きデータ(1クラスあたり1-1000サンプル)で適合する。 学習した画像表現を活用し、利用可能なラベル付きデータの1%から10%、クラス当たり約100のラベル付きサンプルで、3つのイメージモダリティとデータセットの最先端の分類性能を実現する。

Is self-supervised deep learning (DL) for medical image analysis already a serious alternative to the de facto standard of end-to-end trained supervised DL? We tackle this question for medical image classification, with a particular focus on one of the currently most limiting factors of the field: the (non-)availability of labeled data. Based on three common medical imaging modalities (bone marrow microscopy, gastrointestinal endoscopy, dermoscopy) and publicly available data sets, we analyze the performance of self-supervised DL within the self-distillation with no labels (DINO) framework. After learning an image representation without use of image labels, conventional machine learning classifiers are applied. The classifiers are fit using a systematically varied number of labeled data (1-1000 samples per class). Exploiting the learned image representation, we achieve state-of-the-art classification performance for all three imaging modalities and data sets with only a fraction of between 1% and 10% of the available labeled data and about 100 labeled samples per class.
翻訳日:2023-04-12 15:02:06 公開日:2023-04-11
# 幾何学的視覚における総合的最適コンセンサス最大化の促進

Accelerating Globally Optimal Consensus Maximization in Geometric Vision ( http://arxiv.org/abs/2304.05156v1 )

ライセンス: Link先を確認
Xinyue Zhang, Liangzu Peng, Wanting Xu, Laurent Kneip(参考訳) ブランチ・アンド・バウンドベースのコンセンサス最大化は、異常な幾何学的問題に対するグローバル最適解を検索する重要な能力のために際立っている。 しかし、そのような解の発見は科学的価値を損なうが、実際のシナリオにおけるその応用は、目の前の問題の次元の関数として指数関数的に増加する計算複雑性によってしばしば禁止される。 この研究では、n次元問題に対して$n-1$の次元空間上の分岐を可能にする、新しい一般技術を伝える。 残余自由度は、効率的な間隔スタビング手法を適用して、各境界計算内でグローバルに解くことができる。 個々の境界導出は、ソート問題を解決する追加の必要により計算が困難であるが、実際の間隔の削減とより厳密な境界は、必要なイテレーションの総数を大幅に減少させる。 このアプローチの抽象的導入の他に,3つの基本的な幾何学的コンピュータビジョン問題,すなわちカメラ切除,相対的カメラポーズ推定,ポイントセット登録への応用について述べる。 網羅的なテストを通じて、2桁を超える場合の大幅なスピードアップを実証し、オンラインアプリケーションシナリオにおけるグローバルな最適コンセンサス最大化の実現可能性を高める。

Branch-and-bound-based consensus maximization stands out due to its important ability of retrieving the globally optimal solution to outlier-affected geometric problems. However, while the discovery of such solutions caries high scientific value, its application in practical scenarios is often prohibited by its computational complexity growing exponentially as a function of the dimensionality of the problem at hand. In this work, we convey a novel, general technique that allows us to branch over an $n-1$ dimensional space for an n-dimensional problem. The remaining degree of freedom can be solved globally optimally within each bound calculation by applying the efficient interval stabbing technique. While each individual bound derivation is harder to compute owing to the additional need for solving a sorting problem, the reduced number of intervals and tighter bounds in practice lead to a significant reduction in the overall number of required iterations. Besides an abstract introduction of the approach, we present applications to three fundamental geometric computer vision problems: camera resectioning, relative camera pose estimation, and point set registration. Through our exhaustive tests, we demonstrate significant speed-up factors at times exceeding two orders of magnitude, thereby increasing the viability of globally optimal consensus maximizers in online application scenarios.
翻訳日:2023-04-12 15:01:46 公開日:2023-04-11
# リモートセンシング画像のための10億規模の基礎モデル

A Billion-scale Foundation Model for Remote Sensing Images ( http://arxiv.org/abs/2304.05215v1 )

ライセンス: Link先を確認
Keumgang Cha, Junghoon Seo, Taekyung Lee(参考訳) 視覚タスクにおける基礎モデルの可能性に大きな注目を集めているため、下流タスクの前にこれらのモデルを事前訓練することが重要なステップとなっている。 基礎モデルの事前学習における3つの重要な要素は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。 近年,リモートセンシング分野の研究は,モデルパラメータの数に限定して,事前学習手法とデータセットのサイズに重点を置いている。 本稿では, オブジェクトの回転検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響を検討することで, このギャップを解消する。 86M, 605.26M, 1.3B, 2.4Bなど,様々なパラメータを持つ基礎モデルを事前学習し, パラメータの増加に伴う下流タスクの性能向上を検証した。 私たちの知る限りでは、これはリモートセンシングの分野で最初の10億規模の基礎モデルです。 さらに,リモートセンシング分野における視覚変換器のスケールアップと微調整に有効な手法を提案する。 下流タスクにおける一般的な性能を評価するために,回転物体検出のためのdota v2.0 と dior-r ベンチマークデータセット,セマンティックセグメンテーションのための potsdam と loveda データセットを用いた。 実験の結果,すべてのベンチマークデータセットと下流タスクにおいて,パラメータ数の増加に伴って基礎モデルの性能とデータ効率が向上した。 さらに,本モデルでは,DIOR-R,Postdam,LoveDAなど,いくつかのデータセットで最先端のパフォーマンスを実現している。

As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
翻訳日:2023-04-12 14:55:57 公開日:2023-04-11
# ViTハイブリッドアーキテクチャによるGANに基づく画像操作のオープンセット分類

Open Set Classification of GAN-based Image Manipulations via a ViT-based Hybrid Architecture ( http://arxiv.org/abs/2304.05212v1 )

ライセンス: Link先を確認
Jun Wang, Omran Alamayreh, Benedetta Tondi and Mauro Barni(参考訳) AIが操作するコンテンツの分類は、異なるタイプの操作を区別するために、非常に注目されている。 これまで開発された手法の多くは、操作に使われるアルゴリズムがトレーニングセットで表現されないような、オープンセットのシナリオでは失敗する。 本稿では,オープンなシナリオにおける合成顔生成と操作の分類に焦点をあて,拒絶オプションを用いた分類法を提案する。 提案手法は視覚トランスフォーマ(vit)と同時分類と局所化のためのハイブリッド手法を組み合わせたものである。 特徴マップ相関は、ViTモジュールによって利用され、ローカライゼーションブランチは、画像内の操作が局所的に実行されるときに、モデルにフォージェリに関連するクラスごとの識別的特徴を学習させるための注意機構として使用される。 拒絶は複数の戦略を検討し、モデル出力層を分析することによって行われる。 本手法の有効性は,顔属性編集とGAN属性の分類作業において評価される。

Classification of AI-manipulated content is receiving great attention, for distinguishing different types of manipulations. Most of the methods developed so far fail in the open-set scenario, that is when the algorithm used for the manipulation is not represented by the training set. In this paper, we focus on the classification of synthetic face generation and manipulation in open-set scenarios, and propose a method for classification with a rejection option. The proposed method combines the use of Vision Transformers (ViT) with a hybrid approach for simultaneous classification and localization. Feature map correlation is exploited by the ViT module, while a localization branch is employed as an attention mechanism to force the model to learn per-class discriminative features associated with the forgery when the manipulation is performed locally in the image. Rejection is performed by considering several strategies and analyzing the model output layers. The effectiveness of the proposed method is assessed for the task of classification of facial attribute editing and GAN attribution.
翻訳日:2023-04-12 14:55:33 公開日:2023-04-11
# cgxplain:二重線形プログラムを用いたルールベースディープニューラルネットワークの説明

CGXplain: Rule-Based Deep Neural Network Explanations Using Dual Linear Programs ( http://arxiv.org/abs/2304.05207v1 )

ライセンス: Link先を確認
Konstantin Hemker, Zohreh Shams, Mateja Jamnik(参考訳) ルールベースのサロゲートモデルは、Deep Neural Network(DNN)決定境界を近似し、人間がディープラーニングモデルを簡単に理解できるように、効果的で解釈可能な方法である。 現在の最先端分解法は、DNNの潜在空間からより正確な規則集合を抽出し、高い精度で規則集合を導出するものである。 しかし 彼らは a) 代理モデルがDNN(アライメント)と同じ変数から学んだことを保証しない。 b) 過大なルールセット(複雑度)をもたらす可能性のある精度などの単一の目的を最適化することのみを許し、 c) 決定木アルゴリズムを中間モデルとして使用し、同じDNN(安定性)に対して異なる説明をすることができる。 本稿では,DNNの隠れ表現から規則を抽出するために,二重線形計画法を用いて,これらの制約を分解するCGX(Column Generation eXplainer)を提案する。 このアプローチは、任意の目的を最適化し、ユーザのニーズに合わせて説明モデルを調整できるようにする。 我々は,様々なタスクで結果を評価し,安定性を保証し,ルールセットサイズを80%以上(複雑度)削減する説明モデルの正確な再現性を持つことで,cgxが3つの基準をすべて満たしていることを示す。

Rule-based surrogate models are an effective and interpretable way to approximate a Deep Neural Network's (DNN) decision boundaries, allowing humans to easily understand deep learning models. Current state-of-the-art decompositional methods, which are those that consider the DNN's latent space to extract more exact rule sets, manage to derive rule sets at high accuracy. However, they a) do not guarantee that the surrogate model has learned from the same variables as the DNN (alignment), b) only allow to optimise for a single objective, such as accuracy, which can result in excessively large rule sets (complexity), and c) use decision tree algorithms as intermediate models, which can result in different explanations for the same DNN (stability). This paper introduces the CGX (Column Generation eXplainer) to address these limitations - a decompositional method using dual linear programming to extract rules from the hidden representations of the DNN. This approach allows to optimise for any number of objectives and empowers users to tweak the explanation model to their needs. We evaluate our results on a wide variety of tasks and show that CGX meets all three criteria, by having exact reproducibility of the explanation model that guarantees stability and reduces the rule set size by >80% (complexity) at equivalent or improved accuracy and fidelity across tasks (alignment).
翻訳日:2023-04-12 14:55:21 公開日:2023-04-11
# キャパシティとロバスト性トレードオフ:多変量時系列予測のためのチャネル独立戦略の再検討

The Capacity and Robustness Trade-off: Revisiting the Channel Independent Strategy for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2304.05206v1 )

ライセンス: Link先を確認
Lu Han, Han-Jia Ye, De-Chuan Zhan(参考訳) 多変量時系列データは、変数の様々なチャネルから構成される。 多変量予測モデルはチャネル間の関係を捉えて将来の値を正確に予測する必要がある。 しかし,近年,チャネル独立 (ci) 戦略を用いた手法が出現している。 これらの手法は,多変量時系列データを別個の単変量時系列とみなし,チャネル間の相関を無視する。 意外なことに、私たちの経験的結果は、CI戦略でトレーニングされたモデルは、Channel Dependent(CD)戦略でトレーニングされたモデルよりも優れています。 しかし、この現象の背景にある理由は、まだ文献で詳しく調べられていない。 本稿では,多変量時系列データセットの特性とCI/CD戦略の包括的および理論的解析について述べる。 以上の結果から,CD手法は高いキャパシティを持つが,分散ドリフト時系列を正確に予測する堅牢性に欠けることがわかった。 対照的にCIアプローチは、堅牢な予測のためにキャパシティを交換する。 これらの分析にインスパイアされた実践的尺度は、CI戦略を超越できる予測残差(PRReg)と呼ばれる修正CD手法を含む、キャパシティとロバストネスジレンマに対処するために提案されている。 我々は,多変量時系列の特性に対する研究者の意識を高め,より良い予測モデルの構築を促すことを期待する。

Multivariate time series data comprises various channels of variables. The multivariate forecasting models need to capture the relationship between the channels to accurately predict future values. However, recently, there has been an emergence of methods that employ the Channel Independent (CI) strategy. These methods view multivariate time series data as separate univariate time series and disregard the correlation between channels. Surprisingly, our empirical results have shown that models trained with the CI strategy outperform those trained with the Channel Dependent (CD) strategy, usually by a significant margin. Nevertheless, the reasons behind this phenomenon have not yet been thoroughly explored in the literature. This paper provides comprehensive empirical and theoretical analyses of the characteristics of multivariate time series datasets and the CI/CD strategy. Our results conclude that the CD approach has higher capacity but often lacks robustness to accurately predict distributionally drifted time series. In contrast, the CI approach trades capacity for robust prediction. Practical measures inspired by these analyses are proposed to address the capacity and robustness dilemma, including a modified CD method called Predict Residuals with Regularization (PRReg) that can surpass the CI strategy. We hope our findings can raise awareness among researchers about the characteristics of multivariate time series and inspire the construction of better forecasting models.
翻訳日:2023-04-12 14:54:51 公開日:2023-04-11
# VLSP2022-AbmusuのLBMTチーム:ベトナム多文書要約のためのテキスト相関と生成モデルを用いたハイブリッド手法

LBMT team at VLSP2022-Abmusu: Hybrid method with text correlation and generative models for Vietnamese multi-document summarization ( http://arxiv.org/abs/2304.05205v1 )

ライセンス: Link先を確認
Tan-Minh Nguyen, Thai-Binh Nguyen, Hoang-Trung Nguyen, Hai-Long Nguyen, Tam Doan Thanh, Ha-Thanh Nguyen, Thi-Hai-Yen Vuong(参考訳) 要約は、すべての文書から最も重要な情報を記述するだけでなく、文書の一貫性のある解釈を提供する。 本稿では,クラスタ類似度に基づくマルチドキュメント要約手法を提案する。 抽出法では,PageRankアルゴリズムの修正版とテキスト相関を考慮したハイブリッドモデルを用いる。 各クラスタから最も重要な文を選択して要約を生成した後、BARTpho と ViT5 を用いて抽象モデルを構築する。 本研究は抽出的アプローチと抽象的アプローチの両方を考察した。 提案手法は,VLSP 2022競争における競争結果を実現する。

Multi-document summarization is challenging because the summaries should not only describe the most important information from all documents but also provide a coherent interpretation of the documents. This paper proposes a method for multi-document summarization based on cluster similarity. In the extractive method we use hybrid model based on a modified version of the PageRank algorithm and a text correlation considerations mechanism. After generating summaries by selecting the most important sentences from each cluster, we apply BARTpho and ViT5 to construct the abstractive models. Both extractive and abstractive approaches were considered in this study. The proposed method achieves competitive results in VLSP 2022 competition.
翻訳日:2023-04-12 14:54:25 公開日:2023-04-11
# tinyreptile: フェデレーションメタラーニングを備えたtinyml

TinyReptile: TinyML with Federated Meta-Learning ( http://arxiv.org/abs/2304.05201v1 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic, Thomas A. Runkler(参考訳) TinyML(TinyML)は、リソース制約されたマイクロコントローラ(MCU)のための機械学習(ML)の民主化を目的とした、急速に成長する分野である。 これらの小さなデバイスが広く普及していることを考えると、TinyMLアプリケーションが知識を集約することでメリットを享受できるかどうかを問うことは本質的です。 フェデレートラーニング(FL)は、分散エージェントが機密データを共有することなくグローバルモデルを共同で学習することを可能にする。 しかし、実際のデプロイメント環境の複雑さと各デバイスで利用可能なデータの均一性のため、一般的なグローバルモデルはすべてのデバイスで機能しない可能性がある。 さらに、TinyMLハードウェアのデプロイには計算と通信の制約があり、従来のMLでは対応できない。 これらの課題を考慮して、我々は、メタラーニングとオンラインラーニングにインスパイアされたシンプルだが効率的なアルゴリズムであるTinyReptileを提案し、そのデータに対して迅速に新しいデバイスに適応できる小さなデバイス間で、ニューラルネットワーク(NN)の強固な初期化を協調的に学習する。 Raspberry Pi 4 と Cortex-M4 MCU で TinyReptile をデモした。 TinyMLのさまざまなユースケースの評価では、同等の性能のベースラインアルゴリズムと比較して、リソースの削減とトレーニング時間の削減が少なくとも2つの要因で確認されている。

Tiny machine learning (TinyML) is a rapidly growing field aiming to democratize machine learning (ML) for resource-constrained microcontrollers (MCUs). Given the pervasiveness of these tiny devices, it is inherent to ask whether TinyML applications can benefit from aggregating their knowledge. Federated learning (FL) enables decentralized agents to jointly learn a global model without sharing sensitive local data. However, a common global model may not work for all devices due to the complexity of the actual deployment environment and the heterogeneity of the data available on each device. In addition, the deployment of TinyML hardware has significant computational and communication constraints, which traditional ML fails to address. Considering these challenges, we propose TinyReptile, a simple but efficient algorithm inspired by meta-learning and online learning, to collaboratively learn a solid initialization for a neural network (NN) across tiny devices that can be quickly adapted to a new device with respect to its data. We demonstrate TinyReptile on Raspberry Pi 4 and Cortex-M4 MCU with only 256-KB RAM. The evaluations on various TinyML use cases confirm a resource reduction and training time saving by at least two factors compared with baseline algorithms with comparable performance.
翻訳日:2023-04-12 14:54:14 公開日:2023-04-11
# 複合シナリオにおける2次元化系列に基づくマルチスケール核融合断層診断法

Multi-scale Fusion Fault Diagnosis Method Based on Two-Dimensionaliztion Sequence in Complex Scenarios ( http://arxiv.org/abs/2304.05198v1 )

ライセンス: Link先を確認
Weiyang Jin(参考訳) 転がり軸受は回転機械の重要な部品であり、その欠陥は重大な損傷を引き起こす可能性がある。 異常の早期発見は破滅的な事故を防ぐために重要である。 従来的かつインテリジェントな手法は時系列データの解析に用いられてきたが、現実のシナリオではセンサデータはノイズが多く、時間領域では正確に識別できないため、トレーニングされたモデルではモードが崩壊する。 グラム角場法 (GAF) や間隔サンプリングのような2次元化法が提案されているが, 数学的導出や解釈性に欠ける。 本稿では,畳み込みシナリオのためのグレースケール画像を組み合わせたgafの改良を提案する。 主な貢献は、複雑なシナリオにおけるアプローチの実現可能性の図示、データセットの拡大、マルチスケール機能融合拡散モデルと工業シナリオへの展開のためのディープラーニング圧縮技術を備えた畳み込みニューラルネットワーク法の改善などである。

Rolling bearings are critical components in rotating machinery, and their faults can cause severe damage. Early detection of abnormalities is crucial to prevent catastrophic accidents. Traditional and intelligent methods have been used to analyze time series data, but in real-life scenarios, sensor data is often noisy and cannot be accurately characterized in the time domain, leading to mode collapse in trained models. Two-dimensionalization methods such as the Gram angle field method (GAF) or interval sampling have been proposed, but they lack mathematical derivation and interpretability. This paper proposes an improved GAF combined with grayscale images for convolution scenarios. The main contributions include illustrating the feasibility of the approach in complex scenarios, widening the data set, and introducing an improved convolutional neural network method with a multi-scale feature fusion diffusion model and deep learning compression techniques for deployment in industrial scenarios.
翻訳日:2023-04-12 14:53:52 公開日:2023-04-11
# chatgptにおけるマルチステップ脱獄プライバシー攻撃

Multi-step Jailbreaking Privacy Attacks on ChatGPT ( http://arxiv.org/abs/2304.05197v1 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Wei Fan, Mingshi Xu, Yangqiu Song(参考訳) 大規模言語モデル(LLM)の急速な進歩により、多くの下流のNLPタスクが適切なプロンプトによってうまく解決できる。 モデル開発者や研究者は、LDMから有害なコンテンツを生成するのを避けるためにダイアログ安全性に懸命に取り組んでいますが、AIGC(AIGC)を人間の利益のために活用することは依然として困難です。 強力なLLMは、様々なドメインからの既存のテキストデータ(例えば、GPT-3は45TBのテキストで訓練されている)を盗んでいるため、プライベート情報がトレーニングデータに含まれるかどうか、これらのLLMとその下流アプリケーションが提供するプライバシー上の脅威を疑うのは当然である。 本稿では,ChatGPTによって強化されたOpenAIのモデルAPIとNew Bingのプライバシ脅威を調査し,アプリケーション統合LDMがこれまで以上に深刻なプライバシ脅威を引き起こす可能性があることを示す。 この目的のために,我々の主張を裏付ける広範な実験を行い,LLMのプライバシーへの影響について論じる。

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given good prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI's model APIs and New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause more severe privacy threats ever than before. To this end, we conduct extensive experiments to support our claims and discuss LLMs' privacy implications.
翻訳日:2023-04-12 14:53:36 公開日:2023-04-11
# HPN: パーソナライズされたフェデレーションハイパーパラメータ最適化

HPN: Personalized Federated Hyperparameter Optimization ( http://arxiv.org/abs/2304.05195v1 )

ライセンス: Link先を確認
Anda Cheng, Zhen Wang, Yaliang Li, Jian Cheng(参考訳) FL(フェデレートラーニング)の分野における多くの研究は、顧客間の不均一性に対処するためにパーソナライズ(パーソナライズ)を試みてきた。 しかし、既存の作品は主にモデルの調整に焦点を合わせている。 しかし、クライアントの多様性のため、それらはそれぞれ異なるハイパーパラメータの選択を必要とする可能性があるが、今のところ研究されていない。 データプライバシーを損なうことなく、指数関数的に増大する検索空間を扱い、各クライアントを特徴付ける、パーソナライズされたハイパーパラメータ最適化(pFedHPO)の課題を2つ挙げる。 そこで本稿では,クライアントエンコーディングを施した \textsc{H}yper\textsc{P}arameter \textsc{N}etwork (HPN) を学習し,パーソナライズされたハイパーパラメータを決定する。 クライアントエンコーディングは、各クライアントのプライバシーを保護するランダムなプロジェクションベースの手順で計算される。 さらに,HPN学習のための低忠実度関数評価サンプルをデバイアスする機構を設計する。 様々な領域からflタスクを広範囲に実験し,hpnの優位性を実証した。

Numerous research studies in the field of federated learning (FL) have attempted to use personalization to address the heterogeneity among clients, one of FL's most crucial and challenging problems. However, existing works predominantly focus on tailoring models. Yet, due to the heterogeneity of clients, they may each require different choices of hyperparameters, which have not been studied so far. We pinpoint two challenges of personalized federated hyperparameter optimization (pFedHPO): handling the exponentially increased search space and characterizing each client without compromising its data privacy. To overcome them, we propose learning a \textsc{H}yper\textsc{P}arameter \textsc{N}etwork (HPN) fed with client encoding to decide personalized hyperparameters. The client encoding is calculated with a random projection-based procedure to protect each client's privacy. Besides, we design a novel mechanism to debias the low-fidelity function evaluation samples for learning HPN. We conduct extensive experiments on FL tasks from various domains, demonstrating the superiority of HPN.
翻訳日:2023-04-12 14:53:14 公開日:2023-04-11
# 自動グラディエントDescent:ハイパーパラメータなしのディープラーニング

Automatic Gradient Descent: Deep Learning without Hyperparameters ( http://arxiv.org/abs/2304.05187v1 )

ライセンス: Link先を確認
Jeremy Bernstein and Chris Mingard and Kevin Huang and Navid Azizan and Yisong Yue(参考訳) ディープニューラルネットワークのアーキテクチャは、レイヤの数、各レイヤの幅、および一般的なネットワークトポロジーの観点から明示的に定義される。 既存の最適化フレームワークはこの情報を無視し、暗黙のアーキテクチャ情報(二階法など)やアーキテクチャに依存しない距離関数(ミラー降下など)を好む。 一方、最も人気のあるオプティマイザであるアダムはヒューリスティックスに基づいている。 本稿では,ニューラルアーキテクチャを明示的に活用する最適化アルゴリズムを導出するための新しいフレームワークを構築する。 この理論はミラー降下を非凸合成目的関数へと拡張し、ブレグマンの発散をニューラルアーキテクチャの非線形構造を説明するために変換する。 完全に接続されたネットワークの詳細な処理は、自動勾配降下(ハイパーパラメータを持たない一階オプティマイザ)をもたらす。 自動勾配降下は、完全に接続されたネットワークと畳み込みネットワークの両方をimagenetスケールでトレーニングする。 PyTorchの実装は、https://github.com/jxbz/agdおよびAppendix Bで利用可能である。

The architecture of a deep neural network is defined explicitly in terms of the number of layers, the width of each layer and the general network topology. Existing optimisation frameworks neglect this information in favour of implicit architectural information (e.g. second-order methods) or architecture-agnostic distance functions (e.g. mirror descent). Meanwhile, the most popular optimiser in practice, Adam, is based on heuristics. This paper builds a new framework for deriving optimisation algorithms that explicitly leverage neural architecture. The theory extends mirror descent to non-convex composite objective functions: the idea is to transform a Bregman divergence to account for the non-linear structure of neural architecture. Working through the details for deep fully-connected networks yields automatic gradient descent: a first-order optimiser without any hyperparameters. Automatic gradient descent trains both fully-connected and convolutional networks out-of-the-box and at ImageNet scale. A PyTorch implementation is available at https://github.com/jxbz/agd and also in Appendix B. Overall, the paper supplies a rigorous theoretical foundation for a next-generation of architecture-dependent optimisers that work automatically and without hyperparameters.
翻訳日:2023-04-12 14:52:52 公開日:2023-04-11
# OpenAL:アクティブラーニング戦略の評価と解釈

OpenAL: Evaluation and Interpretation of Active Learning Strategies ( http://arxiv.org/abs/2304.05246v1 )

ライセンス: Link先を確認
W. Jonas, A. Abraham, L. Dreyfus-Schmidt(参考訳) アクティブラーニング(AL)に関する膨大な文献にもかかわらず、提案されたサンプルの効率的かつ簡単な比較を可能にする包括的かつオープンなベンチマークは存在しない。 さらに,本論文における実験環境の変化は,AL実験の単発的な性質から,サンプリング戦略の選択を困難にしている。 これらの制限に対処するため、我々は、リアルなタスクのコレクション上でAL戦略のサンプリングを実行し比較するための、柔軟でオープンソースのフレームワークであるOpenALを紹介します。 提案するベンチマークでは,解釈可能性の指標と統計的解析手法を用いて,サンプルが他よりも優れる理由と時間を理解する。 最後に重要なのは、独自のALサンプルを提出することで、ベンチマークを簡単に拡張できることだ。

Despite the vast body of literature on Active Learning (AL), there is no comprehensive and open benchmark allowing for efficient and simple comparison of proposed samplers. Additionally, the variability in experimental settings across the literature makes it difficult to choose a sampling strategy, which is critical due to the one-off nature of AL experiments. To address those limitations, we introduce OpenAL, a flexible and open-source framework to easily run and compare sampling AL strategies on a collection of realistic tasks. The proposed benchmark is augmented with interpretability metrics and statistical analysis methods to understand when and why some samplers outperform others. Last but not least, practitioners can easily extend the benchmark by submitting their own AL samplers.
翻訳日:2023-04-12 14:45:37 公開日:2023-04-11
# r-softmax:制御可能なスパース率を持つ一般化ソフトマックス

r-softmax: Generalized Softmax with Controllable Sparsity Rate ( http://arxiv.org/abs/2304.05243v1 )

ライセンス: Link先を確認
Klaudia Ba{\l}azy, {\L}ukasz Struski, Marek \'Smieja, Jacek Tabor(参考訳) 近年,ニューラルネットワークモデルが多くの分野において顕著な成果を上げている。 モデルが提供する表現を確率分布にマッピングする関数は、ディープラーニングソリューションの不可分な側面である。 softmaxは機械学習コミュニティで一般的に受け入れられている確率マッピング関数であるが、スパース出力を返すことはできず、常にすべての位置に正の確率を広げる。 本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。 既存のスパース確率写像関数とは対照的に、出力スパース性レベルを制御するための直感的なメカニズムを提供する。 r-softmaxがsoftmaxの他のスパースな代替品よりも優れ、オリジナルのsoftmaxと高い競合性を持つ複数のマルチラベルデータセットを示す。 また,事前学習したトランスフォーマー言語モデルの自己接続モジュールにr-softmaxを適用し,異なる自然言語処理タスクでモデルを微調整した場合の性能向上を実証する。

Nowadays artificial neural network models achieve remarkable results in many disciplines. Functions mapping the representation provided by the model to the probability distribution are the inseparable aspect of deep learning solutions. Although softmax is a commonly accepted probability mapping function in the machine learning community, it cannot return sparse outputs and always spreads the positive probability to all positions. In this paper, we propose r-softmax, a modification of the softmax, outputting sparse probability distribution with controllable sparsity rate. In contrast to the existing sparse probability mapping functions, we provide an intuitive mechanism for controlling the output sparsity level. We show on several multi-label datasets that r-softmax outperforms other sparse alternatives to softmax and is highly competitive with the original softmax. We also apply r-softmax to the self-attention module of a pre-trained transformer language model and demonstrate that it leads to improved performance when fine-tuning the model on different natural language processing tasks.
翻訳日:2023-04-12 14:45:26 公開日:2023-04-11
# 量子周波数雑音の非エルゴード計測

Nonergodic measurements of qubit frequency noise ( http://arxiv.org/abs/2304.05241v1 )

ライセンス: Link先を確認
Filip Wudarski, Yaxing Zhang, M. I. Dykman(参考訳) 量子ビット周波数のゆらぎは量子コンピュータが直面する主要な問題の1つである。 その起源を理解するためには、スペクトルの分析を超える必要がある。 その結果,周期的に連続するラムゼー測定の比較的短い系列を用いてゆらぎの特徴が明らかとなり,雑音がエルゴード限界に近づくのに必要な時間よりも短い系列長が得られた。 結果分布とシーケンス持続時間依存性はノイズの性質に敏感である。 量子測定が準エルゴードな振る舞いを示すのに要する時間は、測定パラメータに強く依存する。

Slow fluctuations of a qubit frequency are one of the major problems faced by quantum computers. To understand their origin it is necessary to go beyond the analysis of their spectra. We show that characteristic features of the fluctuations can be revealed using comparatively short sequences of periodically repeated Ramsey measurements, with the sequence duration smaller than needed for the noise to approach the ergodic limit. The outcomes distribution and its dependence on the sequence duration are sensitive to the nature of noise. The time needed for quantum measurements to display quasi-ergodic behavior can strongly depend on the measurement parameters.
翻訳日:2023-04-12 14:45:10 公開日:2023-04-11
# 消化管ポリープ画像生成のためのマスク条件付き潜伏拡散法

Mask-conditioned latent diffusion for generating gastrointestinal polyp images ( http://arxiv.org/abs/2304.05233v1 )

ライセンス: Link先を確認
Roman Mach\'a\v{c}ek, Leila Mozaffari, Zahra Sepasdar, Sravanthi Parasa, P{\aa}l Halvorsen, Michael A. Riegler, Vajira Thambawita(参考訳) 内視鏡診断におけるAIソリューションを活用するためには,限定アノテーションの問題を克服しなければならない。 これらの制限は、医療分野における高いプライバシーの懸念と、時間と費用のかかる医療データアノテーションプロセスに対する専門家の援助の要求によって引き起こされる。 コンピュータビジョンにおいて、画像合成は、GAN(Generative Adversarial Network)と拡散確率モデル(DPM)の進展により、近年において重要な貢献をしている。 新しいDPMはテキスト、画像、ビデオ生成タスクにおいてGANよりも優れています。 そこで本研究では,生成したセグメンテーションマスクに条件付き合成GIポリプ画像を生成する条件付きDPMフレームワークを提案する。 実験結果から,本システムは,ポリプの接地真実マスクを用いて,無限個の高忠実度合成ポリプ画像を生成することができることがわかった。 生成したデータの有用性をテストするため,合成データを用いた2値画像分割モデルを訓練した。 以上の結果から,実データと合成データの両方からなるトレーニングデータから,DeepLabv3+から0.7751の最適マイクロイモージョンIOUが得られた。 しかし, 合成データのセグメンテーション性能はモデルアーキテクチャに大きく依存している。

In order to take advantage of AI solutions in endoscopy diagnostics, we must overcome the issue of limited annotations. These limitations are caused by the high privacy concerns in the medical field and the requirement of getting aid from experts for the time-consuming and costly medical data annotation process. In computer vision, image synthesis has made a significant contribution in recent years as a result of the progress of generative adversarial networks (GANs) and diffusion probabilistic models (DPM). Novel DPMs have outperformed GANs in text, image, and video generation tasks. Therefore, this study proposes a conditional DPM framework to generate synthetic GI polyp images conditioned on given generated segmentation masks. Our experimental results show that our system can generate an unlimited number of high-fidelity synthetic polyp images with the corresponding ground truth masks of polyps. To test the usefulness of the generated data, we trained binary image segmentation models to study the effect of using synthetic data. Results show that the best micro-imagewise IOU of 0.7751 was achieved from DeepLabv3+ when the training data consists of both real data and synthetic data. However, the results reflect that achieving good segmentation performance with synthetic data heavily depends on model architectures.
翻訳日:2023-04-12 14:45:00 公開日:2023-04-11
# Lady and the Tramp Nextdoor: Nextdoor Social Networkにおけるリアルタイム不平等のオンライン管理

Lady and the Tramp Nextdoor: Online Manifestations of Real-World Inequalities in the Nextdoor Social Network ( http://arxiv.org/abs/2304.05232v1 )

ライセンス: Link先を確認
Waleed Iqbal, Vahid Ghafouri, Gareth Tyson, Guillermo Suarez-Tangil, Ignacio Castro(参考訳) 健康から教育まで、収入は広い範囲の人生選択に影響を与える。 多くの論文が、オンラインソーシャルネットワークのデータを利用して正確な研究を行っている。 本稿では,異なる収入レベルが,異なるオンライン行動をもたらすかという,逆の質問を行う。 私たちはそれを実証します。 位置情報ベースのソーシャルネットワークであるNextdoorの大規模研究について紹介する。 我々は、米国の64,283の地区とイギリスの3,325の地区から260万の投稿を集め、オンラインの談話が地区の収入と収入の不平等を反映しているかどうかを調べる。 例えば、より裕福な地区は、実際の犯罪率がはるかに低いにもかかわらず、より肯定的な感情を持ち、犯罪について議論する。 そして、ユーザー生成コンテンツは収入と不平等の両方を予測できることを示す。 複数の機械学習モデルをトレーニングし、収入(R-Square=0.841)と不平等(R-Square=0.77)の両方を予測する。

From health to education, income impacts a huge range of life choices. Many papers have leveraged data from online social networks to study precisely this. In this paper, we ask the opposite question: do different levels of income result in different online behaviors? We demonstrate it does. We present the first large-scale study of Nextdoor, a popular location-based social network. We collect 2.6 Million posts from 64,283 neighborhoods in the United States and 3,325 neighborhoods in the United Kingdom, to examine whether online discourse reflects the income and income inequality of a neighborhood. We show that posts from neighborhoods with different income indeed differ, e.g. richer neighborhoods have a more positive sentiment and discuss crimes more, even though their actual crime rates are much lower. We then show that user-generated content can predict both income and inequality. We train multiple machine learning models and predict both income (R-Square=0.841) and inequality (R-Square=0.77).
翻訳日:2023-04-12 14:44:38 公開日:2023-04-11
# l2,0濃度ペナルティによる不均一グラフトレンドフィルタリング

Inhomogeneous graph trend filtering via a l2,0 cardinality penalty ( http://arxiv.org/abs/2304.05223v1 )

ライセンス: Link先を確認
Xiaoqing Huang, Andersen Ang, Jie Zhang, Yijie Wang(参考訳) グラフ上の断片的滑らかな信号の推定について検討する。 我々は,ノード間の不均一な滑らかさを示すグラフ信号の断片的滑らかさを推定するために,$\ell_{2,0}$-norm Penalized Graph Trend Filtering (GTF)モデルを提案する。 提案したGTFモデルは,ノード上の信号にK平均クラスタリングし,グラフのエッジに最小限のグラフをカットすると同時に,クラスタリングとカットが同一の割り当て行列を共有することを証明した。 提案手法は, シミュレーションアニーリングに基づくスペクトル分解法と手法である。 合成および実世界のデータセットに関する実験において,提案するgtfモデルの性能は,雑音化,サポートリカバリ,半教師付き分類といった既存の手法よりも優れていることを示した。 また,提案するgtfモデルは,エッジ集合が大きいデータセットの既存モデルよりも効率的に解くことができることを示した。

We study estimation of piecewise smooth signals over a graph. We propose a $\ell_{2,0}$-norm penalized Graph Trend Filtering (GTF) model to estimate piecewise smooth graph signals that exhibits inhomogeneous levels of smoothness across the nodes. We prove that the proposed GTF model is simultaneously a k-means clustering on the signal over the nodes and a minimum graph cut on the edges of the graph, where the clustering and the cut share the same assignment matrix. We propose two methods to solve the proposed GTF model: a spectral decomposition method and a method based on simulated annealing. In the experiment on synthetic and real-world datasets, we show that the proposed GTF model has a better performances compared with existing approaches on the tasks of denoising, support recovery and semi-supervised classification. We also show that the proposed GTF model can be solved more efficiently than existing models for the dataset with a large edge set.
翻訳日:2023-04-12 14:44:16 公開日:2023-04-11
# 強制無効化による語順重要度維持に向けて

Towards preserving word order importance through Forced Invalidation ( http://arxiv.org/abs/2304.05221v1 )

ライセンス: Link先を確認
Hadeel Al-Negheimish, Pranava Madhyastha, Alessandra Russo(参考訳) BERTのような大規模な事前学習言語モデルは、自然言語理解(NLU)タスクのフレームワークとして広く使われている。 しかし、近年の研究では、事前学習された言語モデルは語順に敏感でないことが判明している。 NLUタスクのパフォーマンスは、重要な構文情報が破壊される文の単語をランダムに置換しても変化しない。 本稿では,単語順序の重要性を保たせるために,強制的無効化 (FI: Forced Invalidation) と呼ばれる単純な手法を提案する。 単語埋め込みに対するBERTベースおよび注目モデルに対して、様々な英語NLUおよびQAベースのタスクに対して、我々のアプローチを広範囲に評価する。 実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることが示された。

Large pre-trained language models such as BERT have been widely used as a framework for natural language understanding (NLU) tasks. However, recent findings have revealed that pre-trained language models are insensitive to word order. The performance on NLU tasks remains unchanged even after randomly permuting the word of a sentence, where crucial syntactic information is destroyed. To help preserve the importance of word order, we propose a simple approach called Forced Invalidation (FI): forcing the model to identify permuted sequences as invalid samples. We perform an extensive evaluation of our approach on various English NLU and QA based tasks over BERT-based and attention-based models over word embeddings. Our experiments demonstrate that Forced Invalidation significantly improves the sensitivity of the models to word order.
翻訳日:2023-04-12 14:43:47 公開日:2023-04-11
# BanditQ - 対向環境におけるユーザ毎のリワードを保証したノンレグレット学習

BanditQ -- No-Regret Learning with Guaranteed Per-User Rewards in Adversarial Environments ( http://arxiv.org/abs/2304.05219v1 )

ライセンス: Link先を確認
Abhishek Sinha(参考訳) ヘッジのような古典的なオンライン予測アルゴリズムは本質的に設計上不公平であり、最も報酬の高いアームをできるだけ何度もプレイしようとする一方で、サブ最適アームを無視してサブリニアな後悔を達成する。 本稿では,すべての腕に対する報酬の獲得率を低く抑えながら,対向的設定における公正なオンライン予測問題を考える。 本稿では,基本待ち行列理論とオンライン学習を組み合わせることで,目標レート制約を達成し,全情報設定で$O(T^{3/4})を後悔しながら,新たなオンライン予測ポリシーであるBanditQを提案する。 BanditQの設計と分析は、潜在的な関数法を新しく利用し、独立した関心を持つ。

Classic online prediction algorithms, such as Hedge, are inherently unfair by design, as they try to play the most rewarding arm as many times as possible while ignoring the sub-optimal arms to achieve sublinear regret. In this paper, we consider a fair online prediction problem in the adversarial setting with hard lower bounds on the rate of accrual of rewards for all arms. By combining elementary queueing theory with online learning, we propose a new online prediction policy, called BanditQ, that achieves the target rate constraints while achieving a regret of $O(T^{3/4})$ in the full-information setting. The design and analysis of BanditQ involve a novel use of the potential function method and are of independent interest.
翻訳日:2023-04-12 14:43:30 公開日:2023-04-11
# 新しいビュー合成のための深さ認識最適化によるニューラルラジアンス場の改善

Improving Neural Radiance Fields with Depth-aware Optimization for Novel View Synthesis ( http://arxiv.org/abs/2304.05218v1 )

ライセンス: Link先を確認
Shu Chen, Junyao Li, Yang Zhang, and Beiji Zou(参考訳) 密度の高い入力により、Neural Radiance Fields (NeRF) は静止条件下でフォトリアリスティックな新しいビューを描画することができる。 合成品質は優れているが、既存のNeRF法では適度な3次元構造が得られない。 新規なビュー合成品質は、暗黙的に再構成された3Dシーン構造によりスパース入力が劇的に低下する。 SfMNeRFは,新規な視点の合成と3次元シーン形状の再構成を行う手法である。 SfMNeRFは、自己教師付き深度推定法からの知識を活用し、ビュー合成訓練中の3次元シーン形状を制約する。 具体的には、SfMNeRFは3Dシーン構造を明示的に再構成するために、エピポーラ、測光整合性、深さの滑らかさ、および位置の制約を用いる。 これらの明示的な制約と、NeRFからの暗黙的な制約により、この手法は、NeRFの3次元シーン幾何性能と、ビュー合成を同時に改善する。 さらに、SfMNeRFは、画像補間により基底真理が得られる新しいサブピクセルを合成する。 この戦略により、SfMNeRFはより多くのサンプルを組み込んで一般化性能を向上させることができる。 2つの公開データセットの実験では、SfMNeRFが最先端のアプローチを上回ることが示されている。 コードはhttps://github.com/XTU-PR-LAB/SfMNeRFで公開されている。

With dense inputs, Neural Radiance Fields (NeRF) is able to render photo-realistic novel views under static conditions. Although the synthesis quality is excellent, existing NeRF-based methods fail to obtain moderate three-dimensional (3D) structures. The novel view synthesis quality drops dramatically given sparse input due to the implicitly reconstructed inaccurate 3D-scene structure. We propose SfMNeRF, a method to better synthesize novel views as well as reconstruct the 3D-scene geometry. SfMNeRF leverages the knowledge from the self-supervised depth estimation methods to constrain the 3D-scene geometry during view synthesis training. Specifically, SfMNeRF employs the epipolar, photometric consistency, depth smoothness, and position-of-matches constraints to explicitly reconstruct the 3D-scene structure. Through these explicit constraints and the implicit constraint from NeRF, our method improves the view synthesis as well as the 3D-scene geometry performance of NeRF at the same time. In addition, SfMNeRF synthesizes novel sub-pixels in which the ground truth is obtained by image interpolation. This strategy enables SfMNeRF to include more samples to improve generalization performance. Experiments on two public datasets demonstrate that SfMNeRF surpasses state-of-the-art approaches. Code is available at https://github.com/XTU-PR-LAB/SfMNeRF
翻訳日:2023-04-12 14:43:15 公開日:2023-04-11
# 事前訓練されたコードモデルの効率的な微調整に向けて:実験とその先

Towards Efficient Fine-tuning of Pre-trained Code Models: An Experimental Study and Beyond ( http://arxiv.org/abs/2304.05216v1 )

ライセンス: Link先を確認
Ensheng Shi, Yanlin Wang, Hongyu Zhang, Lun Du, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) 近年、ダウンストリームタスクにおけるCodeBERTのような微調整済みのコードモデルが、多くのソフトウェアテストおよび分析タスクで大きな成功を収めている。 有効で普及しているが、事前学習されたパラメータの微調整には大きな計算コストがかかる。 本稿では,事前学習された表象とそれらのコード知識について,微調整中に何が起こるかを検討するために,広範囲な実験を行った。 次に,上記の結果に基づいて,事前学習した大規模コードモデルを微調整するための効率的な代替案を提案する。 実験の結果,(1)ソースコードの語彙的,構文的,構造的特性はそれぞれ下位層,中間層,上位層にエンコードされ,一方,意味的性質はモデル全体にまたがっていることがわかった。 2) 微調整のプロセスは、ほとんどのコードプロパティを保存します。 特に、下位層と中間層によってキャプチャされる基本的なコード特性は、微調整の間も保存される。 さらに,下流タスクの微調整において,上位2層のみの表現が大きく変化することがわかった。 (3) 上記の知見に基づき, レイヤ凍結による事前学習コードモデルの微調整を効率的に行うTellyを提案する。 5つのダウンストリームタスクの広範な実験結果は、トレーニングパラメータと対応する時間コストが大幅に削減され、パフォーマンスは同等かそれ以上であることを示している。 ソースコード、データセット、オンライン付録を含むレプリケーションパッケージは、 \url{https://github.com/deepsoftwareanalytics/telly} で利用可能である。

Recently, fine-tuning pre-trained code models such as CodeBERT on downstream tasks has achieved great success in many software testing and analysis tasks. While effective and prevalent, fine-tuning the pre-trained parameters incurs a large computational cost. In this paper, we conduct an extensive experimental study to explore what happens to layer-wise pre-trained representations and their encoded code knowledge during fine-tuning. We then propose efficient alternatives to fine-tune the large pre-trained code model based on the above findings. Our experimental study shows that (1) lexical, syntactic and structural properties of source code are encoded in the lower, intermediate, and higher layers, respectively, while the semantic property spans across the entire model. (2) The process of fine-tuning preserves most of the code properties. Specifically, the basic code properties captured by lower and intermediate layers are still preserved during fine-tuning. Furthermore, we find that only the representations of the top two layers change most during fine-tuning for various downstream tasks. (3) Based on the above findings, we propose Telly to efficiently fine-tune pre-trained code models via layer freezing. The extensive experimental results on five various downstream tasks demonstrate that training parameters and the corresponding time cost are greatly reduced, while performances are similar or better. Replication package including source code, datasets, and online Appendix is available at: \url{https://github.com/DeepSoftwareAnalytics/Telly}.
翻訳日:2023-04-12 14:42:54 公開日:2023-04-11
# 実世界バイオメディカルファクトチェックのためのエンティティベースのクレーム抽出パイプライン

An Entity-based Claim Extraction Pipeline for Real-world Biomedical Fact-checking ( http://arxiv.org/abs/2304.05268v1 )

ライセンス: Link先を確認
Amelie W\"uhrl, Lara Grimminger, Roman Klinger(参考訳) 既存のバイオメディカルクレームのファクトチェックモデルは、一般的に合成データやよく表現されたデータに基づいて訓練され、ソーシャルメディアのコンテンツにはほとんど転送されない。 このミスマッチは、ソーシャルメディアの入力を、共通のトレーニングクレームの焦点を合わせた性質に適応させることで軽減することができる。 そのために、Wuehrl & Klinger (2022) は、テキスト中の医療機関に基づく簡潔なクレームの抽出を提案している。 しかし、彼らの研究には2つの制限がある。 したがって、現実世界のアプリケーションに対するその実現性は、自動的に関連エンティティを検出する必要があるため、評価できない。 第二に、クレームエンティティを元のトークンで表現する。 これは、ファクトチェックのパフォーマンスを制限する用語ミスマッチを構成する。 両者の課題を理解するために,名前付きエンティティ認識とエンティティリンクによる用語正規化を組み込んだ医療ツイートのクレーム抽出パイプラインを提案する。 自動NERは金のアノテーションに比べて性能が低下するが,事実チェック性能は変化しないツイートの入力よりも改善されている。 しかし、エンティティを標準形式に正規化しても、パフォーマンスは向上しない。

Existing fact-checking models for biomedical claims are typically trained on synthetic or well-worded data and hardly transfer to social media content. This mismatch can be mitigated by adapting the social media input to mimic the focused nature of common training claims. To do so, Wuehrl & Klinger (2022) propose to extract concise claims based on medical entities in the text. However, their study has two limitations: First, it relies on gold-annotated entities. Therefore, its feasibility for a real-world application cannot be assessed since this requires detecting relevant entities automatically. Second, they represent claim entities with the original tokens. This constitutes a terminology mismatch which potentially limits the fact-checking performance. To understand both challenges, we propose a claim extraction pipeline for medical tweets that incorporates named entity recognition and terminology normalization via entity linking. We show that automatic NER does lead to a performance drop in comparison to using gold annotations but the fact-checking performance still improves considerably over inputting the unchanged tweets. Normalizing entities to their canonical forms does, however, not improve the performance.
翻訳日:2023-04-12 14:36:43 公開日:2023-04-11
# 個人化テキスト画像生成のための制御可能なテキストインバージョン

Controllable Textual Inversion for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2304.05265v1 )

ライセンス: Link先を確認
Jianan Yang, Haobo Wang, Ruixuan Xiao, Sai Wu, Gang Chen, Junbo Zhao(参考訳) 最近の大規模生成モデリングは、特にテキストプロンプトによって駆動される高忠実度画像の生成において、前例のない性能を達成した。 text inversion(ti)は、text-to-imageモデルバックボーンと共に、プロンプトがユーザ定義、未認識、あるいはロングテールの概念トークンを含む場合に、生成をパーソナライズするための効果的な技術として提案されている。 それにもかかわらず、TIのデプロイメントは依然として"暗黒の魔術"に満ちており、例えば、追加データセットの厳しい要求、ループにおける厳しい人的努力、堅牢性の欠如などがあります。 本研究では,制御可能なテキスト・インバージョン(COTI)と呼ばれるTIの高機能バージョンを提案し,上記の問題をすべて解決し,堅牢でデータ効率の良い,使いやすいフレームワークを提供する。 COTIの中核は、アクティブラーニングパラダイムによってカプセル化された、包括的で斬新なスコアリング機構でインスタンス化された理論的に誘導された損失目標である。 広範な結果は、cotiが以前のti関連アプローチを大きく上回り、fidスコアが26.05減少し、r-precisionが23.00%上昇したことを示している。

The recent large-scale generative modeling has attained unprecedented performance especially in producing high-fidelity images driven by text prompts. Text inversion (TI), alongside the text-to-image model backbones, is proposed as an effective technique in personalizing the generation when the prompts contain user-defined, unseen or long-tail concept tokens. Despite that, we find and show that the deployment of TI remains full of "dark-magics" -- to name a few, the harsh requirement of additional datasets, arduous human efforts in the loop and lack of robustness. In this work, we propose a much-enhanced version of TI, dubbed Controllable Textual Inversion (COTI), in resolving all the aforementioned problems and in turn delivering a robust, data-efficient and easy-to-use framework. The core to COTI is a theoretically-guided loss objective instantiated with a comprehensive and novel weighted scoring mechanism, encapsulated by an active-learning paradigm. The extensive results show that COTI significantly outperforms the prior TI-related approaches with a 26.05 decrease in the FID score and a 23.00% boost in the R-precision.
翻訳日:2023-04-12 14:36:26 公開日:2023-04-11
# ニュースレコメンデーションのためのプロンプト学習

Prompt Learning for News Recommendation ( http://arxiv.org/abs/2304.05263v1 )

ライセンス: Link先を確認
Zizhuo Zhang and Bang Wang(参考訳) 最近の \textit{news recommendation} (NR) メソッドでは、慎重に設計されたレコメンデーション固有のニューラルネットワークと目的関数を備えたバニラ事前訓練および微調整パラダイムに従って、ニュース表現をエンコードする事前学習言語モデル (PLM) が導入されている。 PLMの課題目標と矛盾するため、これらのモデリングパラダイムは、事前学習プロセスに埋め込まれた豊富な意味情報や言語知識を十分に活用していないと論じる。 近年,「textit{prompt learning}」と呼ばれる事前学習,プロンプト,予測パラダイムが自然言語処理領域において多くの成功を収めている。 本稿では,この新パラダイムの最初の試行として,ユーザが候補ニュースをクローゼスタイルのマスク予測タスクとしてクリックするかどうかを予測するタスクを変換する,‘textit{Prompt Learning for News Recommendation} (Prompt4NR) フレームワークを開発する。 具体的には,離散的,連続的,ハイブリッドなテンプレートを含む一連のプロンプトテンプレートを設計し,それらに対応する応答空間を構築し,提案するpromp 4nrフレームワークを検討する。 さらに、複数のプロンプトテンプレートからの予測を統合するために、プロンプトアンサンブルを使用する。 MINDデータセットに関する大規模な実験は、新しいベンチマーク結果のセットを用いて、我々のPrompt4NRの有効性を検証する。

Some recent \textit{news recommendation} (NR) methods introduce a Pre-trained Language Model (PLM) to encode news representation by following the vanilla pre-train and fine-tune paradigm with carefully-designed recommendation-specific neural networks and objective functions. Due to the inconsistent task objective with that of PLM, we argue that their modeling paradigm has not well exploited the abundant semantic information and linguistic knowledge embedded in the pre-training process. Recently, the pre-train, prompt, and predict paradigm, called \textit{prompt learning}, has achieved many successes in natural language processing domain. In this paper, we make the first trial of this new paradigm to develop a \textit{Prompt Learning for News Recommendation} (Prompt4NR) framework, which transforms the task of predicting whether a user would click a candidate news as a cloze-style mask-prediction task. Specifically, we design a series of prompt templates, including discrete, continuous, and hybrid templates, and construct their corresponding answer spaces to examine the proposed Prompt4NR framework. Furthermore, we use the prompt ensembling to integrate predictions from multiple prompt templates. Extensive experiments on the MIND dataset validate the effectiveness of our Prompt4NR with a set of new benchmark results.
翻訳日:2023-04-12 14:36:02 公開日:2023-04-11
# vqeを用いた励起状態の研究のためのペナルティのシーケンス

Sequence of penalties method to study excited states using VQE ( http://arxiv.org/abs/2304.05262v1 )

ライセンス: Link先を確認
Rodolfo Carobene, Stefano Barison, Andrea Giachero(参考訳) 本稿では、より正確なエネルギー推定を導き、励起状態の研究に使用できる変分量子固有解法(VQE)の拡張を提案する。 この方法は、コスト関数におけるペナルティの増加のシーケンスの導入に基づいている。 このアプローチは回路の変更を必要としないため、追加の深度コストで適用することができる。 数値シミュレーションにより,全スピンや電荷など,所望の物理的性質を持つ変分状態を生成することができることを示した。 我々は、古典シミュレータと現在利用可能な量子デバイスの両方で性能を評価し、物理構成の異なる小さな分子系のポテンシャルエネルギー曲線を計算する。 最後に,本手法を元のVQE法と他の拡張法と比較し,エネルギー量と対象物理量の両方の正確なシミュレーションとよく一致した。

We propose an extension of the Variational Quantum Eigensolver (VQE) that leads to more accurate energy estimations and can be used to study excited states. The method is based on the introduction of a sequence of increasing penalties in the cost function. This approach does not require circuit modifications and thus can be applied with no additional depth cost. Through numerical simulations, we show that we are able to produce variational states with desired physical properties, such as total spin and charge. We assess its performance both on classical simulators and on currently available quantum devices, calculating the potential energy curves of small molecular systems in different physical configurations. Finally, we compare our method to the original VQE and to another extension, obtaining a better agreement with exact simulations for both energy and targeted physical quantities.
翻訳日:2023-04-12 14:35:36 公開日:2023-04-11
# 再重み付けソフトマックスクロスエントロピーによるフェデレーション学習における忘れ方制御

Re-Weighted Softmax Cross-Entropy to Control Forgetting in Federated Learning ( http://arxiv.org/abs/2304.05260v1 )

ライセンス: Link先を確認
Gwen Legate, Lucas Caccia, Eugene Belilovsky(参考訳) フェデレーション学習では、独立したクライアントノードの集合で計算されたモデル更新を集約することで、コミュニケーションコストを低減し、集約前に各ノードで複数の勾配ステップを実行することにより、グローバルモデルを学ぶ。 この設定における重要な課題は、クライアント間のデータの不均一性であり、結果として、クライアントは、グローバルソリューションから切り離されて、自身のローカルな目標を過度に最小化することができるローカルな目的が異なる。 個々のクライアントモデルが他のクライアントのデータに関して壊滅的な忘れを経験できることを実証し、損失を計算する前にsoftmaxロジットを再重み付けすることによりクライアント単位のクロスエントロピー目標を修正する効率的なアプローチを提案する。 このアプローチは、クライアントのラベルセット外のクラスを突然の表現変更から保護し、クライアントの忘れを緩和し、標準のフェデレーション学習アルゴリズムに一貫した改善をもたらすことを実証的に実証する。 本手法は,データの不均一性が高く,各ラウンドのクライアント参加率が低い,最も困難な連合学習環境において特に有益である。

In Federated Learning, a global model is learned by aggregating model updates computed at a set of independent client nodes, to reduce communication costs multiple gradient steps are performed at each node prior to aggregation. A key challenge in this setting is data heterogeneity across clients resulting in differing local objectives which can lead clients to overly minimize their own local objective, diverging from the global solution. We demonstrate that individual client models experience a catastrophic forgetting with respect to data from other clients and propose an efficient approach that modifies the cross-entropy objective on a per-client basis by re-weighting the softmax logits prior to computing the loss. This approach shields classes outside a client's label set from abrupt representation change and we empirically demonstrate it can alleviate client forgetting and provide consistent improvements to standard federated learning algorithms. Our method is particularly beneficial under the most challenging federated learning settings where data heterogeneity is high and client participation in each round is low.
翻訳日:2023-04-12 14:35:24 公開日:2023-04-11
# 知識追跡のための多粒度時間変換器

Multi-granulariy Time-based Transformer for Knowledge Tracing ( http://arxiv.org/abs/2304.05257v1 )

ライセンス: Link先を確認
Tong Zhou(参考訳) 本稿では,標準化試験における学生のパフォーマンス予測のためのトランスフォーマーアーキテクチャを提案する。 具体的には、過去のテストスコア、学習習慣、その他の関連情報を含む学生の履歴データを活用して、各学生にパーソナライズされたモデルを作成します。 次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。 このモデルをriiidデータセットに適用することにより,デコーダ入力として時間的特徴に複数の粒度を用いることで,モデル性能が大幅に向上することを示す。 また,本手法の有効性を示すとともに,LightGBM法よりも大幅に改善した。 我々の研究は、教育におけるAIの分野の成長に貢献し、学生の成果を予測するスケーラブルで正確なツールを提供する。

In this paper, we present a transformer architecture for predicting student performance on standardized tests. Specifically, we leverage students historical data, including their past test scores, study habits, and other relevant information, to create a personalized model for each student. We then use these models to predict their future performance on a given test. Applying this model to the RIIID dataset, we demonstrate that using multiple granularities for temporal features as the decoder input significantly improve model performance. Our results also show the effectiveness of our approach, with substantial improvements over the LightGBM method. Our work contributes to the growing field of AI in education, providing a scalable and accurate tool for predicting student outcomes.
翻訳日:2023-04-12 14:35:02 公開日:2023-04-11
# インクリメンタルオブジェクトカウントのための密度マップ蒸留

Density Map Distillation for Incremental Object Counting ( http://arxiv.org/abs/2304.05255v1 )

ライセンス: Link先を確認
Chenshen Wu and Joost van de Weijer(参考訳) 本研究では,データ列から様々なオブジェクトクラスを数える方法を学ぶ必要があるオブジェクトカウントのためのインクリメンタル学習の問題について検討する。 漸進的なオブジェクトの数え上げに対するna\" なアプローチは、過去のタスクで劇的なパフォーマンス低下に苦しむような、破滅的な忘れに苦しむだろう。 本稿では, 密度マップ蒸留法 (DMD) と呼ばれる, 現代的な機能正規化手法を提案する。 トレーニング中,各タスクに新しいカウンタヘッドを導入し,蒸留損失を導入して前回のタスクの忘れることを防止する。 さらに,現在のバックボーンの機能を以前のバックボーンに投影するクロスタスクアダプタも導入する。 このプロジェクタは新機能の学習を可能にし、バックボーンは以前のタスクに関連する機能を保持する。 最後に,新しいオブジェクトを数えるためのインクリメンタル学習の実験を行った。 その結果,本手法は破滅的忘れを著しく減らし,既存手法よりも優れていたことが確認された。

We investigate the problem of incremental learning for object counting, where a method must learn to count a variety of object classes from a sequence of datasets. A na\"ive approach to incremental object counting would suffer from catastrophic forgetting, where it would suffer from a dramatic performance drop on previous tasks. In this paper, we propose a new exemplar-free functional regularization method, called Density Map Distillation (DMD). During training, we introduce a new counter head for each task and introduce a distillation loss to prevent forgetting of previous tasks. Additionally, we introduce a cross-task adaptor that projects the features of the current backbone to the previous backbone. This projector allows for the learning of new features while the backbone retains the relevant features for previous tasks. Finally, we set up experiments of incremental learning for counting new objects. Results confirm that our method greatly reduces catastrophic forgetting and outperforms existing methods.
翻訳日:2023-04-12 14:34:50 公開日:2023-04-11
# プロンプトによる社会チャットボットの人間評価の近似

Approximating Human Evaluation of Social Chatbots with Prompting ( http://arxiv.org/abs/2304.05253v1 )

ライセンス: Link先を確認
Ekaterina Svikhnushina and Pearl Pu(参考訳) 強力な対話モデルが広く利用できるようになると、ユーザはこの技術とのソーシャルな交流に積極的に取り組み始めた。 このような前例のない対話体験は、テクノロジーが適切に制御されない限り、ユーザーにかなりの社会的および心理的リスクをもたらす可能性がある。 これにより、会話型チャットボットのためのスケーラブルで堅牢な評価メトリクスが緊急に必要となる。 既存の自動評価指標は、通常、客観的な品質指標と社会的次元の主観的な知覚を無視している。 さらに、これらのアプローチのほとんどは、利用可能なベンチマークコーパスから事前に生成されたダイアログで動作し、評価のための材料の作成に人間が関与することを示し、メトリクスのスケーラビリティを阻害する。 この制限に対処するため,GPTファミリーからの新たな大規模言語モデル(LLM)の利用を提案し,プロンプトによる対話システム評価を行うための新しいフレームワークについて述べる。 このフレームワークにより、評価パイプラインの完全な自動化を実現し、人間の判断と印象的な相関(システムレベルではPearson r=0.95まで)に達することができる。 基本的なコンセプトは、評価されたボットの合成チャットログを、LLMが特定のシナリオに従うように慎重に調整された他のプレイ設定でLLMで収集することである。 さらに,同じllmで評価スコアを生成するための,さまざまなプロンプトアプローチについても検討する。 数少ないショーデモとインストラクションを含む最高のパフォーマンスプロンプトは、テストデータセットで優れたパフォーマンスを示し、他のダイアログコーパスに一般化する能力を示している。

Once powerful conversational models have become available for a wide audience, users started actively engaging in social interactions with this technology. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This creates an urgent need for scalable and robust evaluation metrics for conversational chatbots. Existing automatic evaluation metrics usually focus on objective quality measures and disregard subjective perceptions of social dimensions. Moreover, most of these approaches operate on pre-produced dialogs from available benchmark corpora, which implies human involvement for preparing the material for evaluation and, thus, impeded scalability of the metrics. To address this limitation, we propose to make use of the emerging large language models (LLMs) from the GPT-family and describe a new framework allowing to conduct dialog system evaluation with prompting. With this framework, we are able to achieve full automation of the evaluation pipeline and reach impressive correlation with the human judgement (up to Pearson r=0.95 on system level). The underlying concept is to collect synthetic chat logs of evaluated bots with a LLM in the other-play setting, where LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best-performing prompts, containing few-show demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.
翻訳日:2023-04-12 14:34:35 公開日:2023-04-11
# 量子ワーク貯蔵用rydbergイオンフライホイール

A Rydberg ion flywheel for quantum work storage ( http://arxiv.org/abs/2304.05252v1 )

ライセンス: Link先を確認
Wilson S. Martins, Federico Carollo, Weibin Li, Kay Brandner, Igor Lesanovsky(参考訳) 閉じ込められたイオンは、長いコヒーレンス時間と高いスケーラビリティと制御性を提供する量子技術のためのプラットフォームを提供する。 ここでは、このプラットフォームを用いて、2つのレーザー駆動で強く結合したRydbergイオンからなる熱デバイスの現実的なモデルを開発する。 このシステムの翻訳自由度は、電子自由度に適用される循環熱力学過程によって生成されるワークアウトプットを格納するフライホイールとして利用できることを示す。 このような過程を外部制御パラメータの周期的変動によって模倣し, 関連する物理過程を同定し, フライホイールの帯電率を決定するために, 正確な数値計算および解析計算に基づく平均場アプローチを用いる。 我々の研究は、多体作業媒体と普遍的な作業記憶装置の両方を備えることができるRydbergイオンに基づく顕微鏡熱機械の設計の道を開く。

Trapped ions provide a platform for quantum technologies that offers long coherence times and high degrees of scalability and controllability. Here, we use this platform to develop a realistic model of a thermal device consisting of two laser-driven, strongly coupled Rydberg ions in a harmonic trap. We show that the translational degrees of freedom of this system can be utilized as a flywheel storing the work output that is generated by a cyclic thermodynamic process applied to its electronic degrees of freedom. Mimicking such a process through periodic variations of external control parameters, we use a mean-field approach underpinned by exact numerical and analytical calculations to identify relevant physical processes and to determine the charging rate of the flywheel. Our work paves the way for the design of microscopic thermal machines based on Rydberg ions that can be equipped with both many-body working media and universal work storages.
翻訳日:2023-04-12 14:34:12 公開日:2023-04-11
# すべての多部交絡は局所微分可能な基底における量子コヒーレンスである

All multipartite entanglements are quantum coherences in locally distinguishable bases ( http://arxiv.org/abs/2304.05249v1 )

ライセンス: Link先を確認
Ahana Ghoshal, Swati Choudhary, and Ujjwal Sen(参考訳) 多成分量子系のm分離性とk成分の絡み合いは、完全正規直交基底に関して同じ量子コヒーレンスと相関しており、局所演算やある分割における古典的通信の下で区別できる。 特に、多成分量子状態のm-分離不能な絡み合いの幾何学的測度は、m-成分の分割において局所的に区別可能な完全正規直交基底に関して、状態の最小忠実性に基づく量子コヒーレンスの二乗に等しいことを示す。

We find that the m-separability and k-partite entanglement of a multipartite quantum system is correlated with quantum coherence of the same with respect to complete orthonormal bases, distinguishable under local operations and classical communication in certain partitions. In particular, we show that the geometric measure of m-inseparable entanglement of a multipartite quantum state is equal to the square of minimum fidelity-based quantum coherence of the state with respect to complete orthonormal bases, that are locally distinguishable in a partition into m-parties.
翻訳日:2023-04-12 14:33:57 公開日:2023-04-11
# マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択

Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery ( http://arxiv.org/abs/2304.05294v1 )

ライセンス: Link先を確認
Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus(参考訳) 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。 ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。 この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。 このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。 これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。 我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。 我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。 条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。 機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。 因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。

Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.
翻訳日:2023-04-12 14:27:40 公開日:2023-04-11
# 荷電粒子追跡のための等変グラフニューラルネットワーク

Equivariant Graph Neural Networks for Charged Particle Tracking ( http://arxiv.org/abs/2304.05293v1 )

ライセンス: Link先を確認
Daniel Murnane, Savannah Thais, Ameya Thete(参考訳) グラフニューラルネットワーク(GNN)は、精度とスケーラビリティを向上させる可能性から、高エネルギー物理学(HEP)で注目を集めている。 しかし、それらの資源集約的な性質と複雑な操作は、対称性同変アーキテクチャの開発を動機付けた。 本研究では,荷電粒子追跡のための新しい対称性等価GNNであるEuclidNetを紹介する。 EuclidNetは衝突事象のグラフ表現を利用し、検出器のビーム線軸に対する回転対称性を強制し、より効率的なモデルをもたらす。 HL-LHC(High-Luminosity Large Hadron Collider)で期待される高ピーク条件をシミュレートするTrackMLデータセット上の最先端インタラクションネットワークに対して,EuclidNetをベンチマークした。 その結果, euclidnet は小モデルスケール (<1000 パラメータ) で最先端性能を達成し,非同値ベンチマークを上回った。 本研究は,HEP実験における粒子追跡のためのより資源効率の高いGNNモデルに関する今後の研究の道を開くものである。

Graph neural networks (GNNs) have gained traction in high-energy physics (HEP) for their potential to improve accuracy and scalability. However, their resource-intensive nature and complex operations have motivated the development of symmetry-equivariant architectures. In this work, we introduce EuclidNet, a novel symmetry-equivariant GNN for charged particle tracking. EuclidNet leverages the graph representation of collision events and enforces rotational symmetry with respect to the detector's beamline axis, leading to a more efficient model. We benchmark EuclidNet against the state-of-the-art Interaction Network on the TrackML dataset, which simulates high-pileup conditions expected at the High-Luminosity Large Hadron Collider (HL-LHC). Our results show that EuclidNet achieves near-state-of-the-art performance at small model scales (<1000 parameters), outperforming the non-equivariant benchmarks. This study paves the way for future investigations into more resource-efficient GNN models for particle tracking in HEP experiments.
翻訳日:2023-04-12 14:27:12 公開日:2023-04-11
# MC-ViViT:Multi-branch Classifier-ViViTによる高齢者の軽度認知障害の検出

MC-ViViT: Multi-branch Classifier-ViViT to Detect Mild Cognitive Impairment in Older Adults using Facial Videos ( http://arxiv.org/abs/2304.05292v1 )

ライセンス: Link先を確認
Jian Sun, Hiroko H. Dodge, and Mohammad H. Mahoor(参考訳) 畳み込みニューラルネットワーク(cnn)を含む深層機械学習モデルは、医療画像、アンケート、ビデオを用いた軽度認知障害(mci)の検出に成功している。 本稿では,mciと正常認知を有するものを顔特徴解析により区別するマルチブランチ分類器・ビデオビジョントランスフォーマ(mc-vivit)モデルを提案する。 このデータは、頻繁なビデオチャットを提供することで認知機能を改善するための行動介入試験であるI-CONECTから得られたものだ。 MC-ViViTは1つのブランチでビデオの時空間的特徴を抽出し、MCモジュールによる表現を拡大する。 I-CONECTデータセットは、MC-ViViTのパフォーマンスを妨げるHard-EasyとPositive-Negativeのサンプルを含むデータセットの不均衡のため、難しい。 不均衡な問題に対処するために,Focal LossとAD-CORRE Lossを組み合わせたHP Loss(HP Loss)の損失関数を提案する。 I-CONECTデータセットの実験結果から,MC-ViViTがMCIを90.63倍の精度で予測できる可能性が示された。

Deep machine learning models including Convolutional Neural Networks (CNN) have been successful in the detection of Mild Cognitive Impairment (MCI) using medical images, questionnaires, and videos. This paper proposes a novel Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to distinguish MCI from those with normal cognition by analyzing facial features. The data comes from the I-CONECT, a behavioral intervention trial aimed at improving cognitive function by providing frequent video chats. MC-ViViT extracts spatiotemporal features of videos in one branch and augments representations by the MC module. The I-CONECT dataset is challenging as the dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE loss to address the imbalanced problem. Our experimental results on the I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a high accuracy of 90.63\% accuracy on some of the interview videos.
翻訳日:2023-04-12 14:26:55 公開日:2023-04-11
# 非マルコフ開量子系シミュレーションにおけるサブ線形スケーリング

Sublinear scaling in non-Markovian open quantum systems simulations ( http://arxiv.org/abs/2304.05291v1 )

ライセンス: Link先を確認
Moritz Cygorek, Jonathan Keeling, Brendon W. Lovett, Erik M. Gauger(参考訳) 非マルコフ開量子システムのダイナミクスを予測するためにいくつかの数値的手法が利用可能であるが、多くの場合、非常に長い記憶時間と伝播時間のシミュレーションに苦労している。 そこで本研究では,ガウス環境を表すテンソルネットワークの自己相似性を活用することで,従来のアルゴリズムに比較して,プロセステンソル(環境影響のコンパクト表現)を計算する数値的厳密なアルゴリズムを提案する。 分割・分割戦略に基づいて、無限メモリ環境に対して、このアプローチは$\mathcal{o}(n\log n)$ 特異値分解しか必要としない。 n_c$ 時間ステップの後にメモリを切断できる場合には、$n$ とは独立に$\mathcal{o}(n_c\log n_c)$ をスケーリングする。 この改良されたスケーリングは、繰り返し可能なブロックでプロセステンソルを識別することで実現されている。 このアプローチのパワーと有用性を示すために,3つの例を挙げる。 1)強い駆動と強いドットフォノンカップリングの両方の下で量子ドットの蛍光スペクトルを計算する。 2) マルチエミッタの超輝度を記述するプロセステンソルを効率よく見つける。 (3) 強結合環境下でのコヒーレンス崩壊を考慮したアルゴリズムの限界について検討する。 ここで提案するアルゴリズムは、数値的精度の高い手法の範囲を長いメモリ時間で開ける量子システムにまで拡大するだけでなく、シミュレーションの複雑さにも根本的な影響を与える。

While several numerical techniques are available for predicting the dynamics of non-Markovian open quantum systems, most struggle with simulations for very long memory and propagation times, e.g., due to superlinear scaling with the number of time steps $n$. Here, we introduce a numerically exact algorithm to calculate process tensors -- compact representations of environmental influences -- which provides a scaling advantage over previous algorithms by leveraging self-similarity of the tensor networks that represent Gaussian environments. Based on a divide-and-conquer strategy, our approach requires only $\mathcal{O}(n\log n)$ singular value decompositions for environments with infinite memory. Where the memory can be truncated after $n_c$ time steps, a scaling $\mathcal{O}(n_c\log n_c)$ is found, which is independent of $n$. This improved scaling is enabled by identifying process tensors with repeatable blocks. To demonstrate the power and utility of our approach we provide three examples. (1) We calculate the fluorescence spectra of a quantum dot under both strong driving and strong dot-phonon couplings, a task requiring simulations over millions of time steps, which we are able to perform in minutes. (2) We efficiently find process tensors describing superradiance of multiple emitters. (3) We explore the limits of our algorithm by considering coherence decay with a very strongly coupled environment. The algorithm we present here not only significantly extends the scope of numerically exact techniques to open quantum systems with long memory times, but also has fundamental implications for simulation complexity.
翻訳日:2023-04-12 14:26:32 公開日:2023-04-11
# 生涯学習におけるタスク難易度を考慮したパラメータ割り当てと正規化

Task Difficulty Aware Parameter Allocation & Regularization for Lifelong Learning ( http://arxiv.org/abs/2304.05288v1 )

ライセンス: Link先を確認
Wenjin Wang, Yunqing Hu, Qianglong Chen, Yin Zhang(参考訳) パラメータ正規化やアロケーション手法は、生涯学習における破滅的な忘れを克服するのに有効である。 しかし、全てのタスクを一様に解決し、異なるタスクの学習困難さの違いを無視する。 したがって、パラメータの正規化メソッドは、学習したタスクと全く異なる新しいタスクを学ぶとき、重要な忘れに直面する。 本稿では,各タスクの学習難易度に基づいて,パラメータ割当と正規化から適切な戦略を適応的に選択するパラメータ割当・正規化(par)を提案する。 タスクは、それに関連するタスクを学んだモデルにとって簡単で、その逆も同様です。 新しいタスクの特徴のみを用いてタスク関連性を測定するため,Nearest-Prototype 距離に基づく分岐推定手法を提案する。 さらに,時間効率に配慮したサンプリング型アーキテクチャ探索手法を提案し,アロケーションのパラメータのオーバーヘッドを低減する。 複数のベンチマークによる実験結果から,SOTAと比較して拡張性が高く,モデルの冗長性を著しく低減し,性能が向上することが示された。 さらなる定性的分析はparが合理的なタスク関連性を得ることを示している。

Parameter regularization or allocation methods are effective in overcoming catastrophic forgetting in lifelong learning. However, they solve all tasks in a sequence uniformly and ignore the differences in the learning difficulty of different tasks. So parameter regularization methods face significant forgetting when learning a new task very different from learned tasks, and parameter allocation methods face unnecessary parameter overhead when learning simple tasks. In this paper, we propose the Parameter Allocation & Regularization (PAR), which adaptively select an appropriate strategy for each task from parameter allocation and regularization based on its learning difficulty. A task is easy for a model that has learned tasks related to it and vice versa. We propose a divergence estimation method based on the Nearest-Prototype distance to measure the task relatedness using only features of the new task. Moreover, we propose a time-efficient relatedness-aware sampling-based architecture search strategy to reduce the parameter overhead for allocation. Experimental results on multiple benchmarks demonstrate that, compared with SOTAs, our method is scalable and significantly reduces the model's redundancy while improving the model's performance. Further qualitative analysis indicates that PAR obtains reasonable task-relatedness.
翻訳日:2023-04-12 14:26:06 公開日:2023-04-11
# フォトニックシミュレーションによる$D(S_3)$anyonsの非アベリア統計の解明

Unveiling the non-Abelian statistics of $D(S_3)$ anyons via photonic simulation ( http://arxiv.org/abs/2304.05286v1 )

ライセンス: Link先を確認
Suraj Goel, Matthew Reynolds, Matthew Girling, Will McCutcheon, Saroch Leedumrongwatthanakun, Vatshal Srivastav, David Jennings, Mehul Malik, Jiannis K. Pachos(参考訳) シミュレーターは、それらを完全な物理実装の複雑さから切り離すことで、新しい現象を実現することができる。 ここでは、最小資源を持つ非アベリア素数$D(S_3)$のエキゾチック統計をシミュレートできるスキームを提案する。 この平面符号のqudit格子表現は$D(S_3)$ anyonsの局所符号化をサポートする。 原理実証として、我々は1つのクトリットを符号化し、操作するためにフォトニックシミュレータを使用し、非可換 $d(s_3)$ anyon の融合およびブレイディング特性を実行する。 フォトニック技術により、現在の量子コンピュータで達成できるものよりもはるかに高い忠実度で、必要な非単位演算を実行できる。 我々のアプローチは、より大きなシステムや異なる異種モデルに直接一般化することができ、量子エラー補正や基礎物理学の探求の進歩を可能にする。

Simulators can realise novel phenomena by separating them from the complexities of a full physical implementation. Here we put forward a scheme that can simulate the exotic statistics of $D(S_3)$ non-Abelian anyons with minimal resources. The qudit lattice representation of this planar code supports local encoding of $D(S_3)$ anyons. As a proof-of-principle demonstration we employ a photonic simulator to encode a single qutrit and manipulate it to perform the fusion and braiding properties of non-Abelian $D(S_3)$ anyons. The photonic technology allows us to perform the required non-unitary operations with much higher fidelity than what can be achieved with current quantum computers. Our approach can be directly generalised to larger systems or to different anyonic models, thus enabling advances in the exploration of quantum error correction and fundamental physics alike.
翻訳日:2023-04-12 14:25:48 公開日:2023-04-11
# 全距離イジングモデルによるN$ spin-$1/2$システムにおける量子絡み合い、幾何学的および動的外観の相補性

Complementarity between quantum entanglement, geometrical and dynamical appearances in $N$ spin-$1/2$ system under all-range Ising model ( http://arxiv.org/abs/2304.05278v1 )

ライセンス: Link先を確認
Jamal Elfakir, Brahim Amghar, Abdallah Slaoui and Mohammed Daoud(参考訳) 幾何学科学の成長に伴い、現代の幾何学によって情報の世界を探索する手法を含め、幾何学的・位相的・動的特性と量子的絡み合いとの間には謎の曖昧な関係が常にある。 幾何学は距離や曲率などの要素間の相互関係を研究するため、積分可能量子系の実用的で理解可能な記述をもたらす強力な構造を持つ情報科学を提供する。 ここでは、これらの構造を全範囲イジングモデルの下でN$相互作用スピン-1/2$の物理系で探索する。 システムダイナミクスを実行することで、関連する量子状態空間を定義するフビニ・スタディ計量を決定する。 ガウス・ボネットの定理の範囲内でガウス曲率を適用することで、ダンベル構造と球面トポロジーの両方を持つ閉2次元多様体上でダイナミクスが起こることを証明した。 システム進化過程中に現れる幾何学的および位相的位相相を十分に議論する。 その後、時間最適進化を達成することにより、量子ブラキストローネ問題を解く。 システム全体を2つのスピン-1/2$系に制限することで、関連する絡み合いを2つの視点から検討し、絡み合いレベルがフビニ-スタディ計量、ガウス曲率、幾何位相といった幾何学的構造にどのように影響するかを考察する。 2つ目は動的自然現象であり、進化速度と関連するフビニ-スタディ距離の絡み合い効果に対処する。 さらに、絡み合いの度合いにより、量子ブラキストロン問題を解く。

With the growth of geometric science, including the methods of exploring the world of information by means of modern geometry, there has always been a mysterious and fascinating ambiguous link between geometric, topological and dynamical characteristics with quantum entanglement. Since geometry studies the interrelations between elements such as distance and curvature, it provides the information sciences with powerful structures that yield practically useful and understandable descriptions of integrable quantum systems. We explore here these structures in a physical system of $N$ interaction spin-$1/2$ under all-range Ising model. By performing the system dynamics, we determine the Fubini-Study metric defining the relevant quantum state space. Applying Gaussian curvature within the scope of the Gauss-Bonnet theorem, we proved that the dynamics happens on a closed two-dimensional manifold having both a dumbbell-shape structure and a spherical topology. The geometric and topological phases appearing during the system evolution processes are sufficiently discussed. Subsequently, we resolve the quantum brachistochrone problem by achieving the time-optimal evolution. By restricting the whole system to a two spin-$1/2$ system, we investigate the relevant entanglement from two viewpoints; The first is of geometric nature and explores how the entanglement level affects derived geometric structures such as the Fubini-Study metric, the Gaussian curvature, and the geometric phase. The second is of dynamic nature and addresses the entanglement effect on the evolution speed and the related Fubini-Study distance. Further, depending on the degree of entanglement, we resolve the quantum brachistochrone problem.
翻訳日:2023-04-12 14:25:32 公開日:2023-04-11
# 運転シーンにおけるトポロジー推論

Topology Reasoning for Driving Scenes ( http://arxiv.org/abs/2304.05277v1 )

ライセンス: Link先を確認
Tianyu Li, Li Chen, Xiangwei Geng, Huijie Wang, Yang Li, Zhenbo Liu, Shengyin Jiang, Yuting Wang, Hang Xu, Chunjing Xu, Feng Wen, Ping Luo, Junchi Yan, Wei Zhang, Xiaogang Wang, Yu Qiao, Hongyang Li(参考訳) 自律走行を実現するためには道路ゲノムを理解することが不可欠である。 この高度にインテリジェントな問題は、レーンの接続関係と、包括的なトポロジー推論手法が欠落しているレーンと交通要素の割り当て関係という2つの側面を含む。 一方、従来の地図学習手法は、セグメンテーションやレーンのパラダイムによる車線接続の導出に苦慮しており、あるいは、車線トポロジー指向のアプローチは、中心線の検出と相互作用モデリングの無視に重点を置いている。 一方、画像領域ではレーン割り当て問題に対するトラフィック要素が限定されており、2つのビューからの対応構築方法が未解決の課題となっている。 これらの課題に対処するために,従来の知覚タスク以上のトラフィック知識を抽象化可能な,最初のエンドツーエンドフレームワークであるTopoNetを提案する。 運転シーントポロジーを捉えるために,(1)2d要素からの意味的知識を統一的な特徴空間に組み込む組込みモジュール,(2)関係をモデル化し,ネットワーク内の特徴的相互作用を可能にするためのキュレートされたシーングラフニューラルネットワーク,(3)任意にメッセージを送信する代わりにシーンナレッジグラフを考案し,様々な種類の道路ゲノムと先行知識を区別する。 私たちはtoponetを、難易度の高いシーン理解ベンチマークであるopenlane-v2で評価しています。 コードはすぐにリリースされるだろう。

Understanding the road genome is essential to realize autonomous driving. This highly intelligent problem contains two aspects - the connection relationship of lanes, and the assignment relationship between lanes and traffic elements, where a comprehensive topology reasoning method is vacant. On one hand, previous map learning techniques struggle in deriving lane connectivity with segmentation or laneline paradigms; or prior lane topology-oriented approaches focus on centerline detection and neglect the interaction modeling. On the other hand, the traffic element to lane assignment problem is limited in the image domain, leaving how to construct the correspondence from two views an unexplored challenge. To address these issues, we present TopoNet, the first end-to-end framework capable of abstracting traffic knowledge beyond conventional perception tasks. To capture the driving scene topology, we introduce three key designs: (1) an embedding module to incorporate semantic knowledge from 2D elements into a unified feature space; (2) a curated scene graph neural network to model relationships and enable feature interaction inside the network; (3) instead of transmitting messages arbitrarily, a scene knowledge graph is devised to differentiate prior knowledge from various types of the road genome. We evaluate TopoNet on the challenging scene understanding benchmark, OpenLane-V2, where our approach outperforms all previous works by a great margin on all perceptual and topological metrics. The code would be released soon.
翻訳日:2023-04-12 14:25:03 公開日:2023-04-11
# YouNICon:YouTubeの陰謀ビデオのコミュニティ

YouNICon: YouTube's CommuNIty of Conspiracy Videos ( http://arxiv.org/abs/2304.05274v1 )

ライセンス: Link先を確認
Shaoyi Liaw, Fan Huang, Fabricio Benevenuto, Haewoon Kwak, Jisun An(参考訳) 陰謀説はソーシャルメディアで広く広められている。 様々なソーシャルメディアサービスの中で、YouTubeはニュースやエンターテイメントの最も影響力のある情報源の1つである。 そこで本研究では,共謀理論の検出と,共謀理論を用いた動画の異なるトピックへの分類を行うためのデータセット「YOUNICON」を提案する。 YOUNICONは、以前の研究(Ledwich and Zaitsev 2020)で、陰謀説を含むと特定された疑わしいチャンネルから大量のビデオを集めたデータセットである。 全体として、YUUNICONは陰謀論の傾向を研究者が研究し、コミュニティやチャネルを生み出す陰謀論と個人がどのように相互作用できるかを理解することを可能にする。 私たちのデータは、https://doi.org/10.5281/zenodo.7466262で入手できます。

Conspiracy theories are widely propagated on social media. Among various social media services, YouTube is one of the most influential sources of news and entertainment. This paper seeks to develop a dataset, YOUNICON, to enable researchers to perform conspiracy theory detection as well as classification of videos with conspiracy theories into different topics. YOUNICON is a dataset with a large collection of videos from suspicious channels that were identified to contain conspiracy theories in a previous study (Ledwich and Zaitsev 2020). Overall, YOUNICON will enable researchers to study trends in conspiracy theories and understand how individuals can interact with the conspiracy theory producing community or channel. Our data is available at: https://doi.org/10.5281/zenodo.7466262.
翻訳日:2023-04-12 14:24:35 公開日:2023-04-11
# 強化学習エージェントのための自動指導カリキュラム生成

Automaton-Guided Curriculum Generation for Reinforcement Learning Agents ( http://arxiv.org/abs/2304.05271v1 )

ライセンス: Link先を確認
Yash Shukla, Abhishek Kulkarni, Robert Wright, Alvaro Velasquez, Jivko Sinapov(参考訳) 強化学習の進歩にもかかわらず、多くのシーケンシャルな意思決定タスクは違法に高価であり、学習することができないままである。 近年、論理的なタスク仕様から報酬関数を自動的に生成する手法が提案されているが、長期的なタスク(例えば、エージェントがアクションを選択しながら将来の遷移を考慮しつつ、ゴール状態に到達するために一連の正しいアクションを実行する必要があるタスク)ではスケールが貧弱である。 カリキュラム(ますます複雑なタスクのシーケンス)を採用することで、エージェントの学習能力に適した中間タスクをシークエンスすることで、エージェントの学習速度をさらに向上させる。 しかし、論理仕様からカリキュラムを生成することは未解決の問題のままである。 そこで本研究では,DAG(Directed Acyclic Graphs)という形式で,対象タスクのカリキュラムを自動的に生成する新しい手法であるAGCLを提案する。 agclは決定論的有限オートマトン(dfa)の形式で仕様を符号化し、オブジェクト指向mdp(oomdp)表現とともにdfaを使用して、頂点がタスクに対応し、エッジが知識伝達の方向に対応するdagとしてカリキュラムを生成する。 グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生成するカリキュラムは、最先端のカリキュラム学習(例えば教師学生、自己プレイ)や自動指導強化学習ベースライン(例えば、リワードマシンのQ-Learningなど)と比較して、複雑なシーケンシャルな意思決定問題に対して、時間と閾値のパフォーマンスを向上させることが示されている。 さらに,タスクのOOMDP記述にノイズが存在する場合や,タスクの目的の論理的仕様にモデル化されていないイントラクタオブジェクトが存在する場合においても,AGCLの動作が良好であることを示す。

Despite advances in Reinforcement Learning, many sequential decision making tasks remain prohibitively expensive and impractical to learn. Recently, approaches that automatically generate reward functions from logical task specifications have been proposed to mitigate this issue; however, they scale poorly on long-horizon tasks (i.e., tasks where the agent needs to perform a series of correct actions to reach the goal state, considering future transitions while choosing an action). Employing a curriculum (a sequence of increasingly complex tasks) further improves the learning speed of the agent by sequencing intermediate tasks suited to the learning capacity of the agent. However, generating curricula from the logical specification still remains an unsolved problem. To this end, we propose AGCL, Automaton-guided Curriculum Learning, a novel method for automatically generating curricula for the target task in the form of Directed Acyclic Graphs (DAGs). AGCL encodes the specification in the form of a deterministic finite automaton (DFA), and then uses the DFA along with the Object-Oriented MDP (OOMDP) representation to generate a curriculum as a DAG, where the vertices correspond to tasks, and edges correspond to the direction of knowledge transfer. Experiments in gridworld and physics-based simulated robotics domains show that the curricula produced by AGCL achieve improved time-to-threshold performance on a complex sequential decision-making problem relative to state-of-the-art curriculum learning (e.g, teacher-student, self-play) and automaton-guided reinforcement learning baselines (e.g, Q-Learning for Reward Machines). Further, we demonstrate that AGCL performs well even in the presence of noise in the task's OOMDP description, and also when distractor objects are present that are not modeled in the logical specification of the tasks' objectives.
翻訳日:2023-04-12 14:24:22 公開日:2023-04-11
# occformer : 視覚に基づく3次元意味的占有予測のためのデュアルパストランスフォーマ

OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2304.05316v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Zheng Zhu, Dalong Du(参考訳) 自律運転に対する視覚に基づく認識は、鳥眼ビュー(BEV)表現から3Dセマンティック占有への転換を遂げている。 BEV平面と比較して、3Dセマンティック占有は垂直方向に沿って構造情報を提供する。 本稿では,意味的占有率予測のための3次元ボリュームを効果的に処理するデュアルパストランスフォーマネットワークであるOccFormerを提案する。 OccFormerは、カメラ生成した3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現する。 水平面に沿って局所および大域の変圧器経路に重厚な3d処理を分解して得られる。 占有者デコーダには,保存プールとクラス誘導サンプリングの提案により,バニラマスク2フォーマーを3次元意味的占有に適応させ,特にスパーシティとクラス不均衡を緩和する。 実験の結果,OccFormerはSemanticKITTIデータセットやnuScenesデータセット上のLiDARセマンティックセマンティックセマンティックセマンティックセマンティクスにおいて,既存のセマンティックセマンティクス補完法よりも大幅に優れていた。 コードは \url{https://github.com/zhangyp15/OccFormer} で入手できる。

The vision-based perception for autonomous driving has undergone a transformation from the bird-eye-view (BEV) representations to the 3D semantic occupancy. Compared with the BEV planes, the 3D semantic occupancy further provides structural information along the vertical direction. This paper presents OccFormer, a dual-path transformer network to effectively process the 3D volume for semantic occupancy prediction. OccFormer achieves a long-range, dynamic, and efficient encoding of the camera-generated 3D voxel features. It is obtained by decomposing the heavy 3D processing into the local and global transformer pathways along the horizontal plane. For the occupancy decoder, we adapt the vanilla Mask2Former for 3D semantic occupancy by proposing preserve-pooling and class-guided sampling, which notably mitigate the sparsity and class imbalance. Experimental results demonstrate that OccFormer significantly outperforms existing methods for semantic scene completion on SemanticKITTI dataset and for LiDAR semantic segmentation on nuScenes dataset. Code is available at \url{https://github.com/zhangyp15/OccFormer}.
翻訳日:2023-04-12 14:17:33 公開日:2023-04-11
# Minutiae-Independent Dense Smpling of Local Patches を用いた指紋のライブネス検出

Fingerprint Liveness Detection using Minutiae-Independent Dense Sampling of Local Patches ( http://arxiv.org/abs/2304.05312v1 )

ライセンス: Link先を確認
Riley Kiefer, Jacob Stevens, and Ashok Patel(参考訳) 指紋認識とマッチングは、ユーザ認証の一般的な形式である。 指紋は個々の個人に固有のものであるが、攻撃者が指紋のコピーを偽造できる場合(spoof)、認証は脆弱である。 これらの偽指紋に対処するため、spoof検出とライブネス検出アルゴリズムは、このセキュリティ脆弱性に対する対策として現在研究されている。 本稿では,機械学習を用いた指紋防止機構を提案する。

Fingerprint recognition and matching is a common form of user authentication. While a fingerprint is unique to each individual, authentication is vulnerable when an attacker can forge a copy of the fingerprint (spoof). To combat these spoofed fingerprints, spoof detection and liveness detection algorithms are currently being researched as countermeasures to this security vulnerability. This paper introduces a fingerprint anti-spoofing mechanism using machine learning.
翻訳日:2023-04-12 14:17:11 公開日:2023-04-11
# ニューラル遅延微分方程式:システム再構成と画像分類

Neural Delay Differential Equations: System Reconstruction and Image Classification ( http://arxiv.org/abs/2304.05310v1 )

ライセンス: Link先を確認
Qunxi Zhu, Yao Guo, Wei Lin(参考訳) ニューラルネットワークのフレームワークであるNeural Ordinary Differential Equations(NODE)は広く適用されており、代表的データセットに対処する上で極めて有効である。 最近、拡張フレームワークが開発され、オリジナルのフレームワークの適用に現れるいくつかの制限を克服した。 本稿では,ニューラル遅延微分方程式 (Neural Delay Differential Equations, NDDE) という,遅延を伴う連続深度ニューラルネットワークのクラスを提案する。 対応する勾配を計算するために,随伴感度法を用いて随伴の遅延ダイナミクスを得る。 遅延を持つ微分方程式は一般に、より実りある力学を持つ無限次元の力学系と見なされる。 NODE と比較して、NDDE はより強い非線形表現能力を持つ。 この優れた能力を示すために、いくつかの例を使っています。 まず, 低次元位相空間の軌道が相互に交差し, モデルフリーあるいはモデルベースでカオス的になるような遅延ダイナミクスのモデル化に成功した。 従来のNODEは、議論なしでは、そのようなモデリングには直接適用できない。 第2に,複雑なモデルによって合成されたデータだけでなく,よく知られた画像データセットであるcifar10についても,損失の低減と精度の向上を実現している。 NDDEの結果は、動的システムの要素をネットワーク設計に適切に表現することは、ネットワーク性能の促進に真に有益であることを示している。

Neural Ordinary Differential Equations (NODEs), a framework of continuous-depth neural networks, have been widely applied, showing exceptional efficacy in coping with representative datasets. Recently, an augmented framework has been developed to overcome some limitations that emerged in the application of the original framework. In this paper, we propose a new class of continuous-depth neural networks with delay, named Neural Delay Differential Equations (NDDEs). To compute the corresponding gradients, we use the adjoint sensitivity method to obtain the delayed dynamics of the adjoint. Differential equations with delays are typically seen as dynamical systems of infinite dimension that possess more fruitful dynamics. Compared to NODEs, NDDEs have a stronger capacity of nonlinear representations. We use several illustrative examples to demonstrate this outstanding capacity. Firstly, we successfully model the delayed dynamics where the trajectories in the lower-dimensional phase space could be mutually intersected and even chaotic in a model-free or model-based manner. Traditional NODEs, without any argumentation, are not directly applicable for such modeling. Secondly, we achieve lower loss and higher accuracy not only for the data produced synthetically by complex models but also for the CIFAR10, a well-known image dataset. Our results on the NDDEs demonstrate that appropriately articulating the elements of dynamical systems into the network design is truly beneficial in promoting network performance.
翻訳日:2023-04-12 14:17:04 公開日:2023-04-11
# 階層型テンソルスケッチによる生成モデリング

Generative Modeling via Hierarchical Tensor Sketching ( http://arxiv.org/abs/2304.05305v1 )

ライセンス: Link先を確認
Yifan Peng, Yian Chen, E. Miles Stoudenmire, Yuehaw Khoo(参考訳) 経験的分布による高次元確率密度近似のための階層型テンソルネットワーク手法を提案する。 これはランダム化特異値分解(SVD)技術を利用し、テンソルネットワークにおけるテンソルコアに対する線形方程式を解く。 結果のアルゴリズムの複雑さは高次元密度の次元で線形にスケールする。 推定誤差の解析は、いくつかの数値実験を通して、この手法の有効性を示す。

We propose a hierarchical tensor-network approach for approximating high-dimensional probability density via empirical distribution. This leverages randomized singular value decomposition (SVD) techniques and involves solving linear equations for tensor cores in this tensor network. The complexity of the resulting algorithm scales linearly in the dimension of the high-dimensional density. An analysis of estimation error demonstrates the effectiveness of this method through several numerical experiments.
翻訳日:2023-04-12 14:16:42 公開日:2023-04-11
# ELVIS:モーダル内類似性を考慮した視覚言語事前学習の局所性向上

ELVIS: Empowering Locality of Vision Language Pre-training with Intra-modal Similarity ( http://arxiv.org/abs/2304.05303v1 )

ライセンス: Link先を確認
Sumin Seo, JaeWoong Shin, Jaewoo Kang, Tae Soo Kim, Thijs Kooi(参考訳) 深層学習は胸部X線画像(CXR)の読影において放射線技師を支援する大きな可能性を示しているが、パフォーマンス向上のための高価なアノテーションの必要性は、広く臨床応用を妨げている。 視覚言語事前学習(VLP)は、大量の無線画像やペア形式(画像テキストペア)を日常的に生成するレポートを活用することで、アノテーションの負担とコストを軽減することができる。 さらに,CXRにおけるCAD異常の正確な局在化の必要性に対処するため,局所化対応VLPの拡張も提案されている。 しかし, 局所性を考慮したVLP文献による定式化は, 下流の局所化作業に必要な空間的関係の喪失につながることがわかった。 そこで本研究では,VLP の局所性をモダル内類似性に富む ELVIS を提案し,モダル内類似性を認識した VLP を用いて,X線写真やレポート内の局所性をよりよく保存し,テキストレポートにおける位置参照の理解能力を高める。 我々の局所性認識型VLP法は,複数のセグメンテーションタスクとMS-CXRフレーズグラウンドタスクにおいて,最先端のアートベースラインを著しく上回る。 定性的には、ELVISは以前のアプローチと比較してレポートテキストで記述された関心領域によくフォーカスでき、解釈可能性を高めることができる。

Deep learning has shown great potential in assisting radiologists in reading chest X-ray (CXR) images, but its need for expensive annotations for improving performance prevents widespread clinical application. Visual language pre-training (VLP) can alleviate the burden and cost of annotation by leveraging routinely generated reports for radiographs, which exist in large quantities as well as in paired form (imagetext pairs). Additionally, extensions to localization-aware VLPs are being proposed to address the needs of accurate localization of abnormalities for CAD in CXR. However, we find that the formulation proposed by locality-aware VLP literatures actually leads to loss in spatial relationships required for downstream localization tasks. Therefore, we propose Empowering Locality of VLP with Intra-modal Similarity, ELVIS, a VLP aware of intra-modal locality, to better preserve the locality within radiographs or reports, which enhances the ability to comprehend location references in text reports. Our locality-aware VLP method significantly outperforms state-of-the art baselines in multiple segmentation tasks and the MS-CXR phrase grounding task. Qualitatively, ELVIS is able to focus well on regions of interest described in the report text compared to prior approaches, allowing for enhanced interpretability.
翻訳日:2023-04-12 14:16:37 公開日:2023-04-11
# RRHF:涙のない人間のフィードバックを伴う言語モデルに対するランク応答

RRHF: Rank Responses to Align Language Models with Human Feedback without tears ( http://arxiv.org/abs/2304.05302v1 )

ライセンス: Link先を確認
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang(参考訳) Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の嗜好の一致を促進し、人間とこれらのモデルの相互作用の質を大幅に向上させる。 InstructGPTは、Supervised Fine-Tuning (SFT)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。 しかし、PPOはハイパーパラメータに敏感であり、標準実装では最低4つのモデルを必要とするため、トレーニングは困難である。 対照的にRRHFと呼ばれる新しい学習パラダイムは、異なるサンプリングポリシーによって生成された応答をスコアリングし、ランキングの喪失を通じてそれらを人間の好みに合わせることを学習する。 RRHFは、言語モデルの出力確率を微調整と同じくらい頑健で、チューニング中に1~2モデルしか必要としない。 さらに、RRHFは、コーディング、モデルカウント、ハイパーパラメータの点でPPOよりも単純でありながら、SFTおよび報酬モデルの拡張と見なすことができる。 すべてのアライメントプロセスは、単一のrrhfトレーニングセッションで完了することができる。 我々はLLaMAとAlpacaを用いたRRHFをHelpfulとHarmlessのデータ上で評価し,PPOに匹敵する性能を示した。

Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models with human preferences, significantly enhancing the quality of interactions between humans and these models. InstructGPT implements RLHF through several stages, including Supervised Fine-Tuning (SFT), reward model training, and Proximal Policy Optimization (PPO). PPO, however, is sensitive to hyperparameters and requires a minimum of four models in its standard implementation, which makes it hard to train. In contrast, we propose a novel learning paradigm called RRHF, which scores responses generated by different sampling policies and learns to align them with human preferences through ranking loss. RRHF can efficiently align language model output probabilities with human preferences as robust as fine-tuning and it only needs 1 to 2 models during tuning. In addition, RRHF can be considered an extension of SFT and reward models while being simpler than PPO in terms of coding, model counts, and hyperparameters. The entire alignment process can be accomplished within a single RRHF training session. We evaluate RRHF using LLaMA and Alpaca on Helpful and Harmless data, demonstrating performance comparable to PPO.
翻訳日:2023-04-12 14:16:11 公開日:2023-04-11
# tacos: 分散学習のためのトポロジー対応集合アルゴリズムシンセサイザ

TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Training ( http://arxiv.org/abs/2304.05301v1 )

ライセンス: Link先を確認
William Won, Midhilesh Elavazhagan, Sudarshan Srinivasan, Ajaya Durg, Swati Gupta, Tushar Krishna(参考訳) 集団コミュニケーションは分散トレーニングにおいて不可欠である。 トポロジを意識した集団的アルゴリズムの実行は,混雑を最小限に抑える通信性能の最適化に不可欠である。 今日では、そのようなアルゴリズムは単純なトポロジの小さなセットにのみ存在し、クラスタのトレーニングに使用されるトポロジを制限し、ネットワーク障害による不規則なトポロジを処理する。 本稿では,任意の入力ネットワークトポロジのための自動トポロジ対応集合合成器TACOSを提案する。 TACOSはベースライン上で3.73倍高速なAll-Reduceアルゴリズムを合成し、512-NPUシステムの集合アルゴリズムをわずか6.1分で合成した。

Collective communications are an indispensable part of distributed training. Running a topology-aware collective algorithm is crucial for optimizing communication performance by minimizing congestion. Today such algorithms only exist for a small set of simple topologies, limiting the topologies employed in training clusters and handling irregular topologies due to network failures. In this paper, we propose TACOS, an automated topology-aware collective synthesizer for arbitrary input network topologies. TACOS synthesized 3.73x faster All-Reduce algorithm over baselines, and synthesized collective algorithms for 512-NPU system in just 6.1 minutes.
翻訳日:2023-04-12 14:15:47 公開日:2023-04-11
# 非侵入型ステレオカメラによる車体速度の推定

Estimation of Vehicular Velocity based on Non-Intrusive stereo camera ( http://arxiv.org/abs/2304.05298v1 )

ライセンス: Link先を確認
Bikram Adhikari, Prabin Bhandari(参考訳) 本稿では,SiamMaskを先頭車両追尾に使用する非侵入型ステレオカメラをベースとした先行車両の速度推定のためのモジュラー手法を提案し,カーネル密度推定(KDE)を用いて距離予測を不均一マップから円滑にし,LightGBMを先頭車両速度推定に用いる。 提案手法は,スバル画像認識課題のベースラインrmseを0.582に上回る0.416のrmseを生成する。

The paper presents a modular approach for the estimation of a leading vehicle's velocity based on a non-intrusive stereo camera where SiamMask is used for leading vehicle tracking, Kernel Density estimate (KDE) is used to smooth the distance prediction from a disparity map, and LightGBM is used for leading vehicle velocity estimation. Our approach yields an RMSE of 0.416 which outperforms the baseline RMSE of 0.582 for the SUBARU Image Recognition Challenge
翻訳日:2023-04-12 14:15:36 公開日:2023-04-11
# evac3d: 連続視覚ハルによるイベントに基づく視輪郭から3次元モデルへ

EvAC3D: From Event-based Apparent Contours to 3D Models via Continuous Visual Hulls ( http://arxiv.org/abs/2304.05296v1 )

ライセンス: Link先を確認
Ziyun Wang, Kenneth Chaney, Kostas Daniilidis(参考訳) 複数ビューからの3D再構成は、複数のアプリケーションへのデプロイで成功したコンピュータビジョンフィールドである。 state of the artは、従来のrgbフレームをベースとして、フォトコンシスタンシークロスビューの最適化を可能にする。 本稿では, イベントカメラの低消費電力化, 遅延化, および自然界の目が同じデータを捉え, 良好な3次元形状を認識できるという生物学的証拠から, イベントカメラによる3次元再構成の問題点を考察する。 イベントを用いた3次元再構成が可能であるという仮説の基礎は、閉塞輪郭に含まれる情報とイベントによる連続的なシーン取得にある。 オブジェクトの見かけの輪郭の幾何学を定義する新しいイベントベース表現であるApparent Contour Events (ACE)を提案する。 ACE を事象 x-y-t 空間で定義される空間的かつ時間的に連続な暗黙関数で表現する。 さらに,Apparent Contour Eventsの高時間分解能によって実現された新しい連続Voxel Carvingアルゴリズムを設計する。 提案手法の性能を評価するため,実世界のオブジェクト集合の3次元イベントデータセットMOEC-3Dを収集した。 evac3dが実イベントシーケンスから高忠実度メッシュ表面を再構築する能力を示し,各イベントの3次元再構成を改良した。

3D reconstruction from multiple views is a successful computer vision field with multiple deployments in applications. State of the art is based on traditional RGB frames that enable optimization of photo-consistency cross views. In this paper, we study the problem of 3D reconstruction from event-cameras, motivated by the advantages of event-based cameras in terms of low power and latency as well as by the biological evidence that eyes in nature capture the same data and still perceive well 3D shape. The foundation of our hypothesis that 3D reconstruction is feasible using events lies in the information contained in the occluding contours and in the continuous scene acquisition with events. We propose Apparent Contour Events (ACE), a novel event-based representation that defines the geometry of the apparent contour of an object. We represent ACE by a spatially and temporally continuous implicit function defined in the event x-y-t space. Furthermore, we design a novel continuous Voxel Carving algorithm enabled by the high temporal resolution of the Apparent Contour Events. To evaluate the performance of the method, we collect MOEC-3D, a 3D event dataset of a set of common real-world objects. We demonstrate the ability of EvAC3D to reconstruct high-fidelity mesh surfaces from real event sequences while allowing the refinement of the 3D reconstruction for each individual event.
翻訳日:2023-04-12 14:15:26 公開日:2023-04-11
# 非拘束環境における物体検出技術に関する総合的研究

A Comprehensive Study on Object Detection Techniques in Unconstrained Environments ( http://arxiv.org/abs/2304.05295v1 )

ライセンス: Link先を確認
Hrishitva Patel(参考訳) 物体検出はコンピュータビジョンにおいて重要なタスクであり、画像やビデオ内の物体を識別しローカライズすることを目的としている。 近年のディープラーニングと畳み込みニューラルネットワーク(CNN)の進歩により、オブジェクト検出技術の性能が大幅に向上した。 本稿では,様々な課題,データセット,最先端のアプローチを含む,制約のない環境における物体検出技術の包括的研究を行う。 さらに,本手法の比較分析を行い,その強度と弱点を明らかにする。 最後に,制約のない環境での物体検出をさらに改善するための今後の研究方向を提案する。

Object detection is a crucial task in computer vision that aims to identify and localize objects in images or videos. The recent advancements in deep learning and Convolutional Neural Networks (CNNs) have significantly improved the performance of object detection techniques. This paper presents a comprehensive study of object detection techniques in unconstrained environments, including various challenges, datasets, and state-of-the-art approaches. Additionally, we present a comparative analysis of the methods and highlight their strengths and weaknesses. Finally, we provide some future research directions to further improve object detection in unconstrained environments.
翻訳日:2023-04-12 14:15:05 公開日:2023-04-11
# 文脈内学習による触媒のベイズ最適化

Bayesian Optimization of Catalysts With In-context Learning ( http://arxiv.org/abs/2304.05341v1 )

ライセンス: Link先を確認
Mayk Caldas Ramos, Shane S. Michtavy, Marc D. Porosoff, Andrew D. White(参考訳) 大規模言語モデル(LLM)は、ゼロまたは少数の例(コンテキスト学習)で正確な分類を行うことができる。 凍結LLM(GPT-3, GPT-3.5, GPT-4)モデルを用いた文脈内学習における不確実性を考慮した回帰処理システムを提案する。 不確実性を取り入れることで、自然言語を用いた触媒や分子最適化のベイズ最適化が可能となり、訓練やシミュレーションの必要がなくなる。 そこで, 触媒の合成法を用いて, 特性予測のための最適化を行った。 自然言語の操作は、リテラル合成手順がモデルの入力であるため、難易度を緩和する。 サンプル選択によってデータが収集されることにより、モデルコンテキストウィンドウ(モデルが一度に処理できるトークンの最大数)を越えて、コンテキスト内学習が改善されることを示した。 提案手法は全てのベースラインに勝るわけではないが, 良好な性能を維持しつつ, トレーニング, 特徴選択, 最小限の計算を必要とする。 また,テキスト埋め込みにおけるガウス過程回帰はベイズ最適化において強い。 コードはgithubリポジトリで利用可能です。 https://github.com/ur-whitelab/bo-lift

Large language models (LLMs) are able to do accurate classification with zero or only a few examples (in-context learning). We show a prompting system that enables regression with uncertainty for in-context learning with frozen LLM (GPT-3, GPT-3.5, and GPT-4) models, allowing predictions without features or architecture tuning. By incorporating uncertainty, our approach enables Bayesian optimization for catalyst or molecule optimization using natural language, eliminating the need for training or simulation. Here, we performed the optimization using the synthesis procedure of catalysts to predict properties. Working with natural language mitigates difficulty synthesizability since the literal synthesis procedure is the model's input. We showed that in-context learning could improve past a model context window (maximum number of tokens the model can process at once) as data is gathered via example selection, allowing the model to scale better. Although our method does not outperform all baselines, it requires zero training, feature selection, and minimal computing while maintaining satisfactory performance. We also find Gaussian Process Regression on text embeddings is strong at Bayesian optimization. The code is available in our GitHub repository: https://github.com/ur-whitelab/BO-LIFT
翻訳日:2023-04-12 14:07:25 公開日:2023-04-11
# モダリティの欠如に対する統一型マルチモーダル画像合成

Unified Multi-Modal Image Synthesis for Missing Modality Imputation ( http://arxiv.org/abs/2304.05340v1 )

ライセンス: Link先を確認
Yue Zhang, Chengtao Peng, Qiuli Wang, Dan Song, Kaiyan Li, S. Kevin Zhou(参考訳) マルチモーダル医療画像は、疾患のスクリーニングと診断を支援する相補的な軟組織の特徴を提供する。 しかし、走査時間や画像の破損、様々な画像プロトコルが不完全なマルチモーダル画像に陥り、臨床目的でのマルチモーダルデータの使用が制限されることが多い。 この問題に対処するため,本論文では,モダリティ計算の欠如を解消するために,新しいマルチモーダル画像合成法を提案する。 提案手法は,単一のモデルと利用可能な任意の組み合わせから欠落したモダリティを合成することを目的とした,ジェネレーティブ・アドバーサリー・アーキテクチャを総合的に採用する。 この目的のために、我々は、入力モダリティに含まれるモダリティ不変情報と特定情報の両方を活用するために、ジェネレータ用の共通性と離散性感性エンコーダを特に設計する。 両方の種類の情報を組み込むことで、望ましい分布の一貫した解剖学と現実的な詳細を持つ画像の生成が容易になる。 さらに,様々な種類のモダリティの情報を統合する動的特徴統一モジュールを提案し,ネットワークがランダムに欠落モダリティに対して堅牢になるようにした。 モジュールはハードインテグレーションとソフトインテグレーションの両方を実行し、情報損失を避けながら機能の組み合わせの有効性を保証する。 2つの公開マルチモーダル磁気共鳴データセットを検証し, 提案手法は各種合成タスクの処理に有効であり, 従来法よりも優れた性能を示す。

Multi-modal medical images provide complementary soft-tissue characteristics that aid in the screening and diagnosis of diseases. However, limited scanning time, image corruption and various imaging protocols often result in incomplete multi-modal images, thus limiting the usage of multi-modal data for clinical purposes. To address this issue, in this paper, we propose a novel unified multi-modal image synthesis method for missing modality imputation. Our method overall takes a generative adversarial architecture, which aims to synthesize missing modalities from any combination of available ones with a single model. To this end, we specifically design a Commonality- and Discrepancy-Sensitive Encoder for the generator to exploit both modality-invariant and specific information contained in input modalities. The incorporation of both types of information facilitates the generation of images with consistent anatomy and realistic details of the desired distribution. Besides, we propose a Dynamic Feature Unification Module to integrate information from a varying number of available modalities, which enables the network to be robust to random missing modalities. The module performs both hard integration and soft integration, ensuring the effectiveness of feature combination while avoiding information loss. Verified on two public multi-modal magnetic resonance datasets, the proposed method is effective in handling various synthesis tasks and shows superior performance compared to previous methods.
翻訳日:2023-04-12 14:07:06 公開日:2023-04-11
# スマートフォン顕微鏡画像によるGiardiaとCryptosporidiumの(o)cystの検出と定量化

Deep-learning assisted detection and quantification of (oo)cysts of Giardia and Cryptosporidium on smartphone microscopy images ( http://arxiv.org/abs/2304.05339v1 )

ライセンス: Link先を確認
Suprim Nakarmi, Sanam Pudasaini, Safal Thapaliya, Pratima Upretee, Retina Shrestha, Basant Giri, Bhanu Bhakta Neupane, and Bishesh Khanal(参考訳) 微生物汚染食品と水の消費は、毎年数百万人の死の原因となっている。 スマートフォンベースの顕微鏡システムは、従来の明るい視野顕微鏡よりもポータブルで低コストで、よりアクセスしやすい代替品である。 しかし、スマートフォンの顕微鏡画像はノイズが多く、訓練された技術者が手動で嚢胞を識別する必要がある。 ディープラーニングに基づく物体検出による(o)嚢胞の自動検出は、この制限に対する解決策となる。 植物試料からのスマートフォンおよびbrightfield顕微鏡画像を含むカスタムデータセット上で,giardiaおよびcryptosporidiumの(oo)シストを検出するための,最先端の3つの物体検出器の性能評価を行った。 RCNNやRetinaNetよりも高速で、1回だけ(YOLOv8s)のディープラーニングモデルを使用して、その有効性と制限を調査しました。 以上の結果から,スマートフォンの顕微鏡画像データセットよりもbrightfield顕微鏡画像データセットの方が精度が良いが,スマートフォンの顕微鏡予測は非熟練者の予測性能に匹敵することがわかった。

The consumption of microbial-contaminated food and water is responsible for the deaths of millions of people annually. Smartphone-based microscopy systems are portable, low-cost, and more accessible alternatives for the detection of Giardia and Cryptosporidium than traditional brightfield microscopes. However, the images from smartphone microscopes are noisier and require manual cyst identification by trained technicians, usually unavailable in resource-limited settings. Automatic detection of (oo)cysts using deep-learning-based object detection could offer a solution for this limitation. We evaluate the performance of three state-of-the-art object detectors to detect (oo)cysts of Giardia and Cryptosporidium on a custom dataset that includes both smartphone and brightfield microscopic images from vegetable samples. Faster RCNN, RetinaNet, and you only look once (YOLOv8s) deep-learning models were employed to explore their efficacy and limitations. Our results show that while the deep-learning models perform better with the brightfield microscopy image dataset than the smartphone microscopy image dataset, the smartphone microscopy predictions are still comparable to the prediction performance of non-experts.
翻訳日:2023-04-12 14:06:42 公開日:2023-04-11
# スラヴ語における名前付きエンティティ認識と読み上げ課題のための基礎モデルの利用

Exploring the Use of Foundation Models for Named Entity Recognition and Lemmatization Tasks in Slavic Languages ( http://arxiv.org/abs/2304.05336v1 )

ライセンス: Link先を確認
Gabriela Pa{\l}ka and Artur Nowakowski(参考訳) 本稿では,SlavNERの第4共有タスクに対するAdam Mickiewicz大学(AMU)のソリューションについて述べる。 このタスクは、スラヴ語における名前付き実体の識別、分類、補間を含む。 私たちのアプローチでは、これらのタスクに対する基盤モデルの使用を探求しました。 特に、人気のあるBERTとT5モデルアーキテクチャに基づいたモデルを使用しました。 さらに、外部データセットを使用して、モデルの品質をさらに向上しました。 我々のソリューションは有望な結果を得て、両方のタスクで高い測定値を得た。 本研究では,本手法がスラヴ語におけるNERと補題化に有効であることを示す。 さらに、補間モデルもhttps://huggingface.co/amu-caiで利用可能になります。

This paper describes Adam Mickiewicz University's (AMU) solution for the 4th Shared Task on SlavNER. The task involves the identification, categorization, and lemmatization of named entities in Slavic languages. Our approach involved exploring the use of foundation models for these tasks. In particular, we used models based on the popular BERT and T5 model architectures. Additionally, we used external datasets to further improve the quality of our models. Our solution obtained promising results, achieving high metrics scores in both tasks. We describe our approach and the results of our experiments in detail, showing that the method is effective for NER and lemmatization in Slavic languages. Additionally, our models for lemmatization will be available at: https://huggingface.co/amu-cai.
翻訳日:2023-04-12 14:06:21 公開日:2023-04-11
# ChatGPTにおける毒性:ペルソナ指定言語モデルの解析

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models ( http://arxiv.org/abs/2304.05335v1 )

ライセンス: Link先を確認
Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan(参考訳) 大きな言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越し、医療、セラピー、教育、カスタマーサービスなど多くのサービスで採用されています。 ユーザーは、学生やチャットボットに携わる患者のような重要な情報を必要とする人々を含むので、システムの安全性は重要である。 したがって、LLMの能力と限界を明確に理解する必要がある。 そこで我々は,一般的な対話型LLMであるChatGPTを50万世代以上にわたって系統的に評価した。 chatgptのシステムパラメータを、例えばボクサーのムハンマド・アリのペルソナに割り当てることで設定すると、世代の毒性が著しく増加することが判明した。 ChatGPTに割り当てられたペルソナによって、その毒性は6倍に増加し、不正なステレオタイプ、有害な対話、有害な意見が出力される。 これはペルソナにとって名誉であり、疑わしいユーザーにとって有害である可能性がある。 さらに、与えられたペルソナによらず、特定の実体(例えば、特定の人種)が他者(3倍以上)よりも標的となるパターンが、モデル固有の差別バイアスを反映している。 我々の発見は、幅広いAIコミュニティに、現在の安全ガードレールの有効性を再考させ、堅牢で安全で信頼できるAIシステムにつながるより良い技術を開発することを願っている。

Large language models (LLMs) have shown incredible capabilities and transcended the natural language processing (NLP) community, with adoption throughout many services like healthcare, therapy, education, and customer service. Since users include people with critical information needs like students or patients engaging with chatbots, the safety of these systems is of prime importance. Therefore, a clear understanding of the capabilities and limitations of LLMs is necessary. To this end, we systematically evaluate toxicity in over half a million generations of ChatGPT, a popular dialogue-based LLM. We find that setting the system parameter of ChatGPT by assigning it a persona, say that of the boxer Muhammad Ali, significantly increases the toxicity of generations. Depending on the persona assigned to ChatGPT, its toxicity can increase up to 6x, with outputs engaging in incorrect stereotypes, harmful dialogue, and hurtful opinions. This may be potentially defamatory to the persona and harmful to an unsuspecting user. Furthermore, we find concerning patterns where specific entities (e.g., certain races) are targeted more than others (3x more) irrespective of the assigned persona, that reflect inherent discriminatory biases in the model. We hope that our findings inspire the broader AI community to rethink the efficacy of current safety guardrails and develop better techniques that lead to robust, safe, and trustworthy AI systems.
翻訳日:2023-04-12 14:06:10 公開日:2023-04-11
# 大規模言語モデルの創発的自律科学研究能力

Emergent autonomous scientific research capabilities of large language models ( http://arxiv.org/abs/2304.05332v1 )

ライセンス: Link先を確認
Daniil A. Boiko, Robert MacKnight, Gabe Gomes(参考訳) トランスフォーマーベースの大規模言語モデルは、自然言語、生物学、化学、コンピュータプログラミングにまたがる応用を含む機械学習研究の分野で急速に進歩している。 人間のフィードバックによる極度のスケーリングと強化学習は、生成したテキストの品質を大幅に向上させ、これらのモデルが様々なタスクを実行し、選択の理由付けを可能にした。 本稿では,科学実験の自律設計,計画,実行のために,複数の大規模言語モデルを組み合わせたインテリジェントエージェントシステムを提案する。 我々は3つの異なる例でエージェントの科学的研究能力を紹介し、最も複雑なのは触媒的クロスカップリング反応の成功例である。 最後に,これらのシステムの安全性について検討し,誤用防止策を提案する。

Transformer-based large language models are rapidly advancing in the field of machine learning research, with applications spanning natural language, biology, chemistry, and computer programming. Extreme scaling and reinforcement learning from human feedback have significantly improved the quality of generated text, enabling these models to perform various tasks and reason about their choices. In this paper, we present an Intelligent Agent system that combines multiple large language models for autonomous design, planning, and execution of scientific experiments. We showcase the Agent's scientific research capabilities with three distinct examples, with the most complex being the successful performance of catalyzed cross-coupling reactions. Finally, we discuss the safety implications of such systems and propose measures to prevent their misuse.
翻訳日:2023-04-12 14:05:46 公開日:2023-04-11
# 光子付加Thenおよび光子付加thenの非古典性

Nonclassicality of photon-added-then-subtracted and photon-subtracted-then-added states ( http://arxiv.org/abs/2304.05324v1 )

ライセンス: Link先を確認
Arpita Chatterjee(参考訳) まず、任意の状態から多重光子を追加し、次に任意の状態から多重光子を減算して得られる量子状態の密度行列を定式化し、逆順に同じプロセスを実行する。 まず,熱的(あるいは非コヒーレントな)状態にあるフィールドを考えると,光子数分布,ウィグナー関数,マンデルの$q$パラメータを評価する。 これらの統計特性の時間的挙動に対して,多光子の追加・減算の順序が顕著であることを示す。

We formulate the density matrices of a quantum state obtained by first adding multi-photons to and then subtracting multi-photons from any arbitrary state as well as performing the same process in the reverse order. Considering the field to be initially in a thermal (or in an even coherent) state, we evaluate the photon number distribution, Wigner function and Mandel's $Q$ parameter of the resulting field. We show graphically that in which order multi-photons are added and subtracted has a noticeable effect on the temporal behavior of these statistical properties.
翻訳日:2023-04-12 14:05:34 公開日:2023-04-11
# より良い転送のために事前学習バイアスを制御する驚くほど単純なテクニック:あなたの表現を拡大または狭める

A surprisingly simple technique to control the pretraining bias for better transfer: Expand or Narrow your representation ( http://arxiv.org/abs/2304.05369v1 )

ライセンス: Link先を確認
Florian Bordes, Samuel Lavoie, Randall Balestriero, Nicolas Ballas, Pascal Vincent(参考訳) Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。 このプリテキストタスクは、これらのモデルのパフォーマンスを評価するのに使用される下流タスクとは異なるため、固有の不一致や事前学習バイアスがある。 SSLでよく使われるトリックは、トレーニング中にバックボーンネットワークの上に小さなプロジェクタ(通常は2層か3層の多層パーセプトロン)を追加することである。 プロジェクタアーキテクチャの影響を研究する以前の研究とは対照的に、バックボーン表現の情報を制御するため、よりシンプルで見過ごされがちなレバーに焦点を当てる。 バックボーンの最後のブロックのサイズだけを変更することで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減できる、非常に効果的なテクニックであることが分かっています。 自己監督型と監視型両方の事前訓練型モデルの下流転送性能を著しく向上させる。

Self-Supervised Learning (SSL) models rely on a pretext task to learn representations. Because this pretext task differs from the downstream tasks used to evaluate the performance of these models, there is an inherent misalignment or pretraining bias. A commonly used trick in SSL, shown to make deep networks more robust to such bias, is the addition of a small projector (usually a 2 or 3 layer multi-layer perceptron) on top of a backbone network during training. In contrast to previous work that studied the impact of the projector architecture, we here focus on a simpler, yet overlooked lever to control the information in the backbone representation. We show that merely changing its dimensionality -- by changing only the size of the backbone's very last block -- is a remarkably effective technique to mitigate the pretraining bias. It significantly improves downstream transfer performance for both Self-Supervised and Supervised pretrained models.
翻訳日:2023-04-12 13:59:38 公開日:2023-04-11
# no free lunch定理、コルモゴロフ複雑性、機械学習における帰納バイアスの役割

The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning ( http://arxiv.org/abs/2304.05366v1 )

ライセンス: Link先を確認
Micah Goldblum, Marc Finzi, Keefer Rowan, Andrew Gordon Wilson(参考訳) 教師付き学習状態に対する無料ランチ定理は、すべての問題を学習者が解くことができない、あるいは学習者全員が学習問題の均一な分布よりも平均で全く同じ精度を達成するというものである。 したがって、これらの定理は、個々の問題は特別に調整された帰納バイアスを必要とするという概念を支持するためにしばしば言及される。 事実上、全ての一様サンプルデータセットは複雑さが高いが、現実の問題は不均等に低複雑さのデータを生成し、ニューラルネットワークモデルがコルモゴロフ複雑性を用いて形式化された同じ好みを共有していると論じる。 特に、コンピュータビジョンのような特定のドメイン用に設計されたアーキテクチャは、さまざまな無関係な領域でデータセットを圧縮できることを示す。 実験の結果,事前学習およびランダムに初期化される言語モデルでは,低複雑さのシーケンスを生成することが好ましいことがわかった。 フリーランチの定理は個々の問題に特別な学習者が要ることを示すものではないが、ラベル付きデータが乏しい場合や豊富でない場合など、人間の介入を必要とするタスクを1つの学習アルゴリズムに自動化する方法を説明する。 これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。

No free lunch theorems for supervised learning state that no learner can solve all problems or that all learners achieve exactly the same accuracy on average over a uniform distribution on learning problems. Accordingly, these theorems are often referenced in support of the notion that individual problems require specially tailored inductive biases. While virtually all uniformly sampled datasets have high complexity, real-world problems disproportionately generate low-complexity data, and we argue that neural network models share this same preference, formalized using Kolmogorov complexity. Notably, we show that architectures designed for a particular domain, such as computer vision, can compress datasets on a variety of seemingly unrelated domains. Our experiments show that pre-trained and even randomly initialized language models prefer to generate low-complexity sequences. Whereas no free lunch theorems seemingly indicate that individual problems require specialized learners, we explain how tasks that often require human intervention such as picking an appropriately sized model when labeled data is scarce or plentiful can be automated into a single learning algorithm. These observations justify the trend in deep learning of unifying seemingly disparate problems with an increasingly small set of machine learning models.
翻訳日:2023-04-12 13:59:01 公開日:2023-04-11
# パーソナライズしたの? リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価

Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v1 )

ライセンス: Link先を確認
Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasjna, Peng Liao, Kelly Zhang, Susan Murphy(参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。 このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。 オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。 しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。 RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。 パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。 本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。 我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.
翻訳日:2023-04-12 13:58:37 公開日:2023-04-11
# 制約領域の拡散モデル

Diffusion Models for Constrained Domains ( http://arxiv.org/abs/2304.05364v1 )

ライセンス: Link先を確認
Nic Fishman, Leo Klarner, Valentin De Bortoli, Emile Mathieu, Michael Hutchinson(参考訳) denoising diffusion modelは、無条件画像生成やテキストから音声へのタスクといった多くの領域で最先端の結果を達成する、最近の生成モデルのクラスである。 それらは、データを破壊するノージングプロセスと、ノージング拡散の時間反転として定義される後方ステージからなる。 その成功に基づいて、最近拡散モデルはリーマン多様体の設定に拡張された。 しかし、これらのリーマン拡散モデルは測地線を常に定義する必要がある。 この設定は多くの重要な応用を含んでいるが、ロボット工学やタンパク質設計のような多くの科学領域においてユビキタスである不等式制約の集合によって定義される多様体は含まない。 本稿では,このギャップを埋める2つの方法を紹介する。 まず,不等式制約によって引き起こされる対数障壁計量に基づいてノーミング過程を設計する。 第二に、反射ブラウン運動に基づく雑音発生過程を導入する。 既存の拡散モデル技術はこの設定では適用できないため、我々のフレームワークでそのようなモデルを定義するための新しいツールを導き出す。 我々は、タンパク質バックボーンとロボットアームの制約付きコンフォメーションモデリングを含む、多くの合成および実世界のタスクに、この手法の適用性を実証する。

Denoising diffusion models are a recent class of generative models which achieve state-of-the-art results in many domains such as unconditional image generation and text-to-speech tasks. They consist of a noising process destroying the data and a backward stage defined as the time-reversal of the noising diffusion. Building on their success, diffusion models have recently been extended to the Riemannian manifold setting. Yet, these Riemannian diffusion models require geodesics to be defined for all times. While this setting encompasses many important applications, it does not include manifolds defined via a set of inequality constraints, which are ubiquitous in many scientific domains such as robotics and protein design. In this work, we introduce two methods to bridge this gap. First, we design a noising process based on the logarithmic barrier metric induced by the inequality constraints. Second, we introduce a noising process based on the reflected Brownian motion. As existing diffusion model techniques cannot be applied in this setting, we derive new tools to define such models in our framework. We empirically demonstrate the applicability of our methods to a number of synthetic and real-world tasks, including the constrained conformational modelling of protein backbones and robotic arms.
翻訳日:2023-04-12 13:58:09 公開日:2023-04-11
# 有限・デ・フィネッティ理論の第三情報理論的アプローチ

A Third Information-Theoretic Approach to Finite de Finetti Theorems ( http://arxiv.org/abs/2304.05360v1 )

ライセンス: Link先を確認
Mario Berta, Lampros Gavalakis, Ioannis Kontoyiannis(参考訳) ド・フィニッティの表現定理の新しい有限形式は、基本情報理論ツールを用いて確立される。 最初の$k$ランダム変数の$n\geq k$ランダム変数の交換可能なベクトルにおける分布は、積分布の混合に近い。 近さは相対エントロピーの観点から測定され、明示的な境界が与えられる。 この境界は、以前の情報理論的な証明によって得られるものよりも厳密であり、その有用性は一般空間で値を取る確率変数にまで拡張される。 中心的な議論は、量子情報理論の文献に起源を持つ。

A new finite form of de Finetti's representation theorem is established using elementary information-theoretic tools. The distribution of the first $k$ random variables in an exchangeable vector of $n\geq k$ random variables is close to a mixture of product distributions. Closeness is measured in terms of the relative entropy and an explicit bound is provided. This bound is tighter than those obtained via earlier information-theoretic proofs, and its utility extends to random variables taking values in general spaces. The core argument employed has its origins in the quantum information-theoretic literature.
翻訳日:2023-04-12 13:57:17 公開日:2023-04-11
# 低用量CTにおけるペア画像と非ペア画像の画質評価の比較検討

A comparative study between paired and unpaired Image Quality Assessment in Low-Dose CT Denoising ( http://arxiv.org/abs/2304.05359v1 )

ライセンス: Link先を確認
Francesco Di Feola, Lorenzo Tronchin, Paolo Soda(参考訳) 近年の低用量CTの深層学習手法は,ペア法とアンペア法に分けることができる。 前者は十分にペアリングされたデータセットの使用を伴い、後者は制約を緩和する。 未ペアデータセットの大規模利用は、質的な評価以上の堅牢な評価技術を必要とする、未ペアのデノゲーション戦略の深化への関心を高めている。 この目的のために、画像品質評価スコアを2つのカテゴリ、すなわちペア化とアンペア化の2つに分けることができる。 しかし、ペア化メトリクスとの一貫性が十分に研究されていないため、ペア化メトリクスの解釈は単純ではない。 この限界に対処するため,本研究では,低用量CTデノーミングの性能を評価するために15のペアとアンペアのスコアについて検討した。 我々は,ペア付きメトリクスとペアなしメトリクスの相関を研究するだけでなく,カテゴリ毎に詳細な統計分析を行う。 これにより、研究者や実践者がアプリケーションの適切な尺度を選択するのに役立つ有用なガイドラインがもたらされる。

The current deep learning approaches for low-dose CT denoising can be divided into paired and unpaired methods. The former involves the use of well-paired datasets, whilst the latter relaxes this constraint. The large availability of unpaired datasets has raised the interest in deepening unpaired denoising strategies that, in turn, need for robust evaluation techniques going beyond the qualitative evaluation. To this end, we can use quantitative image quality assessment scores that we divided into two categories, i.e., paired and unpaired measures. However, the interpretation of unpaired metrics is not straightforward, also because the consistency with paired metrics has not been fully investigated. To cope with this limitation, in this work we consider 15 paired and unpaired scores, which we applied to assess the performance of low-dose CT denoising. We perform an in-depth statistical analysis that not only studies the correlation between paired and unpaired metrics but also within each category. This brings out useful guidelines that can help researchers and practitioners select the right measure for their applications.
翻訳日:2023-04-12 13:57:08 公開日:2023-04-11
# 行列積状態における高次構造

Higher structures in matrix product states ( http://arxiv.org/abs/2304.05356v1 )

ライセンス: Link先を確認
Shuhei Ohyama, Shinsei Ryu(参考訳) 1+1$次元の可逆状態(短距離交絡状態)のパラメータ化族について、ベリー位相の一般化について議論する。 変換不変な無限行列積状態 (MPSs) を用いて、複素ラインバンドルのより高次一般化であるゲルベ構造を導入し、行列積状態のパラメータ化族の位相的性質を記述する基礎となる数学的構造とする。 また、3つの行列積状態に対して「三つの内積」を導入し、パラメータ空間上の位相不変量Dixmier-Douadyクラスを抽出する。

For a parameterized family of invertible states (short-range-entangled states) in $(1+1)$ dimensions, we discuss a generalization of the Berry phase. Using translationally-invariant, infinite matrix product states (MPSs), we introduce a gerbe structure, a higher generalization of complex line bundles, as an underlying mathematical structure describing topological properties of a parameterized family of matrix product states. We also introduce a "triple inner product" for three matrix product states, which allows us to extract a topological invariant, the Dixmier-Douady class over the parameter space.
翻訳日:2023-04-12 13:56:51 公開日:2023-04-11
# オブジェクト認識のパフォーマンスが収入レベルや地理的に低下する理由

Pinpointing Why Object Recognition Performance Degrades Across Income Levels and Geographies ( http://arxiv.org/abs/2304.05391v1 )

ライセンス: Link先を確認
Laura Gustafson, Megan Richards, Melissa Hall, Caner Hazirbas, Diane Bouchacourt, Mark Ibrahim(参考訳) 物体認識の進歩にもかかわらず、深層学習システムのパフォーマンスは地理的に著しく低下し、低所得層は不平等に対する懸念を高めている。 このようなパフォーマンスギャップに対処することは、収入や地理的にパフォーマンスが劣化する理由についてはほとんど理解されていないため、依然として課題である。 地理的および経済的に多様な画像の人気のあるベンチマークである dollar street の画像に、色、形状、背景などの要素をラベル付けすることで、この方向への一歩を踏み出します。 これらのアノテーションは、収入と地域間でオブジェクトがどのように異なるかという、新しい粒度の視点を解き放ちます。 次に、これらのオブジェクトの違いを使って、収入と地域にわたるモデルの脆弱性を特定します。 現代の視覚モデルについて検討し, テクスチャ, 咬合, および暗い照明のイメージの違いにパフォーマンスの差が最も関係していることを見いだした。 当社のファクタラベルからの洞察がモデルのパフォーマンス格差を改善するための緩和策を浮き彫りにする方法について説明します。 例えば、モデルの脆弱性をテクスチャに緩和することで、低所得レベルのパフォーマンスが向上することを示す。 我々は、より公平な視覚システムの研究を容易にするために、インタラクティブなダッシュボードとともに、すべてのファクタアノテーションをリリースする。

Despite impressive advances in object-recognition, deep learning systems' performance degrades significantly across geographies and lower income levels raising pressing concerns of inequity. Addressing such performance gaps remains a challenge, as little is understood about why performance degrades across incomes or geographies. We take a step in this direction by annotating images from Dollar Street, a popular benchmark of geographically and economically diverse images, labeling each image with factors such as color, shape, and background. These annotations unlock a new granular view into how objects differ across incomes and regions. We then use these object differences to pinpoint model vulnerabilities across incomes and regions. We study a range of modern vision models, finding that performance disparities are most associated with differences in texture, occlusion, and images with darker lighting. We illustrate how insights from our factor labels can surface mitigations to improve models' performance disparities. As an example, we show that mitigating a model's vulnerability to texture can improve performance on the lower income level. We release all the factor annotations along with an interactive dashboard to facilitate research into more equitable vision systems.
翻訳日:2023-04-12 13:49:55 公開日:2023-04-11
# HRS-Bench: テキスト-画像モデルのためのホロスティックで信頼性が高くスケーラブルなベンチマーク

HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models ( http://arxiv.org/abs/2304.05390v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Pengzhan Sun, Xiaoqian Shen, Faizan Farooq Khan, Li Erran Li, Mohamed Elhoseiny(参考訳) 近年,テキスト・トゥ・イメージ(T2I)モデルの研究が盛んに行われており,特にT2I合成タスクにおける最新結果が得られる拡散モデルが出現している。 しかし、既存のベンチマークは主観的な人間の評価に大きく依存しており、モデルの性能を全体的評価する能力を制限する。 さらに、新しいT2Iアーキテクチャの開発と評価の成果との間には大きなギャップがある。 そこで本研究では,t2iモデルの具体的評価ベンチマークであるhrs-bench(hrs-bench)を提案する。 限られた側面に焦点を当てた既存のベンチマークとは異なり、hrs-benchは13のスキルを測定し、正確性、堅牢性、一般化、公平性、バイアスの5つの主要なカテゴリに分類できる。 さらに、HRS-Benchはファッション、動物、輸送、食べ物、衣服を含む50のシナリオをカバーする。 幅広いスキルをカバーするメトリクスを用いて,最近の9つの大規模t2iモデルを評価した。 HRS-Benchの有効性を調査するために, 平均的評価の95%と一致した人的評価を行った。 我々の実験では、既存のモデルは、望まれる対象数、視覚的テキストまたは接地感情で画像を生成するのに苦労することが多い。 われわれのベンチマークは、将来のテキストから画像までの研究を容易にすることを願っている。 コードとデータはhttps://eslambakr.github.io/hrsbench.github.ioで入手できる。

In recent years, Text-to-Image (T2I) models have been extensively studied, especially with the emergence of diffusion models that achieve state-of-the-art results on T2I synthesis tasks. However, existing benchmarks heavily rely on subjective human evaluation, limiting their ability to holistically assess the model's capabilities. Furthermore, there is a significant gap between efforts in developing new T2I architectures and those in evaluation. To address this, we introduce HRS-Bench, a concrete evaluation benchmark for T2I models that is Holistic, Reliable, and Scalable. Unlike existing bench-marks that focus on limited aspects, HRS-Bench measures 13 skills that can be categorized into five major categories: accuracy, robustness, generalization, fairness, and bias. In addition, HRS-Bench covers 50 scenarios, including fashion, animals, transportation, food, and clothes. We evaluate nine recent large-scale T2I models using metrics that cover a wide range of skills. A human evaluation aligned with 95% of our evaluations on average was conducted to probe the effectiveness of HRS-Bench. Our experiments demonstrate that existing models often struggle to generate images with the desired count of objects, visual text, or grounded emotions. We hope that our benchmark help ease future text-to-image generation research. The code and data are available at https://eslambakr.github.io/hrsbench.github.io
翻訳日:2023-04-12 13:49:37 公開日:2023-04-11
# 化学代替品発見のための人間-AI共同開発手法

Human-AI Co-Creation Approach to Find Forever Chemicals Replacements ( http://arxiv.org/abs/2304.05389v1 )

ライセンス: Link先を確認
Juliana Jansen Ferreira, Vin\'icius Segura, Joana G. R. Souza, Gabriel D. J. Barbosa, Jo\~ao Gallas, Renato Cerqueira, Dmitry Zubarev(参考訳) 生成モデルは、物質発見のためのAIの強力なツールである。 我々は、現代生活を可能にする「常用化学物質」の代替品の発見を加速するために、人間とAIの共創プロセスをサポートするソフトウェアフレームワークを設計していますが、環境や人間の健康には有害です。 我々のアプローチは、物質発見を加速するために、AI能力と主題の専門家のドメイン固有の暗黙の知識を組み合わせる。 私たちの共同生成プロセスは、主題の専門家と新しい分子デザインを生み出す生成モデルとの相互作用から始まります。 本稿では,これらの主題の専門家がより反復的に生成モデルと相互作用し,より小さなサンプルを求め,その知識を用いて発見空間の探索を'誘導'する,という仮説について議論する。

Generative models are a powerful tool in AI for material discovery. We are designing a software framework that supports a human-AI co-creation process to accelerate finding replacements for the ``forever chemicals''-- chemicals that enable our modern lives, but are harmful to the environment and the human health. Our approach combines AI capabilities with the domain-specific tacit knowledge of subject matter experts to accelerate the material discovery. Our co-creation process starts with the interaction between the subject matter experts and a generative model that can generate new molecule designs. In this position paper, we discuss our hypothesis that these subject matter experts can benefit from a more iterative interaction with the generative model, asking for smaller samples and ``guiding'' the exploration of the discovery space with their knowledge.
翻訳日:2023-04-12 13:49:08 公開日:2023-04-11
# 量子状態の相関測度と量子チャネルの情報特性

Correlation measures of a quantum state and information characteristics of a quantum channel ( http://arxiv.org/abs/2304.05388v1 )

ライセンス: Link先を確認
M.E. Shirokov(参考訳) 本稿では,2部量子状態の基本相関測度と量子チャネルの基本情報特性の相互関係について論じる。 無限次元二成分系における(最適化されていない)量子ディスコードの基本性質について述べる。 特に、一般化されたKoashi-Winter関係を用いて、量子不協和がゼロである状態が量子古典的であることを保証する単純な条件が得られる。 一般化されたKoashi-Winter と Xi-Lu-Wang-Li の関係は、量子状態のアンサンブルの出力ホレボ情報と、有限次元および無限次元の両方の場合の量子チャネルのホレボ容量に対する新しい連続性境界を得るために用いられる。 また,量子不協和の単調性の「ドッペルガンガー」である量子チャネルの性質や,局所的な測定値w.r.t.量子チャネルのエントロピー低減についても考察する。 中でも、フォン・ノイマンのエントロピーを減少しないチャネル(特にビスコスティックなチャネル)との結合下では、チャネルのエントロピー交換は減少しないことが示されている。

We discuss the interconnections between basic correlation measures of a bipartite quantum state and basic information characteristics of a quantum channel, focusing on the benefits of these interconnections for solving specific problems concerning the characteristics of both types. We describe the basic properties of the (unoptimized and optimized) quantum discord in infinite-dimensional bipartite systems. In particular, using the generalized Koashi-Winter relation, a simple condition is obtained that guarantees that a state with zero quantum discord is quantum-classical. The generalized versions of Koashi-Winter and Xi-Lu-Wang-Li relations are used to obtain new continuity bounds for the output Holevo information of an ensemble of quantum states and for the Holevo capacity of a quantum channel in both finite-dimensional and infinite-dimensional cases. We also discuss the properties of quantum channels which are "doppelgangers" of the monotonicity of the quantum discord and the entropy reduction of a local measurement w.r.t. quantum channels acting on an unmeasured subsystem. Among others, it is shown that the entropy exchange of a channel does not decrease under concatenation with a channel that does not reduce the von Neumann entropy (in particular, with a bistochastic channel).
翻訳日:2023-04-12 13:48:54 公開日:2023-04-11
# MOST: オブジェクト発見のための自己教師型トランスフォーマを用いた複数オブジェクトローカライゼーション

MOST: Multiple Object localization with Self-supervised Transformers for object discovery ( http://arxiv.org/abs/2304.05387v1 )

ライセンス: Link先を確認
Sai Saketh Rambhatla, Ishan Misra, Rama Chellappa, Abhinav Shrivastava(参考訳) 本研究における教師なしオブジェクトローカライゼーションの課題に取り組む。 近年、自己教師付き学習で訓練されたトランスフォーマーは、このタスクのために訓練されることなく、オブジェクトのローカライゼーション特性を示すことが示されている。 本研究では,自己教師付き学習を用いて訓練されたトランスフォーマの機能を実世界画像内の複数の物体にローカライズする,自己教師付きトランスフォーマ (most) を用いた複数のオブジェクトローカライズを提案する。 MOSTはボックスカウントを使って機能の類似性マップを分析し、前景のパッチに横たわるトークンを識別するフラクタル解析ツールである。 識別されたトークンはクラスタ化され、各クラスタのトークンは前景の領域にバウンディングボックスを生成するために使用される。 最近の最先端のオブジェクトローカライズ方法とは異なり、MOSTは画像ごとに複数のオブジェクトをローカライズし、PASCAL-VOC 07、12、COCO20kデータセット上で複数のオブジェクトローカライズおよび発見ベンチマークでSOTAアルゴリズムより優れている。 さらに,オブジェクト検出器の自己教師付き事前学習にほとんどが利用可能であり,完全で半教師付きオブジェクト検出と教師なし領域提案生成において一貫した改善が得られている。

We tackle the challenging task of unsupervised object localization in this work. Recently, transformers trained with self-supervised learning have been shown to exhibit object localization properties without being trained for this task. In this work, we present Multiple Object localization with Self-supervised Transformers (MOST) that uses features of transformers trained using self-supervised learning to localize multiple objects in real world images. MOST analyzes the similarity maps of the features using box counting; a fractal analysis tool to identify tokens lying on foreground patches. The identified tokens are then clustered together, and tokens of each cluster are used to generate bounding boxes on foreground regions. Unlike recent state-of-the-art object localization methods, MOST can localize multiple objects per image and outperforms SOTA algorithms on several object localization and discovery benchmarks on PASCAL-VOC 07, 12 and COCO20k datasets. Additionally, we show that MOST can be used for self-supervised pre-training of object detectors, and yields consistent improvements on fully, semi-supervised object detection and unsupervised region proposal generation.
翻訳日:2023-04-12 13:48:30 公開日:2023-04-11
# s-aesの量子エンハンス対称暗号解析

Quantum-enhanced symmetric cryptanalysis for S-AES ( http://arxiv.org/abs/2304.05380v1 )

ライセンス: Link先を確認
Alexey Moiseevskiy(参考訳) 高度な暗号化標準は、今日最も広く使われ、重要な対称暗号の一つである。 量子グローバーの攻撃を受けることで、鍵強度を2倍に減らすことが知られている。 しかし、完全なAES攻撃は数百の量子ビットと数千の回路深度を必要とするため、実験的な研究だけでなく、このアルゴリズムの数値シミュレーションも不可能である。 本稿では,低スケールSimplifed-AES暗号に対するGroverの攻撃を最適化するアルゴリズムを提案する。 フルアタックの他に、キーのニブルがサイドチャネルアタックの結果として知られている場合、必要なキュービット数を削減できるいくつかのアプローチを提案する。 16ビットs-aesの場合、提案された攻撃は一般的なケースでは23キュービット、specifcで4、8、12ビットがリークされた場合19または15または11が必要となる。 これまで知られていた32-qubitsアルゴリズムと比較して、このアプローチは現在のNISQデバイスに対する攻撃を実行し、GPUで数値シミュレーションを実行することが可能であり、問題特異的なエラー軽減とエラー訂正技術の研究に有用である。

Advanced Encryption Standard is one of the most widely used and important symmetric ciphers for today. It well known, that it can be subjected to the quantum Grover's attack that twice reduces its key strength. But full AES attack requires hundreds of qubits and circuit depth of thousands, that makes impossible not only experimental research but also numerical simulations of this algorithm. Here we present an algorithm for optimized Grover's attack on downscaled Simplifed-AES cipher. Besides full attack we present several approaches that allows to reduce number of required qubits if some nibbles of the key are known as a result of side-channel attack. For 16-bit S-AES the proposed attack requires 23 qubits in general case and 19, 15 or 11 if 4, 8 or 12 bits were leaked in specifc confguration. Comparing to previously known 32-qubits algorithm this approach potentially allows to run the attack on today's NISQ-devices and perform numerical simulations with GPU, that may be useful for further research of problem-specifc error mitigation and error correction techniques.
翻訳日:2023-04-12 13:47:50 公開日:2023-04-11
# ChemCrow: 化学ツールによる大規模言語モデルの強化

ChemCrow: Augmenting large-language models with chemistry tools ( http://arxiv.org/abs/2304.05376v1 )

ライセンス: Link先を確認
Andres M Bran, Sam Cox, Andrew D White, Philippe Schwaller(参考訳) 大規模言語モデル(llms)は、最近、ドメイン間のタスクにおいて強力なパフォーマンスを示しているが、化学に関連した問題に苦慮している。 さらに、これらのモデルは外部の知識ソースにアクセスできず、科学的応用における有用性を制限している。 本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。 13のエキスパート設計ツールを統合することで、化学におけるLLMのパフォーマンスが向上し、新たな能力が出現する。 llmとエキスパートヒューマンアセスメントの両方を含む評価は,化学タスクの多種多様な自動化におけるchemcrowの有効性を示す。 驚くことに、評価器としてのGPT-4は、GPT-4完了とGPT-4+ChemCrow性能とを明確に区別できない。 chemcrowのようなツールの誤用には重大なリスクがあり、その潜在的な害について議論する。 ケマクローは責任を負い、専門家の化学者を助け、非専門家の障壁を下げるだけでなく、実験化学と計算化学のギャップを埋めることで科学の進歩を促進する。

Large-language models (LLMs) have recently shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 13 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our evaluation, including both LLM and expert human assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and GPT-4 + ChemCrow performance. There is a significant risk of misuse of tools like ChemCrow and we discuss their potential harms. Employed responsibly, ChemCrow not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry.
翻訳日:2023-04-12 13:47:30 公開日:2023-04-11
# オーバーロード:エッジデバイスのオブジェクト検出における遅延攻撃

Overload: Latency Attacks on Object Detection for Edge Devices ( http://arxiv.org/abs/2304.05370v1 )

ライセンス: Link先を確認
Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-rung Lee(参考訳) 現在、エッジデバイスへのディープラーニングベースのアプリケーションのデプロイは、インテリジェントなサービスに対する需要の増加による重要なタスクである。 しかしながら、エッジノード上の限られたコンピューティングリソースは、モデルによる予測が信頼できないような攻撃に対して、モデルを脆弱にする。 本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。 誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことであり、アプリケーションが適切な時間内に要求に応答するのを阻止する可能性がある。 この種の攻撃はさまざまなアプリケーションにおいてユビキタスであり、このような攻撃がどのように動作するかを示すためにオブジェクト検出を使用します。 また、大規模に遅延攻撃を生成するOverloadというフレームワークも設計しています。 提案手法は,新たに定式化した最適化問題と空間的注意と呼ばれる新しい手法に基づき,物体検出の推論時間を増加させる。 我々はNvidia NX上でYOLOv5モデルを用いた実験を行った。 実験の結果, 遅延攻撃では, 単一画像の推測時間は, 通常の設定の10倍長くなることがわかった。 また,既存の手法と比較すると,攻撃方法は単純かつ効果的である。

Nowadays, the deployment of deep learning based applications on edge devices is an essential task owing to the increasing demands on intelligent services. However, the limited computing resources on edge nodes make the models vulnerable to attacks, such that the predictions made by models are unreliable. In this paper, we investigate latency attacks on deep learning applications. Unlike common adversarial attacks for misclassification, the goal of latency attacks is to increase the inference time, which may stop applications from responding to the requests within a reasonable time. This kind of attack is ubiquitous for various applications, and we use object detection to demonstrate how such kind of attacks work. We also design a framework named Overload to generate latency attacks at scale. Our method is based on a newly formulated optimization problem and a novel technique, called spatial attention, to increase the inference time of object detection. We have conducted experiments using YOLOv5 models on Nvidia NX. The experimental results show that with latency attacks, the inference time of a single image can be increased ten times longer in reference to the normal setting. Moreover, comparing to existing methods, our attacking method is simpler and more effective.
翻訳日:2023-04-12 13:46:57 公開日:2023-04-11
# マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠

Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT ( http://arxiv.org/abs/2304.02213v4 )

ライセンス: Link先を確認
Tong Xie, Yuwei Wan, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian, Wenjie Zhang and Bram Hoex(参考訳) 最先端の材料の探索において、データ量の重要性が増しており、手や自動的なアプローチによって多くのデータセットが生成されている。 しかし、材料科学分野は、特に材料が特性よりもデバイスの性能に基づいて評価される応用分野において、データ量の有効利用に苦慮している。 本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。 我々は、既存のペロブスカイト太陽電池FAIR(Findable, Accessible, Interoperable, Reusable)データセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。 生成されたデータはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用することができる。 この機能により、材料科学者はドメイン内で高品質なレビュー記事を選択することでモデルを開発することができる。 さらに,大型言語モデル(llms)を用いて太陽電池の電気性能を予測し,対象パラメータを有する材料やデバイスの設計実験を行った。 本結果は,LLMが科学知識を習得し,材料科学者に似た新しい素材を設計する可能性を強調し,特徴選択のない従来の機械学習手法に匹敵する性能を示した。

The amount of data has growing significance in exploring cutting-edge materials and a number of datasets have been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new natural language processing (NLP) task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and extended the dataset with data published since its release. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature empowers materials scientists to develop models by selecting high-quality review articles within their domain. Additionally, we designed experiments to predict the electrical performance of solar cells and design materials or devices with targeted parameters using large language models (LLMs). Our results demonstrate comparable performance to traditional machine learning methods without feature selection, highlighting the potential of LLMs to acquire scientific knowledge and design new materials akin to materials scientists.
翻訳日:2023-04-12 11:32:15 公開日:2023-04-11
# 大規模言語モデルに関する調査

A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v3 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen(参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。 言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。 主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。 近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。 モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。 興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。 パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。 近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。 LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。 本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。 特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。 さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
翻訳日:2023-04-12 11:31:31 公開日:2023-04-11
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー

HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v5 )

ライセンス: Link先を確認
Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras(参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。 本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。 ツールフローは、いくつかの部分で構成されています。 一 三次元CNNパーサー 二 性能及び資源モデル 三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム 四 3Dモデルに適した資源対応最適化エンジン v)FPGAの合成可能なコードへの自動マッピング。 幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。 さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。 全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。

For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.
翻訳日:2023-04-12 11:31:02 公開日:2023-04-11
# ダブルトロイック符号

Double-toric code ( http://arxiv.org/abs/2211.12695v3 )

ライセンス: Link先を確認
Komal Kumari, Garima Rajpoot, Sudhir Ranjan Jain(参考訳) 両面曲面符号は, 翼状タイルを用いて平面テッセルレーションを用いて構成する。 nデータキュービットでは、少なくともn/3論理キュービットや量子メモリをエンコードすることができます。 タイルの適切な配置により、コードはより大きな距離を達成し、重大なエラー訂正能力をもたらす。 本研究では,外部雑音の存在下で得られる論理量子ビットのロバスト性を示す。 ここで提示されるコードの最適性は、効率的なスケーラブルアーキテクチャ設計の道を開くものだと考えています。

We construct a double-toric surface code by exploiting the planar tessellation using a rhombus-shaped tile. With n data qubits, we are able to encode at least n/3 logical qubits or quantum memories. By a suitable arrangement of the tiles, the code achieves larger distances, leading to significant error-correcting capability. We demonstrate the robustness of the logical qubits thus obtained in the presence of external noise. We believe that the optimality of the code presented here will pave the way for design of efficient scalable architectures.
翻訳日:2023-04-12 11:30:41 公開日:2023-04-11
# 分割、マージ、洗練:学習過剰セグメンテーションと反復探索による厳密なバウンディングボックスの適合

Split, Merge, and Refine: Fitting Tight Bounding Boxes via Learned Over-Segmentation and Iterative Search ( http://arxiv.org/abs/2304.04336v2 )

ライセンス: Link先を確認
Chanhyeok Park, Minhyuk Sung(参考訳) 本稿では,ニューラルネットワークを用いたオーバーセグメンテーションと反復的マージ・リファインメントにより,3次元形状のタイトなバウンディングボックスを探索する新しい枠組みを提案する。 完全境界を保証しつつ、形状のタイトバウンディングボックスを達成することは、効率的な幾何学的操作と教師なし意味部分検出にとって必須のタスクであるが、以前の方法では、完全なカバレッジとタイトネスを達成できなかった。 目的の非微分性のため、ニューラルネットワークベースの手法はこれらの目的には適さないが、古典的な反復探索法は初期化に対する感度に苦しむ。 学習ベースおよび反復探索手法の最良の統合は、両方の特性を持つバウンディングボックスを実現できることを示す。 既存の教師なしセグメンテーションネットワークを用いて形状を分割し,過剰セグメンテーションを得る。 次に,新しいタイトネス・アウェアマージ基準と階層的マージを適用する。 初期化に対する感度を克服するため、より広い探索を促進するソフト報酬関数を用いてゲーム設定における境界ボックスパラメータを改良する。 最後に、MCTSに基づくマルチアクション空間探索により、バウンディングボックスをさらに改善する。 実験により, 本手法のカバー範囲, 厳密度, バウンディングボックス数について検討した。

We present a novel framework for finding a set of tight bounding boxes of a 3D shape via neural-network-based over-segmentation and iterative merging and refinement. Achieving tight bounding boxes of a shape while guaranteeing the complete boundness is an essential task for efficient geometric operations and unsupervised semantic part detection, but previous methods fail to achieve both full coverage and tightness. Neural-network-based methods are not suitable for these goals due to the non-differentiability of the objective, and also classic iterative search methods suffer from their sensitivity to the initialization. We demonstrate that the best integration of the learning-based and iterative search methods can achieve the bounding boxes with both properties. We employ an existing unsupervised segmentation network to split the shape and obtain over-segmentation. Then, we apply hierarchical merging with our novel tightness-aware merging and stopping criteria. To overcome the sensitivity to the initialization, we also refine the bounding box parameters in a game setup with a soft reward function promoting a wider exploration. Lastly, we further improve the bounding boxes with a MCTS-based multi-action space exploration. Our experimental results demonstrate the full coverage, tightness, and the adequate number of bounding boxes of our method.
翻訳日:2023-04-12 11:24:02 公開日:2023-04-11
# 混合注意に基づくRGB-T追跡

RGB-T Tracking Based on Mixed Attention ( http://arxiv.org/abs/2304.04264v2 )

ライセンス: Link先を確認
Yang Luo, Mingtao Dong, Xiqing Guo, Jin Yu(参考訳) RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。 主な目的は、異なる条件における比較的支配的なモダリティを適応的に利用し、単一モダリティ追跡よりもロバストなトラッキングを実現することである。 本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。 特徴抽出の段階では,異なるモダリティから特定の情報や共有情報を抽出するために,異なるトランスフォーマーのバックボーンブランチを利用する。 テンプレートと検索画像間の情報相互作用と自己強調を可能にするために、バックボーンで混合注意操作を行うことにより、ターゲットの高レベルな意味的特徴をよりよく理解する堅牢な特徴表現を構築する。 そして、特徴融合段階において、支配的モダリティの情報を高めつつ低品質モダリティノイズを抑制する混合注意型モダリティ融合ネットワークを介してモダリティ適応融合を実現する。 複数のRGB-T公開データセットの評価は,提案手法が他のRGB-Tトラッカーよりも優れ,長期追跡シナリオに適応可能であることを示す。

RGB-T tracking involves the use of images from both visible and thermal modalities. The primary objective is to adaptively leverage the relatively dominant modality in varying conditions to achieve more robust tracking compared to single-modality tracking. An RGB-T tracker based on mixed attention mechanism to achieve complementary fusion of modalities (referred to as MACFT) is proposed in this paper. In the feature extraction stage, we utilize different transformer backbone branches to extract specific and shared information from different modalities. By performing mixed attention operations in the backbone to enable information interaction and self-enhancement between the template and search images, it constructs a robust feature representation that better understands the high-level semantic features of the target. Then, in the feature fusion stage, a modality-adaptive fusion is achieved through a mixed attention-based modality fusion network, which suppresses the low-quality modality noise while enhancing the information of the dominant modality. Evaluation on multiple RGB-T public datasets demonstrates that our proposed tracker outperforms other RGB-T trackers on general evaluation metrics while also being able to adapt to longterm tracking scenarios.
翻訳日:2023-04-12 11:23:38 公開日:2023-04-11
# 衛星画像へのnerf応用による表面再構成

NeRF applied to satellite imagery for surface reconstruction ( http://arxiv.org/abs/2304.04133v2 )

ライセンス: Link先を確認
Federico Semeraro, Yi Zhang, Wenying Wu, Patrick Carroll(参考訳) 本稿では、最近導入されたシャドウニューラルレージアンスフィールド(S-NeRF)モデルの修正実装であるSat-NeRFを提案する。 本手法は、画像中の光の変動を考慮しつつ、シーンの衛星画像の粗い集合から新規なビューを合成することができる。 トレーニングされたモデルは、しばしば衛星観測用途に望ましい量であるシーンの表面の標高を正確に推定するためにも使用できる。 S-NeRFは、放射をアルベドと照射の機能として考慮し、標準的なニューラル放射場(NeRF)法を改善する。 どちらの量もモデルの完全に接続されたニューラルネットワークの枝によって出力され、後者は太陽からの直光と空からの拡散色の関数とみなされる。 実装は衛星画像のデータセット上で実行され、ズームアンドクロップ技術を用いて拡張された。 NeRFのハイパーパラメーターによる研究が行われ、モデル収束に関する興味深い観測につながった。 最後に、NeRFとS-NeRFはどちらも100kのエポックまで実行され、データの完全適合と可能な限りの予測が得られた。 この記事に関連するコードは$\text{https://github.com/fsemerar/satnerf}$で参照できます。

We present Sat-NeRF, a modified implementation of the recently introduced Shadow Neural Radiance Field (S-NeRF) model. This method is able to synthesize novel views from a sparse set of satellite images of a scene, while accounting for the variation in lighting present in the pictures. The trained model can also be used to accurately estimate the surface elevation of the scene, which is often a desirable quantity for satellite observation applications. S-NeRF improves on the standard Neural Radiance Field (NeRF) method by considering the radiance as a function of the albedo and the irradiance. Both these quantities are output by fully connected neural network branches of the model, and the latter is considered as a function of the direct light from the sun and the diffuse color from the sky. The implementations were run on a dataset of satellite images, augmented using a zoom-and-crop technique. A hyperparameter study for NeRF was carried out, leading to intriguing observations on the model's convergence. Finally, both NeRF and S-NeRF were run until 100k epochs in order to fully fit the data and produce their best possible predictions. The code related to this article can be found at $\text{https://github.com/fsemerar/satnerf}$.
翻訳日:2023-04-12 11:23:18 公開日:2023-04-11
# tc-vae: 分散データ生成要因を明らかにする

TC-VAE: Uncovering Out-of-Distribution Data Generative Factors ( http://arxiv.org/abs/2304.04103v2 )

ライセンス: Link先を確認
Cristian Meo, Anirudh Goyal and Justin Dauwels(参考訳) データ生成要因を明らかにすることは、絡み合い学習の究極の目標である。 多くの研究が、データセットの根底にある生成因子を解明できる無絡生成モデルを提案したが、これまでのところ、OOD生成因子(すなわちデータセットに明示的に示されていない変動因子)を発見できなかった。 さらに、これらのモデルを検証するために使用されるデータセットは、予め定義された生成因子のバランスの取れた混合を用いて合成され、生成因子がデータセット全体に均一に分散されていることを暗黙的に仮定する。 しかし、実際のデータセットはこの性質を示さない。 本研究では,不均衡生成因子を用いたデータセットの利用の効果を分析し,広く用いられている生成モデルに対して質的・定量的な結果を与える。 さらに,学習した潜在表現と入力データとの結合総関係の下位境界を用いて最適化された生成モデルTC-VAEを提案する。 提案モデルでは, 異なるデータセット上のOOD生成因子を抽出し, 下流のアンタングル化指標を用いて, 関連するベースラインの平均値を上回る性能を示す。

Uncovering data generative factors is the ultimate goal of disentanglement learning. Although many works proposed disentangling generative models able to uncover the underlying generative factors of a dataset, so far no one was able to uncover OOD generative factors (i.e., factors of variations that are not explicitly shown on the dataset). Moreover, the datasets used to validate these models are synthetically generated using a balanced mixture of some predefined generative factors, implicitly assuming that generative factors are uniformly distributed across the datasets. However, real datasets do not present this property. In this work we analyse the effect of using datasets with unbalanced generative factors, providing qualitative and quantitative results for widely used generative models. Moreover, we propose TC-VAE, a generative model optimized using a lower bound of the joint total correlation between the learned latent representations and the input data. We show that the proposed model is able to uncover OOD generative factors on different datasets and outperforms on average the related baselines in terms of downstream disentanglement metrics.
翻訳日:2023-04-12 11:22:54 公開日:2023-04-11
# 模擬コヒーレントイジングマシンにおける最短ベクトル問題の量子アルゴリズムによる解法

Quantum algorithmic solutions to the shortest vector problem on simulated coherent Ising machines ( http://arxiv.org/abs/2304.04075v2 )

ライセンス: Link先を確認
Edmund Dable-Heath, Laura Casas, Christian Porter, Florian Mintert, Cong Ling(参考訳) 量子コンピューティングは現代の暗号システムに脅威をもたらし、今後数十年にわたって予測される問題を引き起こすような状態へと進化する。 量子セキュアであるように設計された暗号システムの多くは、最短ベクトル問題と関連する問題に基づいている。 本稿では,量子イジングモデルとして実装された最短ベクトル問題の2次非拘束二進最適化をシミュレーションコヒーレントイジングマシン上で定式化し,アルゴリズムの3つの変種に対するsvpの解法に向けての進展を示す。

Quantum computing poses a threat to contemporary cryptosystems, with advances to a state in which it will cause problems predicted for the next few decades. Many of the proposed cryptosystems designed to be quantum-secure are based on the Shortest Vector Problem and related problems. In this paper we use the Quadratic Unconstrained Binary Optimisation formulation of the Shortest Vector Problem implemented as a quantum Ising model on a simulated Coherent Ising Machine, showing progress towards solving SVP for three variants of the algorithm.
翻訳日:2023-04-12 11:22:36 公開日:2023-04-11
# 暗黙的3次元再構成のためのサンプリング戦略の解析

Analysis of Sampling Strategies for Implicit 3D Reconstruction ( http://arxiv.org/abs/2304.03999v2 )

ライセンス: Link先を確認
Q. Liu, X. Yang(参考訳) 暗黙的3次元再構成ネットワークの訓練過程において,空間的問合せ点のサンプリング戦略の選択はモデルの最終性能に影響する。 異なる作品がサンプリング戦略の選択に違いがあり、クエリポイントの空間分布だけでなく、クエリポイントの密度の等級差の順序も異なる。 クエリポイントのサンプリング戦略を選択するには、現在の作業は、作業効率に深刻な影響を与える最適なソリューションを見つけるための列挙操作に似ている。 本研究では,ネットワークタイプとサンプリング戦略の関係,暗黙的機能とサンプリング戦略の関係,サンプリング密度がモデル性能に与える影響の3つの側面から,分類解析と実験比較によるサンプリング戦略とネットワーク最終性能の関係について検討した。 さらに,クエリポイントのサンプリング戦略を改善するために,線形サンプリングと距離マスクという2つの手法を提案した。

In the training process of the implicit 3D reconstruction network, the choice of spatial query points' sampling strategy affects the final performance of the model. Different works have differences in the selection of sampling strategies, not only in the spatial distribution of query points but also in the order of magnitude difference in the density of query points. For how to select the sampling strategy of query points, current works are more akin to an enumerating operation to find the optimal solution, which seriously affects work efficiency. In this work, we explored the relationship between sampling strategy and network final performance through classification analysis and experimental comparison from three aspects: the relationship between network type and sampling strategy, the relationship between implicit function and sampling strategy, and the impact of sampling density on model performance. In addition, we also proposed two methods, linear sampling and distance mask, to improve the sampling strategy of query points, making it more general and robust.
翻訳日:2023-04-12 11:22:24 公開日:2023-04-11
# 電場を有する箱内の自由粒子の微小摂動による量子ゲート合成

Quantum gate synthesis by small perturbation of a free particle in a box with electric field ( http://arxiv.org/abs/2304.03967v2 )

ライセンス: Link先を確認
Kumar Gautam(参考訳) 本論文では,自由荷電粒子を時間・位置変動電場を有する1次元箱に摂動させることにより,量子ユニタリゲートを実現する。 摂動ハミルトニアン (perturbed Hamiltonian) は自由粒子ハミルトニアン(英語版) と摂動ポテンシャル (perturbing electric potential) から構成され、量子フーリエ変換ゲート (quantum Fourier transform gate) のような与えられたユニタリゲートを、有限個のエネルギーレベルに切り離した未摂動系のユニタリ進化作用素であるSchr$\ddot{o}$dinger evolution in time $T$ である。 この考え方は、半波フーリエ正弦級数を空間変数 $\mathbf x$ において$M$ 項に切り換え、相互作用図形のダイソン級数としてポテンシャルを拡張して、$ \mathbf V_n(t)'$s の線型および二次積分函数まで進化作用素行列要素を計算することである。 その結果, ダイソン級数とフロベニウスノルムを用いて, 導出ゲートエネルギーと与えられたゲートエネルギーの差を低減し, 雑音対信号エネルギー比 (nser) をプロットして時間的性能基準を決定した。 量子ゲートの磁気制御に関する数学的説明も提供されている。 さらに,磁気制御を用いた量子ゲートの数学的説明を行う。

A quantum unitary gate is realized in this paper by perturbing a free charged particle in a one-dimensional box with a time- and position-varying electric field. The perturbed Hamiltonian is composed of a free particle Hamiltonian plus a perturbing electric potential such that the Schr$\ddot{o}$dinger evolution in time $T$, the unitary evolution operator of the unperturbed system after truncation to a finite number of energy levels, approximates a given unitary gate such as the quantum Fourier transform gate. The idea is to truncate the half-wave Fourier sine series to $M$ terms in the spatial variable $\mathbf x$ before extending the potential as a Dyson series in the interaction picture to compute the evolution operator matrix elements up to the linear and quadratic integral functionals of $ \mathbf V_n(t)'$s. As a result, we used the Dyson series with the Frobenius norm to reduce the difference between the derived gate energy and the given gate energy, and we determined the temporal performance criterion by plotting the noise-to-signal energy ratio (NSER). A mathematical explanation for a quantum gate's magnetic control has also been provided. In addition, we provide a mathematical explanation for a quantum gate that uses magnetic control.
翻訳日:2023-04-12 11:22:09 公開日:2023-04-11
# StepMix: 外部変数を持つ一般化混合モデルの擬似的推定のためのPythonパッケージ

StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables ( http://arxiv.org/abs/2304.03853v2 )

ライセンス: Link先を確認
Sacha Morin, Robin Legault, Zsuzsa Bakk, Charles-\'Edouard Gigu\`ere, Roxane de la Sablonni\`ere, \'Eric Lacourse(参考訳) StepMixは、外部変数(共変量および遠位結果)を持つ一般化有限混合モデル(潜時プロファイルおよび潜時クラス解析)の擬似的様相推定(1段階、2段階、3段階のアプローチ)のためのオープンソースソフトウェアパッケージである。 社会科学における多くの応用において、主な目的は個人を潜在クラスに分類するだけでなく、これらのクラスを使用してより複雑な統計モデルを開発することである。 これらのモデルは一般に、潜在クラスを観測指標に関連付ける測定モデルと、共変量と結果変数を潜在クラスに関連付ける構造モデルに分けられる。 測定と構造モデルは、いわゆるワンステップアプローチまたはステップワイズ手法を用いて共同で推定することができ、推定された潜在クラスの解釈可能性に関する実践者にとって重要な利点を示す。 1段階のアプローチに加えて、StepMixはBCHとMLの修正によるバイアス調整3段階法や、より最近の2段階のアプローチなど、文献から最も重要なステップワイズ推定手法を実装している。 これらの擬似的様相推定器は、特定の期待-最大化サブルーチンとして統一された枠組みの下で提示される。 データサイエンスコミュニティで採用を促進するため、stepmixはscikit-learnライブラリのオブジェクト指向設計に従い、pythonとrの両方でインターフェースを提供する。

StepMix is an open-source software package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with BCH and ML corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides interfaces in both Python and R.
翻訳日:2023-04-12 11:21:35 公開日:2023-04-11
# マルチモーダルコントラスト学習によるリンク表現

Linking Representations with Multimodal Contrastive Learning ( http://arxiv.org/abs/2304.03464v2 )

ライセンス: Link先を確認
Abhishek Arora and Xinmei Yang and Shao-Yu Jheng and Melissa Dell(参考訳) 多くのアプリケーションは、多様なドキュメントデータセットに含まれるグループインスタンスをクラスに分類する必要がある。 広く使われている手法は、深層学習を用いず、文書の本質的にマルチモーダルな性質を生かしていない。 特に、レコードリンクは一般に文字列マッチング問題として概念化されている。 本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGS(Contrastively Linking Pooled Pre-trained Embeddings)を開発した。 CLIPPINGSは、対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列し、与えられたインスタンスのプールされた画像テキスト表現が同じクラスの表現に近づき、異なるクラスの表現から遠ざかるメトリック空間を学習する。 インスタンスは、オフラインの例の埋め込みインデックスから隣人を検索したり、表現をクラスタ化することでリンクすることができる。 20世紀半ばの日本における総合的なサプライチェーンの構築は、文書画像中の各企業名と対応するocrとを結びつけることと、歴史的アメリカの新聞の膨大なコーパス内のイメージ・キャプチャペアを同一の写真線源から検出することである。 CLIPPINGSは広く使われている文字列マッチング手法を幅広いマージンで上回り、またunimodalメソッドよりも上回ります。 さらに、イメージ-OCRペアのみを訓練した純粋に自己教師型モデルも、ラベルを必要とせずに一般的な文字列マッチング手法より優れている。

Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a multimodal framework for record linkage. CLIPPINGS employs end-to-end training of symmetric vision and language bi-encoders, aligned through contrastive language-image pre-training, to learn a metric space where the pooled image-text representation for a given instance is close to representations in the same class and distant from representations in different classes. At inference time, instances can be linked by retrieving their nearest neighbor from an offline exemplar embedding index or by clustering their representations. The study examines two challenging applications: constructing comprehensive supply chains for mid-20th century Japan through linking firm level financial records - with each firm name represented by its crop in the document image and the corresponding OCR - and detecting which image-caption pairs in a massive corpus of historical U.S. newspapers came from the same underlying photo wire source. CLIPPINGS outperforms widely used string matching methods by a wide margin and also outperforms unimodal methods. Moreover, a purely self-supervised model trained on only image-OCR pairs also outperforms popular string-matching methods without requiring any labels.
翻訳日:2023-04-12 11:21:10 公開日:2023-04-11
# 不可解な対策による難易度検索の再検討

Revisiting Dense Retrieval with Unanswerable Counterfactuals ( http://arxiv.org/abs/2304.03031v3 )

ライセンス: Link先を確認
Yongho Song, Dahyun Lee, Kyungjae Lee, Jinyeong Yeo(参考訳) retriever-readerフレームワークはopen-domain question answering(odqa)で人気があり、レトリバーが読者に対して、大きなコーパスから関連する候補パスのセットをサンプリングする。 この手法の背景にある重要な前提は、検索者からの高関連度スコアは、読者からの高い応答可能性を示す可能性があり、検索されたパスが与えられた質問に対する回答を含む確率が高いということである。 本研究では,この信念を実証的に否定し,dprに基づく近年の密集した検索モデルが,解答可能な原文よりも不都合な偽文を上位にランク付けすることが多いことを観察する。 本研究では,dprの関連度測定と質問・回答対の対応性との同期性を高めるために,非実例を付加的な学習資源として活用する。 具体的には, 逆実例を学習空間における正と負のサンプルのピボットとして活用する, 経路探索のための新しい表現学習手法PiCLを提案する。 我々は, ODQAベンチマークにおけるPiCLの有効性と学習モデルの堅牢性を示すために, 検索学習にPiCLを組み込んだ。

The retriever-reader framework is popular for open-domain question answering (ODQA), where a retriever samples for the reader a set of relevant candidate passages from a large corpus. A key assumption behind this method is that high relevance scores from the retriever likely indicate high answerability from the reader, which implies a high probability that the retrieved passages contain answers to a given question. In this work, we empirically dispel this belief and observe that recent dense retrieval models based on DPR often rank unanswerable counterfactual passages higher than their answerable original passages. To address such answer-unawareness in dense retrievers, we seek to use counterfactual samples as additional training resources to better synchronize the relevance measurement of DPR with the answerability of question-passage pairs. Specifically, we present counterfactually-Pivoting Contrastive Learning (PiCL), a novel representation learning approach for passage retrieval that leverages counterfactual samples as pivots between positive and negative samples in their learned embedding space. We incorporate PiCL into the retriever training to show the effectiveness of PiCL on ODQA benchmarks and the robustness of the learned models.
翻訳日:2023-04-12 11:20:42 公開日:2023-04-11
# SAMセグメンテーションは可能か? サムがカモフラージュされた物体検出に出会ったとき

Can SAM Segment Anything? When SAM Meets Camouflaged Object Detection ( http://arxiv.org/abs/2304.04709v2 )

ライセンス: Link先を確認
Lv Tang, Haoke Xiao, Bo Li(参考訳) samはmeta ai researchが最近リリースしたセグメンテーションモデルで、汎用オブジェクトセグメンテーションのパフォーマンスが印象的なため、急速に注目を集めている。 しかし、迷彩画など特定の場面に一般化する能力はまだ不明である。 カモフラージュされた物体検出(COD)は、周囲にシームレスに統合され、医学、芸術、農業などの分野で多くの実用的応用がある物体を識別する。 本研究では, SAMがCODタスクに対処できるかどうかを問うとともに, 最大セグメンテーション評価とカモフラージュ位置評価を用いて, CODベンチマークにおけるSAMの性能を評価する。 また,SAMの性能を22の最先端COD法と比較した。 その結果,SAMはジェネリックオブジェクトセグメンテーションにおけるpromiseを示すが,CODタスクの性能は限定的であることがわかった。 これは、CODタスクに対処するより強力なSAMを構築する方法について、さらなる研究を行う機会を与える。 この論文の結果は \url{https://github.com/luckybird1994/samcod} で示される。

SAM is a segmentation model recently released by Meta AI Research and has been gaining attention quickly due to its impressive performance in generic object segmentation. However, its ability to generalize to specific scenes such as camouflaged scenes is still unknown. Camouflaged object detection (COD) involves identifying objects that are seamlessly integrated into their surroundings and has numerous practical applications in fields such as medicine, art, and agriculture. In this study, we try to ask if SAM can address the COD task and evaluate the performance of SAM on the COD benchmark by employing maximum segmentation evaluation and camouflage location evaluation. We also compare SAM's performance with 22 state-of-the-art COD methods. Our results indicate that while SAM shows promise in generic object segmentation, its performance on the COD task is limited. This presents an opportunity for further research to explore how to build a stronger SAM that may address the COD task. The results of this paper are provided in \url{https://github.com/luckybird1994/SAMCOD}.
翻訳日:2023-04-12 11:13:43 公開日:2023-04-11
# ゼロショット時空間行動検出のための対話型プロンプト

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection ( http://arxiv.org/abs/2304.04688v2 )

ライセンス: Link先を確認
Wei-Jhe Huang, Jheng-Hsien Yeh, Gueter Josmy Faure, Min-Hung Chen, Shang-Hong Lai(参考訳) 空間的-時間的行動検出の目標は、ビデオ内で各人の行動が起こる時間と場所を決定し、対応する行動カテゴリを分類することである。 既存の手法の多くは、大量のトレーニングデータを必要とする完全教師付き学習を採用しており、ゼロショット学習を実現するのは非常に困難である。 本稿では,訓練済みの視覚言語モデルを用いて代表的画像とテキストの特徴を抽出し,それらの特徴の相互作用モジュール間の関係をモデル化してインタラクション特徴を得る。 さらに、この機能を使って各ラベルにより適切なテキスト機能を得るよう促す。 最後に、各ラベルのインタラクション特徴とテキスト特徴との類似度を算出し、アクションカテゴリを決定する。 j-hmdb と ucf101-24 データセットを用いた実験により,提案するインタラクションモジュールと視覚機能の整合性が向上し,ゼロショット時空間動作検出に優れた精度が得られた。 コードは受理後にリリースされます。

The goal of spatial-temporal action detection is to determine the time and place where each person's action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be released upon acceptance.
翻訳日:2023-04-12 11:13:23 公開日:2023-04-11
# おそらくほぼ正しい連合学習

Probably Approximately Correct Federated Learning ( http://arxiv.org/abs/2304.04641v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Anbu Huang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。 既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することは不可能であることを示している。 したがって、FLアルゴリズムを設計する際、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。 共通の方法は、トレードオフ問題を多目的最適化問題として、すなわち、予め定義された値を超えないプライバシー漏洩を抑えながら、ユーティリティ損失と効率の低下を最小限にすることである。 しかし、既存の多目的最適化フレームワークは非常に時間がかかり、パレートフロンティアの存在を保証していないため、より効率的で容易に解決できるため、多目的問題を単一目的に変換する解決策を模索する動機となっている。 そこで本研究では,pac学習を活用し,サンプル複雑性の観点から複数の目的を定量化するための統一フレームワークであるfeedpacを提案する。この定量化により,複数の目的の解空間を共有次元に制約することが可能となり,単一目的最適化アルゴリズムの助けを借りて解くことができる。 具体的には,pac学習の観点から,ユーティリティ損失,プライバシリーク,プライバシ利用効率トレードオフ,攻撃者のコストの定量化に関する結果と詳細な分析を行う。

Federated learning (FL) is a new distributed learning paradigm, with privacy, utility, and efficiency as its primary pillars. Existing research indicates that it is unlikely to simultaneously attain infinitesimal privacy leakage, utility loss, and efficiency. Therefore, how to find an optimal trade-off solution is the key consideration when designing the FL algorithm. One common way is to cast the trade-off problem as a multi-objective optimization problem, i.e., the goal is to minimize the utility loss and efficiency reduction while constraining the privacy leakage not exceeding a predefined value. However, existing multi-objective optimization frameworks are very time-consuming, and do not guarantee the existence of the Pareto frontier, this motivates us to seek a solution to transform the multi-objective problem into a single-objective problem because it is more efficient and easier to be solved. To this end, in this paper, we propose FedPAC, a unified framework that leverages PAC learning to quantify multiple objectives in terms of sample complexity, such quantification allows us to constrain the solution space of multiple objectives to a shared dimension, so that it can be solved with the help of a single-objective optimization algorithm. Specifically, we provide the results and detailed analyses of how to quantify the utility loss, privacy leakage, privacy-utility-efficiency trade-off, as well as the cost of the attacker from the PAC learning perspective.
翻訳日:2023-04-12 11:13:04 公開日:2023-04-11
# ESPnet-ST-v2:多目的音声翻訳ツールキット

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit ( http://arxiv.org/abs/2304.04596v2 )

ライセンス: Link先を確認
Brian Yan, Jiatong Shi, Yun Tang, Hirofumi Inaguma, Yifan Peng, Siddharth Dalmia, Peter Pol\'ak, Patrick Fernandes, Dan Berrebbi, Tomoki Hayashi, Xiaohui Zhang, Zhaoheng Ni, Moto Hira, Soumi Maiti, Juan Pino, Shinji Watanabe(参考訳) ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。 ESPnet-ST-v2 のサポート 1)オフライン音声テキスト翻訳(ST) 2)同時音声テキスト翻訳(SST)、及び 3) オフライン音声音声翻訳(S2ST) -- 各タスクは、ESPnet-ST-v2と他のオープンソースの音声翻訳ツールキットを区別して、幅広いアプローチでサポートされている。 このツールキットはトランスデューサ、ハイブリッドCTC/アテンション、検索可能な中間子を持つマルチデコーダ、時間同期ブロックワイドCTC/アテンション、トランスラトトロンモデル、直接離散単位モデルなどの最先端アーキテクチャを提供する。 本稿では,https://github.com/espnet/espnetで公開されているespnet-st-v2の背後にある全体的な設計,各タスクのモデル,パフォーマンスベンチマークについて述べる。

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) -- each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.
翻訳日:2023-04-12 11:12:40 公開日:2023-04-11
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v2 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-04-12 11:12:22 公開日:2023-04-11
# 神経二相性非一様bスプライン流

Neural Diffeomorphic Non-uniform B-spline Flows ( http://arxiv.org/abs/2304.04555v2 )

ライセンス: Link先を確認
Seongmin Hong, Se Young Chun(参考訳) 正規化フローは、単純な基底分布の可逆変換として複素確率分布をモデル化することに成功した。 しかし、しばしば可逆性以上のものを必要とするアプリケーションが存在する。 例えば、物理学におけるエネルギーと力の計算は、変換の第2の微分を適切に定義し連続することを要求する。 滑らかな正規化フローは無限に微分可能な変換を用いるが、非解析的逆変換の価格が遅い。 本研究では, bi-lipschitz 連続に対して少なくとも 2 倍連続的に微分可能な双相的非一様b-スプライン流を提案し, 微分同相の十分条件に基づく解析的逆変換を保ちながら, 効率的なパラメトリゼーションを実現する。 まず, ck-2-微分同相な非一様 k 次 b-スプライン変換の十分条件について検討する。 そこで, ニューラル微分型非一様B-スプライン流に対する非一様立方体B-スプライン変換の解析逆変換を導出した。 最後に,ボルツマン生成器の力マッチング問題を解く実験を行い,c2-微分同相非一様b-スプライン流が従来のスプライン流よりも解を導き,滑らかな正規化流よりも高速に解を得ることを示した。 ソースコードはhttps://github.com/smhongok/Non-uniform-B-spline-Flowで公開されています。

Normalizing flows have been successfully modeling a complex probability distribution as an invertible transformation of a simple base distribution. However, there are often applications that require more than invertibility. For instance, the computation of energies and forces in physics requires the second derivatives of the transformation to be well-defined and continuous. Smooth normalizing flows employ infinitely differentiable transformation, but with the price of slow non-analytic inverse transforms. In this work, we propose diffeomorphic non-uniform B-spline flows that are at least twice continuously differentiable while bi-Lipschitz continuous, enabling efficient parametrization while retaining analytic inverse transforms based on a sufficient condition for diffeomorphism. Firstly, we investigate the sufficient condition for Ck-2-diffeomorphic non-uniform kth-order B-spline transformations. Then, we derive an analytic inverse transformation of the non-uniform cubic B-spline transformation for neural diffeomorphic non-uniform B-spline flows. Lastly, we performed experiments on solving the force matching problem in Boltzmann generators, demonstrating that our C2-diffeomorphic non-uniform B-spline flows yielded solutions better than previous spline flows and faster than smooth normalizing flows. Our source code is publicly available at https://github.com/smhongok/Non-uniform-B-spline-Flow.
翻訳日:2023-04-12 11:11:57 公開日:2023-04-11
# コホート知性に向けて : 電子健康記録分析のための普遍コホート表現学習フレームワーク

Toward Cohort Intelligence: A Universal Cohort Representation Learning Framework for Electronic Health Record Analysis ( http://arxiv.org/abs/2304.04468v2 )

ライセンス: Link先を確認
Changshuo Liu, Wenqiao Zhang, Lingze Zeng, Beng Chin Ooi, James Wei Luen Yip, Kaiping Zheng(参考訳) 電子健康記録(ehr)は、幅広い患者集団の貴重な情報を記録した臨床ルーチンケアから作成され、臨床実践における患者の管理と介入戦略を改善する豊富な機会を提供する。 EHRデータの膨大な可能性を活用するために、マシンラーニングにおける一般的なEHRデータ分析パラダイムは、まず患者のERHデータを活用して、バックボーンによる情報表現を学習し、その表現に基づく多様なヘルスケアダウンストリームタスクをサポートするEHR表現学習である。 残念なことに、このようなパラダイムは、一般的に臨床実践におけるコホート研究として知られる患者の関連性の深い分析にアクセスできない。 特に、同じコホートを持つ患者は、症状や疾患などの医学的状況において類似した特徴を持つ傾向がある。 本稿では, 患者間の詳細なコホート情報を活用することで, EHR活用を促進するための共通コホート表現 lEarning (CORE) フレームワークを提案する。 特に、COREは、患者の診断コードの事前知識に基づいて、患者のコホートを適応的に分割するために、患者間の潜伏関係を測定する明示的な患者モデリングタスクを最初に開発した。 構築されたコホートに基づいて、COREは、事前抽出されたEHRデータ表現をコホート内およびコホート間の観点から再符号化し、拡張されたEHRデータ表現学習を生成する。 COREは多様なバックボーンモデルに容易に適用でき、コホート情報を医療手法に注入してパフォーマンスを高める普遍的なプラグインフレームワークとして機能する。 2つの実世界のデータセットについて広範な実験評価を行い,実験結果からコアの有効性と汎用性を示す。

Electronic Health Records (EHR) are generated from clinical routine care recording valuable information of broad patient populations, which provide plentiful opportunities for improving patient management and intervention strategies in clinical practice. To exploit the enormous potential of EHR data, a popular EHR data analysis paradigm in machine learning is EHR representation learning, which first leverages the individual patient's EHR data to learn informative representations by a backbone, and supports diverse health-care downstream tasks grounded on the representations. Unfortunately, such a paradigm fails to access the in-depth analysis of patients' relevance, which is generally known as cohort studies in clinical practice. Specifically, patients in the same cohort tend to share similar characteristics, implying their resemblance in medical conditions such as symptoms or diseases. In this paper, we propose a universal COhort Representation lEarning (CORE) framework to augment EHR utilization by leveraging the fine-grained cohort information among patients. In particular, CORE first develops an explicit patient modeling task based on the prior knowledge of patients' diagnosis codes, which measures the latent relevance among patients to adaptively divide the cohorts for each patient. Based on the constructed cohorts, CORE recodes the pre-extracted EHR data representation from intra- and inter-cohort perspectives, yielding augmented EHR data representation learning. CORE is readily applicable to diverse backbone models, serving as a universal plug-in framework to infuse cohort information into healthcare methods for boosted performance. We conduct an extensive experimental evaluation on two real-world datasets, and the experimental results demonstrate the effectiveness and generalizability of CORE.
翻訳日:2023-04-12 11:11:36 公開日:2023-04-11
# メタコンフィグレーション参照表現のセグメンテーション

Meta Compositional Referring Expression Segmentation ( http://arxiv.org/abs/2304.04415v2 )

ライセンス: Link先を確認
Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu(参考訳) 表現セグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメントすることを目的としている。 このタスクの最近の進歩にもかかわらず、このタスクに取り組む既存のモデルは、個々の概念の意味論と視覚的表現を完全に捉えることができないかもしれない。 本稿ではメタ学習のレンズを通して,モデル合成一般化性能を向上させるメタ合成参照表現セグメンテーション(MCRES)フレームワークを提案する。 具体的には、まずトレーニングデータを用いて、仮想トレーニングセットと複数の仮想テストセットを構築し、それぞれの仮想テストセット内のデータサンプルは、仮想トレーニングセットに対して、新しいコンポジションのレベルを含む。 そして,仮想トレーニングセット上でのトレーニング後の仮想テストセット上での優れたテスト性能を得るために,モデルを最適化する新しいメタ最適化スキームに従えば,本フレームワークは,個々の概念のセマンティクスや視覚的表現をより効果的に把握し,新しい構成を扱う場合でも堅牢な一般化性能を得ることができる。 3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。

Referring expression segmentation aims to segment an object described by a language expression from an image. Despite the recent progress on this task, existing models tackling this task may not be able to fully capture semantics and visual representations of individual concepts, which limits their generalization capability, especially when handling novel compositions of learned concepts. In this work, through the lens of meta learning, we propose a Meta Compositional Referring Expression Segmentation (MCRES) framework to enhance model compositional generalization performance. Specifically, to handle various levels of novel compositions, our framework first uses training data to construct a virtual training set and multiple virtual testing sets, where data samples in each virtual testing set contain a level of novel compositions w.r.t. the virtual training set. Then, following a novel meta optimization scheme to optimize the model to obtain good testing performance on the virtual testing sets after training on the virtual training set, our framework can effectively drive the model to better capture semantics and visual representations of individual concepts, and thus obtain robust generalization performance even when handling novel compositions. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our framework.
翻訳日:2023-04-12 11:11:05 公開日:2023-04-11
# H2RBox-v2:対称学習によるHBoxによるオブジェクト指向物体検出の促進

H2RBox-v2: Boosting HBox-supervised Oriented Object Detection via Symmetric Learning ( http://arxiv.org/abs/2304.04403v2 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Yue Zhou, Gefan Zhang, Feipeng Da, Junchi Yan(参考訳) 自動運転やリモートセンシングといった指向型オブジェクト検出の需要が高まる中、指向型アノテーションは労働集約的な作業となっている。 既存の水平アノテートデータセットをフル活用し,アノテーションコストを削減するため,水平ボックス(HBox)から回転ボックス(RBox)を学習する弱い教師付き検出器H2RBoxが提案され,注目されている。 本稿では,HBox と RBox によるオブジェクト指向検出のギャップを埋めるため,H2RBox-v2 の新バージョンを提案する。 H2RBox-v2は、H2RBoxに似た弱教師付き分岐を用いて、物体の像に固有の対称性から配向を学習する新しい自己教師付き分岐に埋め込まれる。 周辺問題、例えば角周期性に対処するモジュールによって補完され、安定かつ効果的な解が達成される。 我々の知る限り、H2RBox-v2は指向オブジェクト検出のための最初の対称性制御パラダイムである。 h2rboxと比較すると,本手法はアノテーション品質の低さやトレーニングデータ不足の影響を受けにくいため,完全教師付き指向型物体検出器に近い競合性能が期待できる。 具体的には、DOTA-v1.0/1.5/2.0におけるH2RBox-v2と回転FCOSのパフォーマンス比較は72.31%/64.76%/50.33%対72.44%/64.53%/51.77%、HRSCでは89.66%対88.99%、FAIR1Mでは42.27%対41.25%である。

With the increasing demand for oriented object detection e.g. in autonomous driving and remote sensing, the oriented annotation has become a labor-intensive work. To make full use of existing horizontally annotated datasets and reduce the annotation cost, a weakly-supervised detector H2RBox for learning the rotated box (RBox) from the horizontal box (HBox) has been proposed and received great attention. This paper presents a new version, H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. While exploiting axisymmetry via flipping and rotating consistencies is available through our theoretical analysis, H2RBox-v2, using a weakly-supervised branch similar to H2RBox, is embedded with a novel self-supervised branch that learns orientations from the symmetry inherent in the image of objects. Complemented by modules to cope with peripheral issues, e.g. angular periodicity, a stable and effective solution is achieved. To our knowledge, H2RBox-v2 is the first symmetry-supervised paradigm for oriented object detection. Compared to H2RBox, our method is less susceptible to low annotation quality and insufficient training data, which in such cases is expected to give a competitive performance much closer to fully-supervised oriented object detectors. Specifically, the performance comparison between H2RBox-v2 and Rotated FCOS on DOTA-v1.0/1.5/2.0 is 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%, 89.66% vs. 88.99% on HRSC, and 42.27% vs. 41.25% on FAIR1M.
翻訳日:2023-04-12 11:10:44 公開日:2023-04-11
# マルチモーダル学習におけるロバスト性について

On Robustness in Multimodal Learning ( http://arxiv.org/abs/2304.04385v2 )

ライセンス: Link先を確認
Brandon McKinzie, Joseph Cheng, Vaishaal Shankar, Yinfei Yang, Jonathon Shlens, Alexander Toshev(参考訳) マルチモーダル学習は、ビデオ、オーディオ、テキストなどの多種多様な入力モダリティの学習として定義される。 本研究は,ハードウェアプラットフォームへのマルチモーダル学習の多くの応用において自然に発生する,トレーニングとデプロイメントの相違としてモデルがどのように振る舞うかを理解することを目的としている。 本稿では,共通マルチモーダル表現学習法の体系的分析を行うためのマルチモーダルロバストネスフレームワークを提案する。 さらに、これらのアプローチのロバスト性不足を特定し、3つのデータセット、audioset、kinetics-400、imagenet-captionsに対する1.5\times$-$4\times$ロバスト性改善につながる2つの介入手法を提案する。 最後に、AudioSet 20K上で44.2ドルmAPの競争結果を得るために、追加のモダリティをより有効に活用できることを実証する。

Multimodal learning is defined as learning over multiple heterogeneous input modalities such as video, audio, and text. In this work, we are concerned with understanding how models behave as the type of modalities differ between training and deployment, a situation that naturally arises in many applications of multimodal learning to hardware platforms. We present a multimodal robustness framework to provide a systematic analysis of common multimodal representation learning methods. Further, we identify robustness short-comings of these approaches and propose two intervention techniques leading to $1.5\times$-$4\times$ robustness improvements on three datasets, AudioSet, Kinetics-400 and ImageNet-Captions. Finally, we demonstrate that these interventions better utilize additional modalities, if present, to achieve competitive results of $44.2$ mAP on AudioSet 20K.
翻訳日:2023-04-12 11:10:07 公開日:2023-04-11