このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230408となっている論文です。

PDF登録状況(公開日: 20230408)

TitleAuthorsAbstract論文公表日・翻訳日
# OFDMシステムにおける関節検出チャネル推定のための機械学習手法

Machine Learning-based Methods for Joint {Detection-Channel Estimation} in OFDM Systems ( http://arxiv.org/abs/2304.12189v1 )

ライセンス: Link先を確認
Wilson de Souza Junior, Taufik Abrao(参考訳) 本研究では,OFDMシステムにおける共同検出チャネル推定のための機械学習(ML)に基づく2つの構造を提案する。 MLアーキテクチャ、すなわちDeep Neural Network (DNN) とExtreme Learning Machine (ELM) の両方を開発し、最小平均二乗誤差 (MMSE) と最小二乗チャネル推定器 (LS) を備えた従来のマッチングフィルタ (MF) 検出器と比較した。 ビットエラーレート(ber)性能と計算複雑性のトレードオフを解析し、提案手法であるdnn-ofdmおよびelm-ofdm検出器の優位性を示す。

In this work, two machine learning (ML)-based structures for joint detection-channel estimation in OFDM systems are proposed and extensively characterized. Both ML architectures, namely Deep Neural Network (DNN) and Extreme Learning Machine (ELM), are developed {to provide improved data detection performance} and compared with the conventional matched filter (MF) detector equipped with the minimum mean square error (MMSE) and least square (LS) channel estimators. The bit-error-rate (BER) performance vs. computational complexity trade-off is analyzed, demonstrating the superiority of the proposed DNN-OFDM and ELM-OFDM detectors methodologies.
翻訳日:2023-04-30 07:49:13 公開日:2023-04-08
# Edge-prompted Heterogeneous Graph Networkに基づくマルチショー公開のためのオーディエンス拡張

Audience Expansion for Multi-show Release Based on an Edge-prompted Heterogeneous Graph Network ( http://arxiv.org/abs/2304.05474v1 )

ライセンス: Link先を確認
Kai Song, Shaofeng Wang, Ziwei Xie, Shanyu Wang, Jiahong Li, Yongqiang Yang(参考訳) ビデオプラットフォーム上での新規番組のターゲティングと拡大を行うユーザにとって重要なのは、埋め込みの生成方法だ。 ユーザーと番組の両方の観点からパーソナライズされていなければならない。 さらに、インスタント(クリック)とロングタイム(ビュータイム)の両方の報酬を追求し、新しいショーのコールドスタート問題は追加の課題をもたらす。 このような問題は、データの自然なグラフ構造のため、異種グラフモデルによる処理に適している。 しかし、現実世界のネットワークは通常数十億のノードとさまざまな種類のエッジを持っている。 大規模データの処理と異なるタイプのエッジ、特に後者の利用に重点を置く方法はほとんどない。 本稿では,両面の相互作用や特徴を考慮に入れたエッジプロンプト不均一グラフネットワークに基づく2段階のオーディエンス拡張手法を提案する。 オフラインステージでは、グラフを構築するために、ユーザidとショーの特定のサイド情報の組み合わせをノードとして選択し、エッジ構築にはクリック/クリック関係とビュー時間を使用する。 埋め込みとクラスタ化されたユーザグループを計算します。 新しいショーが到着すると、それらの埋め込みとその後のマッチングユーザは一貫した空間内で作成できる。 オンライン段階では、クリック/ビューユーザを含む後続データをシードとして使用して、類似ユーザを探す。 公開データセットと数十億規模のデータの結果は、我々のアプローチの正確性と効率を示している。

In the user targeting and expanding of new shows on a video platform, the key point is how their embeddings are generated. It's supposed to be personalized from the perspective of both users and shows. Furthermore, the pursue of both instant (click) and long-time (view time) rewards, and the cold-start problem for new shows bring additional challenges. Such a problem is suitable for processing by heterogeneous graph models, because of the natural graph structure of data. But real-world networks usually have billions of nodes and various types of edges. Few existing methods focus on handling large-scale data and exploiting different types of edges, especially the latter. In this paper, we propose a two-stage audience expansion scheme based on an edge-prompted heterogeneous graph network which can take different double-sided interactions and features into account. In the offline stage, to construct the graph, user IDs and specific side information combinations of the shows are chosen to be the nodes, and click/co-click relations and view time are used to build the edges. Embeddings and clustered user groups are then calculated. When new shows arrive, their embeddings and subsequent matching users can be produced within a consistent space. In the online stage, posterior data including click/view users are employed as seeds to look for similar users. The results on the public datasets and our billion-scale data demonstrate the accuracy and efficiency of our approach.
翻訳日:2023-04-13 16:54:48 公開日:2023-04-08
# 機械学習の公平性と公衆衛生の公平性

Connecting Fairness in Machine Learning with Public Health Equity ( http://arxiv.org/abs/2304.04761v1 )

ライセンス: Link先を確認
Shaina Raza(参考訳) 機械学習(ML)は公衆衛生にとって重要なツールとなり、人口の健康、診断、治療の選択、健康システム効率を改善する可能性がある。 しかし、データとモデル設計のバイアスは、特定の保護されたグループの格差をもたらし、医療における既存の不平等を増幅する。 この課題に対処するために,MLフェアネスに関する学術文献を要約し,データとモデルのバイアスを特定し緩和するための枠組みを提案する。 このフレームワークは、データ処理、モデル設計、デプロイメント、評価など、典型的なMLパイプラインのさまざまなステージに公正さを組み込むためのガイダンスを提供する。 MLモデルにおけるデータへのバイアスの影響を説明するために,モデル予測による体系的バイアスの増幅方法を示す。 これらのケーススタディは、これらのバイアスを防止し、公衆衛生における公平で公平なMLモデルの必要性を強調するために、このフレームワークをどのように利用できるかを示唆している。 この研究は、すべての住民にとってより倫理的で公平な結果に向けて、公衆衛生におけるMLの使用を通知し、指導することを目的としている。

Machine learning (ML) has become a critical tool in public health, offering the potential to improve population health, diagnosis, treatment selection, and health system efficiency. However, biases in data and model design can result in disparities for certain protected groups and amplify existing inequalities in healthcare. To address this challenge, this study summarizes seminal literature on ML fairness and presents a framework for identifying and mitigating biases in the data and model. The framework provides guidance on incorporating fairness into different stages of the typical ML pipeline, such as data processing, model design, deployment, and evaluation. To illustrate the impact of biases in data on ML models, we present examples that demonstrate how systematic biases can be amplified through model predictions. These case studies suggest how the framework can be used to prevent these biases and highlight the need for fair and equitable ML models in public health. This work aims to inform and guide the use of ML in public health towards a more ethical and equitable outcome for all populations.
翻訳日:2023-04-12 17:23:06 公開日:2023-04-08
# SAR2EO:高分解能画像翻訳フレームワーク

SAR2EO: A High-resolution Image Translation Framework with Denoising Enhancement ( http://arxiv.org/abs/2304.04760v1 )

ライセンス: Link先を確認
Jun Yu, Shenshen Du, Renjie Lu, Pengwei Li, Guochen Xie, Zhongpeng Cai, Keda Lu, Qing Ling, Cong Wang, Luyu Qiu, Wei Zheng(参考訳) SAR(Synthetic Aperture Radar)からEO(Electro-optical Image Translation)への変換は、リモートセンシングにおける基本的なタスクであり、異なるソースからの情報を融合することでデータセットを強化できる。 近年,多くの手法が提案されているが,低解像度画像から高解像度画像への変換はいまだに困難である。 そこで我々は,この問題に対処するためのフレームワークSAR2EOを提案する。 まず, 高品質eo画像を生成するために, 粗視・細視・多スケール判別器を採用し, pix2pixhdモデルの逆損失を改善し, 合成品質の向上を図る。 次に,sar画像中のノイズを除去し,画像の構造情報を保存しながらノイズを抑制するための雑音除去モジュールを提案する。 提案手法の有効性を検証するため,大規模sar画像対とeo画像対からなるmavic(multi-modal aerial view image challenge)のデータセットについて実験を行った。 実験の結果,提案フレームワークの優位性が示され,cvpr pbvs 2023で開催されているmavicで初優勝を果たした。

Synthetic Aperture Radar (SAR) to electro-optical (EO) image translation is a fundamental task in remote sensing that can enrich the dataset by fusing information from different sources. Recently, many methods have been proposed to tackle this task, but they are still difficult to complete the conversion from low-resolution images to high-resolution images. Thus, we propose a framework, SAR2EO, aiming at addressing this challenge. Firstly, to generate high-quality EO images, we adopt the coarse-to-fine generator, multi-scale discriminators, and improved adversarial loss in the pix2pixHD model to increase the synthesis quality. Secondly, we introduce a denoising module to remove the noise in SAR images, which helps to suppress the noise while preserving the structural information of the images. To validate the effectiveness of the proposed framework, we conduct experiments on the dataset of the Multi-modal Aerial View Imagery Challenge (MAVIC), which consists of large-scale SAR and EO image pairs. The experimental results demonstrate the superiority of our proposed framework, and we win the first place in the MAVIC held in CVPR PBVS 2023.
翻訳日:2023-04-12 17:22:49 公開日:2023-04-08
# MASIL: クラスインクリメンタル学習のための最大分離型クラス表現を目指して

MASIL: Towards Maximum Separable Class Representation for Few Shot Class Incremental Learning ( http://arxiv.org/abs/2304.05362v1 )

ライセンス: Link先を確認
Anant Khandelwal(参考訳) インクリメンタルセッション毎にクラス毎に例が少ないショットクラスインクリメンタル学習(fscil)は,大量の注釈付きサンプルの取得が実現不可能でコスト効率がよいため,継続的学習の現実的な設定である。 フレームワークMASILを最大分離型分類器の学習のためのステップとして提示する。 これは、クラス間で最大に分離可能な分類子重みを学習することで、古いクラスを忘れ、新しいクラスに過剰に適合する、という共通の問題に対処する。 本稿では, 基本セッションクラスにおける分解機能を説明する概念因子化の考え方を提案し, 少数のショットクラスに対する分類器の簡易化を誘導する。 さらに、ファシリゼーション中に発生したエラーを減らすための微調整を追加し、メモリにベースクラスサンプルを保持することなく、ベースクラスと新規クラスで共同で分類器を訓練する。 miniImageNet、CIFAR-100、CUB-200の実験結果は、MASILが全てのベンチマークより優れていることを示している。

Few Shot Class Incremental Learning (FSCIL) with few examples per class for each incremental session is the realistic setting of continual learning since obtaining large number of annotated samples is not feasible and cost effective. We present the framework MASIL as a step towards learning the maximal separable classifier. It addresses the common problem i.e forgetting of old classes and over-fitting to novel classes by learning the classifier weights to be maximally separable between classes forming a simplex Equiangular Tight Frame. We propose the idea of concept factorization explaining the collapsed features for base session classes in terms of concept basis and use these to induce classifier simplex for few shot classes. We further adds fine tuning to reduce any error occurred during factorization and train the classifier jointly on base and novel classes without retaining any base class samples in memory. Experimental results on miniImageNet, CIFAR-100 and CUB-200 demonstrate that MASIL outperforms all the benchmarks.
翻訳日:2023-04-12 13:57:52 公開日:2023-04-08
# アルゴリズム的トレンド推進の効果:Twitterのトレンドトピックにおける協調キャンペーンからの証拠

Effects of Algorithmic Trend Promotion: Evidence from Coordinated Campaigns in Twitter's Trending Topics ( http://arxiv.org/abs/2304.05382v1 )

ライセンス: Link先を確認
Joseph Schlessinger, Kiran Garimella, Maurice Jakesch, Dean Eckles(参考訳) パーソナライズされたコンテンツフィードに加えて、主要なソーシャルメディアプラットフォームは、より広く普及しているコンテンツに顕著な役割を果たす。 twitterでは、"trending topics"がプラットフォーム上での会話の人気トピックを特定し、ユーザーがネットワークで見なかったような人気コンテンツを促進する。 したがって、特定の日にユーザーが関与するトピックに影響を及ぼす上で、"トレージングトピック"は重要な役割を果たす可能性がある。 インドとトルコの2つの慎重に構築されたデータセットを用いて、トレンドトピックページに現れるハッシュタグが、そのハッシュタグで生成されたツイート数に与える影響を調べる。 ハッシュタグがトレンドとしてラベル付けされているため、そのハッシュタグを使った新しいツイートがいくつ表示されますか? トレンドトピックのページの効果をネットワークの露出と区別し,トレンドトピックに特徴付けられるハッシュタグに統計学的に有意だが控えめな回帰があることを見出した。 トレンドトピックによって影響を受けるユーザーの種類を分析すると、この機能は人気が減り、新しいユーザーがネットワーク外でコンテンツを発見して広めるのに役立つことが分かる。

In addition to more personalized content feeds, some leading social media platforms give a prominent role to content that is more widely popular. On Twitter, "trending topics" identify popular topics of conversation on the platform, thereby promoting popular content which users might not have otherwise seen through their network. Hence, "trending topics" potentially play important roles in influencing the topics users engage with on a particular day. Using two carefully constructed data sets from India and Turkey, we study the effects of a hashtag appearing on the trending topics page on the number of tweets produced with that hashtag. We specifically aim to answer the question: How many new tweeting using that hashtag appear because a hashtag is labeled as trending? We distinguish the effects of the trending topics page from network exposure and find there is a statistically significant, but modest, return to a hashtag being featured on trending topics. Analysis of the types of users impacted by trending topics shows that the feature helps less popular and new users to discover and spread content outside their network, which they otherwise might not have been able to do.
翻訳日:2023-04-12 13:48:07 公開日:2023-04-08
# 文脈性に対する層理論的アプローチの既定的視点

The Contextuality-by-Default View of the Sheaf-Theoretic Approach to Contextuality ( http://arxiv.org/abs/1906.02718v3 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov(参考訳) アブラムスキーと同僚によって開発されたシーフ・セオラティック・コンテキスト性(英語版)(STC)理論は、集合の多重重複部分集合が特定の「局所的」構造で与えられるかどうかの非常に一般的な説明であり、集合全体に課される大域的構造からこの構造を継承するものと見なすことができる。 stcの基本要件は、任意の部分集合の交叉がすべての交叉部分集合から1と同じ構造を継承することである。 STC がランダム変数の系に適用された場合、文脈性・バイ・デフォー(CbD)理論(英語版)の言語で再キャスト可能であることを示し、これにより、問題の要件(CbD では「一貫性連結性(consistent connectedness)」と呼ばれる)が必ずしも満たされない任意の系に STC を拡張することができる。 固定真理値を持つ論理的ステートメントのシステムのような決定論的システムに適用すると、一貫した連結性の欠如と文脈性との区別が生じる。 複数の決定論的実現が可能な系を準確率的システムとして、ベイズ先行が実現に割り当てられた系として考えることで解決できることを示す。 STCとCbDは、異なる母国語と異なる目的と手段を持っているが、本論文で提示された概念的な修正は、それらが本質的に共存しているように思われる。

The Sheaf-Theoretic Contextuality (STC) theory developed by Abramsky and colleagues is a very general account of whether multiply overlapping subsets of a set, each of which is endowed with certain "local'" structure, can be viewed as inheriting this structure from a global structure imposed on the entire set. A fundamental requirement of STC is that any intersection of subsets inherit one and the same structure from all intersecting subsets. I show that when STC is applied to systems of random variables, it can be recast in the language of the Contextuality-by-Default (CbD) theory, and this allows one to extend STC to arbitrary systems, in which the requirement in question (called "consistent connectedness'" in CbD) is not necessarily satisfied. When applied to deterministic systems, such as systems of logical statements with fixed truth values, a problem arises of distinguishing lack of consistent connectedness from contextuality. I show that it can be resolved by considering systems with multiple possible deterministic realizations as quasi-probabilistic systems with Bayesian priors assigned to the realizations. Although STC and CbD have distinct native languages and distinct aims and means, the conceptual modifications presented in this paper seem to make them essentially coextensive.
翻訳日:2023-04-12 01:11:31 公開日:2023-04-08
# 部分線形スパルシリティをもつスパース線形回帰の基本限界とアルゴリズム

Fundamental limits and algorithms for sparse linear regression with sublinear sparsity ( http://arxiv.org/abs/2101.11156v6 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 我々は, 正規化相互情報と疎線形回帰の最小平均二乗誤差(MMSE)に対して, 高精度な漸近表現を確立した。 この結果は,線形レジームに対するベイズ推定における適応補間法の一般化によって得られた。 mmseの基本限界に近づくためのよく知られた近似メッセージパッシングアルゴリズムの修正も提案され、その状態進化は厳密に解析される。 その結果, 信号次元と観測回数の従来の線形仮定と, 適応補間法ではスパース信号は不要であることがわかった。 また、既存の良く知られたampアルゴリズムを線形レジームからサブリニアに修正する方法も示している。

We establish exact asymptotic expressions for the normalized mutual information and minimum mean-square-error (MMSE) of sparse linear regression in the sub-linear sparsity regime. Our result is achieved by a generalization of the adaptive interpolation method in Bayesian inference for linear regimes to sub-linear ones. A modification of the well-known approximate message passing algorithm to approach the MMSE fundamental limit is also proposed, and its state evolution is rigorously analyzed. Our results show that the traditional linear assumption between the signal dimension and number of observations in the replica and adaptive interpolation methods is not necessary for sparse signals. They also show how to modify the existing well-known AMP algorithms for linear regimes to sub-linear ones.
翻訳日:2023-04-12 01:08:18 公開日:2023-04-08
# CMOS技術を用いたシリコンベースの量子コンピューティングのスケーリング:現状と課題と展望

Scaling silicon-based quantum computing using CMOS technology: State-of-the-art, Challenges and Perspectives ( http://arxiv.org/abs/2011.11753v2 )

ライセンス: Link先を確認
M. F. Gonzalez-Zalba, S. de Franceschi, E. Charbon, T. Meunier, M. Vinet, and A. S. Dzurak(参考訳) 補完的金属酸化物半導体(cmos)技術は、人類をデジタル時代へと導くことによって世界を大きく変えた。 同じ物理空間により多くのトランジスタをクラックすることで、計算性能が指数関数的に向上した。 コンピューティング性能の大幅な向上を継続するために、量子コンピューティングのような新しいコンピューティングパラダイムを開発する必要がある。 しかし、量子情報を処理し、汎用量子コンピュータを構築するのに必要な大量の量子ビットまでスケールアップする最適な物理系を見つけることは、依然として大きな課題である。 最近のナノデバイス工学の進歩により、量子ビットはシリコン電界効果トランジスタと同様の方法で製造可能であることが示され、CMOS業界のノウハウを活用してスケーリングの課題に対処する機会が開かれた。 本稿では、CMOS技術に基づく量子コンピューティングシステムのスケーリングの展望の分析に焦点をあてる。

Complementary metal-oxide semiconductor (CMOS) technology has radically reshaped the world by taking humanity to the digital age. Cramming more transistors into the same physical space has enabled an exponential increase in computational performance, a strategy that has been recently hampered by the increasing complexity and cost of miniaturization. To continue achieving significant gains in computing performance, new computing paradigms, such as quantum computing, must be developed. However, finding the optimal physical system to process quantum information, and scale it up to the large number of qubits necessary to build a general-purpose quantum computer, remains a significant challenge. Recent breakthroughs in nanodevice engineering have shown that qubits can now be manufactured in a similar fashion to silicon field-effect transistors, opening an opportunity to leverage the know-how of the CMOS industry to address the scaling challenge. In this article, we focus on the analysis of the scaling prospects of quantum computing systems based on CMOS technology.
翻訳日:2023-04-12 01:07:23 公開日:2023-04-08
# トランスダクティブゼロショット学習のためのクロスドメインセマンティクス・ビジュアル関係の学習

Learning Cross-domain Semantic-Visual Relationships for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2003.14105v2 )

ライセンス: Link先を確認
Fengmao Lv, Jianyang Zhang, Guowu Yang, Lei Feng, Yufeng Yu, Lixin Duan(参考訳) Zero-Shot Learning (ZSL)は新しいクラスを認識するモデルを学ぶ。 ZSLの主な課題の1つは、トレーニングデータとテストデータのカテゴリの不整合によって引き起こされるドメインの相違である。 ドメイン適応は、この課題に対処する最も直感的な方法です。 しかし、ソースとターゲットドメイン間の不整合ラベル空間のため、既存のドメイン適応技術はZSLに直接適用できない。 本研究ではトランスダクティブZSLへのトランスダクティブ・セマンティック・ビジュアル・リレーショナル(TSVR)アプローチを提案する。 TSVRは画像認識を再定義し、クラス属性と視覚的特徴からなる意味視覚融合のための類似性/相似性ラベルを予測する。 上記の変換の後、ソースとターゲットドメインは同じラベル空間を持つことができ、したがってドメインの矛盾を定量化することができる。 再定義された問題に対して、類似した意味-視覚対の数は、異種対のそれよりも著しく小さい。 この目的のために、我々はさらにドメイン固有のバッチ正規化を使ってドメインの不一致を調整することを提案する。

Zero-Shot Learning (ZSL) learns models for recognizing new classes. One of the main challenges in ZSL is the domain discrepancy caused by the category inconsistency between training and testing data. Domain adaptation is the most intuitive way to address this challenge. However, existing domain adaptation techniques cannot be directly applied into ZSL due to the disjoint label space between source and target domains. This work proposes the Transferrable Semantic-Visual Relation (TSVR) approach towards transductive ZSL. TSVR redefines image recognition as predicting the similarity/dissimilarity labels for semantic-visual fusions consisting of class attributes and visual features. After the above transformation, the source and target domains can have the same label space, which hence enables to quantify domain discrepancy. For the redefined problem, the number of similar semantic-visual pairs is significantly smaller than that of dissimilar ones. To this end, we further propose to use Domain-Specific Batch Normalization to align the domain discrepancy.
翻訳日:2023-04-12 01:07:07 公開日:2023-04-08
# 量子状態を持つ量子計算におけるコホモロジーの役割

The role of cohomology in quantum computation with magic states ( http://arxiv.org/abs/2110.11631v3 )

ライセンス: Link先を確認
Robert Raussendorf, Cihan Okay, Michael Zurel, Polina Feldmann(参考訳) コホモロジー的事実の網は、量子誤差補正、測定に基づく量子計算、対称性保護位相秩序、文脈性に関連する。 ここでは、このウェブを魔法の状態で量子計算に拡張する。 この計算スキームでは、準確率関数の負性は量子性の指標である。 しかし、このステートメントが適用される準確率関数を構築するとき、偶数と奇数局所ヒルベルト空間次元の間に顕著な差が生じる。 技術的なレベルでは、マジック状態を持つ量子計算における量子性指標としてのネガティビティの確立は、ウィグナー関数の2つの性質に依存する:クリフォード群に対する共分散とポーリの測定の正の表現である。 奇数次元において、グロスのウィグナー函数(元ウィグナー函数から奇数有限次元ヒルベルト空間への適応)はこれらの性質を持つ。 偶数次元では、グロス・ウィグナー函数は存在しない。 ここでは、gross'のように演算子基底から得られる、より広い種類のwigner関数について論じる。 そのようなクリフォード共変ウィグナー函数は任意の偶数次元に存在せず、さらに、パウリ測度は任意の偶数次元において n>=2 であるときに正に表すことができない。 そのようなウィグナー函数の存在に対する障害がコホモロジーであることを確立する。

A web of cohomological facts relates quantum error correction, measurement-based quantum computation, symmetry protected topological order and contextuality. Here we extend this web to quantum computation with magic states. In this computational scheme, the negativity of certain quasiprobability functions is an indicator for quantumness. However, when constructing quasiprobability functions to which this statement applies, a marked difference arises between the cases of even and odd local Hilbert space dimension. At a technical level, establishing negativity as an indicator of quantumness in quantum computation with magic states relies on two properties of the Wigner function: their covariance with respect to the Clifford group and positive representation of Pauli measurements. In odd dimension, Gross' Wigner function -- an adaptation of the original Wigner function to odd-finite-dimensional Hilbert spaces -- possesses these properties. In even dimension, Gross' Wigner function doesn't exist. Here we discuss the broader class of Wigner functions that, like Gross', are obtained from operator bases. We find that such Clifford-covariant Wigner functions do not exist in any even dimension, and furthermore, Pauli measurements cannot be positively represented by them in any even dimension whenever the number of qudits is n>=2. We establish that the obstructions to the existence of such Wigner functions are cohomological.
翻訳日:2023-04-12 00:23:48 公開日:2023-04-08
# エッジストリーム上のグラフ記述子

Computing Graph Descriptors on Edge Streams ( http://arxiv.org/abs/2109.01494v5 )

ライセンス: Link先を確認
Zohair Raza Hassan, Sarwan Ali, Imdadullah Khan, Mudassir Shabbir, Waseem Abbas(参考訳) グラフ分析では、機能抽出が重要なタスクです。 これらの特徴ベクトルはグラフ記述子と呼ばれ、下流ベクトル空間に基づくグラフ解析モデルで使用される。 このアイデアは過去に実りあると証明され、スペクトルベースのグラフ記述子は最先端の分類精度を提供している。 しかし、意味のある記述子を計算する既知のアルゴリズムは、大きなグラフにスケールしない: (1) グラフ全体をメモリに保存する必要がある、(2) エンドユーザはアルゴリズムのランタイムを制御できない。 本稿では,3種類のグラフ記述子を近似的に計算し,グラフの基本構造を捉えるストリーミングアルゴリズムを提案する。 エッジストリームで操作することで、グラフ全体をメモリに格納することを避け、サンプルサイズを制御することで、アルゴリズムのランタイムを所望のバウンドに保つことができます。 近似誤差と分類精度を解析し,提案する記述子の有効性を示す。 スケーラブルなアルゴリズムは、数百万のエッジを持つグラフのディスクリプタを数分で計算します。 さらに、これらのディスクリプタは最先端の方法に匹敵する予測精度を与えるが、わずか25%のメモリで計算できる。

Feature extraction is an essential task in graph analytics. These feature vectors, called graph descriptors, are used in downstream vector-space-based graph analysis models. This idea has proved fruitful in the past, with spectral-based graph descriptors providing state-of-the-art classification accuracy. However, known algorithms to compute meaningful descriptors do not scale to large graphs since: (1) they require storing the entire graph in memory, and (2) the end-user has no control over the algorithm's runtime. In this paper, we present streaming algorithms to approximately compute three different graph descriptors capturing the essential structure of graphs. Operating on edge streams allows us to avoid storing the entire graph in memory, and controlling the sample size enables us to keep the runtime of our algorithms within desired bounds. We demonstrate the efficacy of the proposed descriptors by analyzing the approximation error and classification accuracy. Our scalable algorithms compute descriptors of graphs with millions of edges within minutes. Moreover, these descriptors yield predictive accuracy comparable to the state-of-the-art methods but can be computed using only 25% as much memory.
翻訳日:2023-04-12 00:21:52 公開日:2023-04-08
# コネクティビティ問題:効果的なスパーシティのレンズを通してニューラルネットワークをpruningする

Connectivity Matters: Neural Network Pruning Through the Lens of Effective Sparsity ( http://arxiv.org/abs/2107.02306v2 )

ライセンス: Link先を確認
Artem Vysogorets, Julia Kempe(参考訳) ニューラルネットワークの刈り取りは、高いスパース性体制への関心が高まっている実りある研究分野である。 この領域でのベンチマークは、伝統的に除去された接続(直接の間隔)のごく一部として計算されたサブネットワークの疎さの忠実な表現に大きく依存している。 しかし、この定義は、基盤となるサブネットワークの入力層や出力層から切り離された未実行パラメータを認識できず、実際の有効間隔を過小評価する可能性がある。 この効果は、適度に刈り取られたネットワーク(最大10-100圧縮速度)では無視できるかもしれないが、より薄いサブネットでは、異なるプルーニングアルゴリズムの比較を大幅に歪ませる役割を担っている。 例えば、ランダムに刈り取られたLeNet-300-100の効率的な圧縮は、直接の圧縮よりも桁違いに大きくなり得るが、SynFlowをプルーニングに使用する場合の差は見つからない(Tanaka et al., 2020)。 本稿では,共通ベンチマークアーキテクチャ(例えば,lenet-300-100,vgg-19,resnet-18)における近年のpruningアルゴリズムを再評価し,その絶対的および相対的性能が,この新しいフレームワークで劇的に変化することを発見した。 直接的ではなく、効果的に目的を達成するため、我々はほとんどのプルーニングアルゴリズムの低コストな拡張を開発した。 さらに,参照フレームとして効果的なスパース性を備えることにより,初期化(su et al., 2020)におけるより洗練されたプルーニングアルゴリズムよりも,レイヤ間の適切なスパース性割り当てによるランダムプルーニングが有効であることを部分的に再確認する。 この観察に呼応して、物理から結合円柱内の圧力分布の単純なアナロジーを用いて、無作為な刈り取りの文脈で既存の全てのベースラインを上回る新しい層分割スパーシティクォータを設計した。

Neural network pruning is a fruitful area of research with surging interest in high sparsity regimes. Benchmarking in this domain heavily relies on faithful representation of the sparsity of subnetworks, which has been traditionally computed as the fraction of removed connections (direct sparsity). This definition, however, fails to recognize unpruned parameters that detached from input or output layers of underlying subnetworks, potentially underestimating actual effective sparsity: the fraction of inactivated connections. While this effect might be negligible for moderately pruned networks (up to 10-100 compression rates), we find that it plays an increasing role for thinner subnetworks, greatly distorting comparison between different pruning algorithms. For example, we show that effective compression of a randomly pruned LeNet-300-100 can be orders of magnitude larger than its direct counterpart, while no discrepancy is ever observed when using SynFlow for pruning [Tanaka et al., 2020]. In this work, we adopt the lens of effective sparsity to reevaluate several recent pruning algorithms on common benchmark architectures (e.g., LeNet-300-100, VGG-19, ResNet-18) and discover that their absolute and relative performance changes dramatically in this new and more appropriate framework. To aim for effective, rather than direct, sparsity, we develop a low-cost extension to most pruning algorithms. Further, equipped with effective sparsity as a reference frame, we partially reconfirm that random pruning with appropriate sparsity allocation across layers performs as well or better than more sophisticated algorithms for pruning at initialization [Su et al., 2020]. In response to this observation, using a simple analogy of pressure distribution in coupled cylinders from physics, we design novel layerwise sparsity quotas that outperform all existing baselines in the context of random pruning.
翻訳日:2023-04-12 00:21:24 公開日:2023-04-08
# ノイズ量子状態の情報回復性

Information recoverability of noisy quantum states ( http://arxiv.org/abs/2203.04862v3 )

ライセンス: Link先を確認
Xuanqiang Zhao, Benchi Zhao, Zihan Xia, Xin Wang(参考訳) 量子システムから古典情報を抽出することは、多くの量子アルゴリズムの重要なステップである。 しかし、量子ノイズが発生しやすいため、この情報は崩壊する可能性があり、量子力学下での歪みは十分に研究されていない。 本研究では,ノイズの多い量子状態から情報を取り出す方法を研究するための体系的枠組みを提案する。 ノイズの多い量子チャネルが与えられた場合、回復可能な古典情報の範囲を完全に特徴づける。 この条件により、チャネルの情報回復性を定量的に定量化することができる。 さらに,最小情報検索コストを解決し,それに対応する最適プロトコルとともに,半定型プログラミングにより効率的に計算可能とする。 本研究では,実際の量子ノイズに対する情報検索コストの限界を定め,それに対応するプロトコルを用いて地上エネルギー推定における誤差を緩和する。 本研究は, 雑音量子状態の情報回復可能性について, 回復範囲から回復コストまで, 初めて完全な評価を行い, 確率的エラーキャンセラの究極限界を明らかにする。

Extracting classical information from quantum systems is an essential step of many quantum algorithms. However, this information could be corrupted as the systems are prone to quantum noises, and its distortion under quantum dynamics has not been adequately investigated. In this work, we introduce a systematic framework to study how well we can retrieve information from noisy quantum states. Given a noisy quantum channel, we fully characterize the range of recoverable classical information. This condition allows a natural measure quantifying the information recoverability of a channel. Moreover, we resolve the minimum information retrieving cost, which, along with the corresponding optimal protocol, is efficiently computable by semidefinite programming. As applications, we establish the limits on the information retrieving cost for practical quantum noises and employ the corresponding protocols to mitigate errors in ground state energy estimation. Our work gives the first full characterization of information recoverability of noisy quantum states from the recoverable range to the recovering cost, revealing the ultimate limit of probabilistic error cancellation.
翻訳日:2023-04-12 00:13:46 公開日:2023-04-08
# ZippyPoint: 混合精度離散化による高速な関心点検出、記述、マッチング

ZippyPoint: Fast Interest Point Detection, Description, and Matching through Mixed Precision Discretization ( http://arxiv.org/abs/2203.03610v3 )

ライセンス: Link先を確認
Menelaos Kanakis, Simon Maurer, Matteo Spallanzani, Ajad Chhatkuli, Luc Van Gool(参考訳) 画像中の幾何学的領域の効率的な検出と記述は、視覚システムにおけるローカライゼーションとマッピングの前提条件である。 このようなシステムは依然として、高い計算と特定のハードウェア要求を伴うより強力なニューラルネットワークモデルの共通の制限である、軽量な記述子を効率的に生成するための手作りの従来の方法に依存している。 本稿では,ロボット,モバイル,拡張現実デバイスなどの計算能力に制限のあるプラットフォームにおいて,ニューラルネットワークの検出と記述に必要な適応性に注目した。 そこで本研究では,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。 さらに、ディスクリプタ量子化における一般的なプラクティスを再検討し、バイナリ記述子正規化層の使用を提案する。 バイナリディスクリプタを用いた効率的な量子化ネットワークであるZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,および3次元モデルサイズを,実精度と比較した場合の少なくとも1桁の精度で改善する。 これらの改善は、ホモグラフィ推定、ビジュアルローカライズ、マップフリーな視覚再局在化などのタスクで評価された小さな性能低下によってもたらされる。 コードとモデルはhttps://github.com/menelaoskanakis/ZippyPointで入手できる。

Efficient detection and description of geometric regions in images is a prerequisite in visual systems for localization and mapping. Such systems still rely on traditional hand-crafted methods for efficient generation of lightweight descriptors, a common limitation of the more powerful neural network models that come with high compute and specific hardware requirements. In this paper, we focus on the adaptations required by detection and description neural networks to enable their use in computationally limited platforms such as robots, mobile, and augmented reality devices. To that end, we investigate and adapt network quantization techniques to accelerate inference and enable its use on compute limited platforms. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive binary descriptors with a constant number of ones. ZippyPoint, our efficient quantized network with binary descriptors, improves the network runtime speed, the descriptor matching speed, and the 3D model size, by at least an order of magnitude when compared to full-precision counterparts. These improvements come at a minor performance degradation as evaluated on the tasks of homography estimation, visual localization, and map-free visual relocalization. Code and models are available at https://github.com/menelaoskanakis/ZippyPoint.
翻訳日:2023-04-12 00:13:31 公開日:2023-04-08
# p値のキャリブレーションによる全人口からの亜集団の分別と校正

Calibration of P-values for calibration and for deviation of a subpopulation from the full population ( http://arxiv.org/abs/2202.00100v7 )

ライセンス: Link先を確認
Mark Tygert(参考訳) 著者の最近の研究論文 "cumulative lack of a subpopulation from the full population" と "a graphical method of cumulative difference between two subpopulations" (どちらも2021年にspringerが公開したオープンアクセスの"journal of big data"の巻8で発表) では、公式な意義テストの校正なしにグラフィカルな方法と要約統計を提案している。 概略指標と手法は確率的予測の校正を計測でき、それに基づいて共変量やスコアを制御しながら、サブポピュレーションと全人口の反応の差を評価することができる。 これらの論文は、スカラー要約統計に基づいて重要度テストを構成するが、テストの達成された重要度(P値とも呼ばれる)の校正方法のみをスケッチしている。 本稿では,p値の校正方法を詳細に述べるため,数十年にわたる作業のレビューと合成を行う。 本稿では,その正確性を保証する厳密な数学的証明とともに,適切に校正されたp値を評価するための計算効率が高く,実装が容易な数値手法を提案し,オープンソースソフトウェアと数値例を用いてその方法を説明し,検証する。

The author's recent research papers, "Cumulative deviation of a subpopulation from the full population" and "A graphical method of cumulative differences between two subpopulations" (both published in volume 8 of Springer's open-access "Journal of Big Data" during 2021), propose graphical methods and summary statistics, without extensively calibrating formal significance tests. The summary metrics and methods can measure the calibration of probabilistic predictions and can assess differences in responses between a subpopulation and the full population while controlling for a covariate or score via conditioning on it. These recently published papers construct significance tests based on the scalar summary statistics, but only sketch how to calibrate the attained significance levels (also known as "P-values") for the tests. The present article reviews and synthesizes work spanning many decades in order to detail how to calibrate the P-values. The present paper presents computationally efficient, easily implemented numerical methods for evaluating properly calibrated P-values, together with rigorous mathematical proofs guaranteeing their accuracy, and illustrates and validates the methods with open-source software and numerical examples.
翻訳日:2023-04-12 00:13:08 公開日:2023-04-08
# 誰が救急部を増やすの? オレゴン健康保険実験の新たな知見

Who Increases Emergency Department Use? New Insights from the Oregon Health Insurance Experiment ( http://arxiv.org/abs/2201.07072v4 )

ライセンス: Link先を確認
Augustine Denteh, Helge Liebert(参考訳) 我々は,オレゴン実験から,メディケイドが緊急医療部門(ed)の利用を増加させたという見出しに関する新たな知見を提供する。 因果機械学習手法を用いて,メディケイドのED使用に対する有意義な異質な影響を見出した。 個別化処理効果分布は、幅広い負および正の値を含み、平均効果マスクがかなり不均一であることを示唆する。 分布の右端にある参加者の約14%の小さなグループが、全体の効果を駆動している。 ed使用率の経済的に有意な増加を伴う優先群を,人口統計学的および過去の利用状況に基づいて同定した。 集中マージン効果はED利用の増加の重要な要因である。

We provide new insights regarding the headline result that Medicaid increased emergency department (ED) use from the Oregon experiment. We find meaningful heterogeneous impacts of Medicaid on ED use using causal machine learning methods. The individualized treatment effect distribution includes a wide range of negative and positive values, suggesting the average effect masks substantial heterogeneity. A small group-about 14% of participants-in the right tail of the distribution drives the overall effect. We identify priority groups with economically significant increases in ED usage based on demographics and previous utilization. Intensive margin effects are an important driver of increases in ED utilization.
翻訳日:2023-04-12 00:12:29 公開日:2023-04-08
# US-GAN:表情合成における究極のスキップ接続の重要性について

US-GAN: On the importance of Ultimate Skip Connection for Facial Expression Synthesis ( http://arxiv.org/abs/2112.13002v2 )

ライセンス: Link先を確認
Arbish Akram and Nazar Khan(参考訳) 本稿では,GAN (Generative Adversarial Network) を用いた表情合成における究極のスキップ(US)接続の利点を示す。 直接接続は、アーティファクトを抑えながら、入力から出力へアイデンティティ、顔、色の詳細を転送する。 したがって中間層は表現生成のみに集中することができる。 これにより、エンコーディング層、単一残差ブロック、復号層、入力から出力への究極のスキップ接続からなる軽量us-ganモデルが作成される。 US-GANは、最先端のモデルよりもパラメータが3ドル以下で、桁違いに小さなデータセットで訓練されている。 顔認証スコア (fvs) は$7\%$上昇し、平均コンテンツ距離 (acd) は$7\%$低下する。 ランダム化されたユーザスタディに基づいて、us-ganは、face realismで$25\%、expression qualityで$43\%、id保存で$8\%という、アートの状態を上回っている。

We demonstrate the benefit of using an ultimate skip (US) connection for facial expression synthesis using generative adversarial networks (GAN). A direct connection transfers identity, facial, and color details from input to output while suppressing artifacts. The intermediate layers can therefore focus on expression generation only. This leads to a light-weight US-GAN model comprised of encoding layers, a single residual block, decoding layers, and an ultimate skip connection from input to output. US-GAN has $3\times$ fewer parameters than state-of-the-art models and is trained on $2$ orders of magnitude smaller dataset. It yields $7\%$ increase in face verification score (FVS) and $27\%$ decrease in average content distance (ACD). Based on a randomized user-study, US-GAN outperforms the state of the art by $25\%$ in face realism, $43\%$ in expression quality, and $58\%$ in identity preservation.
翻訳日:2023-04-12 00:11:58 公開日:2023-04-08
# 変形可能な線形物体の検出と物理的相互作用

Detection and Physical Interaction with Deformable Linear Objects ( http://arxiv.org/abs/2205.08041v2 )

ライセンス: Link先を確認
Azarakhsh Keipour, Mohammadreza Mousaei, Maryam Bandari, Stefan Schaal, Sebastian Scherer(参考訳) 変形可能な線形オブジェクト(ケーブル、ロープ、糸など)は、私たちの日常生活によく現れます。 しかし、これらの物体の知覚とそれらとの物理的相互作用の研究はまだ成長している領域である。 変形可能な線形オブジェクトをモデル化し追跡する手法はすでに成功している。 しかし,非自明な状況における初期条件を自動的に抽出できる手法は限られており,コミュニティに導入されているのはごく最近である。 一方で、これらの物体との物理的相互作用は地上マニピュレータで行われているが、変形可能な線形物体と空中ロボットとの物理的相互作用や操作に関する研究は行われていない。 本ワークショップでは, 既存の手法のセグメント化出力を用いて, 追従手法が必要とする初期化を自動で提供する, 変形可能な線形オブジェクトの検出に関する最近の作業について述べる。 交差で機能し、セグメンテーションのギャップと閉塞を埋め、物理的相互作用やシミュレーションに望ましいモデルを出力することができる。 そこで本研究では,地上および空中ロボットによるルーティングや操作などのタスクにこの手法を用いることについて述べる。 我々は,これらの物体との物理的相互作用を空中操作アプリケーションに拡張する可能性解析について検討する。

Deformable linear objects (e.g., cables, ropes, and threads) commonly appear in our everyday lives. However, perception of these objects and the study of physical interaction with them is still a growing area. There have already been successful methods to model and track deformable linear objects. However, the number of methods that can automatically extract the initial conditions in non-trivial situations for these methods has been limited, and they have been introduced to the community only recently. On the other hand, while physical interaction with these objects has been done with ground manipulators, there have not been any studies on physical interaction and manipulation of the deformable linear object with aerial robots. This workshop describes our recent work on detecting deformable linear objects, which uses the segmentation output of the existing methods to provide the initialization required by the tracking methods automatically. It works with crossings and can fill the gaps and occlusions in the segmentation and output the model desirable for physical interaction and simulation. Then we present our work on using the method for tasks such as routing and manipulation with the ground and aerial robots. We discuss our feasibility analysis on extending the physical interaction with these objects to aerial manipulation applications.
翻訳日:2023-04-12 00:04:27 公開日:2023-04-08
# 構造認識タンパク質自己教師付き学習

Structure-aware Protein Self-supervised Learning ( http://arxiv.org/abs/2204.04213v4 )

ライセンス: Link先を確認
Can Chen, Jingbo Zhou, Fan Wang, Xue Liu, and Dejing Dou(参考訳) タンパク質表現学習法は、多くの下流タスク、特にタンパク質分類において有用な表現をもたらす大きな可能性を示している。 さらに、近年の研究では、自己教師付き学習手法で不十分なタンパク質のラベルに対処する大きな可能性を示している。 しかし、既存のタンパク質言語モデルは通常、重要なタンパク質構造情報を考慮せずにタンパク質配列で事前訓練される。 そこで本研究では,タンパク質の構造情報を効果的に把握する構造認識型タンパク質自己教師学習法を提案する。 特に、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練し、それぞれ2つの残差距離パースペクティブと2面角パースペクティブから自己教師付きタスクでタンパク質構造情報を保存する。 さらに,タンパク質配列に事前学習したタンパク質言語モデルを活用し,自己教師付き学習を強化することを提案する。 具体的には、タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を、新しい擬似二段階最適化手法を用いて同定する。 教師付き下流タスクの実験により提案手法の有効性が検証され,提案手法のコードは \url{https://github.com/GGchen1997/STEPS_Bioinformatics} で公開されている。

Protein representation learning methods have shown great potential to yield useful representation for many downstream tasks, especially on protein classification. Moreover, a few recent studies have shown great promise in addressing insufficient labels of proteins with self-supervised learning methods. However, existing protein language models are usually pretrained on protein sequences without considering the important protein structural information. To this end, we propose a novel structure-aware protein self-supervised learning method to effectively capture structural information of proteins. In particular, a well-designed graph neural network (GNN) model is pretrained to preserve the protein structural information with self-supervised tasks from a pairwise residue distance perspective and a dihedral angle perspective, respectively. Furthermore, we propose to leverage the available protein language model pretrained on protein sequences to enhance the self-supervised learning. Specifically, we identify the relation between the sequential information in the protein language model and the structural information in the specially designed GNN model via a novel pseudo bi-level optimization scheme. Experiments on several supervised downstream tasks verify the effectiveness of our proposed method.The code of the proposed method is available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.
翻訳日:2023-04-12 00:02:07 公開日:2023-04-08
# 小さなキュービットランドスケープにおける抽出可能な作業の増加

Increasing extractable work in small qubit landscapes ( http://arxiv.org/abs/2203.10928v3 )

ライセンス: Link先を確認
Unnati Akhouri, Sarah Shandera and Gaukhar Yesmurzayeva(参考訳) 生命に関わるものを含む興味深い物理系のクラスは、ベイでの熱化を保ち、ローカル環境と比較して高い自由エネルギー状態が持続する能力を示している。 本研究では,エネルギー,熱,仕事,エントロピーの外部源やシンクのない量子システムを研究し,高自由エネルギーサブシステムの形成と持続を可能にする。 我々は、混合無相関状態における量子ビットのシステムを初期化し、保存法の下でそれらを進化させる。 4つのキュービットは、これらの制限された力学と初期条件がサブシステムに対する抽出可能な作業の増加を許容する最小のシステムを構成する。 各ステップでランダムに選択されたサブシステムで相互作用する8つの共進化キュービットのランドスケープについて,接続性の制限と初期温度の不均質な分布の両方が,個々のキュービットの抽出可能な作業を増加させる長い間隔のランドスケープに繋がることを示した。 抽出可能な作業のポジティブな変化を可能にする上で,景観に発達する相関の役割を実証する。

An interesting class of physical systems, including those associated with life, demonstrates the ability to hold thermalization at bay and perpetuate states of high free-energy compared to a local environment. In this work, we study quantum systems with no external sources or sinks for energy, heat, work, or entropy, that allow for high free-energy subsystems to form and persist. We initialize systems of qubits in mixed, uncorrelated states and evolve them subject to a conservation law. We find that four qubits make up the minimal system for which these restricted dynamics and initial conditions allow an increase in extractable work for a subsystem. On landscapes of eight co-evolving qubits, interacting in randomly selected subsystems at each step, we demonstrate that restricted connectivity and an inhomogeneous distribution of initial temperatures both lead to landscapes with longer intervals of increasing extractable work for individual qubits. We demonstrate the role of correlations that develop on the landscape in enabling a positive change in extractable work.
翻訳日:2023-04-12 00:01:33 公開日:2023-04-08
# 大規模言語モデルはまだ計画できない (LLMにおける変更計画と推論のベンチマーク)

Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning and Reasoning about Change) ( http://arxiv.org/abs/2206.10498v3 )

ライセンス: Link先を確認
Karthik Valmeekam, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野を変えつつある。 GPT-3からPaLMまで、自然言語タスクにおける最先端のパフォーマンスは、あらゆる新しい大規模言語モデルによって前進している。 自然言語能力とともに、そのようなモデルが推論ベンチマークを用いて推論能力を示すかどうかを理解することにも大きな関心が寄せられている。 しかし、結果は肯定的であるように思われるが、これらのベンチマークは本質的に単純であることが証明され、これらのベンチマーク上でのLSMのパフォーマンスは、LCMの推論能力に関する主張がしばしば誇張される証拠として利用できない。 さらに、これらは単純な推論タスクのセットに限られており、そのようなLCMベースのシステムの真の限界を測定するためには、より洗練された推論問題に目を向ける必要がある。 そこで我々は,人間の知性の中心的な側面である行動や変化の推論において,LLMの能力をテストするための拡張性評価フレームワークを提案する。 これまでに確立されたベンチマークよりも多くのテストケースを提供し、各テストケースはアクションや変更に関する推論の異なる側面を評価します。 GPT-3 (davinci), Instruct-GPT3 (text-davinci-002) および BLOOM (176B) の結果は, このような推論タスクにおけるサブパー性能を示した。

Recent advances in large language models (LLMs) have transformed the field of natural language processing (NLP). From GPT-3 to PaLM, the state-of-the-art performance on natural language tasks is being pushed forward with every new large language model. Along with natural language abilities, there has been a significant interest in understanding whether such models exhibit reasoning capabilities with the use of reasoning benchmarks. However, even though results are seemingly positive, these benchmarks prove to be simplistic in nature and the performance of LLMs on these benchmarks cannot be used as evidence to support, many a times outlandish, claims being made about LLMs' reasoning capabilities. Further, these only represent a very limited set of simple reasoning tasks and we need to look at more sophisticated reasoning problems if we are to measure the true limits of such LLM-based systems. Motivated by this, we propose an extensible assessment framework to test the capabilities of LLMs on reasoning about actions and change, a central aspect of human intelligence. We provide multiple test cases that are more involved than any of the previously established benchmarks and each test case evaluates a different aspect of reasoning about actions and change. Results on GPT-3 (davinci), Instruct-GPT3 (text-davinci-002) and BLOOM (176B), showcase subpar performance on such reasoning tasks.
翻訳日:2023-04-11 23:54:35 公開日:2023-04-08
# ShapeCrafter: 再帰的なテキスト記述型3D形状生成モデル

ShapeCrafter: A Recursive Text-Conditioned 3D Shape Generation Model ( http://arxiv.org/abs/2207.09446v4 )

ライセンス: Link先を確認
Rao Fu, Xiao Zhan, Yiwen Chen, Daniel Ritchie, Srinath Sridhar(参考訳) 本稿では,再帰的テキスト条件付き3次元形状生成のためのニューラルネットワークであるShapeCrafterを紹介する。 既存のテキスト条件付き3d形状を生成する方法は、テキストプロンプト全体を消費し、1ステップで3d形状を生成する。 しかし、人間は再帰的に形を記述しがちで、最初の記述から始め、徐々に中間の結果に基づいて詳細を追加する。 この再帰的過程を捉えるために,初期句に条件付き3次元形状分布を生成する手法を提案する。 既存のデータセットはこのアプローチのトレーニングに不十分であるため、再帰的な形状生成をサポートする369Kの形状テキストペアからなる大規模なデータセットであるText2Shape++を提案する。 形状記述を洗練するためによく用いられる局所的な詳細を捉えるために,ベクトル量子化深部暗黙関数の上に構築し,高品質な形状の分布を生成する。 その結果,本手法は文章記述と整合した形状を生成でき,フレーズが増えていくにつれて徐々に形状が進化することが示された。 本手法は形状編集や外挿をサポートし,創造的デザインのための人間と機械のコラボレーションに新たな応用を可能にする。

We present ShapeCrafter, a neural network for recursive text-conditioned 3D shape generation. Existing methods to generate text-conditioned 3D shapes consume an entire text prompt to generate a 3D shape in a single step. However, humans tend to describe shapes recursively-we may start with an initial description and progressively add details based on intermediate results. To capture this recursive process, we introduce a method to generate a 3D shape distribution, conditioned on an initial phrase, that gradually evolves as more phrases are added. Since existing datasets are insufficient for training this approach, we present Text2Shape++, a large dataset of 369K shape-text pairs that supports recursive shape generation. To capture local details that are often used to refine shape descriptions, we build on top of vector-quantized deep implicit functions that generate a distribution of high-quality shapes. Results show that our method can generate shapes consistent with text descriptions, and shapes evolve gradually as more phrases are added. Our method supports shape editing, extrapolation, and can enable new applications in human-machine collaboration for creative design.
翻訳日:2023-04-11 23:44:55 公開日:2023-04-08
# コンテンツとスタイルの強化によるアウトオブオフの例

Harnessing Out-Of-Distribution Examples via Augmenting Content and Style ( http://arxiv.org/abs/2207.03162v2 )

ライセンス: Link先を確認
Zhuo Huang, Xiaobo Xia, Li Shen, Bo Han, Mingming Gong, Chen Gong, Tongliang Liu(参考訳) 機械学習モデルは、out-Of-Distribution(OOD)の例に弱いため、このような問題が注目を集めている。 しかし、現在のOODデータには、学習性能を高めるために適切に適応できる良性OODデータと、他の悪性OODデータが分類結果を著しく劣化させる良性OODデータがある。 本稿では、Harness OODデータに対して、各画像インスタンスのコンテンツとスタイルを利用して良質なOODデータを識別するHOOD法を提案する。 特に,構造的因果モデルを構築し,コンテントとスタイルの特徴を因果的に分離する変分推論フレームワークを設計する。 その後,悪性度と良性度のOODデータをそれぞれ生成するために,介入プロセスを通じて内容とスタイルを増強する。 良質なOODデータは、新しいスタイルを含むが、関心のある内容を保持しており、スタイル不変モデルをトレーニングするのに役立てることができる。 対照的に、悪性なOODデータは未知の内容を継承するが、見慣れたスタイルで検出することにより、異常を抑えるためのモデルロバスト性を向上させることができる。 提案手法により, OOD検出, オープンセット半教師付き学習, オープンセットドメイン適応を含む3つの典型的なOODアプリケーションにおいて, 有効性が実証的に検証された未知およびオープン環境におけるOODサンプルを効果的に処理することができる。

Machine learning models are vulnerable to Out-Of-Distribution (OOD) examples, and such a problem has drawn much attention. However, current methods lack a full understanding of different types of OOD data: there are benign OOD data that can be properly adapted to enhance the learning performance, while other malign OOD data would severely degenerate the classification result. To Harness OOD data, this paper proposes a HOOD method that can leverage the content and style from each image instance to identify benign and malign OOD data. Particularly, we design a variational inference framework to causally disentangle content and style features by constructing a structural causal model. Subsequently, we augment the content and style through an intervention process to produce malign and benign OOD data, respectively. The benign OOD data contain novel styles but hold our interested contents, and they can be leveraged to help train a style-invariant model. In contrast, the malign OOD data inherit unknown contents but carry familiar styles, by detecting them can improve model robustness against deceiving anomalies. Thanks to the proposed novel disentanglement and data augmentation techniques, HOOD can effectively deal with OOD examples in unknown and open environments, whose effectiveness is empirically validated in three typical OOD applications including OOD detection, open-set semi-supervised learning, and open-set domain adaptation.
翻訳日:2023-04-11 23:42:48 公開日:2023-04-08
# TSFool:Fool RNN分類器への多目的ブラックボックス攻撃による高感度逆数時系列作成

TSFool: Crafting Highly-imperceptible Adversarial Time Series through Multi-objective Black-box Attack to Fool RNN Classifiers ( http://arxiv.org/abs/2209.06388v2 )

ライセンス: Link先を確認
Yanyun Wang, Dehui Du, Yuanhao Liu(参考訳) ニューラルネットワーク(NN)分類器は敵攻撃に対して脆弱である。 既存の勾配に基づく攻撃は、フィードフォワードNNや画像認識タスクにおける最先端のパフォーマンスを達成するが、リカレントニューラルネットワーク(RNN)モデルを用いた時系列分類では、うまく機能しない。 これは、RNNの循環構造が直接モデル微分を防ぎ、時系列データの摂動に対する視覚感度が従来の対角攻撃の局所最適化目標に挑戦するためである。 本稿では, TSFool と呼ばれるブラックボックス法を用いて, RNN 分類器の高知覚的逆数時系列を効率的に作成する手法を提案する。 そこで我々は,クラス分布の観点から,敵対的サンプルの認識不能性を考慮し,対向的攻撃を多目的最適化問題として洗練し,摂動品質を向上させるため,新たなグローバル最適化目標であるCamouflage Coefficientを提案する。 また, 勾配情報への依存を解消するために, 最適化解をヒューリスティックに近似し, 特徴量と潜在多様体との類似性を有する, 深く埋め込まれた脆弱なサンプルをrnnが捉えるための表現モデルを提案する。 10のucrデータセットに関する実験を行い、tsfoolが攻撃成功率46.3%、摂動率87.4%、カモフラージュ係数25.6%という従来の手法を、同様の時間コストで平均上回ることを確認した。

Neural network (NN) classifiers are vulnerable to adversarial attacks. Although the existing gradient-based attacks achieve state-of-the-art performance in feed-forward NNs and image recognition tasks, they do not perform as well on time series classification with recurrent neural network (RNN) models. This is because the cyclical structure of RNN prevents direct model differentiation and the visual sensitivity of time series data to perturbations challenges the traditional local optimization objective of the adversarial attack. In this paper, a black-box method called TSFool is proposed to efficiently craft highly-imperceptible adversarial time series for RNN classifiers. We propose a novel global optimization objective named Camouflage Coefficient to consider the imperceptibility of adversarial samples from the perspective of class distribution, and accordingly refine the adversarial attack as a multi-objective optimization problem to enhance the perturbation quality. To get rid of the dependence on gradient information, we also propose a new idea that introduces a representation model for RNN to capture deeply embedded vulnerable samples having otherness between their features and latent manifold, based on which the optimization solution can be heuristically approximated. Experiments on 10 UCR datasets are conducted to confirm that TSFool averagely outperforms existing methods with a 46.3% higher attack success rate, 87.4% smaller perturbation and 25.6% better Camouflage Coefficient at a similar time cost.
翻訳日:2023-04-11 23:37:09 公開日:2023-04-08
# マニフォールドエントロピー推定によるGANの圧縮モード崩壊

Combating Mode Collapse in GANs via Manifold Entropy Estimation ( http://arxiv.org/abs/2208.12055v6 )

ライセンス: Link先を確認
Haozhe Liu, Bing Li, Haoqian Wu, Hanbang Liang, Yawen Huang, Yuexiang Li, Bernard Ghanem, Yefeng Zheng(参考訳) generative adversarial networks (gans) は近年、様々なタスクやアプリケーションにおいて魅力的な結果を示している。 しかし、モード崩壊はGANにとって重要な問題である。 本稿では,gansのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。 既存の手法と異なり,判別器を特徴埋め込みとして一般化し,判別器が学習する埋め込み空間における分布のエントロピーを最大化する。 具体的には、Dep Local Linear Embedding (DLLE) とDeep Isometric Feature Mapping (DIsoMap) という2つの正規化用語は、識別者がデータに埋め込まれた構造情報を学習するよう促すことを目的としている。 判別器が支持するよく学習された埋め込み空間に基づいて、非パラメトリックエントロピー推定器は、埋め込みベクトルのエントロピーを効率的に最大化し、生成した分布のエントロピーを最大化する近似として機能する。 識別器の改良と埋め込み空間における最も類似した試料の距離の最大化により, 生成した試料の品質を犠牲にすることなく, 効果的にモード崩壊を低減することができる。 CelebA(FIDでは9.13 vs. 12.43)でGANベースラインのMaF-GANを上回り、ANIME-FACEデータセット(インセプションスコアでは2.80 vs. 2.26)で最新の最先端エネルギーベースモデルを上回った。 コードはhttps://github.com/haozheliu-st/meeで入手できる。

Generative Adversarial Networks (GANs) have shown compelling results in various tasks and applications in recent years. However, mode collapse remains a critical problem in GANs. In this paper, we propose a novel training pipeline to address the mode collapse issue of GANs. Different from existing methods, we propose to generalize the discriminator as feature embedding and maximize the entropy of distributions in the embedding space learned by the discriminator. Specifically, two regularization terms, i.e., Deep Local Linear Embedding (DLLE) and Deep Isometric feature Mapping (DIsoMap), are designed to encourage the discriminator to learn the structural information embedded in the data, such that the embedding space learned by the discriminator can be well-formed. Based on the well-learned embedding space supported by the discriminator, a non-parametric entropy estimator is designed to efficiently maximize the entropy of embedding vectors, playing as an approximation of maximizing the entropy of the generated distribution. By improving the discriminator and maximizing the distance of the most similar samples in the embedding space, our pipeline effectively reduces the mode collapse without sacrificing the quality of generated samples. Extensive experimental results show the effectiveness of our method, which outperforms the GAN baseline, MaF-GAN on CelebA (9.13 vs. 12.43 in FID) and surpasses the recent state-of-the-art energy-based model on the ANIME-FACE dataset (2.80 vs. 2.26 in Inception score). The code is available at https://github.com/HaozheLiu-ST/MEE
翻訳日:2023-04-11 23:35:27 公開日:2023-04-08
# 可変WORLD合成器を用いたニューラルヴォコーダとエンドツーエンド音声スタイル変換への応用

Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer ( http://arxiv.org/abs/2208.07282v4 )

ライセンス: Link先を確認
Shahan Nercessian(参考訳) 本稿では,WORLDシンセサイザを提案し,音声変換(歌唱)やDDSP音色変換タスクなどのエンドツーエンドの音声変換タスクに使用することを示す。 したがって、ベースライン微分型シンセサイザーはモデルパラメータを持たないが、十分な合成品質が得られる。 ベースライン出力にさらなる処理を施した軽量のブラックボックス・ポストネットを付加することにより、ベースラインシンセサイザーを拡張できる。 別の微分可能なアプローチでは、より狭いスタイル転送アプリケーションに対して自然性を改善することができるソース励起スペクトルを直接抽出することを考える。 提案手法の音響特性パラメタライゼーションは,ピッチと音節情報を独立にモデル化できるように自然に切り離すという利点がある。 さらに、これらの音響特徴をモノフォニック音源から推定する堅牢な手段が存在するため、パラメータ損失項をエンドツーエンドの目的関数に追加することができ、収束および/または更なる安定化(逆)訓練を支援することができる。

In this paper, we propose a differentiable WORLD synthesizer and demonstrate its use in end-to-end audio style transfer tasks such as (singing) voice conversion and the DDSP timbre transfer task. Accordingly, our baseline differentiable synthesizer has no model parameters, yet it yields adequate synthesis quality. We can extend the baseline synthesizer by appending lightweight black-box postnets which apply further processing to the baseline output in order to improve fidelity. An alternative differentiable approach considers extraction of the source excitation spectrum directly, which can improve naturalness albeit for a narrower class of style transfer applications. The acoustic feature parameterization used by our approaches has the added benefit that it naturally disentangles pitch and timbral information so that they can be modeled separately. Moreover, as there exists a robust means of estimating these acoustic features from monophonic audio sources, it allows for parameter loss terms to be added to an end-to-end objective function, which can help convergence and/or further stabilize (adversarial) training.
翻訳日:2023-04-11 23:34:15 公開日:2023-04-08
# 相関情報最大化に基づく生物学的に妥当なニューラルネットワークによる音源分離

Correlative Information Maximization Based Biologically Plausible Neural Networks for Correlated Source Separation ( http://arxiv.org/abs/2210.04222v2 )

ライセンス: Link先を確認
Bariscan Bozkurt, Ates Isfendiyaroglu, Cengiz Pehlevan, Alper T. Erdogan(参考訳) 脳は絶え間なく刺激の原因を抽出するが、どのようにネットワークレベルで行うかは不明である。 この問題に対するほとんどの先行の試みは、潜在原因が相互に独立であるという制限の下で機能する独立成分分析を実装するニューラルネットワークを提案した。 本稿では、この制限を緩和し、その領域に関する情報を活用し、関連づけられた潜在源を抽出する生物学的に妥当なニューラルネットワークを提案する。 このネットワークを導出するために,入力から出力への最大相関情報転送を,出力が推定集合に制限される制約の下で分離対象として選択する。 この最適化問題のオンライン定式化は、自然に局所学習ルールを持つニューラルネットワークにつながる。 我々のフレームワークは無限に多くのソースドメインの選択と柔軟に複雑な潜在構造をモデル化する。 単純あるいはポリトピックソースドメインの選択は、断片的な線形活性化関数を持つネットワークをもたらす。 合成源と自然源の両方において,より優れた相関源分離能力を示す数値例を示す。

The brain effortlessly extracts latent causes of stimuli, but how it does this at the network level remains unknown. Most prior attempts at this problem proposed neural networks that implement independent component analysis which works under the limitation that latent causes are mutually independent. Here, we relax this limitation and propose a biologically plausible neural network that extracts correlated latent sources by exploiting information about their domains. To derive this network, we choose maximum correlative information transfer from inputs to outputs as the separation objective under the constraint that the outputs are restricted to their presumed sets. The online formulation of this optimization problem naturally leads to neural networks with local learning rules. Our framework incorporates infinitely many source domain choices and flexibly models complex latent structures. Choices of simplex or polytopic source domains result in networks with piecewise-linear activation functions. We provide numerical examples to demonstrate the superior correlated source separation capability for both synthetic and natural sources.
翻訳日:2023-04-11 23:26:58 公開日:2023-04-08
# 特徴整形予測を用いた予測推論

Predictive Inference with Feature Conformal Prediction ( http://arxiv.org/abs/2210.00173v4 )

ライセンス: Link先を確認
Jiaye Teng, Chuan Wen, Dinghuai Zhang, Yoshua Bengio, Yang Gao, Yang Yuan(参考訳) 共形予測(conformal prediction)は、有効な予測間隔を確立するための分散フリーな手法である。 従来、人々は出力空間で共形予測を行うが、これは唯一の可能性ではない。 本稿では, 深層表現学習の帰納バイアスを利用して, 意味的特徴空間への共形予測の範囲を拡大する特徴共形予測を提案する。 理論的観点からは, 特徴共形予測が軽度仮定下での正則共形予測よりも優れていることを実証する。 提案手法は,バニラ共形予測だけでなく,他の適応共形予測手法と組み合わせることができる。 既存の予測推論ベンチマークの実験とは別に、imagenet分類やcityscapesイメージセグメンテーションのような大規模タスクにおける提案手法の最先端のパフォーマンスを実証する。

Conformal prediction is a distribution-free technique for establishing valid prediction intervals. Although conventionally people conduct conformal prediction in the output space, this is not the only possibility. In this paper, we propose feature conformal prediction, which extends the scope of conformal prediction to semantic feature spaces by leveraging the inductive bias of deep representation learning. From a theoretical perspective, we demonstrate that feature conformal prediction provably outperforms regular conformal prediction under mild assumptions. Our approach could be combined with not only vanilla conformal prediction, but also other adaptive conformal prediction methods. Apart from experiments on existing predictive inference benchmarks, we also demonstrate the state-of-the-art performance of the proposed methods on large-scale tasks such as ImageNet classification and Cityscapes image segmentation.The code is available at \url{https://github.com/AlvinWen428/FeatureCP}.
翻訳日:2023-04-11 23:25:52 公開日:2023-04-08
# MLPInit: MLP初期化によるGNNトレーニング加速の恥ずかしさ

MLPInit: Embarrassingly Simple GNN Training Acceleration with MLP Initialization ( http://arxiv.org/abs/2210.00102v3 )

ライセンス: Link先を確認
Xiaotian Han, Tong Zhao, Yozen Liu, Xia Hu, Neil Shah(参考訳) 大規模グラフ上でのトレーニンググラフニューラルネットワーク(gnns)は複雑で、非常に時間がかかる。 これは、マルチ層パーセプトロン(MLP)をノード機能のみでトレーニングする際にサイドステップされるスパース行列乗算によるオーバーヘッドに起因する。 グラフコンテキストを無視したmlpは、グラフデータにとってシンプルで高速であるが、予測精度を犠牲にして、グラフデータへの応用を制限する。 ほとんどのメッセージパスベースのGNNでは、トレーニング可能なパラメータを同じ形状に設定し、完全にトレーニングされたPeerMLPの重みを使った‘textbf{\emph{how do GNNs’に興味をそそられるようにすることで、アナログMLPに等価な重み空間を持たせることができます。 尚、これらの重量で初期化したGNNはPeerMLPよりも優れており、PierMLPトレーニングをGNNトレーニングの先駆的な初期化ステップとして使う動機がある。 そこで本稿では,MLPInit と呼ばれる GNN トレーニングアクセラレーションの初期化手法を提案する。 さまざまなGNNアーキテクチャを備えた大規模グラフデータセットに関する大規模な実験では、MLPInitがGNNのトレーニング(OGB-Productsの最大33倍のスピードアップ)を加速し、予測性能(例えば、ノード分類用のデータセット7ドルに対してGraphSAGEを最大7.97~%、メトリクスのリンク予測のためのデータセット4ドルに対して最大17.81~%)を改善することができることを実証しています。 コードは \href{https://github.com/snap-research/MLPInit-for-GNNs} で公開されている。

Training graph neural networks (GNNs) on large graphs is complex and extremely time consuming. This is attributed to overheads caused by sparse matrix multiplication, which are sidestepped when training multi-layer perceptrons (MLPs) with only node features. MLPs, by ignoring graph context, are simple and faster for graph data, however they usually sacrifice prediction accuracy, limiting their applications for graph data. We observe that for most message passing-based GNNs, we can trivially derive an analog MLP (we call this a PeerMLP) with an equivalent weight space, by setting the trainable parameters with the same shapes, making us curious about \textbf{\emph{how do GNNs using weights from a fully trained PeerMLP perform?}} Surprisingly, we find that GNNs initialized with such weights significantly outperform their PeerMLPs, motivating us to use PeerMLP training as a precursor, initialization step to GNN training. To this end, we propose an embarrassingly simple, yet hugely effective initialization method for GNN training acceleration, called MLPInit. Our extensive experiments on multiple large-scale graph datasets with diverse GNN architectures validate that MLPInit can accelerate the training of GNNs (up to 33X speedup on OGB-Products) and often improve prediction performance (e.g., up to $7.97\%$ improvement for GraphSAGE across $7$ datasets for node classification, and up to $17.81\%$ improvement across $4$ datasets for link prediction on metric Hits@10). The code is available at \href{https://github.com/snap-research/MLPInit-for-GNNs}.
翻訳日:2023-04-11 23:25:37 公開日:2023-04-08
# superyolo: マルチモーダルリモートセンシング画像における超解像支援オブジェクト検出

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery ( http://arxiv.org/abs/2209.13351v2 )

ライセンス: Link先を確認
Jiaqing Zhang, Jie Lei, Weiying Xie, Zhenman Fang, Yunsong Li, Qian Du(参考訳) リモートセンシング画像(RSI)から数十画素の小型物体を高精度かつタイムリーに検出することは依然として困難である。 既存のソリューションのほとんどは、背景から分離されたオブジェクトの強力な特徴表現を学ぶために、複雑なディープニューラルネットワークを設計している。 本稿では、マルチモーダルデータを融合し、補助超解像(SR)学習を用いて高分解能(HR)オブジェクト検出を行い、検出精度と計算コストの両方を考慮したRSIの高精度かつ高速なオブジェクト検出手法であるSuperYOLOを提案する。 まず,対称コンパクトマルチモーダル融合(mf)を用いて各種データから補足情報を抽出し,rsiにおける小物体検出を改善する。 さらに、低分解能(LR)入力で小さな物体を広い背景から識別できるHR特徴表現を学習するための単純で柔軟なSR分岐を設計し、検出精度をさらに向上する。 さらに、追加の計算を導入するのを避けるため、推論段階でSR分岐を破棄し、LR入力によりネットワークモデルの計算を低減させる。 実験結果によると、広く使われているVEDAI RSデータセットでは、SuperYOLOの精度は75.09%(mAP50)であり、YOLOv5l、YOLOv5x、RSの設計したYOLOrsなど、SOTAの大型モデルよりも10%以上高い。 一方、SuperYOLOのパラメータサイズとGFLOPは、YOLOv5xの約18倍、3.8倍小さい。 提案モデルでは,最先端モデルと比較して精度と速度のトレードオフが良好である。 コードはhttps://github.com/icey-zhang/SuperYOLO.comでオープンソース化される。

Accurately and timely detecting multiscale small objects that contain tens of pixels from remote sensing images (RSI) remains challenging. Most of the existing solutions primarily design complex deep neural networks to learn strong feature representations for objects separated from the background, which often results in a heavy computation burden. In this article, we propose an accurate yet fast object detection method for RSI, named SuperYOLO, which fuses multimodal data and performs high-resolution (HR) object detection on multiscale objects by utilizing the assisted super resolution (SR) learning and considering both the detection accuracy and computation cost. First, we utilize a symmetric compact multimodal fusion (MF) to extract supplementary information from various data for improving small object detection in RSI. Furthermore, we design a simple and flexible SR branch to learn HR feature representations that can discriminate small objects from vast backgrounds with low-resolution (LR) input, thus further improving the detection accuracy. Moreover, to avoid introducing additional computation, the SR branch is discarded in the inference stage, and the computation of the network model is reduced due to the LR input. Experimental results show that, on the widely used VEDAI RS dataset, SuperYOLO achieves an accuracy of 75.09% (in terms of mAP50 ), which is more than 10% higher than the SOTA large models, such as YOLOv5l, YOLOv5x, and RS designed YOLOrs. Meanwhile, the parameter size and GFLOPs of SuperYOLO are about 18 times and 3.8 times less than YOLOv5x. Our proposed model shows a favorable accuracy and speed tradeoff compared to the state-of-the-art models. The code will be open-sourced at https://github.com/icey-zhang/SuperYOLO.
翻訳日:2023-04-11 23:24:44 公開日:2023-04-08
# 平滑補間による深部二重蛍光

Deep Double Descent via Smooth Interpolation ( http://arxiv.org/abs/2209.10080v4 )

ライセンス: Link先を確認
Matteo Gamba and Erik Englesson and M{\aa}rten Bj\"orkman and Hossein Azizpour(参考訳) 過パラメータ化深層ネットワークがノイズデータを補間する能力は, 高い一般化性能を示すと同時に, テスト誤差の二重降下曲線を特徴付けている。 多項式回帰からの一般的な直観は、過小パラメータネットワークは、接地信号からかなり外れることなく、ノイズデータを鋭く補間することができ、一般化能力を維持することを示唆している。 現在、ディープネットワークにおける補間と一般化の関係の正確な特徴が欠落している。 本研究では,ニューラルネットワーク機能によって補間されたトレーニングデータのシャープネスを,各トレーニングポイントの入力変数に対する損失ランドスケープw.r.t.を解析し,モデルパラメータの数を体系的に増加させ,トレーニングエポックを増大させることにより定量化する。 以上の結果より, 入力空間における損失のシャープネスは, モデルとエポシカルな2重降下の双方に続くことが示唆された。 小さな補間モデルはクリーンデータとノイズデータの両方に鮮明に適合するが、大きな補間モデルはスムーズなロスランドスケープを表現しており、既存の直観とは対照的に、トレーニングデータポイント周辺の大量のノイズ目標が予測される。

The ability of overparameterized deep networks to interpolate noisy data, while at the same time showing good generalization performance, has been recently characterized in terms of the double descent curve for the test error. Common intuition from polynomial regression suggests that overparameterized networks are able to sharply interpolate noisy data, without considerably deviating from the ground-truth signal, thus preserving generalization ability. At present, a precise characterization of the relationship between interpolation and generalization for deep networks is missing. In this work, we quantify sharpness of fit of the training data interpolated by neural network functions, by studying the loss landscape w.r.t. to the input variable locally to each training point, over volumes around cleanly- and noisily-labelled training samples, as we systematically increase the number of model parameters and training epochs. Our findings show that loss sharpness in the input space follows both model- and epoch-wise double descent, with worse peaks observed around noisy labels. While small interpolating models sharply fit both clean and noisy data, large interpolating models express a smooth loss landscape, where noisy targets are predicted over large volumes around training data points, in contrast to existing intuition.
翻訳日:2023-04-11 23:24:02 公開日:2023-04-08
# 弱教師付き顧客行動データを含む変圧器型代替レコメンデーションモデル

A Transformer-Based Substitute Recommendation Model Incorporating Weakly Supervised Customer Behavior Data ( http://arxiv.org/abs/2211.02533v2 )

ライセンス: Link先を確認
Wenting Ye, Hongfei Yang, Shuai Zhao, Haoyang Fang, Xingjian Shi, Naveen Neppalli(参考訳) 代用品ベースのレコメンデーションは、顧客に対するより良い代替手段を提供するために、Eコマースで広く使われている。 しかし、既存の研究は通常、co-viewやview-but-purchase-anotherといった顧客の行動信号を使用して代替関係を捉える。 直感的な音質にもかかわらず、このようなアプローチは製品の機能や特性を無視する可能性がある。 本稿では,製品名記述をモデル入力として,製品機能を考慮した言語マッチング問題に代用レコメンデーションを適用する。 生産データから得られた信号を非ノイズ化するための新しい変換法を考案する。 さらに,工学的視点から多言語サポートについて考察する。 提案するエンド・ツー・エンドのトランスフォーマーモデルは,オフライン実験とオンライン実験の両方で成功をおさめている。 提案モデルは,6言語11のマーケットプレースを対象に,大規模なeコマースwebサイトに展開されている。 提案モデルでは,オンラインA/B実験により,収益が19%増加することを示した。

The substitute-based recommendation is widely used in E-commerce to provide better alternatives to customers. However, existing research typically uses the customer behavior signals like co-view and view-but-purchase-another to capture the substitute relationship. Despite its intuitive soundness, we find that such an approach might ignore the functionality and characteristics of products. In this paper, we adapt substitute recommendation into language matching problem by taking product title description as model input to consider product functionality. We design a new transformation method to de-noise the signals derived from production data. In addition, we consider multilingual support from the engineering point of view. Our proposed end-to-end transformer-based model achieves both successes from offline and online experiments. The proposed model has been deployed in a large-scale E-commerce website for 11 marketplaces in 6 languages. Our proposed model is demonstrated to increase revenue by 19% based on an online A/B experiment.
翻訳日:2023-04-11 21:42:22 公開日:2023-04-08
# 衝突モデルにおけるスピン系の量子非定常現象

Quantum non-stationary phenomena of spin systems in collision models ( http://arxiv.org/abs/2210.17091v2 )

ライセンス: Link先を確認
Yan Li, Xingli Li and Jiasen Jin(参考訳) 衝突モデル(CM)フレームワークにおける3部スピン1/2系の非定常現象について検討する。 マルコフ系と非マルコフ系の両方に系環境衝突による散逸を導入した後,システムのダイナミクスにおける長期振動の出現とサブシステム間の同期が確認された。 我々はcm記述と量子マスター方程式を連続時間極限で連結し、リウビリアンスペクトル解析を用いて安定振動の存在を説明する。 熱物性の時間依存性と相関について検討し,特に非マルコフ力学におけるランドーアーの原理に違反する可能性について考察した。 さらに, CMにおける相互作用列のランダム性により, 集団散逸の不完全性を補うことができることがわかった。

We investigate the non-stationary phenomenon in a tripartite spin-1/2 system in the collision model (CM) framework. After introducing the dissipation through the system-environment collision for both Markovian and non-Markovian cases, we find the emergence of long-time oscillation in the dynamics of the system and the synchronization among subsystems. We connect the CM description and the quantum master equation in the continuous time limit and explain the existence of the stable oscillation by means of Liouvillian spectrum analysis. The time-dependence of the thermal property and the correlations are investigated, in particular we discuss the possibility of violation of the Landauer's principle in non-Markovian dynamics. In addition, we find that the imperfection of collective dissipation can be compensated by the randomness of the interaction sequence in our CM.
翻訳日:2023-04-11 21:41:24 公開日:2023-04-08
# 2層ニューラルネットワーク上でのSGDのグローバル収束

Global Convergence of SGD On Two Layer Neural Nets ( http://arxiv.org/abs/2210.11452v2 )

ライセンス: Link先を確認
Pulkit Gopalani and Anirbit Mukherjee(参考訳) 本稿では,sgmoid や tanh のような十分に滑らかで有界なアクティベーションを使用している場合,任意のデータと任意の数のゲートに対して$\ell_2-$empirical risk of depth$$ nets -- を適切に正規化した$\ell_2-$empirical risk of depth $2$ nets -- のグローバルミニマへの sgd の収束を示す。 我々は [1] で結果の上に構築し、適切な分布から初期重みのサンプリングとともに、重みに対するフロベニウスノルム正規化の定数量を利用する。 また、SoftPlusのようなスムーズな非有界活性化にも適用可能な連続時間SGD収束結果を与える。 私たちのキーとなるアイデアは、"ヴィラニ関数"である一定サイズのニューラルネット上の損失関数を示すことです。 Bin Shi, Weijie J. Su, and Michael I. Jordan 学習率とschr\"odinger operator, 2020について arXiv:2004.06977

In this note we demonstrate provable convergence of SGD to the global minima of appropriately regularized $\ell_2-$empirical risk of depth $2$ nets -- for arbitrary data and with any number of gates, if they are using adequately smooth and bounded activations like sigmoid and tanh. We build on the results in [1] and leverage a constant amount of Frobenius norm regularization on the weights, along with sampling of the initial weights from an appropriate distribution. We also give a continuous time SGD convergence result that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence loss functions on constant sized neural nets which are "Villani Functions". [1] Bin Shi, Weijie J. Su, and Michael I. Jordan. On learning rates and schr\"odinger operators, 2020. arXiv:2004.06977
翻訳日:2023-04-11 21:40:48 公開日:2023-04-08
# 単一モード導波路におけるパルス領域定理とTm3+:Y3Al5O12における光子エコーと光メモリへの応用

Pulse area theorem in a single mode waveguide and its application to photon echo and optical memory in Tm3+:Y3Al5O12 ( http://arxiv.org/abs/2210.10835v2 )

ライセンス: Link先を確認
S.A. Moiseev, M.M. Minnegaliev, E.S.Moiseev, K.I. Gerasimov, A.V. Pavlov, T.A. Rupasov, N.N. Skryabin, A.A. Kalinkin, S.P. Kulik(参考訳) 単一モード光導波路における2レベル原子の非均一に広まるアンサンブルと相互作用する光パルスの領域定理を導出し,その解析解としてガウス型モードを導出した。 我々はこの定理を光子エコーの記述に一般化し、光子エコー量子メモリの2パルス(一次)エコーとサイレントエコー(ROSE)プロトコルの復活に適用する。 ROSEプロトコルを光学的に薄い結晶であるTm^{3+:Y_3Al_5O_{12}$で構成した単一モードレーザー導波路に実装した。 得られた実験データは, 理論によって十分に説明できる。 最後に,得られた実験結果とパルス領域法の適用について考察する。

We derive the area theorem for light pulses interacting with inhomogeneously broadened ensemble of two-level atoms in a single-mode optical waveguide and present its analytical solution for Gaussian-type modes, which demonstrates the significant difference from the formation of $2\pi$ pulses by plane waves. We generalize this theorem to the description of photon echo and apply it to the two-pulse (primary) echo and the revival of silenced echo (ROSE) protocol of photon echo quantum memory. For the first time, we implemented ROSE protocol in a single-mode laser-written waveguide made of an optically thin crystal $Tm^{3+}:Y_3Al_5O_{12}$. The experimental data obtained are satisfactorily explained by the developed theory. Finally, we discuss the obtained experimental results and possible applications of the derived pulse area approach.
翻訳日:2023-04-11 21:40:29 公開日:2023-04-08
# 最初からの連続擬似ラベル

Continuous Pseudo-Labeling from the Start ( http://arxiv.org/abs/2210.08711v2 )

ライセンス: Link先を確認
Dan Berrebbi, Ronan Collobert, Samy Bengio, Navdeep Jaitly, Tatiana Likhomanenko(参考訳) 自己学習(ST)や擬似ラベル付けは、最近、ラベルなしデータの活用の成功により、自動音声認識(ASR)コミュニティに大きな関心を喚起している。 訓練されたモデルから擬似ラベル(PL)を反復的に再生し、新しいモデルを訓練する従来の半教師あり学習手法とは異なり、最近の最先端の手法では、訓練中のモデルのごく最近のバージョンを使用してPLを生成する「連続的な訓練」が行われる。 それでもこれらのアプローチは、モデルがラベル付きデータだけでトレーニングされる初期教師付き学習フェーズを使用してSTをブートストラップすることに依存している。 これは低リソース設定でラベル付きデータセットに過剰フィッティングする可能性があり、トレーニング開始時のstはオーバーフィッティングを削減すべきであると考えています。 本稿では,ASRにおける学習過程におけるPLの進化を動的に制御することで,これを実現できることを示す。 私たちの知る限りでは、トレーニングの開始当初からPLを生成する可能性を示す最初の研究である。 一般化しないモデルを退化させる不安定性を回避する2つの手法を用いてこれを実現できる。 まず、PLのオンライン変更を利用してPLのキャッシュのメンバシップを制御し、一般化を改善するカリキュラムを通じてPLの進化を制御する。 第二に、予測分布から書き起こしをサンプリングすることで、最高の書き起こしだけでなく、さらに訓練を安定させることが分かる。 これらの手法により、我々のSTモデルは外部言語モデルなしで以前の作業と一致します。

Self-training (ST), or pseudo-labeling has sparked significant interest in the automatic speech recognition (ASR) community recently because of its success in harnessing unlabeled data. Unlike prior semi-supervised learning approaches that relied on iteratively regenerating pseudo-labels (PLs) from a trained model and using them to train a new model, recent state-of-the-art methods perform `continuous training' where PLs are generated using a very recent version of the model being trained. Nevertheless, these approaches still rely on bootstrapping the ST using an initial supervised learning phase where the model is trained on labeled data alone. We believe this has the potential for over-fitting to the labeled dataset in low resource settings and that ST from the start of training should reduce over-fitting. In this paper we show how we can do this by dynamically controlling the evolution of PLs during the training process in ASR. To the best of our knowledge, this is the first study that shows the feasibility of generating PLs from the very start of the training. We are able to achieve this using two techniques that avoid instabilities which lead to degenerate models that do not generalize. Firstly, we control the evolution of PLs through a curriculum that uses the online changes in PLs to control the membership of the cache of PLs and improve generalization. Secondly, we find that by sampling transcriptions from the predictive distribution, rather than only using the best transcription, we can stabilize training further. With these techniques, our ST models match prior works without an external language model.
翻訳日:2023-04-11 21:40:12 公開日:2023-04-08
# 単一量子ビットを用いた量子機械学習へのディダクティックなアプローチ

A didactic approach to quantum machine learning with a single qubit ( http://arxiv.org/abs/2211.13191v2 )

ライセンス: Link先を確認
Elena Pe\~na Tapia, Giannicola Scarpa, Alejandro Pozas-Kerstjens(参考訳) 本稿では,実世界のデータセットを用いた明示的な例を通して,量子機械学習(qml)の分野について紹介する。 データ再アップロード技術を用いて,単一キュービットで学習する事例に注目した。 量子コンピューティングと機械学習の関連背景に関する議論の後、我々は考慮すべきデータ再ロードモデルについて詳しく説明し、Qiskit量子コンピューティングSDKを使用して、おもちゃと現実世界のデータセットで提案された異なる定式化を実装した。 古典的ニューラルネットワークの場合と同様に、層の数はモデルの最終精度の決定要因であることがわかった。 さらに興味深いことに、シングルキュービット分類器は、同じトレーニング条件下で、古典的比較器と同等の性能を達成できることが示されている。 これは量子機械学習の利点の証明として理解できないが、有望な研究の方向性を示し、我々が概説した一連の疑問を提起している。

This paper presents, via an explicit example with a real-world dataset, a hands-on introduction to the field of quantum machine learning (QML). We focus on the case of learning with a single qubit, using data re-uploading techniques. After a discussion of the relevant background in quantum computing and machine learning we provide a thorough explanation of the data re-uploading models that we consider, and implement the different proposed formulations in toy and real-world datasets using the qiskit quantum computing SDK. We find that, as in the case of classical neural networks, the number of layers is a determining factor in the final accuracy of the models. Moreover, and interestingly, the results show that single-qubit classifiers can achieve a performance that is on-par with classical counterparts under the same set of training conditions. While this cannot be understood as a proof of the advantage of quantum machine learning, it points to a promising research direction, and raises a series of questions that we outline.
翻訳日:2023-04-11 21:32:03 公開日:2023-04-08
# チャネル間プーリングを用いた量子分割ニューラルネットワーク学習

Quantum Split Neural Network Learning using Cross-Channel Pooling ( http://arxiv.org/abs/2211.06524v2 )

ライセンス: Link先を確認
Won Joon Yun, Hankyul Baek, Joongheon Kim(参考訳) 近年、量子科学の分野は、量子機械学習、量子通信、量子コンピューティングなど、様々な分野において大きな関心を集めている。 これらの新興分野のうち、量子フェデレーション学習(qfl)は、量子ニューラルネットワーク(qnns)と従来のフェデレーション学習(fl)技術の統合によって特に注目されている。 本研究では,量子分割学習(qsl)という,古典的分割学習の高度な拡張を表現した新しい手法を提案する。 従来の古典的コンピューティングの研究は、収束の加速、通信コストの低減、プライバシー保護の強化など、分割学習の多くの利点を実証している。 QSLの可能性を最大化するために、QNNによって促進される量子状態トモグラフィーの特徴的な特性を生かしたクロスチャネルプール技術が導入された。 厳密な数値解析により、QSLはQFLよりも1.64\%高いトップ-1の精度を達成するだけでなく、MNIST分類タスクの文脈で堅牢なプライバシー保護を示す証拠が提供される。

In recent years, the field of quantum science has attracted significant interest across various disciplines, including quantum machine learning, quantum communication, and quantum computing. Among these emerging areas, quantum federated learning (QFL) has gained particular attention due to the integration of quantum neural networks (QNNs) with traditional federated learning (FL) techniques. In this study, a novel approach entitled quantum split learning (QSL) is presented, which represents an advanced extension of classical split learning. Previous research in classical computing has demonstrated numerous advantages of split learning, such as accelerated convergence, reduced communication costs, and enhanced privacy protection. To maximize the potential of QSL, cross-channel pooling is introduced, a technique that capitalizes on the distinctive properties of quantum state tomography facilitated by QNNs. Through rigorous numerical analysis, evidence is provided that QSL not only achieves a 1.64\% higher top-1 accuracy compared to QFL but also demonstrates robust privacy preservation in the context of the MNIST classification task.
翻訳日:2023-04-11 21:31:05 公開日:2023-04-08
# 数ショットクラスインクリメンタルラーニングのためのプロトタイプ四脚

Prototypical quadruplet for few-shot class incremental learning ( http://arxiv.org/abs/2211.02947v3 )

ライセンス: Link先を確認
Sanchar Palit, Biplab Banerjee, Subhasis Chaudhuri(参考訳) データ不足と新しいタスクのインクリメンタルな学習は多くの現代のコンピュータビジョンアルゴリズムにとって2つの大きなボトルネックとなる。 破滅的な忘れの現象、すなわち、新しいデータのバッチでトレーニングした後に学習したデータを分類できないことは大きな課題である。 従来の方法は、現在のセッションのトレーニングを妥協しながら破滅的な忘れに対処する。 生成的敵ネットワーク(GAN)のような生成的リプレイに基づくアプローチは、破滅的な忘れを緩和するために提案されているが、少数のサンプルでGANを訓練すると不安定になる可能性がある。 これらの課題に対処するために,コントラスト損失の改善を用いた埋め込み空間の同定により,分類ロバスト性を向上させる新しい手法を提案する。 提案手法は,従来のクラスの平均値を表すために,従来のセッションクラスプロトタイプを更新することで,新しいクラスで訓練しても,埋め込み空間において獲得した知識を維持している。 本手法の有効性は,新しいクラスでモデルを訓練した後,組込み空間がそのまま維持されることを示し,各セッションの精度で既存の最先端アルゴリズムより優れていることを示す。

Scarcity of data and incremental learning of new tasks pose two major bottlenecks for many modern computer vision algorithms. The phenomenon of catastrophic forgetting, i.e., the model's inability to classify previously learned data after training with new batches of data, is a major challenge. Conventional methods address catastrophic forgetting while compromising the current session's training. Generative replay-based approaches, such as generative adversarial networks (GANs), have been proposed to mitigate catastrophic forgetting, but training GANs with few samples may lead to instability. To address these challenges, we propose a novel method that improves classification robustness by identifying a better embedding space using an improved contrasting loss. Our approach retains previously acquired knowledge in the embedding space, even when trained with new classes, by updating previous session class prototypes to represent the true class mean, which is crucial for our nearest class mean classification strategy. We demonstrate the effectiveness of our method by showing that the embedding space remains intact after training the model with new classes and outperforms existing state-of-the-art algorithms in terms of accuracy across different sessions.
翻訳日:2023-04-11 21:30:03 公開日:2023-04-08
# GFlowNetと変分ベイズを用いた因果構造とメカニズムのベイズ的学習

Bayesian learning of Causal Structure and Mechanisms with GFlowNets and Variational Bayes ( http://arxiv.org/abs/2211.02763v2 )

ライセンス: Link先を確認
Mizu Nishikawa-Toomey, Tristan Deleu, Jithendaraa Subramanian, Yoshua Bengio, Laurent Charlin(参考訳) ベイズ因果構造学習は、有向非巡回グラフ(dag)上の後方分布と、親変数と子変数の関係を定義するメカニズムを学ぶことを目的としている。 ベイズ的アプローチをとることによって、因果モデルの不確かさを推論することができる。 モデルに対する不確実性をモデル化するという概念は、有限量の観測データしか与えられない場合、モデルが識別できないため、因果構造学習において特に重要である。 本稿では,変分ベイズを用いた因果モデルの構造とメカニズムを共同で学習する新しい手法を提案し,これを変分ベイズ-DAG-GFlowNet(VBG)と呼ぶ。 我々は,GFlowNetsを用いたベイズ的因果構造学習法を拡張し,構造上の後方分布だけでなく,線形ガウスモデルのパラメータも学習する。 シミュレーションデータを用いた結果から,非循環グラフのサンプル化の保証や非線形因果機構への一般化の柔軟性など,既存の手法よりもいくつかの利点があるが,vbgはdagやメカニズム上での後方のモデリングにおいて,いくつかのベースラインと競合していることが示唆された。

Bayesian causal structure learning aims to learn a posterior distribution over directed acyclic graphs (DAGs), and the mechanisms that define the relationship between parent and child variables. By taking a Bayesian approach, it is possible to reason about the uncertainty of the causal model. The notion of modelling the uncertainty over models is particularly crucial for causal structure learning since the model could be unidentifiable when given only a finite amount of observational data. In this paper, we introduce a novel method to jointly learn the structure and mechanisms of the causal model using Variational Bayes, which we call Variational Bayes-DAG-GFlowNet (VBG). We extend the method of Bayesian causal structure learning using GFlowNets to learn not only the posterior distribution over the structure, but also the parameters of a linear-Gaussian model. Our results on simulated data suggest that VBG is competitive against several baselines in modelling the posterior over DAGs and mechanisms, while offering several advantages over existing methods, including the guarantee to sample acyclic graphs, and the flexibility to generalize to non-linear causal mechanisms.
翻訳日:2023-04-11 21:29:42 公開日:2023-04-08
# MobileTL: 逆残差ブロックを用いたオンデバイストランスファー学習

MobileTL: On-device Transfer Learning with Inverted Residual Blocks ( http://arxiv.org/abs/2212.03246v2 )

ライセンス: Link先を確認
Hung-Yueh Chiang, Natalia Frumkin, Feng Liang, Diana Marculescu(参考訳) デバイス上の限られたリソースのため、エッジでの転送学習は難しい。 既存の作業はパラメータのサブセットをトレーニングしたり、モデルパッチを追加することでこの問題に対処する。 推論を念頭に置いて開発されたInverted Residual Blocks (IRBs) は、畳み込み層を奥行きと点方向の畳み込み層に分割し、畳み込み層、正規化層、アクティベーション層など、より多くの積み重ね層を生み出す。 推論には効率的だが、IRBは畳み込み層の重み付けと正規化層のスケールをトレーニングするために追加のアクティベーションマップをメモリに格納する必要がある。 その結果、メモリコストが高いため、リソース制限されたエッジデバイス上でのIRBのトレーニングが禁止され、転送学習の文脈では適さない。 この問題に対処するために、IRBで構築したモデルに対するメモリと計算効率のよいオンデバイストランスファー学習手法であるMobileTLを提案する。 MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。 また、MobileTLは、活性化層の後方計算(例えば、Hard-SwishとReLU6)を符号付き関数として近似し、後方パスの活性化マップの代わりにバイナリマスクを格納する。 mobiletlは計算コストを削減するためにネットワーク全体の勾配を伝搬するのではなく、いくつかのトップブロック(出力に近い)を微調整する。 提案手法は,MobileNetV2とV3 IRBのメモリ使用量をそれぞれ46%,53%削減する。 MobileNetV3では、5ブロックの微調整時に浮動小数点演算(FLOP)が36%削減され、CIFAR10では0.6%の精度で精度が低下する。 複数のデータセットに対する大規模な実験により,本手法はエッジデバイスの転送学習における先行研究と比較して,Pareto-Optimal(ハードウェア制約下での最良の精度)であることが証明された。

Transfer learning on edge is challenging due to on-device limited resources. Existing work addresses this issue by training a subset of parameters or adding model patches. Developed with inference in mind, Inverted Residual Blocks (IRBs) split a convolutional layer into depthwise and pointwise convolutions, leading to more stacking layers, e.g., convolution, normalization, and activation layers. Though they are efficient for inference, IRBs require that additional activation maps are stored in memory for training weights for convolution layers and scales for normalization layers. As a result, their high memory cost prohibits training IRBs on resource-limited edge devices, and making them unsuitable in the context of transfer learning. To address this issue, we present MobileTL, a memory and computationally efficient on-device transfer learning method for models built with IRBs. MobileTL trains the shifts for internal normalization layers to avoid storing activation maps for the backward pass. Also, MobileTL approximates the backward computation of the activation layer (e.g., Hard-Swish and ReLU6) as a signed function which enables storing a binary mask instead of activation maps for the backward pass. MobileTL fine-tunes a few top blocks (close to output) rather than propagating the gradient through the whole network to reduce the computation cost. Our method reduces memory usage by 46% and 53% for MobileNetV2 and V3 IRBs, respectively. For MobileNetV3, we observe a 36% reduction in floating-point operations (FLOPs) when fine-tuning 5 blocks, while only incurring a 0.6% accuracy reduction on CIFAR10. Extensive experiments on multiple datasets demonstrate that our method is Pareto-optimal (best accuracy under given hardware constraints) compared to prior work in transfer learning for edge devices.
翻訳日:2023-04-11 21:23:39 公開日:2023-04-08
# コントラスト学習における帰納バイアスの理論的研究

A Theoretical Study of Inductive Biases in Contrastive Learning ( http://arxiv.org/abs/2211.14699v2 )

ライセンス: Link先を確認
Jeff Z. HaoChen, Tengyu Ma(参考訳) 自己指導型学習を理解することは重要だが難しい。 以前の理論研究では、損失の事前学習の役割を研究し、ニューラルネットワークを一般的なブラックボックスと見なす。 しかし、saunshiらによる最近の研究は、モデルアーキテクチャー(以前の作品にほとんど無視されているコンポーネント)は、自己監督学習の下流のパフォーマンスに大きな影響を与えていると主張している。 本研究では,モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行う。 特に,視覚領域で広く使われている自己指導型学習手法であるコントラスト学習に注目した。 モデルがキャパシティに制限がある場合、コントラスト表現はモデルアーキテクチャと互換性のある特定の特殊なクラスタリング構造を回復するが、データ分散における他の多くのクラスタリング構造は無視する。 その結果,本理論は,データ分布のクラスタ数よりもコントラスト表現の次元がはるかに低い,より現実的な設定を捉えることができる。 我々は、いくつかの合成データ分布に関する理論をインスタンス化し、理論を支持する実証的な証拠を提供する。

Understanding self-supervised learning is important but challenging. Previous theoretical works study the role of pretraining losses, and view neural networks as general black boxes. However, the recent work of Saunshi et al. argues that the model architecture -- a component largely ignored by previous works -- also has significant influences on the downstream performance of self-supervised learning. In this work, we provide the first theoretical analysis of self-supervised learning that incorporates the effect of inductive biases originating from the model class. In particular, we focus on contrastive learning -- a popular self-supervised learning method that is widely used in the vision domain. We show that when the model has limited capacity, contrastive representations would recover certain special clustering structures that are compatible with the model architecture, but ignore many other clustering structures in the data distribution. As a result, our theory can capture the more realistic setting where contrastive representations have much lower dimensionality than the number of clusters in the data distribution. We instantiate our theory on several synthetic data distributions, and provide empirical evidence to support the theory.
翻訳日:2023-04-11 21:20:53 公開日:2023-04-08
# セマンティックスケールの不均衡に夢中になる

Delving into Semantic Scale Imbalance ( http://arxiv.org/abs/2212.14613v8 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Yuxin Li, Shuyuan Yang, Xu Liu(参考訳) ロングテールデータによって引き起こされるモデルバイアスは広く研究されている。 しかし、サンプル数に基づく尺度では、(1)十分なデータが与えられた場合、分類性能の向上は、追加のサンプルで限界となるという3つの現象を同時に説明することはできない。 2)データ不足時にトレーニングサンプル数が減少するにつれて,分類性能は急激に低下する。 (3) サンプルバランスデータセットでトレーニングされたモデルでは,クラスによってバイアスが異なる。 本研究では,クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。 最初の2つの現象を完全に記述したセマンティックスケールの限界効果があることを実験的に発見するのはエキサイティングである。 さらに, サンプルバランスデータにおいても, 複数のデータセットのモデルバイアスを正確に反映し, クラスバランス研究の新しい視点を明らかにする意味尺度の不均衡の定量的測定を提案する。 意味的スケールの不均衡が普及していることから,一般的な損失改善スキームや,反復中に意味的スケールをリアルタイムで計算することの難しさを克服した動的再重み付けトレーニングフレームワークなど,意味的スケールバランス学習を提案する。 総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、モデルは大規模で長い尾と長い尾の無い自然および医学的なデータセットにおいて、常に優れた性能を発揮することが示される。

Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.
翻訳日:2023-04-11 21:13:36 公開日:2023-04-08
# 離散的ポイントワイズ攻撃は十分ではない:顔認識のための一般化された多様体逆攻撃

Discrete Point-wise Attack Is Not Enough: Generalized Manifold Adversarial Attack for Face Recognition ( http://arxiv.org/abs/2301.06083v2 )

ライセンス: Link先を確認
Qian Li, Yuxiao Hu, Ye Liu, Dongxiao Zhang, Xin Jin, Yuntian Chen(参考訳) 顔認識(FR)モデルに対する古典的な敵対攻撃は、通常、単一の状態画像を持つターゲットアイデンティティの離散的な例を生成する。 しかし、このようなポイントワイズアタックのパラダイムは、多くの未知のアイデンティティ状態に対する一般化が不十分であり、容易に防御できる。 本稿では,対象の同一視面とその変種との固有関係を再考することで,攻撃範囲を広げて攻撃性能を向上させるための一般化多様体逆攻撃(gmaa)の新たなパイプラインを提案する。 具体的には、GMAAは攻撃対象を1つから複数に拡張し、生成した敵の例に対して優れた一般化能力を促進するだけでなく、顔の表情変化が連続可能であるというドメイン知識を活用して、後者を離散点から多様体へと拡張することで、データ拡張機構のように攻撃効果を高める。 さらに,局所的制約と全体的制約を併せ持つ二重監督を,生成した対向例の視覚品質向上に少なからぬ貢献として設計する。 我々は,本手法の有効性を広範な実験に基づいて実証し,gmaaが,高い一般化能力と視覚品質を有する意味的な連続的な敵空間を約束していることを明らかにする。

Classical adversarial attacks for Face Recognition (FR) models typically generate discrete examples for target identity with a single state image. However, such paradigm of point-wise attack exhibits poor generalization against numerous unknown states of identity and can be easily defended. In this paper, by rethinking the inherent relationship between the face of target identity and its variants, we introduce a new pipeline of Generalized Manifold Adversarial Attack (GMAA) to achieve a better attack performance by expanding the attack range. Specifically, this expansion lies on two aspects - GMAA not only expands the target to be attacked from one to many to encourage a good generalization ability for the generated adversarial examples, but it also expands the latter from discrete points to manifold by leveraging the domain knowledge that face expression change can be continuous, which enhances the attack effect as a data augmentation mechanism did. Moreover, we further design a dual supervision with local and global constraints as a minor contribution to improve the visual quality of the generated adversarial examples. We demonstrate the effectiveness of our method based on extensive experiments, and reveal that GMAA promises a semantic continuous adversarial space with a higher generalization ability and visual quality
翻訳日:2023-04-11 21:04:32 公開日:2023-04-08
# GeoDE: オブジェクト認識のための地理ディバース評価データセット

GeoDE: a Geographically Diverse Evaluation Dataset for Object Recognition ( http://arxiv.org/abs/2301.02560v3 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sing Yu Lin, Dora Zhao, Aaron B. Adcock, Laurens van der Maaten, Deepti Ghadiyaram, Olga Russakovsky(参考訳) 現在のデータセット収集メソッドは、通常、webから大量のデータをスクレイピングする。 この手法は非常にスケーラブルであるが、この方法で収集されたデータは、ステレオタイプバイアスを強化し、個人が特定可能な情報を含むことができ、典型的にはヨーロッパと北アメリカに由来する。 本研究は,データセット収集のパラダイムを再考し,クラウドソーシングを通じて収集した,40のクラスと6つの世界領域の61,940の画像からなる地理的に多様なデータセットであるGeoDEを紹介する。 我々はGeoDEを分析し、Webスクラッピングと比較して、このような方法で収集された画像の違いを理解する。 このデータセットのサイズは小さいが、評価データセットとトレーニングデータセットの両方としての使用、現在のモデルの欠点の強調、そしてトレーニングデータセットに少量のジオデ(1リージョンあたり1000~2000画像)を追加してもパフォーマンスが向上することを示す。 完全なデータセットとコードはhttps://geodiverse-data-collection.cs.princeton.edu/でリリースします。

Current dataset collection methods typically scrape large amounts of data from the web. While this technique is extremely scalable, data collected in this way tends to reinforce stereotypical biases, can contain personally identifiable information, and typically originates from Europe and North America. In this work, we rethink the dataset collection paradigm and introduce GeoDE, a geographically diverse dataset with 61,940 images from 40 classes and 6 world regions, and no personally identifiable information, collected through crowd-sourcing. We analyse GeoDE to understand differences in images collected in this manner compared to web-scraping. Despite the smaller size of this dataset, we demonstrate its use as both an evaluation and training dataset, highlight shortcomings in current models, as well as show improved performances when even small amounts of GeoDE (1000 - 2000 images per region) are added to a training dataset. We release the full dataset and code at https://geodiverse-data-collection.cs.princeton.edu/
翻訳日:2023-04-11 21:02:26 公開日:2023-04-08
# グラフ上のサイレント多数予測:知識伝達型グラフニューラルネットワーク

Predicting the Silent Majority on Graphs: Knowledge Transferable Graph Neural Network ( http://arxiv.org/abs/2302.00873v3 )

ライセンス: Link先を確認
Wendong Bi, Bingbing Xu, Xiaoqian Sun, Li Xu, Huawei Shen, Xueqi Cheng(参考訳) 声門ノード(声門少数派)とサイレントノード(サイレント多数派)からなるグラフ、すなわちVS-Graphは現実世界に広く存在している。 声帯には豊富な特徴とラベルがある傾向がある。 対照的に、サイレントノードは不完全な特徴と稀なラベルしか持たず、例えば、政治家(声)の記述と政治的傾向は豊富であるが、Twitterのソーシャルネットワーク上の一般の人々(サイレント)には及ばない。 サイレントマジョリティの予測は、依然として極めて困難な問題である。 しかし、既存のメッセージパスベースのGNNの多くは、すべてのノードが、欠落した機能やドメイン間の分散シフトを考慮せずに、同じドメインに属していると仮定しているため、VS-Graphに対処する能力は貧弱である。 上記の課題に対処するために,音声ノードからサイレントノードへ知識を伝達することで,メッセージパッシングと表現学習における分散シフトをモデル化する知識伝達可能なグラフニューラルネットワーク(KT-GNN)を提案する。 具体的には、ドメイン差を保ちながらノード表現学習のためのドメイン適応型「機能補完とメッセージパッシング機構」を設計する。 そして、KL分割に基づく知識伝達可能な分類器に従う。 実世界のシナリオに関する総合的な実験(企業財務リスク評価と政治選挙)は,本手法の優れた性能を示す。 ソースコードがオープンソース化されました。

Graphs consisting of vocal nodes ("the vocal minority") and silent nodes ("the silent majority"), namely VS-Graph, are ubiquitous in the real world. The vocal nodes tend to have abundant features and labels. In contrast, silent nodes only have incomplete features and rare labels, e.g., the description and political tendency of politicians (vocal) are abundant while not for ordinary people (silent) on the twitter's social network. Predicting the silent majority remains a crucial yet challenging problem. However, most existing message-passing based GNNs assume that all nodes belong to the same domain, without considering the missing features and distribution-shift between domains, leading to poor ability to deal with VS-Graph. To combat the above challenges, we propose Knowledge Transferable Graph Neural Network (KT-GNN), which models distribution shifts during message passing and representation learning by transferring knowledge from vocal nodes to silent nodes. Specifically, we design the domain-adapted "feature completion and message passing mechanism" for node representation learning while preserving domain difference. And a knowledge transferable classifier based on KL-divergence is followed. Comprehensive experiments on real-world scenarios (i.e., company financial risk assessment and political elections) demonstrate the superior performance of our method. Our source code has been open sourced.
翻訳日:2023-04-11 20:54:54 公開日:2023-04-08
# wise-iou:動的フォーカス機構によるバウンディングボックス回帰損失

Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism ( http://arxiv.org/abs/2301.10051v3 )

ライセンス: Link先を確認
Zanjia Tong, Yuhang Chen, Zewei Xu, Rong Yu(参考訳) オブジェクト検出にはバウンディングボックス回帰(BBR)の損失関数が不可欠である。 その良い定義はモデルに大幅なパフォーマンス改善をもたらすだろう。 既存の研究の多くは、トレーニングデータの例が高品質であり、bbr損失の適合能力の強化に重点を置いていると仮定している。 低品質の例でbbrを盲目的に強化すれば、ローカライズのパフォーマンスを損なうことになります。 Focal-EIoU v1はこの問題を解決するために提案されたが、静的集束機構(FM)のため、非単調FMの可能性は完全には利用されなかった。 このアイデアに基づいて,Wise-IoU(WIoU)と呼ばれる動的非単調FMを用いたIoUに基づく損失を提案する。 動的非単調FMは、IoUの代わりに外れ度を用いてアンカーボックスの品質を評価し、賢明な勾配ゲイン割り当て戦略を提供する。 この戦略は高品質アンカーボックスの競争力を低下させ、また低品質の例によって生じる有害な勾配を減少させる。 これにより、WIoUは通常の高品質のアンカーボックスに集中し、検出器全体の性能を改善することができる。 WIoUを最先端のリアルタイム検出器YOLOv7に適用すると、MS-COCOデータセット上のAP-75は53.03%から54.50%に改善される。 コードはhttps://github.com/instinct323/wiouで入手できる。

The loss function for bounding box regression (BBR) is essential to object detection. Its good definition will bring significant performance improvement to the model. Most existing works assume that the examples in the training data are high-quality and focus on strengthening the fitting ability of BBR loss. If we blindly strengthen BBR on low-quality examples, it will jeopardize localization performance. Focal-EIoU v1 was proposed to solve this problem, but due to its static focusing mechanism (FM), the potential of non-monotonic FM was not fully exploited. Based on this idea, we propose an IoU-based loss with a dynamic non-monotonic FM named Wise-IoU (WIoU). The dynamic non-monotonic FM uses the outlier degree instead of IoU to evaluate the quality of anchor boxes and provides a wise gradient gain allocation strategy. This strategy reduces the competitiveness of high-quality anchor boxes while also reducing the harmful gradient generated by low-quality examples. This allows WIoU to focus on ordinary-quality anchor boxes and improve the detector's overall performance. When WIoU is applied to the state-of-the-art real-time detector YOLOv7, the AP-75 on the MS-COCO dataset is improved from 53.03% to 54.50%. Code is available at https://github.com/Instinct323/wiou.
翻訳日:2023-04-11 20:53:30 公開日:2023-04-08
# ファウショット行動認識のための空間的・時間的モデリングの再検討

Revisiting the Spatial and Temporal Modeling for Few-shot Action Recognition ( http://arxiv.org/abs/2301.07944v2 )

ライセンス: Link先を確認
Jiazheng Xing, Mengmeng Wang, Yong Liu, Boyu Mu(参考訳) 空間的および時間的モデリングは、数少ないアクション認識の最も重要な側面の1つである。 従来の研究のほとんどは、重要な低レベル空間特徴と短期時間関係を考慮せずに、高レベル空間表現に基づく長期時間関係モデリングに重点を置いている。 実際には、前者の機能は豊かな局所的な意味情報をもたらし、後者の機能は隣り合うフレームの動作特性をそれぞれ表現できる。 本稿では,数発動作認識のための空間的および時間的モデリングを,より微妙な方法で再検討する新しいフレームワークであるsloshnetを提案する。 まず,低レベル空間特徴を活用すべく,低レベル空間特徴と高レベル空間特徴の最適な組み合わせを自動的に検索する機能融合アーキテクチャ探索モジュールを設計した。 次に,近年のトランスフォーマーに触発されて,抽出した空間的外観特徴に基づいて,大域的時間関係をモデル化する長期時間モデリングモジュールを提案する。 一方,隣接フレーム間の動き特性をエンコードするために,新たな短期時間モデリングモジュールを設計した。 その後、組込み豊富な時空間特徴を共通のフレームレベルクラスプロトタイプマーカに供給することにより、最終的な予測が得られる。 提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。 すべてのデータセットで最先端のメソッドに対して良好な結果が得られる。

Spatial and temporal modeling is one of the most core aspects of few-shot action recognition. Most previous works mainly focus on long-term temporal relation modeling based on high-level spatial representations, without considering the crucial low-level spatial features and short-term temporal relations. Actually, the former feature could bring rich local semantic information, and the latter feature could represent motion characteristics of adjacent frames, respectively. In this paper, we propose SloshNet, a new framework that revisits the spatial and temporal modeling for few-shot action recognition in a finer manner. First, to exploit the low-level spatial features, we design a feature fusion architecture search module to automatically search for the best combination of the low-level and high-level spatial features. Next, inspired by the recent transformer, we introduce a long-term temporal modeling module to model the global temporal relations based on the extracted spatial appearance features. Meanwhile, we design another short-term temporal modeling module to encode the motion characteristics between adjacent frame representations. After that, the final predictions can be obtained by feeding the embedded rich spatial-temporal features to a common frame-level class prototype matcher. We extensively validate the proposed SloshNet on four few-shot action recognition datasets, including Something-Something V2, Kinetics, UCF101, and HMDB51. It achieves favorable results against state-of-the-art methods in all datasets.
翻訳日:2023-04-11 20:52:45 公開日:2023-04-08
# 分散機械学習のための新興RISC-Vシステムの実験

Experimenting with Emerging RISC-V Systems for Decentralised Machine Learning ( http://arxiv.org/abs/2302.07946v2 )

ライセンス: Link先を確認
Gianluca Mittone, Nicol\`o Tonci, Robert Birke, Iacopo Colonnelli, Doriana Medi\'c, Andrea Bartolini, Roberto Esposito, Emanuele Parisi, Francesco Beneventi, Mirko Polato, Massimo Torquati, Luca Benini, Marco Aldinucci(参考訳) 分散機械学習(DML)は、集中的な入力データなしで協調的な機械学習を可能にする。 フェデレーション学習(fl)とエッジ推論は、dmlの例である。 DML(特にFL)のツールは繁栄し始めているが、その多くは新しいプロセッサ(例えばRISC-V)、完全に接続されていないネットワークトポロジ、非同期協調スキームを試すには柔軟でポータブルではない。 DMLスキームを基盤となるミドルウェア,すなわちFastFlow並列プログラミングライブラリにマップできるようにするため,ドメイン固有言語によるこれらの制限を克服しています。 我々は x86-64 と ARM プラットフォーム上で動作可能な DML スキームと RISC-V プラットフォームを作成して実験を行った。 提案方式とシステムの性能とエネルギー効率を特徴付ける。 副産物として、我々の知識に初めて公開されているpytorchフレームワークのrisc-vポートを紹介します。

Decentralised Machine Learning (DML) enables collaborative machine learning without centralised input data. Federated Learning (FL) and Edge Inference are examples of DML. While tools for DML (especially FL) are starting to flourish, many are not flexible and portable enough to experiment with novel processors (e.g., RISC-V), non-fully connected network topologies, and asynchronous collaboration schemes. We overcome these limitations via a domain-specific language allowing us to map DML schemes to an underlying middleware, i.e. the FastFlow parallel programming library. We experiment with it by generating different working DML schemes on x86-64 and ARM platforms and an emerging RISC-V one. We characterise the performance and energy efficiency of the presented schemes and systems. As a byproduct, we introduce a RISC-V porting of the PyTorch framework, the first publicly available to our knowledge.
翻訳日:2023-04-11 20:45:07 公開日:2023-04-08
# 薬物・標的相互作用のフェデレーション学習ベンチマーク

A Federated Learning Benchmark for Drug-Target Interaction ( http://arxiv.org/abs/2302.07684v3 )

ライセンス: Link先を確認
Gianluca Mittone, Filip Svoboda, Marco Aldinucci, Nicholas D. Lane, Pietro Lio(参考訳) 薬物・標的相互作用(DTI)ドメインにおける医薬品データの集約は、生命維持のブレークスルーをもたらす可能性がある。 しかし、規制の制約と商業上の利益のために、それは非常に難しい。 本研究は,企業データやその他の高レベルの概要を明らかにする情報を共有する必要がなくなるため,産業の制約と調和できると考えるフェデレートラーニングの適用を提案する。 代表的なGraphDTAモデルとKIBAデータセットで使用すると、最高の非プライバシ保存代替手段と比較して最大15%パフォーマンスが向上する。 広範な実験の結果,dtiデータセット内の非iidデータ分布がfl性能を低下させることはないことがわかった。 さらに、新しいデータを追加するメリットと、より多くのクライアントを追加するコストの間には、実質的なトレードオフがあります。

Aggregating pharmaceutical data in the drug-target interaction (DTI) domain has the potential to deliver life-saving breakthroughs. It is, however, notoriously difficult due to regulatory constraints and commercial interests. This work proposes the application of federated learning, which we argue to be reconcilable with the industry's constraints, as it does not require sharing of any information that would reveal the entities' data or any other high-level summary of it. When used on a representative GraphDTA model and the KIBA dataset it achieves up to 15% improved performance relative to the best available non-privacy preserving alternative. Our extensive battery of experiments shows that, unlike in other domains, the non-IID data distribution in the DTI datasets does not deteriorate FL performance. Additionally, we identify a material trade-off between the benefits of adding new data, and the cost of adding more clients.
翻訳日:2023-04-11 20:44:51 公開日:2023-04-08
# 特徴空間収縮によるGAN訓練の改善

Improving GAN Training via Feature Space Shrinkage ( http://arxiv.org/abs/2303.01559v2 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Bing Li, Haoqian Wu, Nanjun He, Yawen Huang, Yuexiang Li, Bernard Ghanem, Yefeng Zheng(参考訳) データ生成の優れた能力のため、GAN(Generative Adversarial Networks)は教師なし学習において大きな注目を集めている。 しかし, 判別器のトレーニング分布は動的であり, 不安定な画像表現につながるため, GANの学習は困難である。 本稿では,新しい視点からGANを訓練する際の問題点,すなわち,頑健な画像分類の問題に対処する。 我々は,ロバストな画像表現の研究に動機づけられ,識別器の画像表現空間におけるトレーニングデータの領域を縮小する,単純かつ効果的なgans用モジュール,adaptivemixを提案する。 直接有界な特徴空間を考慮し, ハードサンプルを構築し, ハードサンプルと簡単なサンプル間の特徴距離を狭めることを提案する。 ハードサンプルは、一対のトレーニングイメージを混合して構成される。 我々は、広く使われている最先端のGANアーキテクチャを用いたAdaptiveMixの有効性を評価する。 評価の結果,aadaptivemixはganのトレーニングを容易にし,生成したサンプルの画質を効果的に向上できることがわかった。 また、我々のAdaptiveMixは画像分類やOOD(Out-Of-Distribution)検出タスクにも適用可能であることを示す。 7つの公開データセットに関する広範な実験により、本手法がベースラインのパフォーマンスを効果的に向上させることが示された。 コードはhttps://github.com/WentianZhang-ML/AdaptiveMixで公開されている。

Due to the outstanding capability for data generation, Generative Adversarial Networks (GANs) have attracted considerable attention in unsupervised learning. However, training GANs is difficult, since the training distribution is dynamic for the discriminator, leading to unstable image representation. In this paper, we address the problem of training GANs from a novel perspective, \emph{i.e.,} robust image classification. Motivated by studies on robust image representation, we propose a simple yet effective module, namely AdaptiveMix, for GANs, which shrinks the regions of training data in the image representation space of the discriminator. Considering it is intractable to directly bound feature space, we propose to construct hard samples and narrow down the feature distance between hard and easy samples. The hard samples are constructed by mixing a pair of training images. We evaluate the effectiveness of our AdaptiveMix with widely-used and state-of-the-art GAN architectures. The evaluation results demonstrate that our AdaptiveMix can facilitate the training of GANs and effectively improve the image quality of generated samples. We also show that our AdaptiveMix can be further applied to image classification and Out-Of-Distribution (OOD) detection tasks, by equipping it with state-of-the-art methods. Extensive experiments on seven publicly available datasets show that our method effectively boosts the performance of baselines. The code is publicly available at https://github.com/WentianZhang-ML/AdaptiveMix.
翻訳日:2023-04-11 20:35:09 公開日:2023-04-08
# 胸部x線画像における知識強化視覚言語前訓練

Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images ( http://arxiv.org/abs/2302.14042v2 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 大規模データに事前学習されたマルチモーダル基礎モデルは自然言語理解や視覚認識に成功しているが、医療領域におけるそれらの使用は、医学的タスクのきめ細かい性質とドメイン知識の高需要のために制限されている。 この課題に対処するために,既存の医学領域の知識を活用して,胸部X線と放射線学のレポートを用いた視覚言語事前学習を指導する,知識強調型自動診断(KAD)という新しいアプローチを提案する。 我々は, {four} 外部X線データセット上でKADを評価し,そのゼロショット性能が完全教師付きモデルに匹敵するだけでなく,統計学的に有意な3種類の専門放射線技師の平均よりも優れていることを示した。 さらに、少数ショットのアノテーションが利用できる場合、KADは、微調整設定で既存のすべてのアプローチより優れており、異なる臨床シナリオにおける適用の可能性を示している。

While multi-modal foundation models pre-trained on large-scale data have been successful in natural language understanding and vision recognition, their use in medical domains is still limited due to the fine-grained nature of medical tasks and the high demand for domain knowledge. To address this challenge, we propose a novel approach called Knowledge-enhanced Auto Diagnosis (KAD) which leverages existing medical domain knowledge to guide vision-language pre-training using paired chest X-rays and radiology reports. We evaluate KAD on {four} external X-ray datasets and demonstrate that its zero-shot performance is not only comparable to that of fully-supervised models, but also superior to the average of three expert radiologists for three (out of five) pathologies with statistical significance. Moreover, when few-shot annotation is available, KAD outperforms all existing approaches in fine-tuning settings, demonstrating its potential for application in different clinical scenarios.
翻訳日:2023-04-11 20:34:33 公開日:2023-04-08
# WENDyを用いたODEモデルのパラメータの直接推定:非線形ダイナミクスの弱形式推定

Direct Estimation of Parameters in ODE Models Using WENDy: Weak-form Estimation of Nonlinear Dynamics ( http://arxiv.org/abs/2302.13271v3 )

ライセンス: Link先を確認
David M. Bortz, Daniel A. Messenger, Vanja Dukic(参考訳) ODEの非線形系に対するモデルパラメータを推定するためのWendy法を提案する。 数値微分方程式の解法に頼らず、WENDyは正確な推定値を計算し、大きな(生物学的に関係のある)測定ノイズレベルに頑健である。 控えめなデータ量を持つ低次元システムでは、WENDyは速度と精度の点で従来の前方解法に基づく非線形最小二乗法と競合する。 高次元システムと剛性システムの両方において、WENDyは(しばしば桁違いに)より高速で、前方解法に基づくアプローチよりも正確である。 中心的な数学的アイデアは、モデルの強形式表現をその弱形式に効率よく変換し、パラメータ推論を実行するために回帰問題を解くことである。 中心となる統計的アイデアは、反復的に再重み付けされた最小二乗アルゴリズムを使用する必要があるErrors-In-Variablesフレームワークに依存している。 支持大きさの異なるc-infinity bump関数の集合から作成された直交試験関数を用いてさらに改善する。 我々は,WENDyを用いて,ロジスティック成長,ロトカ・ボルテラ,フィッツヒュー・ナグモ,ヒンドマーシュ・ロース,タンパク質翻訳ベンチマークモデルなど,集団生物学,神経科学,生化学の共通モデルからパラメータを推定することにより,高いロバスト性と計算効率を示す。 サンプルを再現するためのソフトウェアとコードはhttps://github.com/MathBioCU/WENDy.comで入手できる。

We introduce the Weak-form Estimation of Nonlinear Dynamics (WENDy) method for estimating model parameters for non-linear systems of ODEs. Without relying on any numerical differential equation solvers, WENDy computes accurate estimates and is robust to large (biologically relevant) levels of measurement noise. For low dimensional systems with modest amounts of data, WENDy is competitive with conventional forward solver-based nonlinear least squares methods in terms of speed and accuracy. For both higher dimensional systems and stiff systems, WENDy is typically both faster (often by orders of magnitude) and more accurate than forward solver-based approaches. The core mathematical idea involves an efficient conversion of the strong form representation of a model to its weak form, and then solving a regression problem to perform parameter inference. The core statistical idea rests on the Errors-In-Variables framework, which necessitates the use of the iteratively reweighted least squares algorithm. Further improvements are obtained by using orthonormal test functions, created from a set of C-infinity bump functions of varying support sizes. We demonstrate the high robustness and computational efficiency by applying WENDy to estimate parameters in some common models from population biology, neuroscience, and biochemistry, including logistic growth, Lotka-Volterra, FitzHugh-Nagumo, Hindmarsh-Rose, and a Protein Transduction Benchmark model. Software and code for reproducing the examples is available at (https://github.com/MathBioCU/WENDy).
翻訳日:2023-04-11 20:33:51 公開日:2023-04-08
# SVDiff:拡散微細調整のためのコンパクトパラメータ空間

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning ( http://arxiv.org/abs/2303.11305v3 )

ライセンス: Link先を確認
Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang(参考訳) 拡散モデルは、テキストから画像への生成において著しく成功し、テキストプロンプトや他のモダリティから高品質な画像を生成することができる。 しかし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされた主題と過剰適合のリスクを扱うことで制限されている。 さらに、その大量のパラメータはモデルストレージに非効率である。 本稿では,既存のテキスト・画像拡散モデルにおけるパーソナライゼーションの制約に対処するための新しい手法を提案する。 本手法は, 重み行列の特異値の微調整を伴い, オーバーフィットや言語ドリフトのリスクを低減する, コンパクトかつ効率的なパラメータ空間を実現する。 また,マルチサブジェクト画像生成の品質を向上させるためのカット・ミックス・アンミックスデータ提示手法と,簡易テキストベースの画像編集フレームワークを提案する。 提案するSVDiff法は,既存手法 (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB) に比べてモデルサイズが大幅に小さく,現実のアプリケーションではより実用的である。

Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size (1.7MB for StableDiffusion) compared to existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it more practical for real-world applications.
翻訳日:2023-04-11 20:27:57 公開日:2023-04-08
# 2層ニューラルネットワークの初期凝縮の位相図

Phase Diagram of Initial Condensation for Two-layer Neural Networks ( http://arxiv.org/abs/2303.06561v2 )

ライセンス: Link先を確認
Zhengan Chen, Yuqing Li, Tao Luo, Zhangchen Zhou, Zhi-Qin John Xu(参考訳) ニューラルネットワークが様々な初期化のスケールで異なる行動を示す現象は、深層学習研究において謎のままである。 本稿では、Luoらによる初期の研究を基にした。 ~\cite{luo2021phase},二層ニューラルネットワークの初期凝縮の位相図を示す。 凝縮は、ニューラルネットワークの重みベクトルがトレーニングプロセス中に孤立した方向に集中する現象であり、ニューラルネットワークがより良い一般化能力を持つことを可能にする非線形学習プロセスの特徴である。 我々のフェーズダイアグラムは、ニューラルネットワークのダイナミックな状態と、初期化に関連するハイパーパラメータの選択への依存を包括的に理解するのに役立ちます。 さらに,初期訓練段階において,小さな初期化が凝縮につながるメカニズムを詳細に示す。

The phenomenon of distinct behaviors exhibited by neural networks under varying scales of initialization remains an enigma in deep learning research. In this paper, based on the earlier work by Luo et al.~\cite{luo2021phase}, we present a phase diagram of initial condensation for two-layer neural networks. Condensation is a phenomenon wherein the weight vectors of neural networks concentrate on isolated orientations during the training process, and it is a feature in non-linear learning process that enables neural networks to possess better generalization abilities. Our phase diagram serves to provide a comprehensive understanding of the dynamical regimes of neural networks and their dependence on the choice of hyperparameters related to initialization. Furthermore, we demonstrate in detail the underlying mechanisms by which small initialization leads to condensation at the initial training stage.
翻訳日:2023-04-11 20:25:41 公開日:2023-04-08
# 流体力学シミュレーションのためのポテンシャル量子優位性

Potential quantum advantage for simulation of fluid dynamics ( http://arxiv.org/abs/2303.16550v2 )

ライセンス: Link先を確認
Xiangyu Li, Xiaolong Yin, Nathan Wiebe, Jaehun Chun, Gregory K. Schenter, Margaret S. Cheung, and Johannes M\"ulmenst\"adt(参考訳) 乱流力学の数値シミュレーションでは、大きな不確実性をもたらす乱流をパラメータ化するか、最小のスケールを明示的に解決する必要がある。 ここでは解析的境界と数値的研究を通じて、量子計算を用いて乱流を支配するナビエ・ストークス方程式をシミュレートするために潜在的な量子指数の速度アップが達成できることを示す。 具体的には、格子ボルツマン方程式の定式化を行い、これらの系に対して以前に信じられていたよりも低次カールマン線型化の方がはるかに正確であることを示す。 これは非線形性を再構成し、動的方程式を正確に線形化し、量子ソルバに不要な費用を加えるような自由度で非線形性を効果的に交換することで達成される。 これに基づいて、カールマン線形格子ボルツマン方程式をシミュレートする量子アルゴリズムを適用し、そのコストが既知の古典的アルゴリズムの多項式スケーリングと比較してシステムサイズと対数的にスケールすることを示す。 この研究は、指数関数的量子優位性が流体力学をシミュレートするために存在し、量子コンピューティングを用いて幅広い分野の非線形多スケール輸送現象をシミュレートする方法であることを示唆している。

Numerical simulation of turbulent fluid dynamics needs to either parameterize turbulence-which introduces large uncertainties-or explicitly resolve the smallest scales-which is prohibitively expensive. Here we provide evidence through analytic bounds and numerical studies that a potential quantum exponential speedup can be achieved to simulate the Navier-Stokes equations governing turbulence using quantum computing. Specifically, we provide a formulation of the lattice Boltzmann equation for which we give evidence that low-order Carleman linearization is much more accurate than previously believed for these systems and that for computationally interesting examples. This is achieved via a combination of reformulating the nonlinearity and accurately linearizing the dynamical equations, effectively trading nonlinearity for additional degrees of freedom that add negligible expense in the quantum solver. Based on this we apply a quantum algorithm for simulating the Carleman-linerized lattice Boltzmann equation and provide evidence that its cost scales logarithmically with system size, compared to polynomial scaling in the best known classical algorithms. This work suggests that an exponential quantum advantage may exist for simulating fluid dynamics, paving the way for simulating nonlinear multiscale transport phenomena in a wide range of disciplines using quantum computing.
翻訳日:2023-04-11 20:18:18 公開日:2023-04-08
# tabret: unseen列のためのトランスフォーマティブベースの表モデル

TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns ( http://arxiv.org/abs/2303.15747v3 )

ライセンス: Link先を確認
Soma Onishi, Kenta Oono, and Kohei Hayashi(参考訳) 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。 TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。 他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。 実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。 さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。 コードはhttps://github.com/pfnet-research/tabretで入手できる。

We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular data. TabRet is designed to work on a downstream task that contains columns not seen in pre-training. Unlike other methods, TabRet has an extra learning step before fine-tuning called \emph{retokenizing}, which calibrates feature embeddings based on the masked autoencoding loss. In experiments, we pre-trained TabRet with a large collection of public health surveys and fine-tuned it on classification tasks in healthcare, and TabRet achieved the best AUC performance on four datasets. In addition, an ablation study shows retokenizing and random shuffle augmentation of columns during pre-training contributed to performance gains. The code is available at https://github.com/pfnet-research/tabret .
翻訳日:2023-04-11 20:17:04 公開日:2023-04-08
# 自然言語によるビデオ埋め込み空間の学習

Learning video embedding space with Natural Language Supervision ( http://arxiv.org/abs/2303.14584v2 )

ライセンス: Link先を確認
Phani Krishna Uppala, Abhishek Bamotra, Shriti Priya, Vaidehi Joshi(参考訳) 最近のCLIPモデルの成功は、幅広いビジョンや言語タスクに適用できる可能性を示している。 しかし、これはビデオ領域ではなく、言語と画像の埋め込み空間関係を確立するだけである。 本稿では,映像の埋め込み空間を自然言語にマッピングする新しい手法を提案する。 まず,事前学習したcnnを用いて映像の各フレームから視覚特徴を抽出し,クリップモデルを用いて映像領域の視覚特徴と対応するテキスト記述をエンコードする2段階アプローチを提案する。 提案手法は,UCF101とHMDB51の2つのベンチマークデータセット上で評価し,両タスクの最先端性能を実現する。

The recent success of the CLIP model has shown its potential to be applied to a wide range of vision and language tasks. However this only establishes embedding space relationship of language to images, not to the video domain. In this paper, we propose a novel approach to map video embedding space to natural langugage. We propose a two-stage approach that first extracts visual features from each frame of a video using a pre-trained CNN, and then uses the CLIP model to encode the visual features for the video domain, along with the corresponding text descriptions. We evaluate our method on two benchmark datasets, UCF101 and HMDB51, and achieve state-of-the-art performance on both tasks.
翻訳日:2023-04-11 20:16:03 公開日:2023-04-08
# クラスインクリメンタル学習のためのクラスインクリメンタルエクエンプティブ圧縮

Class-Incremental Exemplar Compression for Class-Incremental Learning ( http://arxiv.org/abs/2303.14042v2 )

ライセンス: Link先を確認
Zilin Luo, Yaoyao Liu, Bernt Schiele, Qianru Sun(参考訳) exemplar-based class-incremental learning (cil) では、新しいクラスのすべてのサンプルでモデルを微調整するが、インクリメンタルなフェーズ毎に古いクラスの少数のexemplarを微調整する。 本稿では、この「ファウショット」制限を、非識別画素をダウンサンプリングし、メモリ内の「多くの」圧縮例を節約することで、単純な、驚くほど効果的なアイデアに基づいて破る。 手動アノテーションを必要とせず,クラスアクティベーションマップ (cam) から識別画素に0-1マスクを生成することで,この圧縮を実現する。 CAMの2つの難しさを明確に解消するために,CIMと呼ばれる適応マスク生成モデルを提案する。 1)CAMのヒートマップを任意の閾値で0-1マスクに変換すると、全メモリが固定されるにつれて、識別画素のカバレッジと指数の量とのトレードオフにつながる。 2) CILの動的環境において特に明らかな,異なるオブジェクトクラスに対して最適なしきい値が変化する。 CIMモデルを従来のCILモデルに代えてバイレベル最適化問題により最適化する。 我々は、Food-101, ImageNet-100, ImageNet-1000などの高分解能CILベンチマークの広範な実験を行い、CIMによる圧縮された例を用いて、10相 ImageNet-1000のFOSTERよりも4.8ポイント高い新しい最先端CIL精度を実現できることを示す。 私たちのコードはhttps://github.com/xfflzl/CIM-CILで利用可能です。

Exemplar-based class-incremental learning (CIL) finetunes the model with all samples of new classes but few-shot exemplars of old classes in each incremental phase, where the "few-shot" abides by the limited memory budget. In this paper, we break this "few-shot" limit based on a simple yet surprisingly effective idea: compressing exemplars by downsampling non-discriminative pixels and saving "many-shot" compressed exemplars in the memory. Without needing any manual annotation, we achieve this compression by generating 0-1 masks on discriminative pixels from class activation maps (CAM). We propose an adaptive mask generation model called class-incremental masking (CIM) to explicitly resolve two difficulties of using CAM: 1) transforming the heatmaps of CAM to 0-1 masks with an arbitrary threshold leads to a trade-off between the coverage on discriminative pixels and the quantity of exemplars, as the total memory is fixed; and 2) optimal thresholds vary for different object classes, which is particularly obvious in the dynamic environment of CIL. We optimize the CIM model alternatively with the conventional CIL model through a bilevel optimization problem. We conduct extensive experiments on high-resolution CIL benchmarks including Food-101, ImageNet-100, and ImageNet-1000, and show that using the compressed exemplars by CIM can achieve a new state-of-the-art CIL accuracy, e.g., 4.8 percentage points higher than FOSTER on 10-Phase ImageNet-1000. Our code is available at https://github.com/xfflzl/CIM-CIL.
翻訳日:2023-04-11 20:15:51 公開日:2023-04-08
# 低温ハイブリッド無線/量子コヒーレントネットワーク・イン・パッケージによるスケーラブルマルチチップ量子アーキテクチャ

Scalable multi-chip quantum architectures enabled by cryogenic hybrid wireless/quantum-coherent network-in-package ( http://arxiv.org/abs/2303.14008v3 )

ライセンス: Link先を確認
Eduard Alarc\'on, Sergi Abadal, Fabio Sebastiano, Masoud Babaie, Edoardo Charbon, Peter Haring Bol\'ivar, Maurizio Palesi, Elena Blokhina, Dirk Leipold, Bogdan Staszewski, Artur Garcia-S\'aez, Carmen G. Almudever(参考訳) 量子コンピュータのスケールアップという大きな課題は、フルスタックアーキテクチャの観点を必要とする。 本稿では,分散量子コア(Qcore)を量子コヒーレントな量子ビット状態伝達リンクで相互接続し,統合された無線接続でオーケストレーションする,次世代のスケーラブル量子コンピューティングアーキテクチャの展望を示す。

The grand challenge of scaling up quantum computers requires a full-stack architectural standpoint. In this position paper, we will present the vision of a new generation of scalable quantum computing architectures featuring distributed quantum cores (Qcores) interconnected via quantum-coherent qubit state transfer links and orchestrated via an integrated wireless interconnect.
翻訳日:2023-04-11 20:15:20 公開日:2023-04-08
# コンストラクティブ同化:ビュー生成戦略によるコントラスト学習性能の向上

Constructive Assimilation: Boosting Contrastive Learning Performance through View Generation Strategies ( http://arxiv.org/abs/2304.00601v2 )

ライセンス: Link先を確認
Ligong Han, Seungwook Han, Shivchander Sudalairaj, Charlotte Loh, Rumen Dangovski, Fei Deng, Pulkit Agrawal, Dimitris Metaxas, Leonid Karlinsky, Tsui-Wei Weng, Akash Srivastava(参考訳) ドメインの専門知識に基づく変換(ランダムサイズクロップやカラージッターなどの専門的変換)は、simclrのようなコントラスト学習手法の成功に決定的であることが証明されている。 近年、このようなドメイン固有の人間設計の変換を学習されたビューで置き換える試みがいくつか行われている。 しかし、画像データについては、これらのビュージェネレーション手法が専門家の変換より優れているものはない。 専門家の変換を生成されたビューに置き換える代わりに、私たちは、生成されたビューと専門家の変換を構成的に同化できるだろうか? 本稿では、この疑問を肯定的に解き、三つの異なるデータセットに対して最大3.6%改善するビュー生成法と簡易で効果的な同化法を提案する。 重要となるのは,様々な視点生成法と同化法を体系的に分析し,コントラスト表現学習における学習視点の有効性の全体像を提供する,詳細な実験研究である。

Transformations based on domain expertise (expert transformations), such as random-resized-crop and color-jitter, have proven critical to the success of contrastive learning techniques such as SimCLR. Recently, several attempts have been made to replace such domain-specific, human-designed transformations with generated views that are learned. However for imagery data, so far none of these view-generation methods has been able to outperform expert transformations. In this work, we tackle a different question: instead of replacing expert transformations with generated views, can we constructively assimilate generated views with expert transformations? We answer this question in the affirmative and propose a view generation method and a simple, effective assimilation method that together improve the state-of-the-art by up to ~3.6% on three different datasets. Importantly, we conduct a detailed empirical study that systematically analyzes a range of view generation and assimilation methods and provides a holistic picture of the efficacy of learned views in contrastive representation learning.
翻訳日:2023-04-11 20:08:50 公開日:2023-04-08
# 放射状基底関数ニューラルネットワークの普遍近似特性について

On the universal approximation property of radial basis function neural networks ( http://arxiv.org/abs/2304.02220v2 )

ライセンス: Link先を確認
Aysu Ismayilova and Muhammad Ismayilov(参考訳) 本稿では,スムージング因子をシフトに置き換えたRBF(Radial Basis Function)ニューラルネットワークの新たなクラスについて考察する。 活性化関数のある条件下では、これらのネットワークは、d$-次元ユークリッド空間の任意のコンパクト部分集合上の任意の連続多変数関数を近似することができる。 有限個の固定セントロイドを持つRBFネットワークに対して、任意の精度で近似を保証する条件を記述する。

In this paper we consider a new class of RBF (Radial Basis Function) neural networks, in which smoothing factors are replaced with shifts. We prove under certain conditions on the activation function that these networks are capable of approximating any continuous multivariate function on any compact subset of the $d$-dimensional Euclidean space. For RBF networks with finitely many fixed centroids we describe conditions guaranteeing approximation with arbitrary precision.
翻訳日:2023-04-11 19:49:09 公開日:2023-04-08
# EduceLab-Scrolls:X線CTによるHerculaneum Papyriからのテキストの復元

EduceLab-Scrolls: Verifiable Recovery of Text from Herculaneum Papyri using X-ray CT ( http://arxiv.org/abs/2304.02084v2 )

ライセンス: Link先を確認
Stephen Parsons, C. Seth Parker, Christy Chapman, Mami Hayashida, W. Brent Seales(参考訳) X線CT画像を用いたHerculaneum papyriの隠れテキストを明らかにするための完全なソフトウェアパイプラインを提案する。 この拡張された仮想アンラッピングパイプラインは、機械学習と、3D画像と2D画像をリンクする新しい幾何学的フレームワークを組み合わせる。 educelab-scrollsは、この問題に対する20年の研究努力を表す包括的なオープンデータセットです。 EduceLab-Scrollsには、小さな断片と無傷のロールスクロールの両方のボリュームX線CT画像が含まれている。 データセットには、インク検出モデルの教師付きトレーニングに使用される2Dイメージラベルも含まれている。 ラベリングは、スクロールフラグメントのスペクトル写真と、同じフラグメントのX線CT画像との整列を可能とし、画像空間とモダリティの間の機械学習可能なマッピングを作成する。 このアライメントは、X線CTで「見えない」炭素インクを検出するための教師あり学習を可能にする。 私たちの知る限り、これはこの種のデータセットとしては初めてのもので、ヘリテージドメインでリリースされた最大のデータセットです。 本手法は, スクロール断片の正確なテキスト行を, 既知の地底真理で明らかにすることができる。 露見されたテキストは、視覚的確認、定量的画像計測、学術的レビューを用いて検証される。 educelab-scrollsは今回初めて、ここで紹介するherculaneum papyriの隠されたテキストを発見した。 研究が進むにつれて、educelab-scrollsデータセットがよりテキスト的な発見を生み出すことを期待している。

We present a complete software pipeline for revealing the hidden texts of the Herculaneum papyri using X-ray CT images. This enhanced virtual unwrapping pipeline combines machine learning with a novel geometric framework linking 3D and 2D images. We also present EduceLab-Scrolls, a comprehensive open dataset representing two decades of research effort on this problem. EduceLab-Scrolls contains a set of volumetric X-ray CT images of both small fragments and intact, rolled scrolls. The dataset also contains 2D image labels that are used in the supervised training of an ink detection model. Labeling is enabled by aligning spectral photography of scroll fragments with X-ray CT images of the same fragments, thus creating a machine-learnable mapping between image spaces and modalities. This alignment permits supervised learning for the detection of "invisible" carbon ink in X-ray CT, a task that is "impossible" even for human expert labelers. To our knowledge, this is the first aligned dataset of its kind and is the largest dataset ever released in the heritage domain. Our method is capable of revealing accurate lines of text on scroll fragments with known ground truth. Revealed text is verified using visual confirmation, quantitative image metrics, and scholarly review. EduceLab-Scrolls has also enabled the discovery, for the first time, of hidden texts from the Herculaneum papyri, which we present here. We anticipate that the EduceLab-Scrolls dataset will generate more textual discovery as research continues.
翻訳日:2023-04-11 19:49:01 公開日:2023-04-08
# ChatGPT/GPT-4研究の概要と大規模言語モデルの将来への展望

Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models ( http://arxiv.org/abs/2304.01852v2 )

ライセンス: Link先を確認
Yiheng Liu, Tianle Han, Siyuan Ma, Jiayue Zhang, Yuanyuan Yang, Jiaming Tian, Hao He, Antong Li, Mengshen He, Zhengliang Liu, Zihao Wu, Dajiang Zhu, Xiang Li, Ning Qiang, Dingang Shen, Tianming Liu, Bao Ge(参考訳) 本稿では,GPTシリーズにおけるChatGPTとGPT-4,最先端の大規模言語モデル (LLM) の総合的な調査と,多分野にわたる将来的な応用について述べる。 実際、世界中の知識を捉える大規模な事前学習や、人間のフィードバックからの微調整と強化学習(RLHF)といった重要な革新は、LLMの適応性と性能を高める上で重要な役割を担っている。 各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。 この発見は、直接の自然言語処理アプリケーションを中心にしたchatgpt/gpt-4研究に有意かつ増大する関心を示し、教育や歴史から数学、医学、物理学まで幅広い分野においてかなりの可能性を示している。 本研究は,ChatGPTの能力,潜在的含意,倫理的懸念,今後の発展への方向性について考察する。

This paper presents a comprehensive survey of ChatGPT and GPT-4, state-of-the-art large language models (LLM) from the GPT series, and their prospective applications across diverse domains. Indeed, key innovations such as large-scale pre-training that captures knowledge across the entire world wide web, instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) have played significant roles in enhancing LLMs' adaptability and performance. We performed an in-depth analysis of 194 relevant papers on arXiv, encompassing trend analysis, word cloud representation, and distribution analysis across various application domains. The findings reveal a significant and increasing interest in ChatGPT/GPT-4 research, predominantly centered on direct natural language processing applications, while also demonstrating considerable potential in areas ranging from education and history to mathematics, medicine, and physics. This study endeavors to furnish insights into ChatGPT's capabilities, potential implications, ethical concerns, and offer direction for future advancements in this field.
翻訳日:2023-04-11 19:48:37 公開日:2023-04-08
# マルチコードディープイメージによる画像復調・CT再構成のためのプラグアンドプレイADMM

Multi-code deep image prior based plug-and-play ADMM for image denoising and CT reconstruction ( http://arxiv.org/abs/2304.03895v1 )

ライセンス: Link先を確認
Chen Chenga, Qingping Zhou(参考訳) 逆問題の画像化に先立つ畳み込みニューラルネットワークの利用がますます普及している。 しかし、現在の最先端の手法は深刻な過剰フィッティングを生じやすいため、過剰フィッティング問題を解決するために多くの早期停止技術が必要となる。 作業のモチベーションを高めるため,画像先行に対する既存のアプローチを概観する。 先行画像と手作り画像を組み合わせることで,解釈性や表現性に優れた性能が得られることがわかった。 本稿では,先行する深層画像の複数の潜伏符号の変種であるマルチコード深層画像について提案し,過度な収差を排除し,潜伏符号の異なる数に対して頑健であることを示す。 手工芸品の非微分性のため、乗算器の代替方向法(ADMM)を用いる。 PnP-DIP, DIP-VBTV, ADMM DIP-WTV などの既存手法と比較し, 画像復号化問題とCT再構成問題に対する提案手法の性能を比較した。 celebaデータセットをデノージングする場合、すべての比較法に対して1.46dbのピーク信号とノイズ比の改善が得られる。 CTの再構成では、DIPは4.3dB、ADMM DIP-WTVは1.7dB、PnP-DIPは1.2dB、構造類似度指数は1.2dBである。

The use of the convolutional neural network based prior in imaging inverse problems has become increasingly popular. Current state-of-the-art methods, however, can easily result in severe overfitting, which makes a number of early stopping techniques necessary to eliminate the overfitting problem. To motivate our work, we review some existing approaches to image priors. We find that the deep image prior in combined with the handcrafted prior has an outstanding performance in terms of interpretability and representability. We propose a multi-code deep image prior, a multiple latent codes variant of the deep image prior, which can be utilized to eliminate overfitting and is also robust to the different numbers of the latent codes. Due to the non-differentiability of the handcrafted prior, we use the alternative direction method of multipliers (ADMM) algorithm. We compare the performance of the proposed method on an image denoising problem and a highly ill-posed CT reconstruction problem against the existing state-of-the-art methods, including PnP-DIP, DIP-VBTV and ADMM DIP-WTV methods. For the CelebA dataset denoising, we obtain 1.46 dB peak signal to noise ratio improvement against all compared methods. For the CT reconstruction, the corresponding average improvement of three test images is 4.3 dB over DIP, and 1.7 dB over ADMM DIP-WTV, and 1.2 dB over PnP-DIP along with a significant improvement in the structural similarity index.
翻訳日:2023-04-11 19:12:44 公開日:2023-04-08
# 物理系に対する連続学習への多忠実アプローチ

A multifidelity approach to continual learning for physical systems ( http://arxiv.org/abs/2304.03894v1 )

ライセンス: Link先を確認
Amanda Howard, Yucheng Fu, and Panos Stinis(参考訳) 本稿では,多要素深層ニューラルネットワークに基づく連続学習手法を提案する。 本手法は,事前訓練したモデルの出力と現在のトレーニングデータセット上でのモデルの所望の出力との相関を学習し,破滅的な忘れを抑える。 それ自体で、multifidelity continual learningメソッドは、複数のデータセットにまたがる忘れることを制限した堅牢な結果を示している。 さらに,本手法は,リプレイやメモリ認識シナプスを含む既存の連続学習手法と組み合わせることで,破滅的な忘れを抑えることができることを示す。 提案する連続学習法は,各領域の物理法則を満足する物理問題や,物理に変形したニューラルネットワークに特に適合する。これらの場合において,前モデルの出力と現在のトレーニング領域のモデルとの間に強い相関があることを期待している。

We introduce a novel continual learning method based on multifidelity deep neural networks. This method learns the correlation between the output of previously trained models and the desired output of the model on the current training dataset, limiting catastrophic forgetting. On its own the multifidelity continual learning method shows robust results that limit forgetting across several datasets. Additionally, we show that the multifidelity method can be combined with existing continual learning methods, including replay and memory aware synapses, to further limit catastrophic forgetting. The proposed continual learning method is especially suited for physical problems where the data satisfy the same physical laws on each domain, or for physics-informed neural networks, because in these cases we expect there to be a strong correlation between the output of the previous model and the model on the current training domain.
翻訳日:2023-04-11 19:12:19 公開日:2023-04-08
# 都市計画の自動化に向けて : 生成型とチャットGPTライクなAIと都市計画

Towards Automated Urban Planning: When Generative and ChatGPT-like AI Meets Urban Planning ( http://arxiv.org/abs/2304.03892v1 )

ライセンス: Link先を確認
Dongjie Wang, Chang-Tien Lu, Yanjie Fu(参考訳) 都市計画と人工知能(AI)の2つの分野が生まれ、別々に開発された。 しかし、現在ではクロスポリメーションがあり、両者の進歩から利益を得るため、両方の分野への関心が高まっている。 本稿では,持続可能性,生活,経済,災害,環境の観点から,都市計画の重要性について述べる。 都市計画の基本概念を検証し,これらの概念を,敵対的学習,生成型ニューラルネットワーク,深エンコーダ・デコーダネットワーク,会話型ai,地理空間的および時空間的機械学習など,機械学習の重要なオープン問題に関連付けることで,aiが現代の都市計画にどのように貢献できるかを評価する。 したがって, 地中空間, 人体移動, ソーシャルメディア, 環境, 経済活動から, 対象地域を対象とした土地利用・建築構成の生成として定式化された自動土地利用構成が問題となっている。 最後に,都市計画におけるaiの意義を概説し,両トピックの交点に重要な研究領域を提案する。

The two fields of urban planning and artificial intelligence (AI) arose and developed separately. However, there is now cross-pollination and increasing interest in both fields to benefit from the advances of the other. In the present paper, we introduce the importance of urban planning from the sustainability, living, economic, disaster, and environmental perspectives. We review the fundamental concepts of urban planning and relate these concepts to crucial open problems of machine learning, including adversarial learning, generative neural networks, deep encoder-decoder networks, conversational AI, and geospatial and temporal machine learning, thereby assaying how AI can contribute to modern urban planning. Thus, a central problem is automated land-use configuration, which is formulated as the generation of land uses and building configuration for a target area from surrounding geospatial, human mobility, social media, environment, and economic activities. Finally, we delineate some implications of AI for urban planning and propose key research areas at the intersection of both topics.
翻訳日:2023-04-11 19:12:05 公開日:2023-04-08
# diffdock-pp : 拡散モデルとタンパク質ドッキング

DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models ( http://arxiv.org/abs/2304.03889v1 )

ライセンス: Link先を確認
Mohamed Amine Ketata, Cedrik Laue, Ruslan Mammadov, Hannes St\"ark, Menghua Wu, Gabriele Corso, C\'eline Marquet, Regina Barzilay, Tommi S. Jaakkola(参考訳) タンパク質の構造的相互作用を理解することは現代の生物学にとって重要であり、創薬やタンパク質設計に応用されている。 近年の機械学習手法は, 従来の学習ベースラインと深層学習ベースラインの両方に対して, 性能が著しく向上する生成問題として, タンパク質-小分子ドッキングを定式化した。 DiffDock-PPは、非有界タンパク質構造をそれらの結合構造に翻訳し回転させる拡散生成モデルである。 中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。 さらに、DiffDock-PPは全ての検索手法よりも高速で、その予測に対して信頼性の高い信頼推定を生成する。 私たちのコードは、$\texttt{https://github.com/ketatam/DiffDock-PP}$で公開されています。

Understanding how proteins structurally interact is crucial to modern biology, with applications in drug discovery and protein design. Recent machine learning methods have formulated protein-small molecule docking as a generative problem with significant performance boosts over both traditional and deep learning baselines. In this work, we propose a similar approach for rigid protein-protein docking: DiffDock-PP is a diffusion generative model that learns to translate and rotate unbound protein structures into their bound conformations. We achieve state-of-the-art performance on DIPS with a median C-RMSD of 4.85, outperforming all considered baselines. Additionally, DiffDock-PP is faster than all search-based methods and generates reliable confidence estimates for its predictions. Our code is publicly available at $\texttt{https://github.com/ketatam/DiffDock-PP}$
翻訳日:2023-04-11 19:11:45 公開日:2023-04-08
# 無制限ワンウェイステアリング

Unlimited One-Way Steering ( http://arxiv.org/abs/2304.03888v1 )

ライセンス: Link先を確認
Pavel Sekatski, Florian Giraud, Roope Uola, Nicolas Brunner(参考訳) この研究は、高次元の絡み合いを用いたセットアップにおける量子ステアリングの非対称性を探求する。 以下のプロパティで絡み合った状態を構築します。 (i) one party (Alice) は、最も一般的な測定値を考えると、もう1つの party (Bob) の状態を決して操縦することができず、$ (ii)$ Bobはアリスの状態を強く操り、真の高次元ステアリングを証明できる。 言い換えれば、ボブはアリスが任意に高いシュミット数の絡み合った状態を共有していると説得できるが、アリスは単に絡み合っているだけであることをボブに納得させることはできない。 この意味では、片道ステアリングは無制限になる。 本研究の主な成果は,ノイズと損失の複合効果を考慮した高次元計測のジョイント測定可能性の条件である。

This work explores the asymmetry of quantum steering in a setup using high-dimensional entanglement. We construct entangled states with the following properties: $(i)$ one party (Alice) can never steer the state of the other party (Bob), considering the most general measurements, and $(ii)$ Bob can strongly steer the state of Alice, demonstrating genuine high-dimensional steering. In other words, Bob can convince Alice that they share an entangled state of arbitrarily high Schmidt number, while Alice can never convince Bob that the state is even simply entangled. In this sense, one-way steering can become unlimited. A key result for our construction is a condition for the joint measurability of all high-dimensional measurements subjected to the combined effect of noise and loss, which is of independent interest.
翻訳日:2023-04-11 19:11:30 公開日:2023-04-08
# バルク超流動ヘリウム中の分子ローターのダイナミクス

Dynamics of molecular rotors in bulk superfluid helium ( http://arxiv.org/abs/2304.03882v1 )

ライセンス: Link先を確認
Alexander A. Milner, V. A. Apkarian, Valery Milner(参考訳) 液体ヘリウムに浸漬された分子は超流動性の優れたプローブである。 電子、振動、回転のダイナミクスはナノスケールでの超流動について貴重な手がかりを与える。 本稿では,超流動体$^4\mathrm{he}$浴中におけるヘリウムダイマーのレーザー誘起回転に関する実験結果について報告する。 \mathrm{he}_2^*$ のコヒーレントな回転ダイナミクスは超短レーザーパルスによって制御され、時間分解レーザー誘起蛍光によって追跡される。 我々は,ナノ秒時間スケールにおける回転コヒーレンスの崩壊を検出し,温度がデコヒーレンス速度に与える影響を調べる。 観測された温度依存性は、第2音波の放出を伴う量子浴の非平衡進化を示唆している。 この方法は、可変熱力学的条件下で分子ナノプローブによる超流動を研究する新しい方法を提供する。

Molecules immersed in liquid helium are excellent probes of superfluidity. Their electronic, vibrational and rotational dynamics provide valuable clues about the superfluid at the nanoscale. Here we report on the experimental study of the laser-induced rotation of helium dimers inside the superfluid $^4\mathrm{He}$ bath at variable temperature. The coherent rotational dynamics of $\mathrm{He}_2^*$ is initiated in a controlled way by ultrashort laser pulses, and tracked by means of time-resolved laser-induced fluorescence. We detect the decay of rotational coherence on the nanosecond timescale and investigate the effects of temperature on the decoherence rate. The observed temperature dependence suggests a non-equilibrium evolution of the quantum bath, accompanied by the emission of the wave of second sound. The method offers new ways of studying superfluidity with molecular nano-probes under variable thermodynamic conditions.
翻訳日:2023-04-11 19:11:17 公開日:2023-04-08
# gpt4rec:パーソナライズドレコメンデーションとユーザ関心の解釈のための生成フレームワーク

GPT4Rec: A Generative Framework for Personalized Recommendation and User Interests Interpretation ( http://arxiv.org/abs/2304.03879v1 )

ライセンス: Link先を確認
Jinming Li, Wentao Zhang, Tian Wang, Guanglei Xiong, Alan Lu, Gerard Medioni(参考訳) 自然言語処理(NLP)の最近の進歩は、優れた性能を示すNLPベースのレコメンデータシステムの開発につながっている。 しかし、現在のモデルは、アイテムを単なるIDとして扱い、差別的モデリングを採用するため、(1)アイテムの内容情報とNLPモデルの言語モデリング能力を完全に活用すること、(2)ユーザの関心を解釈して関連性と多様性を向上すること、(3)アイテム在庫の増加などの実践的な状況に適応することの制限が生じる。 このような制約に対処するため,我々はgpt4recという新鮮で柔軟な生成フレームワークを提案する。 まず、ユーザの履歴にある項目のタイトルに関する仮説的な"検索クエリ"を生成し、これらのクエリを検索することで推奨項目を検索する。 このフレームワークは、ユーザとアイテムの埋め込みを言語空間で学習することで、以前の制限を克服する。 関連性と多様性を向上させるために,異なるアスペクトと粒度を持つユーザの興味をよく把握するために,ビーム探索を用いた多クエリ生成手法を提案する。 生成されたクエリは、自然にユーザの関心の解釈可能な表現となり、コールドスタートアイテムを推奨するために検索される。 GPT-2言語モデルとBM25検索エンジンにより、我々のフレームワークは2つの公開データセット上のRecall@Kにおいて、7.7 %$と2.2 %$の最先端メソッドよりも優れています。 さらに、ビームサーチによるマルチクエリ生成により、検索したアイテムの多様性とユーザのマルチ関心のカバレッジが向上することを明らかにした。 生成したクエリの適応性と解釈性を定性的なケーススタディで検討した。

Recent advancements in Natural Language Processing (NLP) have led to the development of NLP-based recommender systems that have shown superior performance. However, current models commonly treat items as mere IDs and adopt discriminative modeling, resulting in limitations of (1) fully leveraging the content information of items and the language modeling capabilities of NLP models; (2) interpreting user interests to improve relevance and diversity; and (3) adapting practical circumstances such as growing item inventories. To address these limitations, we present GPT4Rec, a novel and flexible generative framework inspired by search engines. It first generates hypothetical "search queries" given item titles in a user's history, and then retrieves items for recommendation by searching these queries. The framework overcomes previous limitations by learning both user and item embeddings in the language space. To well-capture user interests with different aspects and granularity for improving relevance and diversity, we propose a multi-query generation technique with beam search. The generated queries naturally serve as interpretable representations of user interests and can be searched to recommend cold-start items. With GPT-2 language model and BM25 search engine, our framework outperforms state-of-the-art methods by $75.7\%$ and $22.2\%$ in Recall@K on two public datasets. Experiments further revealed that multi-query generation with beam search improves both the diversity of retrieved items and the coverage of a user's multi-interests. The adaptiveness and interpretability of generated queries are discussed with qualitative case studies.
翻訳日:2023-04-11 19:11:03 公開日:2023-04-08
# OFTER: 時系列予測のためのオンラインパイプライン

OFTER: An Online Pipeline for Time Series Forecasting ( http://arxiv.org/abs/2304.03877v1 )

ライセンス: Link先を確認
Nikolas Michael, Mihai Cucuringu, Sam Howison(参考訳) 我々は,中規模多変量時系列に適した時系列予測パイプラインOFTERを紹介する。 OFTERは、k-アネレスト近傍と一般化回帰ニューラルネットワークの非パラメトリックモデルを利用し、次元減少成分と統合する。 次元の呪いを回避するために,最大相関係数の修正版に基づく重み付きノルムを用いる。 私たちが導入するパイプラインは、オンラインタスク用に特別に設計されており、解釈可能なアウトプットを持ち、最先端のベースラインを上回ることができる。 アルゴリズムの計算効率、オンラインの性質、低信号対雑音方式での運用能力により、OFTERは日々の株価予測のような金融多変量時系列問題に理想的なアプローチとなる。 私たちの研究は、ディープラーニングモデルが時系列予測に大きな可能性を秘めている一方で、主流ツールと慎重に統合する従来の手法は、スケーラビリティと解釈可能性の付加的な利点によって、依然として非常に競争力のある代替手段であることを示している。

We introduce OFTER, a time series forecasting pipeline tailored for mid-sized multivariate time series. OFTER utilizes the non-parametric models of k-nearest neighbors and Generalized Regression Neural Networks, integrated with a dimensionality reduction component. To circumvent the curse of dimensionality, we employ a weighted norm based on a modified version of the maximal correlation coefficient. The pipeline we introduce is specifically designed for online tasks, has an interpretable output, and is able to outperform several state-of-the art baselines. The computational efficacy of the algorithm, its online nature, and its ability to operate in low signal-to-noise regimes, render OFTER an ideal approach for financial multivariate time series problems, such as daily equity forecasting. Our work demonstrates that while deep learning models hold significant promise for time series forecasting, traditional methods carefully integrating mainstream tools remain very competitive alternatives with the added benefits of scalability and interpretability.
翻訳日:2023-04-11 19:10:32 公開日:2023-04-08
# SGIDN-LCD:スーパーピクセルグリッドとインクリメンタル動的ノードを用いた出現型ループクロージャ検出アルゴリズム

SGIDN-LCD: An Appearance-based Loop Closure Detection Algorithm using Superpixel Grids and Incremental Dynamic Nodes ( http://arxiv.org/abs/2304.03872v1 )

ライセンス: Link先を確認
Baosheng Zhang(参考訳) ループクロージャ検出(LCD)は、視覚的同時ローカライゼーションとマッピング(SLAM)システムにおいて欠かせない要素である。 これにより、以前訪れたシーンを認識でき、長期の探検から生じるポーズや地図の推定ドリフトを排除できる。 しかし、現在の外観に基づくLCD法は、高い計算コスト、視点分散、シーン内の動的オブジェクトなど、重大な課題に直面している。 本稿では,スーパーピクセルグリッド(SG)によるLCD手法であるSGIDN-LCDを提案する。 従来のBag-of-Words(BoW)モデルとは違って,$\textbf{\textit{dynamic}}$$\textbf{\textit{node}}$という類似の画像をグループ化するための適応機構を提案し,データベースをオンライン的にインクリメンタルに調整し,これまで見た画像の効率的な検索を可能にする。 実験の結果,SGIDN-LCDはLCDの精度と効率を著しく向上した。 さらに,提案手法は,複数の典型的なデータセットに対する最先端手法よりも優れる。

Loop Closure Detection (LCD) is an essential component of visual simultaneous localization and mapping (SLAM) systems. It enables the recognition of previously visited scenes to eliminate pose and map estimate drifts arising from long-term exploration. However, current appearance-based LCD methods face significant challenges, including high computational costs, viewpoint variance, and dynamic objects in scenes. This paper introduces an online based on Superpixel Grids (SGs) LCD approach, SGIDN-LCD, to find similarities between scenes via hand-crafted features extracted from SGs. Unlike traditional Bag-of-Words (BoW) models requiring pre-training, we propose an adaptive mechanism to group similar images called $\textbf{\textit{dynamic}}$ $\textbf{\textit{node}}$, which incremental adjusts the database in an online manner, allowing for efficient retrieval of previously viewed images. Experimental results demonstrate the SGIDN-LCD significantly improving LCD precision-recall and efficiency. Moreover, our proposed overall LCD method outperforms state-of-the-art approaches on multiple typical datasets.
翻訳日:2023-04-11 19:10:15 公開日:2023-04-08
# 強駆動型スピン-メカニカル系のメカニカルフォトルミネッセンス励起スペクトル

Mechanical photoluminescence excitation spectra of a strongly driven spin-mechanical system ( http://arxiv.org/abs/2304.03922v1 )

ライセンス: Link先を確認
Xinzhu Li and Hailin Wang(参考訳) 本研究では、窒素空孔(NV)中心が励起状態変形電位を介してダイヤモンドカンチレバーの面外振動に結合する駆動型スピン機械システムの実験的研究を報告する。 フォトルミネッセンス励起研究は、未解決のサイドバンド構造と強い共鳴機械駆動下でのnv光遷移の励起スペクトルが、振動するカンチレバーの2つの回転点に対応する2つのスペクトルに鋭いピークを特徴付けることを示した。 2つのピーク間のひずみ誘起周波数分離がnvゼロフォノン線幅をはるかに超える限界において、個々のピークのスペクトル位置は、機械共鳴と外部駆動力との微調整に敏感になる。 NV遷移近くの固定光励起周波数に対して、NV蛍光は機械的変形の関数として、機械的モードの固有線幅よりも桁違いに小さいライン幅の共鳴を特徴とする。 この機械的変形に対する感度の向上は、例えば機械振動子周波数の誘起変化の測定による質量センシングのような、機械的センシングに有効なメカニズムを提供する可能性がある。

We report experimental studies of a driven spin-mechanical system, in which a nitrogen vacancy (NV) center couples to out-of-plane vibrations of a diamond cantilever through the excited-state deformation potential. Photoluminescence excitation studies show that in the unresolved sideband regime and under strong resonant mechanical driving, the excitation spectra of a NV optical transition feature two spectrally sharp peaks, corresponding to the two turning points of the oscillating cantilever. In the limit that the strain-induced frequency separation between the two peaks far exceeds the NV zero-phonon linewidth, the spectral position of the individual peak becomes sensitive to minute detuning between the mechanical resonance and the external driving force. For a fixed optical excitation frequency near the NV transition, NV fluorescence as a function of mechanical detuning features resonances with a linewidth that can be orders of magnitude smaller than the intrinsic linewidth of the mechanical mode. This enhanced sensitivity to mechanical detuning can potentially provide an effective mechanism for mechanical sensing, for example, mass sensing via measurements of induced changes in the mechanical oscillator frequency.
翻訳日:2023-04-11 19:02:57 公開日:2023-04-08
# MC-MLP:ビジョンのためのオールMLPアーキテクチャにおける複数座標フレーム

MC-MLP:Multiple Coordinate Frames in all-MLP Architecture for Vision ( http://arxiv.org/abs/2304.03917v1 )

ライセンス: Link先を確認
Zhimin Zhu, Jianguo Zhao, Tong Mu, Yuliang Yang, Mengyu Zhu(参考訳) ディープラーニングでは、MLP(Multi-Layer Perceptrons)が再び研究者から注目を集めている。 本稿では,コンピュータビジョンのための汎用MLPライクなバックボーンであるMC-MLPについて紹介する。 MC-MLPでは,特徴の座標フレームによって,同じ意味情報が学習の難易度が異なることが示唆された。 これに対処するために、特徴情報の直交変換を行い、特徴の座標フレームを変更することに相当する。 この設計により、mc-mlpは多重座標フレーム受容フィールドと異なる座標フレーム間で情報を学習する能力を備えている。 実験により、MC-MLPは画像分類タスクにおいてほとんどのMLPよりも優れており、同じパラメータレベルでより優れた性能が得られることが示された。 コードは、https://github.com/ZZM11/MC-MLP.comで入手できる。

In deep learning, Multi-Layer Perceptrons (MLPs) have once again garnered attention from researchers. This paper introduces MC-MLP, a general MLP-like backbone for computer vision that is composed of a series of fully-connected (FC) layers. In MC-MLP, we propose that the same semantic information has varying levels of difficulty in learning, depending on the coordinate frame of features. To address this, we perform an orthogonal transform on the feature information, equivalent to changing the coordinate frame of features. Through this design, MC-MLP is equipped with multi-coordinate frame receptive fields and the ability to learn information across different coordinate frames. Experiments demonstrate that MC-MLP outperforms most MLPs in image classification tasks, achieving better performance at the same parameter level. The code will be available at: https://github.com/ZZM11/MC-MLP.
翻訳日:2023-04-11 19:02:35 公開日:2023-04-08
# 微調整時のマルチモーダルモデルにおけるスプリアス相関の緩和

Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning ( http://arxiv.org/abs/2304.03916v1 )

ライセンス: Link先を確認
Yu Yang, Besmira Nushi, Hamid Palangi, Baharan Mirzasoleiman(参考訳) モデル一般化を劣化させたり、間違った理由でモデルが正しいように導くような散発的な相関は、現実世界のデプロイメントにおける主要な強固な懸念の1つです。 しかしながら、大規模モデルの事前トレーニング中にこれらの相関を緩和することは、特に高性能コンピューティングリソースにアクセスできない人々にとって、コスト的かつ非実用的である。 本稿では,特定の関心領域の微調整における散発的相関に対処するための新しい手法を提案する。 提案手法は,マルチモーダルモデル(例えばCLIP)に焦点をあて,これらのモデルにおける異なるモダリティを活用して,言語を通してスプリアス関係を表現するマルチモーダルコントラスト損失関数を用いて,影響を受けるクラスからスプリアス属性を検出し,明示的に設定する。 このような介入が効果的に有効であることを示す実験結果とCLIPの詳細な可視化 一 突発的属性が存在しないときのモデルの精度を向上し、 ii) モデルのアクティベーションマップは、存在する場合のスプリアス属性ではなく、実際のクラスに向けられる。 特にwaterbirdsデータセットでは,resnet-50バックボーンを持つクリップのermよりも23%,vitバックボーンを持つクリップでは32%,ermと同じ平均精度を維持しながら,最悪のグループ精度を達成した。

Spurious correlations that degrade model generalization or lead the model to be right for the wrong reasons are one of the main robustness concerns for real-world deployments. However, mitigating these correlations during pre-training for large-scale models can be costly and impractical, particularly for those without access to high-performance computing resources. This paper proposes a novel approach to address spurious correlations during fine-tuning for a given domain of interest. With a focus on multi-modal models (e.g., CLIP), the proposed method leverages different modalities in these models to detect and explicitly set apart spurious attributes from the affected class, achieved through a multi-modal contrastive loss function that expresses spurious relationships through language. Our experimental results and in-depth visualizations on CLIP show that such an intervention can effectively i) improve the model's accuracy when spurious attributes are not present, and ii) directs the model's activation maps towards the actual class rather than the spurious attribute when present. In particular, on the Waterbirds dataset, our algorithm achieved a worst-group accuracy 23% higher than ERM on CLIP with a ResNet-50 backbone, and 32% higher on CLIP with a ViT backbone, while maintaining the same average accuracy as ERM.
翻訳日:2023-04-11 19:02:22 公開日:2023-04-08
# ゼロショットビデオオブジェクトセグメンテーションのためのコアテンション伝搬ネットワーク

Co-attention Propagation Network for Zero-Shot Video Object Segmentation ( http://arxiv.org/abs/2304.03910v1 )

ライセンス: Link先を確認
Gensheng Pei, Yazhou Yao, Fumin Shen, Dan Huang, Xingguo Huang, and Heng-Tao Shen(参考訳) ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内の前景オブジェクトをセグメンテーションすることを目的としている。 しかし、既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。 光流などの運動情報を導入する一般的なプラクティスは、光流の推定に過度に依存する可能性がある。 これらの課題に対処するために,エンコーダ・デコーダに基づく階層型コアテンション伝播ネットワーク (hcpn) を提案する。 具体的には、並列コアテンションモジュール (PCM) とクロスコアテンションモジュール (CCM) の複数の協調進化に基づいて構築されている。 PCMは隣接した外観と運動の特徴の共通する前景領域を捉え、CCMはPCMによって返される運動特徴をさらに活用し融合する。 本手法は,ビデオ全体の階層的時空間的特徴伝達を実現するために段階的に訓練される。 実験の結果,HCPNは従来のベンチマーク手法よりも優れた性能を示し,ZS-VOSの有効性を示した。

Zero-shot video object segmentation (ZS-VOS) aims to segment foreground objects in a video sequence without prior knowledge of these objects. However, existing ZS-VOS methods often struggle to distinguish between foreground and background or to keep track of the foreground in complex scenarios. The common practice of introducing motion information, such as optical flow, can lead to overreliance on optical flow estimation. To address these challenges, we propose an encoder-decoder-based hierarchical co-attention propagation network (HCPN) capable of tracking and segmenting objects. Specifically, our model is built upon multiple collaborative evolutions of the parallel co-attention module (PCM) and the cross co-attention module (CCM). PCM captures common foreground regions among adjacent appearance and motion features, while CCM further exploits and fuses cross-modal motion features returned by PCM. Our method is progressively trained to achieve hierarchical spatio-temporal feature propagation across the entire video. Experimental results demonstrate that our HCPN outperforms all previous methods on public benchmarks, showcasing its effectiveness for ZS-VOS.
翻訳日:2023-04-11 19:01:56 公開日:2023-04-08
# 有限次元スペクトル動的埋め込みによる確率非線形制御

Stochastic Nonlinear Control via Finite-dimensional Spectral Dynamic Embedding ( http://arxiv.org/abs/2304.03907v1 )

ライセンス: Link先を確認
Tongzheng Ren, Zhaolin Ren, Na Li and Bo Dai(参考訳) 最適制御は確率非線形システムでは難しいことで悪名高い。 Renらが開発したSpectral Dynamics Embeddingは、未知のシステムを制御するための強化学習手法を開発するためのものだ。 無限次元の特徴を用いて状態値関数を線形に表現し、実用的な実装のために有限次元のトランケーション近似を利用する。 しかし、制御における有限次元近似特性はモデルが知られている場合でも研究されていない。 本稿では,有限次元特徴近似,スペクトル動力学埋め込み制御(sdec)の非線形ダイナミクスを応用し,有限次元切断による近似誤差と有限サンプル近似による統計誤差を,政策評価と政策最適化の両方において特徴量的に理論的に特徴付ける確率的非線形制御アルゴリズムを提案する。 また,このアルゴリズムを実験的に検証し,振り子揺らぎ問題に対するクープマン法とiLQR法との比較を行った。

Optimal control is notoriously difficult for stochastic nonlinear systems. Ren et al. introduced Spectral Dynamics Embedding for developing reinforcement learning methods for controlling an unknown system. It uses an infinite-dimensional feature to linearly represent the state-value function and exploits finite-dimensional truncation approximation for practical implementation. However, the finite-dimensional approximation properties in control have not been investigated even when the model is known. In this paper, we provide a tractable stochastic nonlinear control algorithm that exploits the nonlinear dynamics upon the finite-dimensional feature approximation, Spectral Dynamics Embedding Control (SDEC), with an in-depth theoretical analysis to characterize the approximation error induced by the finite-dimension truncation and statistical error induced by finite-sample approximation in both policy evaluation and policy optimization. We also empirically test the algorithm and compare the performance with Koopman-based methods and iLQR methods on the pendulum swingup problem.
翻訳日:2023-04-11 19:01:33 公開日:2023-04-08
# InstructBio: バイオケミカル問題のための大規模半教師付き学習パラダイム

InstructBio: A Large-scale Semi-supervised Learning Paradigm for Biochemical Problems ( http://arxiv.org/abs/2304.03906v1 )

ライセンス: Link先を確認
Fang Wu, Huiling Qin, Wenhao Gao, Siyuan Li, Connor W. Coley, Stan Z. Li, Xianyuan Zhan, Jinbo Xu(参考訳) 科学のための人工知能の分野では、現実世界の問題に対して限られた量のラベル付きデータに直面することは、一貫して重要な課題である。 一般的なアプローチは、大きなラベルのないコーパスで強力なタスク非依存モデルを事前学習するが、知識を下流タスクに移すのに苦労する可能性がある。 本研究では,ラベルなしの例をうまく活用するために,半教師付き学習アルゴリズムであるInstructMolを提案する。 疑似ラベルの信頼性の測定として信頼性比を提供するインストラクターモデルを導入する。 これらの信頼度スコアは、異なるデータポイントに異なる注意を払うようターゲットモデルに誘導し、ラベル付きデータへの過度な依存や誤った擬似注釈の影響を避ける。 包括的実験により,InstructBioは分子モデルの一般化能力を大幅に向上し,分子特性予測だけでなく,活性崖の推定も向上し,提案手法の優位性を示した。 さらに,instructbioは最先端の事前学習法を備え,大規模かつタスク固有の疑似ラベル付き分子データセットの構築に利用可能であり,予測誤差を低減し,トレーニングプロセスを短縮できることを示す。 我々の研究は、半教師付き学習がデータ不足の限界を克服し、分子表現学習を進めるための有望なツールであることを示す強力な証拠を提供する。

In the field of artificial intelligence for science, it is consistently an essential challenge to face a limited amount of labeled data for real-world problems. The prevailing approach is to pretrain a powerful task-agnostic model on a large unlabeled corpus but may struggle to transfer knowledge to downstream tasks. In this study, we propose InstructMol, a semi-supervised learning algorithm, to take better advantage of unlabeled examples. It introduces an instructor model to provide the confidence ratios as the measurement of pseudo-labels' reliability. These confidence scores then guide the target model to pay distinct attention to different data points, avoiding the over-reliance on labeled data and the negative influence of incorrect pseudo-annotations. Comprehensive experiments show that InstructBio substantially improves the generalization ability of molecular models, in not only molecular property predictions but also activity cliff estimations, demonstrating the superiority of the proposed method. Furthermore, our evidence indicates that InstructBio can be equipped with cutting-edge pretraining methods and used to establish large-scale and task-specific pseudo-labeled molecular datasets, which reduces the predictive errors and shortens the training process. Our work provides strong evidence that semi-supervised learning can be a promising tool to overcome the data scarcity limitation and advance molecular representation learning.
翻訳日:2023-04-11 19:01:18 公開日:2023-04-08
# 単一画像からの高忠実な衣服アバター再構成

High-Fidelity Clothed Avatar Reconstruction from a Single Image ( http://arxiv.org/abs/2304.03903v1 )

ライセンス: Link先を確認
Tingting Liao and Xiaomei Zhang and Yuliang Xiu and Hongwei Yi and Xudong Liu and Guo-Jun Qi and Yong Zhang and Xuan Wang and Xiangyu Zhu and Zhen Lei(参考訳) 本稿では,効率的な3次元アバター再構築のための枠組みを提案する。 最適化に基づく手法の高精度と学習に基づく手法の効率の利点を組み合わせることで,高忠実度布アバター再構成(CAR)を実現するための粗大な方法を提案する。 第1段階では暗黙のモデルを用いて、学習ベースの方法で人の正準空間の一般的な形状を学習し、第2段階では、ポーズ空間の非剛性変形を最適化的に推定することで表面の細部を洗練する。 ハイパーネットワークを利用して優れた初期化を生成し、最適化プロセスの収束ofを大幅に加速する。 様々なデータセットに対する大規模な実験により、提案したCARは、実際の場面で任意の服装の人間のために、高忠実なアバターを生産することに成功した。

This paper presents a framework for efficient 3D clothed avatar reconstruction. By combining the advantages of the high accuracy of optimization-based methods and the efficiency of learning-based methods, we propose a coarse-to-fine way to realize a high-fidelity clothed avatar reconstruction (CAR) from a single image. At the first stage, we use an implicit model to learn the general shape in the canonical space of a person in a learning-based way, and at the second stage, we refine the surface detail by estimating the non-rigid deformation in the posed space in an optimization way. A hyper-network is utilized to generate a good initialization so that the convergence o f the optimization process is greatly accelerated. Extensive experiments on various datasets show that the proposed CAR successfully produces high-fidelity avatars for arbitrarily clothed humans in real scenes.
翻訳日:2023-04-11 19:00:54 公開日:2023-04-08
# 音声感情認識のための経験的研究と改善

An Empirical Study and Improvement for Speech Emotion Recognition ( http://arxiv.org/abs/2304.03899v1 )

ライセンス: Link先を確認
Zhen Wu, Yizhe Lu, Xinyu Dai(参考訳) マルチモーダル音声認識は、音声とテキストから話者の感情を検出することを目的としている。 先行研究は主に高度なネットワークを利用して異なるモダリティ情報をモデル化し融合し、パフォーマンスを向上させるが、異なる融合戦略が感情認識に与える影響を無視する。 本研究では,このマルチモーダルタスクにおいて,音声とテキストのモダリティ情報を融合する方法という,シンプルながら重要な問題を考える。 さらに、視点損失により改善されたマルチモーダル感情認識モデルを提案する。 実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。 詳細な分析では、改善されたモデルが改善を達成し、ベースラインを上回る理由が説明されている。

Multimodal speech emotion recognition aims to detect speakers' emotions from audio and text. Prior works mainly focus on exploiting advanced networks to model and fuse different modality information to facilitate performance, while neglecting the effect of different fusion strategies on emotion recognition. In this work, we consider a simple yet important problem: how to fuse audio and text modality information is more helpful for this multimodal task. Further, we propose a multimodal emotion recognition model improved by perspective loss. Empirical results show our method obtained new state-of-the-art results on the IEMOCAP dataset. The in-depth analysis explains why the improved model can achieve improvements and outperforms baselines.
翻訳日:2023-04-11 19:00:38 公開日:2023-04-08
# コントラスト学習による知識強化による短いテキストマッチングモデル

The Short Text Matching Model Enhanced with Knowledge via Contrastive Learning ( http://arxiv.org/abs/2304.03898v1 )

ライセンス: Link先を確認
Qiqiang Zhong, Mengmeng Cui, Hanjie Mai, Qiang Zhang, Shaohua Xu, Xiangzheng Liu, Yanlong Du(参考訳) 近年,検索と推薦を宣伝する分野において,短いテキストマッチングタスクが広く採用されている。 この難しさは、テキストの短い長さによって生じる意味情報や単語の曖昧さの欠如にある。 以前の作品では、追加の特徴情報を提供するために補文や知識ベースを導入している。 しかし、これらの手法は原文と補文の間に完全には相互作用せず、外部知識ベースの導入によるノイズの問題も考慮していない。 そこで本稿では,コントラスト学習と外部知識を組み合わせた短いテキストマッチングモデルを提案する。 モデルは生成モデルを用いて対応する補文を生成し、コントラスト学習法を用いてモデルを導出し、より意味的に意味のある原文の符号化を得る。 さらに,ノイズを避けるために,原文の主文としてキーワードを用いて,知識ベースで対応する知識語を検索し,知識グラフを構築する。 グラフ符号化モデルは、知識ベース情報をモデルに統合するために使用される。 設計モデルは,2つの公開可能な中国語テキストマッチングデータセットの最先端性能を実現し,本モデルの有効性を実証する。

In recent years, short Text Matching tasks have been widely applied in the fields ofadvertising search and recommendation. The difficulty lies in the lack of semantic information and word ambiguity caused by the short length of the text. Previous works have introduced complement sentences or knowledge bases to provide additional feature information. However, these methods have not fully interacted between the original sentence and the complement sentence, and have not considered the noise issue that may arise from the introduction of external knowledge bases. Therefore, this paper proposes a short Text Matching model that combines contrastive learning and external knowledge. The model uses a generative model to generate corresponding complement sentences and uses the contrastive learning method to guide the model to obtain more semantically meaningful encoding of the original sentence. In addition, to avoid noise, we use keywords as the main semantics of the original sentence to retrieve corresponding knowledge words in the knowledge base, and construct a knowledge graph. The graph encoding model is used to integrate the knowledge base information into the model. Our designed model achieves state-of-the-art performance on two publicly available Chinese Text Matching datasets, demonstrating the effectiveness of our model.
翻訳日:2023-04-11 19:00:31 公開日:2023-04-08
# factify 2: マルチモーダルな偽ニュースと風刺ニュースデータセット

Factify 2: A Multimodal Fake News and Satire News Dataset ( http://arxiv.org/abs/2304.03897v1 )

ライセンス: Link先を確認
S Suryavardan, Shreyash Mishra, Parth Patwa, Megha Chakraborty, Anku Rani, Aishwarya Reganti, Aman Chadha, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal, Srijan Kumar(参考訳) インターネットは世界に対し、自分の見解を表現し、ストーリーを共有するためのオープンなプラットフォームを提供します。 これは非常に価値があるが、偽ニュースは社会の最も差し迫った問題の一つとなっている。 手動の事実チェックプロセスは時間を要するため、重大な害を引き起こす前に誤解を招く主張を否定することは困難である。 これは自動事実またはクレーム検証への関心を喚起している。 既存のデータセットのいくつかは、ファクトチェックの自動化技術の開発をサポートすることを目的としているが、その多くはテキストベースである。 マルチモーダルな事実検証は比較的注目されている。 本稿では,新たなデータソースと風刺記事の追加により,factify 2 と呼ばれるマルチモーダルファクトチェックデータセットを提供する。 factify 2には50,000の新しいデータインスタンスがある。 FACTIFY 1.0と同様に、私たちは3つの幅広いカテゴリ、すなわち、サポート、証拠なし、反響があり、視覚的およびテキスト的データの詳細に基づいたサブカテゴリがあります。 また、BERTとVison Transformerベースのベースラインを提供し、テストセットの65%のF1スコアを達成します。 ベースラインコードとデータセットはhttps://github.com/surya1701/Factify-2.0で公開される。

The internet gives the world an open platform to express their views and share their stories. While this is very valuable, it makes fake news one of our society's most pressing problems. Manual fact checking process is time consuming, which makes it challenging to disprove misleading assertions before they cause significant harm. This is he driving interest in automatic fact or claim verification. Some of the existing datasets aim to support development of automating fact-checking techniques, however, most of them are text based. Multi-modal fact verification has received relatively scant attention. In this paper, we provide a multi-modal fact-checking dataset called FACTIFY 2, improving Factify 1 by using new data sources and adding satire articles. Factify 2 has 50,000 new data instances. Similar to FACTIFY 1.0, we have three broad categories - support, no-evidence, and refute, with sub-categories based on the entailment of visual and textual data. We also provide a BERT and Vison Transformer based baseline, which acheives 65% F1 score in the test set. The baseline codes and the dataset will be made available at https://github.com/surya1701/Factify-2.0.
翻訳日:2023-04-11 19:00:14 公開日:2023-04-08
# リアル超音波胎児脳画像合成に向けて

Towards Realistic Ultrasound Fetal Brain Imaging Synthesis ( http://arxiv.org/abs/2304.03941v1 )

ライセンス: Link先を確認
Michelle Iskandar, Harvey Mannering, Zhanxiang Sun, Jacqueline Matthew, Hamideh Kerdegari, Laura Peralta, Miguel Xochicale(参考訳) 出生前超音波検査は胎児の健康を評価する最初の方法である。 AIとMLの手法の医療画像データセットは多種多様なもの(診断、疾患、病理、スキャナー、人口統計学など)でなければならないが、臨床データ不足、患者のプライバシ、一般的には稀な異常発生、データ収集と検証の専門家に限られている。 このようなデータ不足に対処するため,我々は1つの公開データセットから胎児超音波脳プレーンの画像を合成するために,生成型逆ネットワーク(gan)ベースのモデルである拡散超解像ganおよびトランスフォーマベースganを提案した。 我々は,gan法を用いて胎児超音波経小脳画像平面の256x256ピクセルサイズを安定なトレーニング損失で生成でき,その結果,拡散超解像ganのfid値がトランスフォーマベースganのfid値(平均36.02,エポック60では28.93)よりも低い値(平均7.04,低fid 5.09)となることを報告した。 本研究の成果は,ganを用いた高分解能超音波画像合成の可能性を示し,他の胎児脳平面,解剖学,装置,合成画像評価のための専門家プールの必要性を示唆する。 この作業を再現するコード、データ、その他のリソースは \url{https://github.com/budai4medtech/midl2023} で入手できる。

Prenatal ultrasound imaging is the first-choice modality to assess fetal health. Medical image datasets for AI and ML methods must be diverse (i.e. diagnoses, diseases, pathologies, scanners, demographics, etc), however there are few public ultrasound fetal imaging datasets due to insufficient amounts of clinical data, patient privacy, rare occurrence of abnormalities in general practice, and limited experts for data collection and validation. To address such data scarcity, we proposed generative adversarial networks (GAN)-based models, diffusion-super-resolution-GAN and transformer-based-GAN, to synthesise images of fetal ultrasound brain planes from one public dataset. We reported that GAN-based methods can generate 256x256 pixel size of fetal ultrasound trans-cerebellum brain image plane with stable training losses, resulting in lower FID values for diffusion-super-resolution-GAN (average 7.04 and lower FID 5.09 at epoch 10) than the FID values of transformer-based-GAN (average 36.02 and lower 28.93 at epoch 60). The results of this work illustrate the potential of GAN-based methods to synthesise realistic high-resolution ultrasound images, leading to future work with other fetal brain planes, anatomies, devices and the need of a pool of experts to evaluate synthesised images. Code, data and other resources to reproduce this work are available at \url{https://github.com/budai4medtech/midl2023}.
翻訳日:2023-04-11 18:54:28 公開日:2023-04-08
# ベクトル量子化を用いた教師なし音声表現プール

Unsupervised Speech Representation Pooling Using Vector Quantization ( http://arxiv.org/abs/2304.03940v1 )

ライセンス: Link先を確認
Jeongkyun Park, Kwanghee Choi, Hyunjun Heo, Hyung-Min Park(参考訳) 大規模自己組織化モデルによる汎用音声表現の出現に伴い、複数の下流タスクに単一モデルを適用することは事実上のアプローチになりつつある。 しかし、プール問題は残っており、音声表現の長さは本質的に変動している。 異なる長さの音素のような音声の特徴を無視するにもかかわらず、単純平均プーリングがしばしば用いられる。 そこで我々は,注意に基づくプーリングとは異なり,追加のトレーニングを必要としないベクトル量子化による音響的類似表現を分割する新しいプーリング法を考案する。 さらに,様々な自己教師付きモデルを用いて,教師なしプール法の評価を行った。 キーワードスポッティング,話者識別,意図分類,感情認識など,さまざまなタスクについて評価するために,音声とテキストに散在する多様な手法を収集した。 最後に,本手法を教師付きプール法と比較し,定量的かつ質的に解析する。

With the advent of general-purpose speech representations from large-scale self-supervised models, applying a single model to multiple downstream tasks is becoming a de-facto approach. However, the pooling problem remains; the length of speech representations is inherently variable. The naive average pooling is often used, even though it ignores the characteristics of speech, such as differently lengthed phonemes. Hence, we design a novel pooling method to squash acoustically similar representations via vector quantization, which does not require additional training, unlike attention-based pooling. Further, we evaluate various unsupervised pooling methods on various self-supervised models. We gather diverse methods scattered around speech and text to evaluate on various tasks: keyword spotting, speaker identification, intent classification, and emotion recognition. Finally, we quantitatively and qualitatively analyze our method, comparing it with supervised pooling methods.
翻訳日:2023-04-11 18:53:58 公開日:2023-04-08
# 学生によるコード説明と大規模言語モデルの比較

Comparing Code Explanations Created by Students and Large Language Models ( http://arxiv.org/abs/2304.03938v1 )

ライセンス: Link先を確認
Juho Leinonen, Paul Denny, Stephen MacNeil, Sami Sarsa, Seth Bernstein, Joanne Kim, Andrew Tran, Arto Hellas(参考訳) コードについて推論し、その目的を説明することは、コンピュータ科学者にとって基本的なスキルである。 プログラミング教育の分野では、学生がコードを説明する能力と、コードの記述やトレースといった他のスキルとの関係について広範な研究がなされている。 特に、すべての可能な入力に対してコードがどのように振る舞うかを抽象レベルで記述できる能力は、コード記述スキルと強く関連しています。 しかし,コードを正確かつ簡潔に理解・説明する専門知識の開発は,多くの学生にとって課題である。 コードを説明するための既存の教育的アプローチ(例えば、オンデマンドで例示的なコード説明を作成するなど)は、現在大きな教室ではうまくスケールしていません。 最近の強力な大規模言語モデル(LLM)の出現は、解決策を提供するかもしれない。 本稿では,LLMが学生のコード理解・説明能力の具体例となる説明文を生成する可能性について考察する。 llmが作成した説明を評価するために,大コース(約1000ドル)の学生が作成した説明を,正確性,理解性,長さについて比較した。 オンデマンドで自動生成できるLCMによる説明は、学生が作成した説明よりも理解しやすく、より正確なコード要約として評価されている。 本研究の意義を議論し,導入型プログラミング教育にこれらのモデルをどのように組み込むかを提案する。

Reasoning about code and explaining its purpose are fundamental skills for computer scientists. There has been extensive research in the field of computing education on the relationship between a student's ability to explain code and other skills such as writing and tracing code. In particular, the ability to describe at a high-level of abstraction how code will behave over all possible inputs correlates strongly with code writing skills. However, developing the expertise to comprehend and explain code accurately and succinctly is a challenge for many students. Existing pedagogical approaches that scaffold the ability to explain code, such as producing exemplar code explanations on demand, do not currently scale well to large classrooms. The recent emergence of powerful large language models (LLMs) may offer a solution. In this paper, we explore the potential of LLMs in generating explanations that can serve as examples to scaffold students' ability to understand and explain code. To evaluate LLM-created explanations, we compare them with explanations created by students in a large course ($n \approx 1000$) with respect to accuracy, understandability and length. We find that LLM-created explanations, which can be produced automatically on demand, are rated as being significantly easier to understand and more accurate summaries of code than student-created explanations. We discuss the significance of this finding, and suggest how such models can be incorporated into introductory programming education.
翻訳日:2023-04-11 18:53:45 公開日:2023-04-08
# 確率回転モデリングのためのSO(3)マニフォールド上の離散正規化流れへの埋め込み

Delving into Discrete Normalizing Flows on SO(3) Manifold for Probabilistic Rotation Modeling ( http://arxiv.org/abs/2304.03937v1 )

ライセンス: Link先を確認
Yulin Liu, Haoran Liu, Yingda Yin, Yang Wang, Baoquan Chen, He Wang(参考訳) 正規化フロー(NFs)は、基底分布の追跡可能な変換の列によって表現的分布を構築し、基礎となるデータの確率モデルを形成する強力なツールを提供する。 コンピュータビジョン、グラフィックス、ロボット工学において重要な量である回転は、咬合や対称性が発生すると多くの曖昧さを示し、そのような確率モデルを要求する。 ユークリッド空間の NF には多くの進歩があったが、不連続性やSO(3) 多様体に合わせた多対一写像のない効果的な正規化フローは存在しない。 回転多様体の唯一の非ユークリッド的性質を考えると、既存の NF を SO(3) 多様体に適応させることは自明ではない。 本稿では,モビウス変換に基づく結合層と四元アフィン変換を組み合わせることで,so(3)上の新しい正規化フローを提案する。 提案した回転正規化フローでは,SO(3)上の任意の分布を効果的に表現できるだけでなく,入力された観測値から目標分布を構築することもできる。 大規模実験により, 回転正規化フローは, 非条件タスクおよび条件タスクのベースラインを著しく上回ることがわかった。

Normalizing flows (NFs) provide a powerful tool to construct an expressive distribution by a sequence of trackable transformations of a base distribution and form a probabilistic model of underlying data. Rotation, as an important quantity in computer vision, graphics, and robotics, can exhibit many ambiguities when occlusion and symmetry occur and thus demands such probabilistic models. Though much progress has been made for NFs in Euclidean space, there are no effective normalizing flows without discontinuity or many-to-one mapping tailored for SO(3) manifold. Given the unique non-Euclidean properties of the rotation manifold, adapting the existing NFs to SO(3) manifold is non-trivial. In this paper, we propose a novel normalizing flow on SO(3) by combining a Mobius transformation-based coupling layer and a quaternion affine transformation. With our proposed rotation normalizing flows, one can not only effectively express arbitrary distributions on SO(3), but also conditionally build the target distribution given input observations. Extensive experiments show that our rotation normalizing flows significantly outperform the baselines on both unconditional and conditional tasks.
翻訳日:2023-04-11 18:53:23 公開日:2023-04-08
# ニューラルネットワークのためのLast-Layer Fairness Fine-tuning

Last-Layer Fairness Fine-tuning is Simple and Effective for Neural Networks ( http://arxiv.org/abs/2304.03935v1 )

ライセンス: Link先を確認
Yuzhen Mao, Zhun Deng, Huaxiu Yao, Ting Ye, Kenji Kawaguchi, James Zou(参考訳) 機械学習が現代のデータサイエンスのアプリケーションでユビキタスに展開されるにつれて、アルゴリズムの公平性が大きな関心事となり、さまざまなフェアネス基準が提案されている。 その中でも,学習中にフェアネス制約を課すこと,すなわちインプロセスフェアトレーニングは,ポストプロセッシング法とは対照的にテスト時間中に機密属性にアクセスする必要がないため,一般的なトレーニング手法である。 古典的機械学習モデルでは公平性制約が広く研究されてきたが、これらの手法がディープニューラルネットワークに与える影響はまだ不明である。 近年の研究では、目的関数に公平性制約を加えると、大規模モデルにおける公平性基準に厳しい過剰フィットを生じさせ、この課題を解決する方法が重要な疑問となっている。 この課題に対処するために、事前学習と微調整の知恵と力を活用し、公正なニューラルネットワークを効率的かつ安価にトレーニングするための、シンプルだが斬新なフレームワークを開発します。 異なるフェアネス概念の下で最先端アーキテクチャを持つ2つのポピュラーな画像データセットについて包括的な実験を行い、ディープニューラルネットワークのフェアネスを促進するのにラスト層微調整が十分であることを示す。 私たちのフレームワークは、公正なニューラルネットワークのトレーニングにおいて、表現学習に新たな洞察をもたらす。

As machine learning has been deployed ubiquitously across applications in modern data science, algorithmic fairness has become a great concern and varieties of fairness criteria have been proposed. Among them, imposing fairness constraints during learning, i.e. in-processing fair training, has been a popular type of training method because they don't require accessing sensitive attributes during test time in contrast to post-processing methods. Although imposing fairness constraints have been studied extensively for classical machine learning models, the effect these techniques have on deep neural networks is still unclear. Recent research has shown that adding fairness constraints to the objective function leads to severe over-fitting to fairness criteria in large models, and how to solve this challenge is an important open question. To address this challenge, we leverage the wisdom and power of pre-training and fine-tuning and develop a simple but novel framework to train fair neural networks in an efficient and inexpensive way. We conduct comprehensive experiments on two popular image datasets with state-of-art architectures under different fairness notions to show that last-layer fine-tuning is sufficient for promoting fairness of the deep neural network. Our framework brings new insights into representation learning in training fair neural networks.
翻訳日:2023-04-11 18:53:01 公開日:2023-04-08
# 温度分布流による効率的なマルチモーダルサンプリング

Efficient Multimodal Sampling via Tempered Distribution Flow ( http://arxiv.org/abs/2304.03933v1 )

ライセンス: Link先を確認
Yixuan Qiu, Xiao Wang(参考訳) 高次元分布からのサンプリングは統計学研究と実践の基本的な問題である。 しかし、ターゲット密度関数が非正規化され、孤立モードを含む場合、大きな課題が生じる。 対象分布と基準確率測度の間にトランスポートマップと呼ばれる可逆変換写像をフィッティングすることにより,対象分布からのサンプリングはトランスポートマップを介して参照サンプルを前進させることで達成できる。 本稿では,ワッサーシュタイン勾配流理論を用いて既存の輸送型サンプリング手法の限界を理論的に解析し,マルチモーダリティ問題に対処するTemperFlowと呼ばれる新しい手法を提案する。 temperflowはテンパー分布の列を適応的に学習し、目標分布に漸進的に接近し、既存の方法の限界を克服できることを証明する。 本手法は従来の手法に比べて優れた性能を示す様々な実験を行い,画像生成などの現代的深層学習への応用を示す。 数値実験のプログラミングコードはhttps://github.com/yixuan/temperflow.com/で入手できる。

Sampling from high-dimensional distributions is a fundamental problem in statistical research and practice. However, great challenges emerge when the target density function is unnormalized and contains isolated modes. We tackle this difficulty by fitting an invertible transformation mapping, called a transport map, between a reference probability measure and the target distribution, so that sampling from the target distribution can be achieved by pushing forward a reference sample through the transport map. We theoretically analyze the limitations of existing transport-based sampling methods using the Wasserstein gradient flow theory, and propose a new method called TemperFlow that addresses the multimodality issue. TemperFlow adaptively learns a sequence of tempered distributions to progressively approach the target distribution, and we prove that it overcomes the limitations of existing methods. Various experiments demonstrate the superior performance of this novel sampler compared to traditional methods, and we show its applications in modern deep learning tasks such as image generation. The programming code for the numerical experiments is available at https://github.com/yixuan/temperflow.
翻訳日:2023-04-11 18:52:38 公開日:2023-04-08
# 3D GANとラテントスペース:総合的な調査

3D GANs and Latent Space: A comprehensive survey ( http://arxiv.org/abs/2304.03932v1 )

ライセンス: Link先を確認
Satya Pratheek Tata, Subhankar Mishra(参考訳) generative adversarial networks (gans) は、低次元ランダムノイズを高次元空間にマッピングすることで生成モデリングにおいて重要なプレイヤーとして現れた。 これらのネットワークは高解像度の画像や3dオブジェクトを生成するのに使われている。 3Dオブジェクトと人間の顔の効率的なモデリングは、ゲームやシミュレーションのような3Dグラフィカル環境の開発プロセスにおいて重要である。 3D GANは、3D再構成、ポイントクラウド再構成、および3Dセマンティックシーン補完に使用される新しいタイプの生成モデルである。 雑音に対する分布の選択は、潜在空間を表すものとして重要である。 GANの潜伏空間を理解することは、画像の意味論的意味のある部分の変形によって示されるように、生成されたサンプルを微調整するために不可欠である。 本研究は,潜伏空間と3D GANを探索し,複数のGAN変種と訓練方法を調べ,3D GAN訓練の改善に関する洞察を得るとともに,今後の研究の方向性を提案する。

Generative Adversarial Networks (GANs) have emerged as a significant player in generative modeling by mapping lower-dimensional random noise to higher-dimensional spaces. These networks have been used to generate high-resolution images and 3D objects. The efficient modeling of 3D objects and human faces is crucial in the development process of 3D graphical environments such as games or simulations. 3D GANs are a new type of generative model used for 3D reconstruction, point cloud reconstruction, and 3D semantic scene completion. The choice of distribution for noise is critical as it represents the latent space. Understanding a GAN's latent space is essential for fine-tuning the generated samples, as demonstrated by the morphing of semantically meaningful parts of images. In this work, we explore the latent space and 3D GANs, examine several GAN variants and training methods to gain insights into improving 3D GAN training, and suggest potential future directions for further research.
翻訳日:2023-04-11 18:52:19 公開日:2023-04-08
# 連続学習のためのデータ幾何探索

Exploring Data Geometry for Continual Learning ( http://arxiv.org/abs/2304.03931v1 )

ライセンス: Link先を確認
Zhi Gao, Chen Xu, Feng Li, Yunde Jia, Mehrtash Harandi, Yuwei Wu(参考訳) 連続学習は、古いデータの知識を忘れずに、非定常なデータストリームから効率的に学習することを目的としている。 多くの実践的応用において、データは非ユークリッド幾何学に準拠する。 したがって、一般的に用いられるユークリッド空間は、非ユークリッド幾何学的なデータ構造を優雅に捉えることができず、結果は劣る。 本稿では,非定常データストリームのためのデータ幾何を探索し,新しい視点から連続学習について検討する。 提案手法は,新しいデータによって引き起こされる幾何構造に対応するために,基底空間の幾何を動的に拡張し,古いデータの幾何構造を考慮に入れておくことで,忘れることを防止する。 そこで, 混合曲率空間を用いて, 増大する幾何構造を符号化するインクリメンタル探索手法を提案する。 次に,球面構造と局所幾何学構造の変化をペナルティ化することが可能な模型を訓練するために,角正規化損失と近傍ロバストネス損失を導入する。 実験により, ユークリッド空間で設計したベースライン法よりも優れた性能が得られることを示した。

Continual learning aims to efficiently learn from a non-stationary stream of data while avoiding forgetting the knowledge of old data. In many practical applications, data complies with non-Euclidean geometry. As such, the commonly used Euclidean space cannot gracefully capture non-Euclidean geometric structures of data, leading to inferior results. In this paper, we study continual learning from a novel perspective by exploring data geometry for the non-stationary stream of data. Our method dynamically expands the geometry of the underlying space to match growing geometric structures induced by new data, and prevents forgetting by keeping geometric structures of old data into account. In doing so, making use of the mixed curvature space, we propose an incremental search scheme, through which the growing geometric structures are encoded. Then, we introduce an angular-regularization loss and a neighbor-robustness loss to train the model, capable of penalizing the change of global geometric structures and local geometric structures. Experiments show that our method achieves better performance than baseline methods designed in Euclidean space.
翻訳日:2023-04-11 18:52:03 公開日:2023-04-08
# 赤外線センサの測光補正

Photometric Correction for Infrared Sensors ( http://arxiv.org/abs/2304.03930v1 )

ライセンス: Link先を確認
Jincheng Zhang, Andrew R Willis, Kevin Brink(参考訳) 赤外線サーモグラフィーは、表面や物体の温度分布を捉え測定するために、いくつかの領域で広く用いられている。 この手法は、温度分布の空間分布が利用可能であれば、さらに3Dアプリケーションに拡張することができる。 Structure from Motion (SfM)は、2D画像の雲から3Dレンダリングを得ることのできる測光レンジイメージング技術である。 赤外線画像からsfmによる3次元再構成の可能性を探るために, 温度定数に基づく赤外線センサの測光補正モデルを提案する。 光度補正は、未知の係数と初期条件を持つマイクロボロメータ画素励起の微分方程式の解からの値としてシーンの照度を推定することによって達成される。 このモデルはsfmの枠組みに統合され、カメラの動きとシーン構造の両方の見積もりを改善するための測光補正の寄与を実験的に評価した。 さらに,補正した赤外線画像の再現性は,RGBセンサを用いた最先端の再現性に匹敵する性能を示した。

Infrared thermography has been widely used in several domains to capture and measure temperature distributions across surfaces and objects. This methodology can be further expanded to 3D applications if the spatial distribution of the temperature distribution is available. Structure from Motion (SfM) is a photometric range imaging technique that makes it possible to obtain 3D renderings from a cloud of 2D images. To explore the possibility of 3D reconstruction via SfM from infrared images, this article proposes a photometric correction model for infrared sensors based on temperature constancy. Photometric correction is accomplished by estimating the scene irradiance as the values from the solution to a differential equation for microbolometer pixel excitation with unknown coefficients and initial conditions. The model was integrated into an SfM framework and experimental evaluations demonstrate the contribution of the photometric correction for improving the estimates of both the camera motion and the scene structure. Further, experiments show that the reconstruction quality from the corrected infrared imagery achieves performance on par with state-of-the-art reconstruction using RGB sensors.
翻訳日:2023-04-11 18:51:45 公開日:2023-04-08
# ナノマテリアルによる機械学習による環境ストレス緩和の予測

Interpretable machine learning-accelerated seed treatment by nanomaterials for environmental stress alleviation ( http://arxiv.org/abs/2304.03928v1 )

ライセンス: Link先を確認
Hengjie Yu, Dan Luo, Sam F. Y. Li, Maozhen Qu, Da Liu, Yingchao He, Fang Cheng(参考訳) 作物は環境条件によって常に挑戦される。 ナノマテリアルによる種子処理は、作物の環境ストレス軽減のための費用対効果と環境に優しいソリューションである。 ここでは56種類のシードナノプリミング処理を用いてトウモロコシの環境ストレスを軽減する。 選択された7つのナノプリミング処理により、塩分ストレスおよび熱乾燥ストレス下でのストレス抵抗指数(sri)は、それぞれ13.9%上昇し、12.6%上昇した。 メタボロミクスデータは、最も高いsri値を持つznoナノプリミング処理が、主にアミノ酸代謝、二次代謝物合成、炭水化物代謝、翻訳の経路を調節していることを示している。 種ナノプライミングのメカニズムを理解することは、ナノマテリアルの多様性とナノマテリアルと植物との相互作用の複雑さのために依然として難しい。 ナノプライミングデータを用いて、そのストレス軽減効果を予測・理解するための解釈可能な機械学習に基づく解釈可能な構造活性相関(ISAR)手法を提案する。 機械学習のhocとモデルに基づく解釈アプローチは、相補的なメリットを提供し、研究者や政策立案者がより明快で信頼できる結果を得るために組み合わせる。 ナノ粒子の濃度, サイズ, ゼータ電位を塩分濃度応力下での根の乾燥重量の関連要因として同定し, その効果と相互作用を解説した。 さらに、予測レベルの解釈を提供し、特定のナノプリミング処理の詳細を収集するためのwebベースのインタラクティブツールも開発されている。 この研究はナノマテリアルの農業的応用を加速するための有望な枠組みを提供し、ナノセーフティ評価に深く貢献する可能性がある。

Crops are constantly challenged by different environmental conditions. Seed treatment by nanomaterials is a cost-effective and environmentally-friendly solution for environmental stress mitigation in crop plants. Here, 56 seed nanopriming treatments are used to alleviate environmental stresses in maize. Seven selected nanopriming treatments significantly increase the stress resistance index (SRI) by 13.9% and 12.6% under salinity stress and combined heat-drought stress, respectively. Metabolomics data reveals that ZnO nanopriming treatment, with the highest SRI value, mainly regulates the pathways of amino acid metabolism, secondary metabolite synthesis, carbohydrate metabolism, and translation. Understanding the mechanism of seed nanopriming is still difficult due to the variety of nanomaterials and the complexity of interactions between nanomaterials and plants. Using the nanopriming data, we present an interpretable structure-activity relationship (ISAR) approach based on interpretable machine learning for predicting and understanding its stress mitigation effects. The post hoc and model-based interpretation approaches of machine learning are combined to provide complementary benefits and give researchers or policymakers more illuminating or trustworthy results. The concentration, size, and zeta potential of nanoparticles are identified as dominant factors for correlating root dry weight under salinity stress, and their effects and interactions are explained. Additionally, a web-based interactive tool is developed for offering prediction-level interpretation and gathering more details about specific nanopriming treatments. This work offers a promising framework for accelerating the agricultural applications of nanomaterials and may profoundly contribute to nanosafety assessment.
翻訳日:2023-04-11 18:51:31 公開日:2023-04-08
# Einstein-Podolsky-Rosen-Bohm実験:離散データ駆動アプローチ

Einstein-Podolsky-Rosen-Bohm experiments: a discrete data driven approach ( http://arxiv.org/abs/2304.03962v1 )

ライセンス: Link先を確認
Hans De Raedt, Mikhail I. Katsnelson, Manpreet S. Jattana, Vrinda Mehta, Madita Willsch, Dennis Willsch, Kristel Michielsen, Fengping Jin(参考訳) 我々は、実験データから数学モデルへの一方的な橋渡しを構築することは、後者で使われる記号に意味を付けることによって引き起こされる論争を回避できるという観点から考える。 特に、アインシュタイン-ポドルスキー-ローゼン=ボーム実験の結果を解釈するための数学的モデルを構築する上で、この考え方を採用することが新しい視点をもたらすことを示す。 まず, アインシュタイン-ポドルスキー-ローゼン-ボーム実験により得られた4つの相関の値に制約を与えるベル型不等式を4つの異なる条件で証明する。 証明は ``model-free' であり、データの生成を想像する数学的モデルに言及しないという意味では '`model-free' である。 制約は、相関値を変更することなく、4つのデータセットでデータを再シャッフルすることで得られる四足数にのみ依存する。 これらの新しい不等式は、既知のベル型不等式(英語版)のモデルフリーバージョンに還元される。 モデルフリーであることから、実験データによる後者の違反は、4つのデータセットのすべてのデータが4重に書き換えられるわけではないことを意味する。 さらに、モデルのない不等式であるため、実験データによる後者の違反は、このデータを生成すると仮定される数学的モデルが適用されないことを意味する。 Einstein-Podolsky-Rosen-Bohm実験によって得られたデータから、これらのデータの主な特徴を記述する数学的モデルを仮定する代わりに構築する。 合理的推論の数学的枠組みは再現可能で堅牢なデータに適用され、一重項状態の2つのスピン1/2オブジェクトの系に対する相関式である量子論のいかなる概念も使わずに得られる。 (ここで詳述)

We take the point of view that building a one-way bridge from experimental data to mathematical models instead of the other way around avoids running into controversies resulting from attaching meaning to the symbols used in the latter. In particular, we show that adopting this view offers new perspectives for constructing mathematical models for and interpreting the results of Einstein-Podolsky-Rosen-Bohm experiments. We first prove new Bell-type inequalities constraining the values of the four correlations obtained by performing Einstein-Podolsky-Rosen-Bohm experiments under four different conditions. The proof is ``model-free'' in the sense that it does not refer to any mathematical model that one imagines to have produced the data. The constraints only depend on the number of quadruples obtained by reshuffling the data in the four data sets without changing the values of the correlations. These new inequalities reduce to model-free versions of the well-known Bell-type inequalities if the maximum fraction of quadruples is equal to one. Being model-free, a violation of the latter by experimental data implies that not all the data in the four data sets can be reshuffled to form quadruples. Furthermore, being model-free inequalities, a violation of the latter by experimental data only implies that any mathematical model assumed to produce this data does not apply. Starting from the data obtained by performing Einstein-Podolsky-Rosen-Bohm experiments, we construct instead of postulate mathematical models that describe the main features of these data. The mathematical framework of plausible reasoning is applied to reproducible and robust data, yielding without using any concept of quantum theory, the expression of the correlation for a system of two spin-1/2 objects in the singlet state. (truncated here)
翻訳日:2023-04-11 18:45:13 公開日:2023-04-08
# StillFast: 短期オブジェクトインタラクション予測のためのエンドツーエンドアプローチ

StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation ( http://arxiv.org/abs/2304.03959v1 )

ライセンス: Link先を確認
Francesco Ragusa and Giovanni Maria Farinella and Antonino Furnari(参考訳) 予測問題は、人間の位置の予測、手や物体の軌跡の予測、予測行動や人間と物体の相互作用といった様々な側面を考慮して研究されている。 本稿では,オブジェクト間相互作用の短期的予測問題をエゴセントリックな視点から検討し,新たなエンドツーエンドアーキテクチャであるStillFastを提案する。 提案手法では,静止画像と映像を同時に処理し,次にアクティブな物体を検出・ローカライズし,将来的な相互作用を記述した動詞を予測し,対話の開始時期を判断する。 大規模エゴセントリックデータセットEGO4Dの実験結果から,提案手法は課題に対する最先端のアプローチよりも優れていた。 本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位である。 コードと詳細については、プロジェクトのWebページを参照してください。

Anticipation problem has been studied considering different aspects such as predicting humans' locations, predicting hands and objects trajectories, and forecasting actions and human-object interactions. In this paper, we studied the short-term object interaction anticipation problem from the egocentric point of view, proposing a new end-to-end architecture named StillFast. Our approach simultaneously processes a still image and a video detecting and localizing next-active objects, predicting the verb which describes the future interaction and determining when the interaction will start. Experiments on the large-scale egocentric dataset EGO4D show that our method outperformed state-of-the-art approaches on the considered task. Our method is ranked first in the public leaderboard of the EGO4D short term object interaction anticipation challenge 2022. Please see the project web page for code and additional details: https://iplab.dmi.unict.it/stillfast/.
翻訳日:2023-04-11 18:44:39 公開日:2023-04-08
# KeyDetect --Keystroke Dynamicsに基づく異常とユーザの検出

KeyDetect --Detection of anomalies and user based on Keystroke Dynamics ( http://arxiv.org/abs/2304.03958v1 )

ライセンス: Link先を確認
Soumyatattwa Kar, Abhishek Bamotra, Bhavya Duvvuri, Radhika Mohanan(参考訳) サイバー攻撃は常に大きな関心事だった。 セキュリティ層が低いWebサイトやサービスは、このようなサイバー攻撃に対して最も脆弱である。 攻撃者はこのような脆弱なサービスからクレジットカードの詳細や社会保障番号などの機密データに容易にアクセスすることができる。 現在、サイバー攻撃を止めるために、ワンタイムパスワードやプッシュ通知サービスといった2段階認証手法から、指紋リーダーや虹彩スキャナといったハイエンドバイオメトリックデバイスへのセキュリティレイヤとして、さまざまな方法が選択されている。 現在のセキュリティ対策には多くの欠点があり、最悪なのは、ユーザーがデータにアクセスするために認証デバイスを常に持ち歩く必要があることだ。 そこで本研究では,ユーザのキーストロークダイナミクス(タイピングパターン)を用いて実際のユーザを認証する手法を提案する。 提案手法では,ユーザのムード変動を記録するために,交互に実施した8セッションでパスワードを入力した51人のユーザのデータセットを,交互に取得する。 ユーザを分類するために、距離メトリクスと人工ニューラルネットワーク(ann)や畳み込みニューラルネットワーク(cnn)のような機械学習アルゴリズムに基づく異常検出アルゴリズムの開発と実装。 ANNでは,データを相関して1次元畳み込みを用いたマルチクラス分類と,すべてのユーザから異常を分類する負のクラスを用いたマルチクラス分類を実装した。 負のクラスを持つANNを用いて95.05%の精度を達成できた。 得られた結果から、モデルが完璧に動作し、セキュリティレイヤとして市場に投入され、外部デバイスを使用した2段階認証の優れた代替手段となると言えます。 この技術により、認証装置の持ち込みを心配することなく、2段階のセキュリティレイヤを使用できるようになる。

Cyber attacks has always been of a great concern. Websites and services with poor security layers are the most vulnerable to such cyber attacks. The attackers can easily access sensitive data like credit card details and social security number from such vulnerable services. Currently to stop cyber attacks, various different methods are opted from using two-step verification methods like One-Time Password and push notification services to using high-end bio-metric devices like finger print reader and iris scanner are used as security layers. These current security measures carry a lot of cons and the worst is that user always need to carry the authentication device on them to access their data. To overcome this, we are proposing a technique of using keystroke dynamics (typing pattern) of a user to authenticate the genuine user. In the method, we are taking a data set of 51 users typing a password in 8 sessions done on alternate days to record mood fluctuations of the user. Developed and implemented anomaly-detection algorithm based on distance metrics and machine learning algorithms like Artificial Neural networks (ANN) and convolutional neural network (CNN) to classify the users. In ANN, we implemented multi-class classification using 1-D convolution as the data was correlated and multi-class classification with negative class which was used to classify anomaly based on all users put together. We were able to achieve an accuracy of 95.05% using ANN with Negative Class. From the results achieved, we can say that the model works perfectly and can be bought into the market as a security layer and a good alternative to two-step verification using external devices. This technique will enable users to have two-step security layer without worrying about carry an authentication device.
翻訳日:2023-04-11 18:44:24 公開日:2023-04-08
# 意味保存攻撃に対するロバスト深層学習モデル

Robust Deep Learning Models Against Semantic-Preserving Adversarial Attack ( http://arxiv.org/abs/2304.03955v1 )

ライセンス: Link先を確認
Dashan Gao and Yunce Zhao and Yinghua Yao and Zeqi Zhang and Bifei Mao and Xin Yao(参考訳) ディープラーニングモデルは、属性の観点で小さな$l_p$-normの逆摂動と自然摂動によって騙される。 各摂動に対するロバスト性は検討されているが、関節摂動に対するロバスト性に効果的に取り組むことは依然として課題である。 本稿では,SPA(Semantic-Preserving Adversarial)攻撃という新たな攻撃機構を提案することによって,協調摂動に対するディープラーニングモデルの堅牢性を検討する。 具体的には,自然かつ理解可能な摂動を生成する属性マニピュレータと,多様な対向雑音を生成するノイズ発生器を導入する。 このような複合ノイズに基づいて,属性値と多様性変数の両方を最適化し,協調摂動サンプルを生成する。 頑健なトレーニングでは、生成された関節摂動に対してディープラーニングモデルを逆さまに訓練する。 4つのベンチマークで実証された結果は、スパ攻撃が既存のアプローチに比べて小さな$l_{\infty}$ノルムボール制約によってパフォーマンスが低下することを示している。 さらに,スパエンハンスドトレーニングは,既存の防衛手法を上回っている。

Deep learning models can be fooled by small $l_p$-norm adversarial perturbations and natural perturbations in terms of attributes. Although the robustness against each perturbation has been explored, it remains a challenge to address the robustness against joint perturbations effectively. In this paper, we study the robustness of deep learning models against joint perturbations by proposing a novel attack mechanism named Semantic-Preserving Adversarial (SPA) attack, which can then be used to enhance adversarial training. Specifically, we introduce an attribute manipulator to generate natural and human-comprehensible perturbations and a noise generator to generate diverse adversarial noises. Based on such combined noises, we optimize both the attribute value and the diversity variable to generate jointly-perturbed samples. For robust training, we adversarially train the deep learning model against the generated joint perturbations. Empirical results on four benchmarks show that the SPA attack causes a larger performance decline with small $l_{\infty}$ norm-ball constraints compared to existing approaches. Furthermore, our SPA-enhanced training outperforms existing defense methods against such joint perturbations.
翻訳日:2023-04-11 18:43:57 公開日:2023-04-08
# 擬密度行列としての量子力学

Quantum dynamics as a pseudo-density matrix ( http://arxiv.org/abs/2304.03954v1 )

ライセンス: Link先を確認
James Fullwood(参考訳) 相対性理論では、空間は時間とともに時空として知られる単一の実体へと発展するが、量子論は量子状態の力学進化を一つの「時間的状態」にカプセル化する標準的な概念を欠いている。 最近、Fitzsimons、Jones、Vedralの論文において、そのような状態が時間とともに量子力学過程に存在する空間的だけでなく時間的相関を符号化するならば、密度行列ではなく、擬密度行列によって表されるべきであると強調された。 擬似密度行列は、辺縁が密度行列である単位トレースのエルミート行列であり、本研究では、擬似密度行列を有限個の量子チャネル列に従って進化する量子状態と関連付けるために、量子チャネルの分解系を用いる。 次に、そのような擬密度行列とそれらが満足する性質の詳細な数学的解析を行い、閉キュービット系の動的進化の場合、フィッツシモンズ、ジョーンズ、ヴェドラルの標準的な擬密度行列形式を復元することを示す。 逆に、与えられた擬密度行列から量子力学を明示的に抽出する方法を示す。

While in relativity theory space evolves over time into a single entity known as spacetime, quantum theory lacks a standard notion of how to encapsulate the dynamical evolution of a quantum state into a single "state over time". Recently it was emphasized in the work of Fitzsimons, Jones and Vedral that if such a state over time is to encode not only spatial but also temporal correlations which exist within a quantum dynamical process, then it should be represented not by a density matrix, but rather, by a pseudo-density matrix. A pseudo-density matrix is a hermitian matrix of unit trace whose marginals are density matrices, and in this work, we make use a factorization system for quantum channels to associate a pseudo-density matrix with a quantum state which is to evolve according to a finite sequence of quantum channels. We then make an in-depth mathematical analysis of such pseudo-density matrices and the properties they satisfy, and show that in the case of dynamical evolution of a closed system of qubits we recover the standard pseudo-density matrix formalism of Fitzsimons, Jones and Vedral. Conversely, we show how to explicitly extract quantum dynamics from a given pseudo-density matrix, thus solving an open problem posed in the literature.
翻訳日:2023-04-11 18:43:40 公開日:2023-04-08
# MphayaNER:Tshivendaのエンティティ認識の名称

MphayaNER: Named Entity Recognition for Tshivenda ( http://arxiv.org/abs/2304.03952v1 )

ライセンス: Link先を確認
Rendani Mbuvha, David I. Adelani, Tendani Mutavhatsindi, Tshimangadzo Rakhuhu, Aluwani Mauda, Tshifhiwa Joshua Maumela, Andisani Masindi, Seani Rananga, Vukosi Marivate, and Tshilidzi Marwala(参考訳) 名前付きエンティティ認識(NER)は、情報検索、テキスト分類、質問応答などの自然言語処理タスクにおいて重要な役割を果たす。 しかし、特に注釈付きデータセットとツールに制限がある低リソース言語では、NERは難しい可能性がある。 本稿では,ニュース分野における最初のTshivenda NERコーパスであるMphayaNERを導入することで,これらの課題に対処する取り組みをさらに進める。 MphayaNER 上での textit{fine-tuning} state-of-the-art モデルにより NER ベースラインを確立する。 また、Tshivendaと関連するBantu言語間のゼロショット転送についても検討し、chishonaとKiswahiliが最良の結果を示している。 キショナデータによるMphayaNERの増強もモデル性能を著しく向上させることがわかった。 MphayaNERとベースラインモデルの両方が公開されている。

Named Entity Recognition (NER) plays a vital role in various Natural Language Processing tasks such as information retrieval, text classification, and question answering. However, NER can be challenging, especially in low-resource languages with limited annotated datasets and tools. This paper adds to the effort of addressing these challenges by introducing MphayaNER, the first Tshivenda NER corpus in the news domain. We establish NER baselines by \textit{fine-tuning} state-of-the-art models on MphayaNER. The study also explores zero-shot transfer between Tshivenda and other related Bantu languages, with chiShona and Kiswahili showing the best results. Augmenting MphayaNER with chiShona data was also found to improve model performance significantly. Both MphayaNER and the baseline models are made publicly available.
翻訳日:2023-04-11 18:43:17 公開日:2023-04-08
# GANHead: 生成可能なアニマタブルなニューラルヘッドアバターを目指して

GANHead: Towards Generative Animatable Neural Head Avatars ( http://arxiv.org/abs/2304.03950v1 )

ライセンス: Link先を確認
Sijing Wu, Yichao Yan, Yunhao Li, Yuhao Cheng, Wenhan Zhu, Ke Gao, Xiaobo Li, Guangtao Zhai(参考訳) デジタルアバターを人々の生活に持ち込むためには、完全でリアルでアニメーション可能な頭部アバターを効率的に生成することが求められている。 このタスクは困難であり、既存のメソッドが一度にすべての要件を満たすのは難しい。 これらの目的を達成するために,明示的な表現パラメータのきめ細かい制御と,暗黙的な表現の現実的なレンダリング結果の両方を利用した,新しい生成型頭部モデルganhead(generative animatable neural head avatar)を提案する。 特に、GANHeadは、粗い幾何学、細粒度、テクスチャを標準空間の3つのネットワークを介して表現し、完全なリアルな頭部アバターを生成する能力を得る。 フレキシブルアニメーションを実現するため,標準的な線形ブレンドスキン(LBS)による変形を,学習された連続ポーズ,表現ベース,LBS重みで定義する。 これにより、アバターをFLAMEパラメータで直接アニメーションし、見えないポーズや表現をうまく一般化することができる。 最先端技術 (SOTA) 法と比較して, GANHead は頭部アバター生成および生スキャンフィッティングにおいて優れた性能を発揮する。

To bring digital avatars into people's lives, it is highly demanded to efficiently generate complete, realistic, and animatable head avatars. This task is challenging, and it is difficult for existing methods to satisfy all the requirements at once. To achieve these goals, we propose GANHead (Generative Animatable Neural Head Avatar), a novel generative head model that takes advantages of both the fine-grained control over the explicit expression parameters and the realistic rendering results of implicit representations. Specifically, GANHead represents coarse geometry, fine-gained details and texture via three networks in canonical space to obtain the ability to generate complete and realistic head avatars. To achieve flexible animation, we define the deformation filed by standard linear blend skinning (LBS), with the learned continuous pose and expression bases and LBS weights. This allows the avatars to be directly animated by FLAME parameters and generalize well to unseen poses and expressions. Compared to state-of-the-art (SOTA) methods, GANHead achieves superior performance on head avatar generation and raw scan fitting.
翻訳日:2023-04-11 18:43:05 公開日:2023-04-08
# 暗黙的神経表現を用いた動的相関のキャプチャ

Capturing dynamical correlations using implicit neural representations ( http://arxiv.org/abs/2304.03949v1 )

ライセンス: Link先を確認
Sathya Chitturi, Zhurun Ji, Alexander Petsch, Cheng Peng, Zhantao Chen, Rajan Plumley, Mike Dunne, Sougata Mardanya, Sugata Chowdhury, Hongwei Chen, Arun Bansil, Adrian Feiguin, Alexander Kolesnikov, Dharmalingam Prabhakaran, Stephen Hayden, Daniel Ratner, Chunjing Jia, Youssef Nashed, Joshua Turner(参考訳) 固体における集団励起の観察と説明は、多体系の物理を理解する上での基本的な問題である。 これらの励起の解析は通常、非弾性中性子またはX線散乱技術を用いて動的構造因子S(Q, $\omega$)を測定し、これを計算された力学モデルと比較することによって行われる。 そこで我々は,モデルハミルトンのシミュレーションデータを模倣するニューラルネットワークと,未知のパラメータを実験データから復元する自動微分を組み合わせた人工知能フレームワークを開発した。 我々はこの手法を線形スピン波理論(lswt)シミュレータと2乗格子スピン-1反強磁性体la$_2$nio$_4$の非弾性散乱データを用いて評価する。 モデルは解析的適合性に優れた一致で未知のパラメータを予測できることがわかった。 そこで本研究では,実時間から多次元の散乱データに適用可能な微分可能なモデルを1回だけ構築し,訓練する能力について述べる。 この原型的アプローチは、この分野の新しい技術が順序量子系のより高度なモデルを自動的に検出し、洗練することを約束する。

The observation and description of collective excitations in solids is a fundamental issue when seeking to understand the physics of a many-body system. Analysis of these excitations is usually carried out by measuring the dynamical structure factor, S(Q, $\omega$), with inelastic neutron or x-ray scattering techniques and comparing this against a calculated dynamical model. Here, we develop an artificial intelligence framework which combines a neural network trained to mimic simulated data from a model Hamiltonian with automatic differentiation to recover unknown parameters from experimental data. We benchmark this approach on a Linear Spin Wave Theory (LSWT) simulator and advanced inelastic neutron scattering data from the square-lattice spin-1 antiferromagnet La$_2$NiO$_4$. We find that the model predicts the unknown parameters with excellent agreement relative to analytical fitting. In doing so, we illustrate the ability to build and train a differentiable model only once, which then can be applied in real-time to multi-dimensional scattering data, without the need for human-guided peak finding and fitting algorithms. This prototypical approach promises a new technology for this field to automatically detect and refine more advanced models for ordered quantum systems.
翻訳日:2023-04-11 18:42:42 公開日:2023-04-08
# FlexMoE: 動的デバイス配置による大規模スパース事前訓練モデルのスケーリング

FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement ( http://arxiv.org/abs/2304.03946v1 )

ライセンス: Link先を確認
Xiaonan Nie, Xupeng Miao, Zilong Wang, Zichao Yang, Jilong Xue, Lingxiao Ma, Gang Cao, Bin Cui(参考訳) データ量の増加に伴い、大規模な事前学習モデルを使用して知識を膨大な数のモデルパラメータに格納する傾向にある。 これらのモデルのトレーニングは多くの高密度代数で構成され、大量のハードウェアリソースを必要とする。 近年,低周波なMixture-of-Experts (MoEs) が普及し,様々な下流タスクにおける事前学習のスケーラビリティが著しく向上している。 しかし、ルーティングの不均衡やゆらぎの問題のため、現実的なシステムではそのようなスパース条件計算は期待通りには有効ではないかもしれない。 一般的に、moesはデータライフサイクルにおける新たなデータ分析パラダイムとなり、スケールや複雑さ、粒度の面でのユニークな課題に苦しめられている。 本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。 まず,動的エキスパート管理とデバイス配置機構によって経路の不均衡やゆらぎ問題を克服する動機となる,moeモデルのトレーニングの問題点と機会に関する実証分析を行った。 次に,既存のdnnランタイム上に新しいスケジューリングモジュールを導入し,データフローを監視し,スケジューリング計画を作成し,リアルタイムデータトラフィックに導かれるモデル・ハードウェアマッピングを動的に調整する。 単純だが効率的なヒューリスティックアルゴリズムを用いて、トレーニング中のデバイス配置を動的に最適化する。 我々はNLPモデル(例えばBERTやGPT)と視覚モデル(例えばSwin)の両方で実験を行った。 FlexMoEはDeepSpeedを平均1.70倍、最大2.10倍、FasterMoEを平均1.30倍、最大1.45倍で上回る。

With the increasing data volume, there is a trend of using large-scale pre-trained models to store the knowledge into an enormous number of model parameters. The training of these models is composed of lots of dense algebras, requiring a huge amount of hardware resources. Recently, sparsely-gated Mixture-of-Experts (MoEs) are becoming more popular and have demonstrated impressive pretraining scalability in various downstream tasks. However, such a sparse conditional computation may not be effective as expected in practical systems due to the routing imbalance and fluctuation problems. Generally, MoEs are becoming a new data analytics paradigm in the data life cycle and suffering from unique challenges at scales, complexities, and granularities never before possible. In this paper, we propose a novel DNN training framework, FlexMoE, which systematically and transparently address the inefficiency caused by dynamic dataflow. We first present an empirical analysis on the problems and opportunities of training MoE models, which motivates us to overcome the routing imbalance and fluctuation problems by a dynamic expert management and device placement mechanism. Then we introduce a novel scheduling module over the existing DNN runtime to monitor the data flow, make the scheduling plans, and dynamically adjust the model-to-hardware mapping guided by the real-time data traffic. A simple but efficient heuristic algorithm is exploited to dynamically optimize the device placement during training. We have conducted experiments on both NLP models (e.g., BERT and GPT) and vision models (e.g., Swin). And results show FlexMoE can achieve superior performance compared with existing systems on real-world workloads -- FlexMoE outperforms DeepSpeed by 1.70x on average and up to 2.10x, and outperforms FasterMoE by 1.30x on average and up to 1.45x.
翻訳日:2023-04-11 18:42:22 公開日:2023-04-08
# 知識トレースを忘れるニューラルネットワークのための知識関係ランク強化不均一学習インタラクションモデリング

Knowledge Relation Rank Enhanced Heterogeneous Learning Interaction Modeling for Neural Graph Forgetting Knowledge Tracing ( http://arxiv.org/abs/2304.03945v1 )

ライセンス: Link先を確認
Linqing Li, Zhifeng Wang(参考訳) 近年,演習と知識概念(Kcs)の関係をモデル化した自己意識的知識追跡モデル(SAKT)などの教育データマイニングに知識追跡モデルが適用されている。 しかしながら、従来の知識追跡モデルにおける関係モデリングは、静的な質問知識関係と知識知識関係のみを考慮し、それらの関係を等しく扱う。 このような関係モデリングは主観的ラベリングの影響を避けることが困難であり、エクササイズとkcs、またはkcsとkcsの関係を別々に考える。 本研究では,学習者間の異種相互作用をモデル化するために,知識関係関係行列とQ行列を校正することにより,主観的ラベリングの影響を低減し,グラフ畳み込みネットワーク(GCN)を適用した知識追跡モデル,NGFKT(Knowledge Relation Rank Enhanced Heterogeneous Learning Interaction Modeling for Neural Graph Forgetting Knowledge Tracing)を提案する。 具体的には、知識関係重要度校正法(krirc)によりスキル関係行列とq行列を生成する。 そして、キャリブレーションされたスキル関係行列、Q−行列及び異種相互作用をGCNの入力として処理し、運動埋め込みおよびスキル埋め込みを生成する。 次に、エクササイズ埋め込み、スキル埋め込み、アイテム難易度テーブルを組み込んで、位置関係予測注意機構の入力として運動関係行列を生成する。 最後に、位置関連予測注意機構を適用して予測を行う。 2つの教育データセットで実験を行い、その結果、ngfktモデルはauc、acc、パフォーマンス安定性(ps)の点で全てのベースラインモデルよりも優れていることが示された。

Recently, knowledge tracing models have been applied in educational data mining such as the Self-attention knowledge tracing model(SAKT), which models the relationship between exercises and Knowledge concepts(Kcs). However, relation modeling in traditional Knowledge tracing models only considers the static question-knowledge relationship and knowledge-knowledge relationship and treats these relationships with equal importance. This kind of relation modeling is difficult to avoid the influence of subjective labeling and considers the relationship between exercises and KCs, or KCs and KCs separately. In this work, a novel knowledge tracing model, named Knowledge Relation Rank Enhanced Heterogeneous Learning Interaction Modeling for Neural Graph Forgetting Knowledge Tracing(NGFKT), is proposed to reduce the impact of the subjective labeling by calibrating the skill relation matrix and the Q-matrix and apply the Graph Convolutional Network(GCN) to model the heterogeneous interactions between students, exercises, and skills. Specifically, the skill relation matrix and Q-matrix are generated by the Knowledge Relation Importance Rank Calibration method(KRIRC). Then the calibrated skill relation matrix, Q-matrix, and the heterogeneous interactions are treated as the input of the GCN to generate the exercise embedding and skill embedding. Next, the exercise embedding, skill embedding, item difficulty, and contingency table are incorporated to generate an exercise relation matrix as the inputs of the Position-Relation-Forgetting attention mechanism. Finally, the Position-Relation-Forgetting attention mechanism is applied to make the predictions. Experiments are conducted on the two public educational datasets and results indicate that the NGFKT model outperforms all baseline models in terms of AUC, ACC, and Performance Stability(PS).
翻訳日:2023-04-11 18:41:52 公開日:2023-04-08
# SwiftTron: 量子トランスフォーマーのための効率的なハードウェアアクセラレータ

SwiftTron: An Efficient Hardware Accelerator for Quantized Transformers ( http://arxiv.org/abs/2304.03986v1 )

ライセンス: Link先を確認
Alberto Marchisio and Davide Dura and Maurizio Capra and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) Transformerの計算集約操作は、リソースに制約のあるEdgeAI / smallMLデバイスへのデプロイにおいて、大きな課題となる。 確立されたニューラルネットワーク圧縮技術として、量子化はハードウェア計算とメモリ資源を減らす。 特に、固定点量子化は、基礎となるハードウェアの加算器や乗算器のような軽量ブロックを使った計算を容易にするために望ましい。 しかし、既存の汎用ハードウェアや汎用AIアクセラレータ、あるいは浮動小数点ユニットを備えたトランスフォーマー専用のアーキテクチャに完全に量子化されたトランスフォーマーをデプロイすることは、実現不可能または/または非効率である。 そこで我々は,量子トランスフォーマー用に設計された,効率的なハードウェアアクセラレータSwiftTronを提案する。 SwiftTronは、さまざまなタイプのTransformer操作(Attention、Softmax、GELU、Layer Normalizationなど)の実行をサポートし、正しい計算を行うためのさまざまなスケーリング要因を説明できる。 ASIC設計フローを用いて,完全なSwiftTronアーキテクチャを65ドル nm CMOS 技術で合成する。 我々の加速器はRoBERTaベースモデルを1.83 nsで実行し、33.64 mWの電力を消費し、面積は273 mm^2である。 再現性を容易にするため、SwiftTronアーキテクチャのRTLはhttps://github.com/albertomarchisio/SwiftTronでリリースされています。

Transformers' compute-intensive operations pose enormous challenges for their deployment in resource-constrained EdgeAI / tinyML devices. As an established neural network compression technique, quantization reduces the hardware computational and memory resources. In particular, fixed-point quantization is desirable to ease the computations using lightweight blocks, like adders and multipliers, of the underlying hardware. However, deploying fully-quantized Transformers on existing general-purpose hardware, generic AI accelerators, or specialized architectures for Transformers with floating-point units might be infeasible and/or inefficient. Towards this, we propose SwiftTron, an efficient specialized hardware accelerator designed for Quantized Transformers. SwiftTron supports the execution of different types of Transformers' operations (like Attention, Softmax, GELU, and Layer Normalization) and accounts for diverse scaling factors to perform correct computations. We synthesize the complete SwiftTron architecture in a $65$ nm CMOS technology with the ASIC design flow. Our Accelerator executes the RoBERTa-base model in 1.83 ns, while consuming 33.64 mW power, and occupying an area of 273 mm^2. To ease the reproducibility, the RTL of our SwiftTron architecture is released at https://github.com/albertomarchisio/SwiftTron.
翻訳日:2023-04-11 18:36:18 公開日:2023-04-08
# DREAM:時間知識グラフ推論のための注意機構に基づく適応強化学習

DREAM: Adaptive Reinforcement Learning based on Attention Mechanism for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2304.03984v1 )

ライセンス: Link先を確認
Shangfei Zheng, Hongzhi Yin, Tong Chen, Quoc Viet Hung Nguyen, Wei Chen, Lei Zhao(参考訳) 時間知識グラフ(TKG)は事象の時間的進化をモデル化し、近年注目を集めている。 TKGは本質的に不完全であるため、欠落要素を推論する必要がある。 既存のTKG推論手法は、将来の事象を予測できるが、明確な推論経路の生成に失敗し、説明性に欠ける。 従来の知識グラフを用いたマルチホップ推論のための強化学習(RL)は、近年の進歩において優れた説明可能性や性能を示すようになり、TKG推論におけるRL技術を探究する機会が開かれた。 しかし, rlベースのtkg推論手法の性能は, (1) 時間的進化と意味的依存を協調的に捉える能力の欠如, (2) 手動設計による報酬への過度な依存, によって制限されている。 これらの課題を克服するために,注意機構(DREAM)に基づく適応型強化学習モデルを提案する。 具体的には,(1)意味的依存と時間的進化を協調的に捉えた多面的注意表現学習法,(2)報酬関数を適応的に学習してマルチホップ推論を行う適応的RLフレームワークである。 DREAMが公開データセットの最先端モデルより優れていることを示す実験結果

Temporal knowledge graphs (TKGs) model the temporal evolution of events and have recently attracted increasing attention. Since TKGs are intrinsically incomplete, it is necessary to reason out missing elements. Although existing TKG reasoning methods have the ability to predict missing future events, they fail to generate explicit reasoning paths and lack explainability. As reinforcement learning (RL) for multi-hop reasoning on traditional knowledge graphs starts showing superior explainability and performance in recent advances, it has opened up opportunities for exploring RL techniques on TKG reasoning. However, the performance of RL-based TKG reasoning methods is limited due to: (1) lack of ability to capture temporal evolution and semantic dependence jointly; (2) excessive reliance on manually designed rewards. To overcome these challenges, we propose an adaptive reinforcement learning model based on attention mechanism (DREAM) to predict missing elements in the future. Specifically, the model contains two components: (1) a multi-faceted attention representation learning method that captures semantic dependence and temporal evolution jointly; (2) an adaptive RL framework that conducts multi-hop reasoning by adaptively learning the reward functions. Experimental results demonstrate DREAM outperforms state-of-the-art models on public dataset
翻訳日:2023-04-11 18:35:59 公開日:2023-04-08
# DiscoVars: 新しいデータ分析の視点 -- クラスタリングにおける可変選択への応用

DiscoVars: A New Data Analysis Perspective -- Application in Variable Selection for Clustering ( http://arxiv.org/abs/2304.03983v1 )

ライセンス: Link先を確認
Ayhan Demiriz(参考訳) 基礎となる学習課題に関係なく,変数の重要性を判断するための新しいデータ分析視点を提案する。 伝統的に、変数選択は分類問題と回帰問題の両方において教師あり学習の重要なステップと考えられている。 データ収集とストレージに関連するコストがリモートセンシングのようなケースでかなり高い場合には、変数の選択も重要になります。 そこで本研究では,まずすべての変数間の依存ネットワークを作成し,まずグラフ集中度尺度でそれらのノード(ノード)をランク付けすることで,データから重要な変数を選択する手法を提案する。 優先集中度指標に従ってトップ$n$変数を選択すると、クラスタリングのようなさらなる学習タスクのために、変数の強力な候補サブセットが得られる。 ユーザフレンドリーなインターフェース開発環境であるShinyアプリとして,当社のツールを紹介します。 また、文献からよく知られた2つの教師なし変数選択法に対するユーザインタフェースを比較のために拡張する。

We present a new data analysis perspective to determine variable importance regardless of the underlying learning task. Traditionally, variable selection is considered an important step in supervised learning for both classification and regression problems. The variable selection also becomes critical when costs associated with the data collection and storage are considerably high for cases like remote sensing. Therefore, we propose a new methodology to select important variables from the data by first creating dependency networks among all variables and then ranking them (i.e. nodes) by graph centrality measures. Selecting Top-$n$ variables according to preferred centrality measure will yield a strong candidate subset of variables for further learning tasks e.g. clustering. We present our tool as a Shiny app which is a user-friendly interface development environment. We also extend the user interface for two well-known unsupervised variable selection methods from literature for comparison reasons.
翻訳日:2023-04-11 18:35:34 公開日:2023-04-08
# 網膜異常同定のための不確かさに着想を得たオープンセット学習

Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification ( http://arxiv.org/abs/2304.03981v1 )

ライセンス: Link先を確認
Meng Wang, Tian Lin, Lianyu Wang, Aidi Lin, Ke Zou, Xinxing Xu, Yi Zhou, Yuanyuan Peng, Qingquan Meng, Yiming Qian, Guoyao Deng, Zhiqun Wu, Junhong Chen, Jianhong Lin, Mingzhi Zhang, Weifang Zhu, Changqing Zhang, Xinjian Chen, Daoqiang Zhang, Rick Siow Mong Goh, Yong Liu, Chi Pui Pang, Haoyu Chen, Huazhu Fu(参考訳) トレーニング中に見つからないクラスからのサンプルを認識できないことは、網膜異常分類の現実的な実装における人工知能(AI)の大きな限界である。 この障害を解決するために,9つの共通網膜条件の基底像をトレーニングした不確実性を考慮したオープンセット(UIOS)モデルを提案する。 各カテゴリの確率に加えて、uiosは信頼を表すために不確実性スコアを計算する。 しきい値戦略を持つUIOSモデルは、標準AIモデルによるF1スコア92.20%、80.69%、64.74%と比較して、内部テストセット、外部テストセット、非定型テストセットのF1スコア99.55%、97.01%、91.91%を達成した。 さらに、uiosは、まれな網膜疾患、低品質の眼底画像、非眼底画像のデータセットにおいて、手作業による検査を必要とする高い不確実性スコアを正確に予測した。 この研究は、網膜異常の実際のスクリーニングのための堅牢な方法を提供する。

Failure to recognize samples from the classes unseen during training is a major limit of artificial intelligence (AI) in real-world implementation of retinal anomaly classification. To resolve this obstacle, we propose an uncertainty-inspired open-set (UIOS) model which was trained with fundus images of 9 common retinal conditions. Besides the probability of each category, UIOS also calculates an uncertainty score to express its confidence. Our UIOS model with thresholding strategy achieved an F1 score of 99.55%, 97.01% and 91.91% for the internal testing set, external testing set and non-typical testing set, respectively, compared to the F1 score of 92.20%, 80.69% and 64.74% by the standard AI model. Furthermore, UIOS correctly predicted high uncertainty scores, which prompted the need for a manual check, in the datasets of rare retinal diseases, low-quality fundus images, and non-fundus images. This work provides a robust method for real-world screening of retinal anomalies.
翻訳日:2023-04-11 18:35:20 公開日:2023-04-08
# lidarセマンティクスセグメンテーションのための連続学習--スパースデータにおけるクラスインクリメンタルおよび粗粒度戦略

Continual Learning for LiDAR Semantic Segmentation: Class-Incremental and Coarse-to-Fine strategies on Sparse Data ( http://arxiv.org/abs/2304.03980v1 )

ライセンス: Link先を確認
Elena Camuffo, Simone Milani(参考訳) 過去数年間、画像分類とセグメンテーションのための継続学習(CL)戦略は、知識蒸留や自己塗布のような破滅的な忘れに対処する革新的な解決策を設計するために広く研究されてきた。 しかし、連続的な学習パラダイムを点雲に適用することはいまだ探索されておらず、特にLiDARデータの空間性と不均一な分布を捉えるアーキテクチャを用いて調査する必要がある。 本稿では,ポイントクラウドセマンティクスセグメンテーションに適用する授業インクリメンタル学習の問題を分析し,アプローチと最先端アーキテクチャを比較した。 我々の知る限りでは、これはLiDARポイントクラウドセマンティックセグメンテーションのためのクラス増分連続学習の最初の例である。 CL戦略はLiDARポイントクラウドに適応してテストされ、古典的な微調整シナリオとCoarse-to-Fine学習パラダイムの両方に対処した。 このフレームワークはsemantickittiの2つの異なるアーキテクチャを通じて評価され、最先端のcl戦略と標準オフライン学習と一致して結果を得た。

During the last few years, continual learning (CL) strategies for image classification and segmentation have been widely investigated designing innovative solutions to tackle catastrophic forgetting, like knowledge distillation and self-inpainting. However, the application of continual learning paradigms to point clouds is still unexplored and investigation is required, especially using architectures that capture the sparsity and uneven distribution of LiDAR data. The current paper analyzes the problem of class incremental learning applied to point cloud semantic segmentation, comparing approaches and state-of-the-art architectures. To the best of our knowledge, this is the first example of class-incremental continual learning for LiDAR point cloud semantic segmentation. Different CL strategies were adapted to LiDAR point clouds and tested, tackling both classic fine-tuning scenarios and the Coarse-to-Fine learning paradigm. The framework has been evaluated through two different architectures on SemanticKITTI, obtaining results in line with state-of-the-art CL strategies and standard offline learning.
翻訳日:2023-04-11 18:35:01 公開日:2023-04-08
# EMP-SSL: 1つのトレーニングエポックにおける自己監督型学習を目指して

EMP-SSL: Towards Self-Supervised Learning in One Training Epoch ( http://arxiv.org/abs/2304.03977v1 )

ライセンス: Link先を確認
Shengbang Tong, Yubei Chen, Yi Ma, Yann Lecun(参考訳) 近年,自己教師付き学習(SSL)は画像表現の学習において大きな成功を収めている。 実証的な成功にもかかわらず、ほとんどの自己教師型学習手法はむしろ「非効率」な学習者であり、通常は数百の訓練エポックが完全に収束する。 本研究では,効率的な自己教師型学習の鍵は,各イメージインスタンスから得られる作物の数を増やすことである。 最先端のSSL手法の1つを活用することで、枝間の重み共有、特徴量正規化、出力量子化、停止勾配など、SSLの多くのヒューリスティック技術に依存しないExtreme-Multi-Patch Self-Supervised-Learning(EMP-SSL)と呼ばれる、自己教師型学習手法の単純化形式を導入し、トレーニングのエポックを2桁に減らした。 提案手法は,CIFAR-10では85.1%,CIFAR-100では58.5%,Tiny ImageNetでは38.1%,ImageNet-100では58.5%に収束する。 さらに,提案手法は,CIFAR-10では91.5%,CIFAR-100では70.1%,Tiny ImageNetでは51.5%,ImageNet-100では78.9%,線形プローブでは10時間未満で達成している。 さらに,EMP-SSLは,ベースラインSSL法と比較して,ドメイン外のデータセットへの転送性が著しく向上していることを示す。 コードをhttps://github.com/tsb0601/EMP-SSLでリリースします。

Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather "inefficient" learners, typically taking hundreds of training epochs to fully converge. In this work, we show that the key towards efficient self-supervised learning is to increase the number of crops from each image instance. Leveraging one of the state-of-the-art SSL method, we introduce a simplistic form of self-supervised learning method called Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL) that does not rely on many heuristic techniques for SSL such as weight sharing between the branches, feature-wise normalization, output quantization, and stop gradient, etc, and reduces the training epochs by two orders of magnitude. We show that the proposed method is able to converge to 85.1% on CIFAR-10, 58.5% on CIFAR-100, 38.1% on Tiny ImageNet and 58.5% on ImageNet-100 in just one epoch. Furthermore, the proposed method achieves 91.5% on CIFAR-10, 70.1% on CIFAR-100, 51.5% on Tiny ImageNet and 78.9% on ImageNet-100 with linear probing in less than ten training epochs. In addition, we show that EMP-SSL shows significantly better transferability to out-of-domain datasets compared to baseline SSL methods. We will release the code in https://github.com/tsb0601/EMP-SSL.
翻訳日:2023-04-11 18:34:41 公開日:2023-04-08
# RobCaps: アフィン変換と敵攻撃に対するカプセルネットワークのロバスト性の評価

RobCaps: Evaluating the Robustness of Capsule Networks against Affine Transformations and Adversarial Attacks ( http://arxiv.org/abs/2304.03973v1 )

ライセンス: Link先を確認
Alberto Marchisio and Antonio De Marco and Alessio Colucci and Maurizio Martina and Muhammad Shafique(参考訳) Capsule Networks(CapsNets)は、画像分類タスクのための複数のオブジェクト間のポーズ関係を階層的に保存することができる。 安全性クリティカルなアプリケーションにCapsNetをデプロイする際のもうひとつの重要な要因は、入力変換や悪意のある敵攻撃に対する堅牢性である。 本稿では,従来の畳み込みニューラルネットワーク(cnns)と比較して,capsnetのロバスト性に影響する要因を体系的に分析し,評価する。 包括的な比較のために、MNIST, GTSRB, CIFAR10データセットの2つのCapsNetモデルと2つのCNNモデル、およびこれらのデータセットのアフィン変換バージョンをテストする。 詳細な分析により,これらのアーキテクチャの特性がロバスト性の向上と制約に寄与することを示す。 全体として、CapsNetsは、同じ数のパラメータを持つ従来のCNNと比較して、敵の例やアフィン変換に対する堅牢性を改善する。 同様の結論はCapsNetsとCNNのより深いバージョンに導出されている。 さらに,この結果から,動的ルーティングがcapsnetsの堅牢性向上に大きく寄与しないことが判明した。 実際、主な一般化の貢献はカプセルによる階層的特徴学習によるものである。

Capsule Networks (CapsNets) are able to hierarchically preserve the pose relationships between multiple objects for image classification tasks. Other than achieving high accuracy, another relevant factor in deploying CapsNets in safety-critical applications is the robustness against input transformations and malicious adversarial attacks. In this paper, we systematically analyze and evaluate different factors affecting the robustness of CapsNets, compared to traditional Convolutional Neural Networks (CNNs). Towards a comprehensive comparison, we test two CapsNet models and two CNN models on the MNIST, GTSRB, and CIFAR10 datasets, as well as on the affine-transformed versions of such datasets. With a thorough analysis, we show which properties of these architectures better contribute to increasing the robustness and their limitations. Overall, CapsNets achieve better robustness against adversarial examples and affine transformations, compared to a traditional CNN with a similar number of parameters. Similar conclusions have been derived for deeper versions of CapsNets and CNNs. Moreover, our results unleash a key finding that the dynamic routing does not contribute much to improving the CapsNets' robustness. Indeed, the main generalization contribution is due to the hierarchical feature learning through capsules.
翻訳日:2023-04-11 18:34:06 公開日:2023-04-08
# pump it up: 注意表学習による水ポンプ状態の予測

Pump It Up: Predict Water Pump Status using Attentive Tabular Learning ( http://arxiv.org/abs/2304.03969v1 )

ライセンス: Link先を確認
Karan Pathak, L Shalini(参考訳) 水危機は世界中の重要な問題だ。 干ばつ国における水ポンプの適正かつタイムリーな維持は、井戸に依存した地域社会にとって不可欠である。 本稿では,タンザニアにおける水ポンプの修復状況を予測するために,逐次注意深いニューラルネットワークであるTabNetを解析・適用する。 このモデルは、ツリーベースのアルゴリズムとニューラルネットワークの貴重な利点を組み合わせることで、エンドツーエンドのトレーニング、モデルの解釈可能性、スパース機能の選択、表データの効率的な学習を可能にします。 最後に,xgboost,lightgbm,catboostなどの一般的な勾配木ブースティングアルゴリズムとtabnetの性能を比較し,不均衡データをトレーニングしながら焦点損失を目的関数として選択することで,パフォーマンスをさらに高める方法を示す。

Water crisis is a crucial concern around the globe. Appropriate and timely maintenance of water pumps in drought-hit countries is vital for communities relying on the well. In this paper, we analyze and apply a sequential attentive deep neural architecture, TabNet, for predicting water pump repair status in Tanzania. The model combines the valuable benefits of tree-based algorithms and neural networks, enabling end-to-end training, model interpretability, sparse feature selection, and efficient learning on tabular data. Finally, we compare the performance of TabNet with popular gradient tree-boosting algorithms like XGBoost, LightGBM,CatBoost, and demonstrate how we can further uplift the performance by choosing focal loss as the objective function while training on imbalanced data.
翻訳日:2023-04-11 18:33:45 公開日:2023-04-08
# 量子化モデルのロバスト性ベンチマーク

Benchmarking the Robustness of Quantized Models ( http://arxiv.org/abs/2304.03968v1 )

ライセンス: Link先を確認
Yisong Xiao, Tianyuan Zhang, Shunchang Liu, Haotong Qin(参考訳) 量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイするための重要な技術として登場した。 しかし、量子化モデルは、現実世界のアプリケーションで様々なノイズにさらされると脆弱性を示す。 量子化がロバスト性に与える影響を評価することの重要性にもかかわらず、このトピックに関する既存の研究は限定的であり、しばしばロバスト性評価の確立された原則を無視し、不完全かつ不確定な結果をもたらす。 このギャップに対処するため,我々は,imagenetにおける様々なノイズ(攻撃攻撃,自然腐敗,系統的ノイズ)に対する量子化モデルのロバスト性について徹底的に評価した。 広範な実験により、低ビット量子化は敵の攻撃に対してより弾力性があるが、自然の腐敗や体系的なノイズの影響を受けやすいことが示されている。 特に本研究では、インパルスノイズ(自然汚染)と近接補間(系統ノイズ)が、量子化モデルに最も大きな影響を及ぼすことを明らかにした。 我々の研究は、モデルの堅牢な定量化と実際のシナリオへの展開に寄与する。

Quantization has emerged as an essential technique for deploying deep neural networks (DNNs) on devices with limited resources. However, quantized models exhibit vulnerabilities when exposed to various noises in real-world applications. Despite the importance of evaluating the impact of quantization on robustness, existing research on this topic is limited and often disregards established principles of robustness evaluation, resulting in incomplete and inconclusive findings. To address this gap, we thoroughly evaluated the robustness of quantized models against various noises (adversarial attacks, natural corruptions, and systematic noises) on ImageNet. Extensive experiments demonstrate that lower-bit quantization is more resilient to adversarial attacks but is more susceptible to natural corruptions and systematic noises. Notably, our investigation reveals that impulse noise (in natural corruptions) and the nearest neighbor interpolation (in systematic noises) have the most significant impact on quantized models. Our research contributes to advancing the robust quantization of models and their deployment in real-world scenarios.
翻訳日:2023-04-11 18:33:30 公開日:2023-04-08
# 電場を有する箱内の自由粒子の微小摂動による量子ゲート合成

Quantum gate synthesis by small perturbation of a free particle in a box with electric field ( http://arxiv.org/abs/2304.03967v1 )

ライセンス: Link先を確認
Kumar Gautam(参考訳) 本論文では,自由荷電粒子を時間・位置変動電場を有する1次元箱に摂動させることにより,量子ユニタリゲートを実現する。 摂動ハミルトニアン (perturbed Hamiltonian) は自由粒子ハミルトニアン(英語版) と摂動ポテンシャル (perturbing electric potential) から構成され、量子フーリエ変換ゲート (quantum Fourier transform gate) のような与えられたユニタリゲートを、有限個のエネルギーレベルに切り離した未摂動系のユニタリ進化作用素であるSchr$\ddot{o}$dinger evolution in time $T$ である。 この考え方は、半波フーリエ正弦級数を空間変数 $\mathbf x$ において$M$ 項に切り換え、相互作用図形のダイソン級数としてポテンシャルを拡張して、$ \mathbf V_n(t)'$s の線型および二次積分函数まで進化作用素行列要素を計算することである。 その結果, ダイソン級数とフロベニウスノルムを用いて, 導出ゲートエネルギーと与えられたゲートエネルギーの差を低減し, 雑音対信号エネルギー比 (nser) をプロットして時間的性能基準を決定した。 量子ゲートの磁気制御に関する数学的説明も提供されている。 さらに,磁気制御を用いた量子ゲートの数学的説明を行う。

A quantum unitary gate is realized in this paper by perturbing a free charged particle in a one-dimensional box with a time- and position-varying electric field. The perturbed Hamiltonian is composed of a free particle Hamiltonian plus a perturbing electric potential such that the Schr$\ddot{o}$dinger evolution in time $T$, the unitary evolution operator of the unperturbed system after truncation to a finite number of energy levels, approximates a given unitary gate such as the quantum Fourier transform gate. The idea is to truncate the half-wave Fourier sine series to $M$ terms in the spatial variable $\mathbf x$ before extending the potential as a Dyson series in the interaction picture to compute the evolution operator matrix elements up to the linear and quadratic integral functionals of $ \mathbf V_n(t)'$s. As a result, we used the Dyson series with the Frobenius norm to reduce the difference between the derived gate energy and the given gate energy, and we determined the temporal performance criterion by plotting the noise-to-signal energy ratio (NSER). A mathematical explanation for a quantum gate's magnetic control has also been provided. In addition, we provide a mathematical explanation for a quantum gate that uses magnetic control.
翻訳日:2023-04-11 18:33:10 公開日:2023-04-08
# 偏光周波数相関を用いた量子消去器のコヒーレント励起非局所量子特性

Coherently excited nonlocal quantum features using polarization-frequency correlation between quantum erasers ( http://arxiv.org/abs/2304.04006v1 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 量子力学における波動粒子双対性の観点から、光子非識別性は謎の量子特性を理解する上で必須である。 不明瞭性の基本的な物理学は、量子消去器のような単一の光子の正則基底の量子重ね合わせにある。 ここでは、ポアソン分散光子対の偏光周波数相関を用いたコヒーレント励起非局所相関に純粋コヒーレンス法を適用する。 このために、ヘテロダイン検出手法を遅延量子消去方式の偶然測定に適用し、絡み合った光子対のような分離不能基底積を生成する。 ペア光子間のコヒーレンスが量子相関の基盤である選択的測定に基づく量子特徴について,一致検出の役割について検討した。 最後に、解析的に導出したコヒーレンス解に対してベル不等式違反を数値的に示す。

Photon indistinguishability is essential to understanding mysterious quantum features from the viewpoint of the wave-particle duality in quantum mechanics. The fundamental physics of indistinguishability lies in the quantum superposition of orthonormal bases of a single photon such as in a quantum eraser. Here, a pure coherence approach is applied for coherently excited nonlocal correlation using polarization-frequency correlation of Poisson-distributed coherent photon pairs. For this, a heterodyne detection technique is adopted for coincidence measurements in a delayed-choice quantum eraser scheme, resulting in an entangled photon pair-like inseparable basis product. The role of coincidence detection is investigated for the selective measurement-based quantum features, where coherence between paired photons is the bedrock of the quantum correlation. Finally, the Bell inequality violation is numerically demonstrated for the analytically derived coherence solutions.
翻訳日:2023-04-11 18:26:12 公開日:2023-04-08
# 組込み畳み込みニューラルネットワークによるリアルタイムサーボモータ過負荷故障検出への新しい変換

A new transformation for embedded convolutional neural network approach toward real-time servo motor overload fault-detection ( http://arxiv.org/abs/2304.04005v1 )

ライセンス: Link先を確認
Seyed Mohammad Hossein Abedy Nejad, Mohammad Amin Behzadi, Abdolrahim Taheri(参考訳) dcサーボモーターの過負荷は、多くの企業がエキスパートオペレーターを見つけるという問題に直面しており、また人間の監視は効果的なソリューションではないかもしれないため、業界において大きな関心事である。 そこで本稿では,人間の干渉を伴わないリアルタイム入力信号から障害を抽出する新たな変換手法として,畳み込みニューラルネットワーク(CNN)を用いた組込み人工知能(AI)アプローチを提案する。 我々の主な目的は、入力信号から可能な限り多くの特徴を抽出して、低メモリマイクロコントローラでもリアルタイムな故障検出を実現するための、効率的だがコンパクトなネットワークを実現することである。 また, 障害検出手法として, 同期式デュアルモータシステムも提案されている。 この目的を達成するため、各DCサーボモータの出力電流からの1次元入力信号を監視して3dデータに変換し、CNNをプロセッサに実装してオーバーロードに対応する故障を検出し、最終的に実験結果が99.9997%精度で8000のパラメータを持つモデルをテストする。 さらに, 提案方式は過負荷低減を実現し, フォールトトレラントシステムを提供することが可能であり, 省エネルギー効果も期待できることを示した。

Overloading in DC servo motors is a major concern in industries, as many companies face the problem of finding expert operators, and also human monitoring may not be an effective solution. Therefore, this paper proposed an embedded Artificial intelligence (AI) approach using a Convolutional Neural Network (CNN) using a new transformation to extract faults from real-time input signals without human interference. Our main purpose is to extract as many as possible features from the input signal to achieve a relaxed dataset that results in an effective but compact network to provide real-time fault detection even in a low-memory microcontroller. Besides, fault detection method a synchronous dual-motor system is also proposed to take action in faulty events. To fulfill this intention, a one-dimensional input signal from the output current of each DC servo motor is monitored and transformed into a 3d stack of data and then the CNN is implemented into the processor to detect any fault corresponding to overloading, finally experimental setup results in 99.9997% accuracy during testing for a model with nearly 8000 parameters. In addition, the proposed dual-motor system could achieve overload reduction and provide a fault-tolerant system and it is shown that this system also takes advantage of less energy consumption.
翻訳日:2023-04-11 18:25:58 公開日:2023-04-08
# simbaml: 機械モデルと機械学習を拡張データで接続する

SimbaML: Connecting Mechanistic Models and Machine Learning with Augmented Data ( http://arxiv.org/abs/2304.04000v1 )

ライセンス: Link先を確認
Maixmilian Kleissl, Lukas Drews, Benedict B. Heyder, Julian Zabbarov, Pascal Iversen, Simon Witzke, Bernhard Y. Renard, Katharina Baum(参考訳) 高度な機械学習(ML)モデルのトレーニングには、多くのアプリケーションで収集するのが困難または高価である大規模なデータセットが必要である。 システムダイナミクスに関する事前知識が利用可能であれば、実世界のデータを補完するために機械的な表現が使用できる。 我々は,通常の微分方程式モデルからリアルな合成データセットを生成するオープンソースツールであるSimbaML(Simulation-based ML)と,MLパイプラインの直接解析と包含について述べる。 SimbaMLは、合成データから実世界のデータへの変換学習、データ拡張、データ収集の必要性の識別、物理インフォームドMLアプローチのベンチマークを可能にする。 SimbaMLはhttps://pypi.org/project/simba-ml/から入手できる。

Training sophisticated machine learning (ML) models requires large datasets that are difficult or expensive to collect for many applications. If prior knowledge about system dynamics is available, mechanistic representations can be used to supplement real-world data. We present SimbaML (Simulation-Based ML), an open-source tool that unifies realistic synthetic dataset generation from ordinary differential equation-based models and the direct analysis and inclusion in ML pipelines. SimbaML conveniently enables investigating transfer learning from synthetic to real-world data, data augmentation, identifying needs for data collection, and benchmarking physics-informed ML approaches. SimbaML is available from https://pypi.org/project/simba-ml/.
翻訳日:2023-04-11 18:25:36 公開日:2023-04-08
# 暗黙的3次元再構成のためのサンプリング戦略の解析

Analysis of Sampling Strategies for Implicit 3D Reconstruction ( http://arxiv.org/abs/2304.03999v1 )

ライセンス: Link先を確認
Q. Liu, X. Yang(参考訳) 暗黙的3次元再構成ネットワークの訓練過程において,空間的問合せ点のサンプリング戦略の選択はモデルの最終性能に影響する。 異なる作品がサンプリング戦略の選択に違いがあり、クエリポイントの空間分布だけでなく、クエリポイントの密度の等級差の順序も異なる。 クエリポイントのサンプリング戦略を選択するには、現在の作業は、作業効率に深刻な影響を与える最適なソリューションを見つけるための列挙操作に似ている。 本研究では,ネットワークタイプとサンプリング戦略の関係,暗黙的機能とサンプリング戦略の関係,サンプリング密度がモデル性能に与える影響の3つの側面から,分類解析と実験比較によるサンプリング戦略とネットワーク最終性能の関係について検討した。 さらに,クエリポイントのサンプリング戦略を改善するために,線形サンプリングと距離マスキングという2つの手法を提案した。

In the training process of the implicit 3D reconstruction network, the choice of spatial query points' sampling strategy affects the final performance of the model. Different works have differences in the selection of sampling strategies, not only in the spatial distribution of query points but also in the order of magnitude difference in the density of query points. For how to select the sampling strategy of query points, current works are more akin to an enumerating operation to find the optimal solution, which seriously affects work efficiency. In this work, we explored the relationship between sampling strategy and network final performance through classification analysis and experimental comparison from three aspects: the relationship between network type and sampling strategy, the relationship between implicit function and sampling strategy, and the impact of sampling density on model performance. In addition, we also proposed two methods, linear sampling and distance masking, to improve the sampling strategy of query points, making it more robust.
翻訳日:2023-04-11 18:25:22 公開日:2023-04-08
# 学習者の達成可能なリワードを最小化するための強化学習環境の展開:アクティブディレクトリシステムの強化への適用

Evolving Reinforcement Learning Environment to Minimize Learner's Achievable Reward: An Application on Hardening Active Directory Systems ( http://arxiv.org/abs/2304.03998v1 )

ライセンス: Link先を確認
Diksha Goel, Aneta Neumann, Frank Neumann, Hung Nguyen, Mingyu Guo(参考訳) 構成可能な環境で1人の攻撃者と1人のディフェンダーの間でスタックルバーグゲームを研究する。 ディフェンダーは特定の環境設定を選択する。 攻撃者は、監視環境に対して訓練された強化学習(RL)を通じて構成と攻撃を観察する。 ディフェンダーの目標は、攻撃者に対して最小限の報酬で環境を見つけることである。 進化的多様性最適化(EDO)を適用し,多様な環境を育成する。 明らかに報酬の高い環境が取り除かれ、トレーニング時間の無駄を避けるために新しい子孫に置き換えられる。 多様性はトレーニングの品質を向上するだけでなく、私たちのRLシナリオにも適しています。 特定のアプリケーションであるActive Directory(AD)に注目して,このアプローチの有効性を示す。 ADはWindowsドメインネットワークのデフォルトのセキュリティ管理システムである。 AD環境は、ノードがコンピュータ/アカウント/etcを表すアタックグラフを記述する。 エッジはアクセスを表す。 攻撃者は、最高特権ノードに到達するのに最適な攻撃パスを見つけることを目指している。 ディフェンダーは、限られた数のエッジ(アクセスを無効にすることで、グラフを変更することができる。 私たちのアプローチは、既存のアプローチやスケールよりも優れた防御計画を生成します。

We study a Stackelberg game between one attacker and one defender in a configurable environment. The defender picks a specific environment configuration. The attacker observes the configuration and attacks via Reinforcement Learning (RL trained against the observed environment). The defender's goal is to find the environment with minimum achievable reward for the attacker. We apply Evolutionary Diversity Optimization (EDO) to generate diverse population of environments for training. Environments with clearly high rewards are killed off and replaced by new offsprings to avoid wasting training time. Diversity not only improves training quality but also fits well with our RL scenario: RL agents tend to improve gradually, so a slightly worse environment earlier on may become better later. We demonstrate the effectiveness of our approach by focusing on a specific application, Active Directory (AD). AD is the default security management system for Windows domain networks. AD environment describes an attack graph, where nodes represent computers/accounts/etc., and edges represent accesses. The attacker aims to find the best attack path to reach the highest-privilege node. The defender can change the graph by removing a limited number of edges (revoke accesses). Our approach generates better defensive plans than the existing approach and scales better.
翻訳日:2023-04-11 18:25:07 公開日:2023-04-08
# REDf:長期記憶ネットワークを用いたスマートグリッドの再生可能エネルギー需要予測モデル

REDf: A Renewable Energy Demand Forecasting Model for Smart Grids using Long Short Term Memory Network ( http://arxiv.org/abs/2304.03997v1 )

ライセンス: Link先を確認
Md Saef Ullah Miah and Junaida Sulaiman and Md. Imamul Islam and Md. Masuduzzaman(参考訳) 世界がより持続可能なエネルギーの未来に向かっていくにつれて、再生可能エネルギー源の電力網への統合がますます重要になっている。 しかし、再生可能エネルギー源の断続的な性質は電力網の管理と安定した電力供給の確保を困難にしている。 本稿では,電力需要の正確な予測を提供することにより,再生可能エネルギー源の統合を向上できるスマート電力グリッドにおけるエネルギー需要予測のための深層学習に基づくアプローチを提案する。 我々は、時系列データに適した長期記憶ネットワークを用いて、エネルギー需要データにおける複雑なパターンや依存関係をキャプチャする。 提案手法は、アメリカ電力、コモンウェルス・エジソン、デイトン・パワー・アンド・ライト、ペンシルバニア・ニュージャージー・メリーランド・インターコネクションなど、異なるエネルギー流通企業の4つの歴史的エネルギー需要データを用いて評価される。 提案モデルは、Facebook ProphetとSupport Vector Regressorという、アート予測アルゴリズムの他の2つの状態と比較される。 実験の結果,提案したREDfモデルは平均絶対誤差 1.4% でエネルギー需要を正確に予測できることがわかった。 このアプローチは再生可能エネルギー源の統合をより良く管理することで電力網の効率と安定性を向上させる可能性を秘めている。

The integration of renewable energy sources into the power grid is becoming increasingly important as the world moves towards a more sustainable energy future. However, the intermittent nature of renewable energy sources can make it challenging to manage the power grid and ensure a stable supply of electricity. In this paper, we propose a deep learning-based approach for predicting energy demand in a smart power grid, which can improve the integration of renewable energy sources by providing accurate predictions of energy demand. We use long short-term memory networks, which are well-suited for time series data, to capture complex patterns and dependencies in energy demand data. The proposed approach is evaluated using four datasets of historical energy demand data from different energy distribution companies including American Electric Power, Commonwealth Edison, Dayton Power and Light, and Pennsylvania-New Jersey-Maryland Interconnection. The proposed model is also compared with two other state of the art forecasting algorithms namely, Facebook Prophet and Support Vector Regressor. The experimental results show that the proposed REDf model can accurately predict energy demand with a mean absolute error of 1.4%. This approach has the potential to improve the efficiency and stability of the power grid by allowing for better management of the integration of renewable energy sources.
翻訳日:2023-04-11 18:24:50 公開日:2023-04-08
# グラフ理論による個人学習可能性の統一的特徴付け

A Unified Characterization of Private Learnability via Graph Theory ( http://arxiv.org/abs/2304.03996v1 )

ライセンス: Link先を確認
Noga Alon, Shay Moran, Hilla Schefler, Amir Yehudayoff(参考訳) 純粋かつ近似微分プライベート(DP)学習を特徴付ける統一的なフレームワークを提供する。 このフレームワークはグラフ理論の言語を使用する: 概念クラス $\mathcal{H}$ に対して、矛盾グラフ $G$ of $\mathcal{H}$ を定義する。 it頂点は実現可能なデータセットであり、2つのデータセット$s,s'$は、互いに矛盾した場合、エッジによって接続される(すなわち、$s$と$s'$で異なるラベルが付けられたポイント$x$がある)。 主な発見は、$g$ の組合せ構造は dp の下で $\mathcal{h}$ の学習と深く関係していることである。 純粋な DP の下で $\mathcal{H}$ を学ぶことは、分数clique の$G$ で表される。 DP で $\mathcal{H}$ を学ぶことは、clique number of $G$ で表される。 その結果,dp学習性を特徴づけるグラフ理論的次元,すなわち,クランク次元と分数的クランク次元を同定した。 その過程で、独立興味を持つかもしれない矛盾グラフの特性を明らかにする。 今後の研究にはいくつかのオープンな質問や方向性も提案する。

We provide a unified framework for characterizing pure and approximate differentially private (DP) learnabiliity. The framework uses the language of graph theory: for a concept class $\mathcal{H}$, we define the contradiction graph $G$ of $\mathcal{H}$. It vertices are realizable datasets, and two datasets $S,S'$ are connected by an edge if they contradict each other (i.e., there is a point $x$ that is labeled differently in $S$ and $S'$). Our main finding is that the combinatorial structure of $G$ is deeply related to learning $\mathcal{H}$ under DP. Learning $\mathcal{H}$ under pure DP is captured by the fractional clique number of $G$. Learning $\mathcal{H}$ under approximate DP is captured by the clique number of $G$. Consequently, we identify graph-theoretic dimensions that characterize DP learnability: the clique dimension and fractional clique dimension. Along the way, we reveal properties of the contradiction graph which may be of independent interest. We also suggest several open questions and directions for future research.
翻訳日:2023-04-11 18:24:26 公開日:2023-04-08
# メタブラックボックス最適化による注意に基づく遺伝的アルゴリズムの発見

Discovering Attention-Based Genetic Algorithms via Meta-Black-Box Optimization ( http://arxiv.org/abs/2304.03995v1 )

ライセンス: Link先を確認
Robert Tjarko Lange, Tom Schaul, Yutian Chen, Chris Lu, Tom Zahavy, Valentin Dalibard, Sebastian Flennerhag(参考訳) 遺伝的アルゴリズムは、生物学的進化の原理から着想を得たブラックボックス最適化アルゴリズムのファミリーを構成する。 最適化のための汎用ツールを提供する一方で、それらの特定のインスタンス化は、ゆるい生物学的直観によってヒューリスティックで動機づけられる。 遺伝的演算子の十分なフレキシブルなパラメトリゼーションを条件に、データ駆動方式で全く新しい遺伝的アルゴリズムを発見します。 具体的には、選択と突然変異率の適応をクロスアテンションモジュールおよび自己アテンションモジュールとしてパラメトリズし、メタブラックボックス最適化を用いてパラメータを様々な最適化タスクで進化させる。 結果として得られたLearted Genetic Algorithmは、最先端の適応型ベースライン遺伝的アルゴリズムより優れ、メタトレーニング設定を超えて一般化される。 学習アルゴリズムは、未発見の最適化問題、探索次元および評価予算に適用することができる。 得られた演算子の広範な解析とアブレーション実験を行い,フレキシブルモジュールパラメトリゼーションの利点と,学習した演算子を従来の遺伝的アルゴリズムに(プラグイン)転送する能力を強調した。

Genetic algorithms constitute a family of black-box optimization algorithms, which take inspiration from the principles of biological evolution. While they provide a general-purpose tool for optimization, their particular instantiations can be heuristic and motivated by loose biological intuition. In this work we explore a fundamentally different approach: Given a sufficiently flexible parametrization of the genetic operators, we discover entirely new genetic algorithms in a data-driven fashion. More specifically, we parametrize selection and mutation rate adaptation as cross- and self-attention modules and use Meta-Black-Box-Optimization to evolve their parameters on a set of diverse optimization tasks. The resulting Learned Genetic Algorithm outperforms state-of-the-art adaptive baseline genetic algorithms and generalizes far beyond its meta-training settings. The learned algorithm can be applied to previously unseen optimization problems, search dimensions & evaluation budgets. We conduct extensive analysis of the discovered operators and provide ablation experiments, which highlight the benefits of flexible module parametrization and the ability to transfer (`plug-in') the learned operators to conventional genetic algorithms.
翻訳日:2023-04-11 18:24:09 公開日:2023-04-08
# RIDCP:ハイクオリティなコードブックでリアルなデハジングを再現

RIDCP: Revitalizing Real Image Dehazing via High-Quality Codebook Priors ( http://arxiv.org/abs/2304.03994v1 )

ライセンス: Link先を確認
Rui-Qi Wu, Zheng-Peng Duan, Chun-Le Guo, Zhi Chai, Chong-Yi Li(参考訳) 既存のデハジングアプローチは、ペアの実際のデータと堅牢な事前情報がないため、現実世界のハジングイメージを処理するのに苦労している。 本稿では,よりリアルなヘイジーデータを合成し,ネットワークにより堅牢なプリエントを導入するという観点から,実画像デヘイジングの新しいパラダイムを提案する。 具体的には,(1)デファクト物理散乱モデルを採用する代わりに,実画像の劣化を再考し,多様な劣化型を考慮した現象的パイプラインを提案する。 2)高品質なコードブックプライオリティ(RIDCP)を用いたリアルイメージデハージングネットワークを提案する。 第一に、VQGANは大規模で高品質なデータセット上で事前訓練され、高品質な事前(HQP)をカプセル化した離散コードブックを得る。 新規な正規化された特徴アライメントモジュールを備えたデコーダは、ヘイズによる負の効果をHQPsに置き換えることで、高品質な特徴を効果的に活用し、クリーンな結果が得られる。 しかしながら、我々の分解パイプラインは、合成データと実際のデータの間のドメインギャップを大幅に軽減しますが、それを避けることは困難です。 そこで,本研究では,特徴をHQPにマッチングする際の距離を,制御可能なマッチング操作により再計算する。 説明可能な解に基づいてマッチングを制御することを推奨する。 ユーザーは好みに応じて拡張度を柔軟に調整することもできる。 画像デハージングにおけるデータ合成パイプラインの有効性と RIDCP の優れた性能の検証を行った。

Existing dehazing approaches struggle to process real-world hazy images owing to the lack of paired real data and robust priors. In this work, we present a new paradigm for real image dehazing from the perspectives of synthesizing more realistic hazy data and introducing more robust priors into the network. Specifically, (1) instead of adopting the de facto physical scattering model, we rethink the degradation of real hazy images and propose a phenomenological pipeline considering diverse degradation types. (2) We propose a Real Image Dehazing network via high-quality Codebook Priors (RIDCP). Firstly, a VQGAN is pre-trained on a large-scale high-quality dataset to obtain the discrete codebook, encapsulating high-quality priors (HQPs). After replacing the negative effects brought by haze with HQPs, the decoder equipped with a novel normalized feature alignment module can effectively utilize high-quality features and produce clean results. However, although our degradation pipeline drastically mitigates the domain gap between synthetic and real data, it is still intractable to avoid it, which challenges HQPs matching in the wild. Thus, we re-calculate the distance when matching the features to the HQPs by a controllable matching operation, which facilitates finding better counterparts. We provide a recommendation to control the matching based on an explainable solution. Users can also flexibly adjust the enhancement degree as per their preference. Extensive experiments verify the effectiveness of our data synthesis pipeline and the superior performance of RIDCP in real image dehazing.
翻訳日:2023-04-11 18:23:46 公開日:2023-04-08
# 2つの分類アルゴリズムの比較のためのブロック正規化5$\times$2クロスバリデーションMcNemarのテスト

Block-regularized 5$\times$2 Cross-validated McNemar's Test for Comparing Two Classification Algorithms ( http://arxiv.org/abs/2304.03990v1 )

ライセンス: Link先を確認
Ruibo Wang and Jihong Li(参考訳) 2つの分類アルゴリズムを比較するタスクにおいて、広く使われているmcnemarの検定は、2つの分類アルゴリズムの誤差率の有意な差の存在を推測することを目的としている。 しかし、従来のマクネマー試験のパワーは、テストにおけるホールドアウト(ho)法は、通常非常に異なる誤差率の推定を生成する単一の列車評価分割のみを使用するため、通常予測されない。 対照的に、クロスバリデーション (CV) 法はHO法を複数回繰り返し、安定した推定を行う。 したがって、cv法はマクネマーのテストのパワーを向上させるのに非常に有利である。 5$\times$2 bcvは、すべてのトレーニングセット間で重なり合うレコードの数を規則化することにより、エラー率の高品質な推定器を作成できるため、アルゴリズムの比較タスクにおいて他のcv法よりも優れていると、多くの研究において、ブロック正規化された5$\times$2 cv(bcv)が示されてきた。 本研究では,5$\times$2 bcvの10個の連関テーブルを圧縮し,有効連関テーブルを作成する。 次に、有効な偶発性表に基づいて、5$\times$2 bcv mcnemar のテストを定義する。 提案した5$\times$2 BCV McNemarの複数のシミュレーションおよび実世界のデータセットにおける有意な型I誤差と有望なパワーを実証する。

In the task of comparing two classification algorithms, the widely-used McNemar's test aims to infer the presence of a significant difference between the error rates of the two classification algorithms. However, the power of the conventional McNemar's test is usually unpromising because the hold-out (HO) method in the test merely uses a single train-validation split that usually produces a highly varied estimation of the error rates. In contrast, a cross-validation (CV) method repeats the HO method in multiple times and produces a stable estimation. Therefore, a CV method has a great advantage to improve the power of McNemar's test. Among all types of CV methods, a block-regularized 5$\times$2 CV (BCV) has been shown in many previous studies to be superior to the other CV methods in the comparison task of algorithms because the 5$\times$2 BCV can produce a high-quality estimator of the error rate by regularizing the numbers of overlapping records between all training sets. In this study, we compress the 10 correlated contingency tables in the 5$\times$2 BCV to form an effective contingency table. Then, we define a 5$\times$2 BCV McNemar's test on the basis of the effective contingency table. We demonstrate the reasonable type I error and the promising power of the proposed 5$\times$2 BCV McNemar's test on multiple simulated and real-world data sets.
翻訳日:2023-04-11 18:23:21 公開日:2023-04-08
# Bipol: NLPのための説明可能性を備えた新しい多軸バイアス評価指標

Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for NLP ( http://arxiv.org/abs/2304.04029v1 )

ライセンス: Link先を確認
Lama Alkhaled, Tosin Adewumi and Sana Sabah Sabry(参考訳) テキストデータの社会的バイアスを推定するための説明可能性を持つ新しい指標であるbipolを導入する。 有害なバイアスは、機械学習(ML)モデルのトレーニングに使用される多くのオンラインデータソースで一般的である。 この課題に対処するために、モデル分類に基づくコーパスレベル評価と(感性)項周波数(TF)に基づく文レベル評価という、2段階のプロセスを含む新しいメトリクスを作成する。 SotAアーキテクチャを用いて複数の軸に沿ってバイアスを検出する新しいモデルを作成した後、人気のある2つのNLPデータセット(COPAとSQUAD)を評価する。 さらなる貢献として、バイアス検出のトレーニングモデルのための大規模なデータセット(200万近いラベル付きサンプル)を作成し、公開しました。 コードも公開しています。

We introduce bipol, a new metric with explainability, for estimating social bias in text data. Harmful bias is prevalent in many online sources of data that are used for training machine learning (ML) models. In a step to address this challenge we create a novel metric that involves a two-step process: corpus-level evaluation based on model classification and sentence-level evaluation based on (sensitive) term frequency (TF). After creating new models to detect bias along multiple axes using SotA architectures, we evaluate two popular NLP datasets (COPA and SQUAD). As additional contribution, we created a large dataset (with almost 2 million labelled samples) for training models in bias detection and make it publicly available. We also make public our codes.
翻訳日:2023-04-11 18:18:13 公開日:2023-04-08
# nebla:neural beer-lambertによるパノラマx線写真からの口腔構造の3次元再構築

NeBLa: Neural Beer-Lambert for 3D Reconstruction of Oral Structures from Panoramic Radiographs ( http://arxiv.org/abs/2304.04027v1 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, Seungjun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 しかし,PXは口腔構造の2次元平坦化画像のみを提供するため,3次元コーンビームCT(CBCT)と比較して適用性は限定的である。 本稿では,現実世界のPX画像から3次元口腔構造を推定する新しい枠組みを提案する。 px と cbct のマッチングデータが少ないため,cbct のシミュレーション px をトレーニングに用いたが,実世界のパノラマラジオグラフを推定に用いた。 本研究では,パノラマX線撮影の原理にインスパイアされたパノラマX線写真と,Beer-Lambert法に基づくレンダリング機能を実現するための新しい光サンプリング法を提案する。 我々のモデルは3つの部分からなる:翻訳モジュール、生成モジュール、精製モジュール。 翻訳モジュールは現実世界のパノラマラジオグラフをシミュレートされたトレーニング画像形式に変更する。 生成モジュールは、歯科アーチ等の事前情報のない入力画像から3D構造を作成する。 本手法により, 口腔構造からPXを生成する過程を逆転させてCBCTデータを再構成することが可能になる。 最後に、精製モジュールは、3D出力の品質を高める。 その結果,本手法は他の最先端手法と比較してシミュレーション画像や実世界画像に対して良好に機能することがわかった。

Panoramic radiography (panoramic X-ray, PX) is a widely used imaging modality for dental examination. However, its applicability is limited as compared to 3D Cone-beam computed tomography (CBCT), because PX only provides 2D flattened images of the oral structure. In this paper, we propose a new framework which estimates 3D oral structure from real-world PX images. Since there are not many matching PX and CBCT data, we used simulated PX from CBCT for training, however, we used real-world panoramic radiographs at the inference time. We propose a new ray-sampling method to make simulated panoramic radiographs inspired by the principle of panoramic radiography along with the rendering function derived from the Beer-Lambert law. Our model consists of three parts: translation module, generation module, and refinement module. The translation module changes the real-world panoramic radiograph to the simulated training image style. The generation module makes the 3D structure from the input image without any prior information such as a dental arch. Our ray-based generation approach makes it possible to reverse the process of generating PX from oral structure in order to reconstruct CBCT data. Lastly, the refinement module enhances the quality of the 3D output. Results show that our approach works better for simulated and real-world images compared to other state-of-the-art methods.
翻訳日:2023-04-11 18:17:59 公開日:2023-04-08
# wikigoldsk: スロバキアのエンティティ認識のための注釈付きデータセット、ベースライン、およびマイショット学習実験

WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition ( http://arxiv.org/abs/2304.04026v1 )

ライセンス: Link先を確認
D\'avid \v{S}uba and Marek \v{S}uppa and Jozef Kub\'ik and Endre Hamerlik and Martin Tak\'a\v{c}(参考訳) 名前付きエンティティ認識(NER)は、広範囲の実用的な応用を持つ基本的なNLPタスクである。 最先端のNERメソッドのパフォーマンスは、一部の言語ではまだ存在しない高品質な手動注釈付きデータセットに依存している。 本研究は,スロバキアにおけるこの状況を改善するために,最初の人ラベル付きスロバキアNERデータセットであるWikiGoldSKを導入する。 我々は、最先端の多言語事前訓練言語モデルを評価し、既存の銀標準スロバキアNERデータセットと比較することでベンチマークを行う。 また,少数の実験を行い,sliver標準データセットでのトレーニングがよりよい結果をもたらすことを示す。 スロバキアのNERをベースとした将来の作業を可能にするため、データセット、コード、トレーニングされたモデルをhttps://github.com/NaiveNeuron/WikiGoldSK.comで公に許可されたライセンス条件の下でリリースします。

Named Entity Recognition (NER) is a fundamental NLP tasks with a wide range of practical applications. The performance of state-of-the-art NER methods depends on high quality manually anotated datasets which still do not exist for some languages. In this work we aim to remedy this situation in Slovak by introducing WikiGoldSK, the first sizable human labelled Slovak NER dataset. We benchmark it by evaluating state-of-the-art multilingual Pretrained Language Models and comparing it to the existing silver-standard Slovak NER dataset. We also conduct few-shot experiments and show that training on a sliver-standard dataset yields better results. To enable future work that can be based on Slovak NER, we release the dataset, code, as well as the trained models publicly under permissible licensing terms at https://github.com/NaiveNeuron/WikiGoldSK.
翻訳日:2023-04-11 18:17:39 公開日:2023-04-08
# 攻撃は強化である:骨格-対照的表現学習へ向けて

Attack is Good Augmentation: Towards Skeleton-Contrastive Representation Learning ( http://arxiv.org/abs/2304.04023v1 )

ライセンス: Link先を確認
Binqian Xu, Xiangbo Shu, Rui Yan, Guo-Sen Xie, Yixiao Ge, Mike Zheng Shou(参考訳) 効果的な正と負のサンプルペアに依存するコントラスト学習は、教師なし骨格に基づく行動認識における情報的骨格表現の学習に有用である。 これらの正と負のペアを達成するために、既存の弱い/強いデータ拡張法は、間接的に意味的摂動を追求するための骨格の外観をランダムに変更する必要がある。 しかし、そのようなアプローチには2つの制限がある。 1)外見のみの摂動は、骨格の本質的な意味情報をうまく捉えられず、 2) ランダムな摂動は, 元の正負対を軟正負対に変える。 上記のジレンマに対処するために,我々は,直接的意味的摂動,硬い正のペアの構築,さらに硬い負のペアの構築を支援する攻撃に基づく拡張スキームを探求する最初の試みを開始する。 特に,より強固なスケルトン表現を学習するために,ハードポジティブな特徴とハードネガティブな特徴を対比する,新しい攻撃-指示混合-矛盾学習(a$^2$mc)を提案する。 a$^2$mcにおいて、att-aug(att-aug)は、攻撃と増強によって、それぞれ標的と目標外の骨格の摂動を協調して行い、高品質なハードポジティブな特徴を生み出すように設計されている。 一方、PNM(Positive-Negative Mixer)は、混合メモリバンクの更新に使用される、強正の特徴と負の特徴を混合する。 3つの公開データセットに対する大規模な実験により、A$^2$MCは最先端の手法と競合することを示した。

Contrastive learning, relying on effective positive and negative sample pairs, is beneficial to learn informative skeleton representations in unsupervised skeleton-based action recognition. To achieve these positive and negative pairs, existing weak/strong data augmentation methods have to randomly change the appearance of skeletons for indirectly pursuing semantic perturbations. However, such approaches have two limitations: 1) solely perturbing appearance cannot well capture the intrinsic semantic information of skeletons, and 2) randomly perturbation may change the original positive/negative pairs to soft positive/negative ones. To address the above dilemma, we start the first attempt to explore an attack-based augmentation scheme that additionally brings in direct semantic perturbation, for constructing hard positive pairs and further assisting in constructing hard negative pairs. In particular, we propose a novel Attack-Augmentation Mixing-Contrastive learning (A$^2$MC) to contrast hard positive features and hard negative features for learning more robust skeleton representations. In A$^2$MC, Attack-Augmentation (Att-Aug) is designed to collaboratively perform targeted and untargeted perturbations of skeletons via attack and augmentation respectively, for generating high-quality hard positive features. Meanwhile, Positive-Negative Mixer (PNM) is presented to mix hard positive features and negative features for generating hard negative features, which are adopted for updating the mixed memory banks. Extensive experiments on three public datasets demonstrate that A$^2$MC is competitive with the state-of-the-art methods.
翻訳日:2023-04-11 18:17:23 公開日:2023-04-08
# 人事マッチングを考慮したチーム形成問題に対する強化学習支援遺伝的プログラミングアルゴリズム

A Reinforcement Learning-assisted Genetic Programming Algorithm for Team Formation Problem Considering Person-Job Matching ( http://arxiv.org/abs/2304.04022v1 )

ライセンス: Link先を確認
Yangyang Guo, Hao Wang, Lei He, Witold Pedrycz, P. N. Suganthan, Yanjie Song(参考訳) 効率的なチームは、新しいプロジェクトを成功させるのに不可欠です。 個人間マッチング(TFP-PJM)を考慮したチーム形成問題を解決するために、直観的ファジィ数を用いて算出された人間マッチングスコアを用いて、人間マッチングとチームメンバーのチーム効率でのコミュニケーション意欲の両方を考慮した0-1整数プログラミングモデルを構築する。 そこで,RL-GPを用いた強化学習支援型遺伝的プログラミングアルゴリズムを提案する。 RL-GPはアンサンブル人口戦略を採用している。 各世代における個体群の進化の前に、得られた情報に基づいて4つの個体群探索モードから1つを選択し、探索と搾取の健全なバランスを実現する。 さらに、サロゲートモデルを用いて、個人が生成する生成計画を評価することにより、アルゴリズム学習プロセスを高速化する。 その後、RL-GPの全体的な性能とアルゴリズム内の改善戦略の有効性を検証するために、一連の比較実験を行った。 効率的な学習によって得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用できる。 本研究では,GPフレームワークに適用した強化学習手法,アンサンブル戦略,サロゲートモデルの利点を明らかにする。 検索パターンの多様性とインテリジェントな選択と高速適応評価は、RL-GPを実環境のエンタープライズ環境に展開できる特徴である。

An efficient team is essential for the company to successfully complete new projects. To solve the team formation problem considering person-job matching (TFP-PJM), a 0-1 integer programming model is constructed, which considers both person-job matching and team members' willingness to communicate on team efficiency, with the person-job matching score calculated using intuitionistic fuzzy numbers. Then, a reinforcement learning-assisted genetic programming algorithm (RL-GP) is proposed to enhance the quality of solutions. The RL-GP adopts the ensemble population strategies. Before the population evolution at each generation, the agent selects one from four population search modes according to the information obtained, thus realizing a sound balance of exploration and exploitation. In addition, surrogate models are used in the algorithm to evaluate the formation plans generated by individuals, which speeds up the algorithm learning process. Afterward, a series of comparison experiments are conducted to verify the overall performance of RL-GP and the effectiveness of the improved strategies within the algorithm. The hyper-heuristic rules obtained through efficient learning can be utilized as decision-making aids when forming project teams. This study reveals the advantages of reinforcement learning methods, ensemble strategies, and the surrogate model applied to the GP framework. The diversity and intelligent selection of search patterns along with fast adaptation evaluation, are distinct features that enable RL-GP to be deployed in real-world enterprise environments.
翻訳日:2023-04-11 18:16:51 公開日:2023-04-08
# Sparse Interactive Guidance を用いた地域対応画像修正

Region-Aware Portrait Retouching with Sparse Interactive Guidance ( http://arxiv.org/abs/2304.04017v1 )

ライセンス: Link先を確認
Huimin Zeng, Jie Huang, Jiacheng Li, Zhiwei Xiong(参考訳) ポートレートリタッチは、入力されたポートレート写真の美的品質を向上させることを目的としている。 深層学習に基づく手法は、修正効率を大きく上げ、有望な修正結果を提供する。 しかし、既存のポートレートリタッチ手法は、すべての人間領域を平等に扱う自動リタッチに焦点を当てており、特定の個人に対するユーザの好みを無視している。 本稿では,ユーザの意図の重要性を強調し,インタラクティブなポートレートリタッチ作業について検討する。 具体的には,自動ブランチと対話型ブランチの2つのブランチを持つ地域対応リタッチフレームワークを提案する。 自動ブランチは、領域候補を検索し、ユーザガイダンスなしで自動的に領域認識リタッチを実行するエンコーディング・デコーディングプロセスを含む。 インタラクティブブランチは、スパースユーザガイダンスを優先条件ベクトルにエンコードし、領域選択モジュールで潜在特徴を変調し、ユーザ特定領域をさらに強調する。 実験の結果,対話型ブランチはユーザの意図を効果的に捉え,ユーザ誘導のスパースで見当たらないシーンを一般化するが,自動ブランチは領域認識性の向上により最先端のリタッチ手法を上回っていることがわかった。 }

Portrait retouching aims to improve the aesthetic quality of input portrait photos and especially requires human-region priority. \pink{The deep learning-based methods largely elevate the retouching efficiency and provide promising retouched results. However, existing portrait retouching methods focus on automatic retouching, which treats all human-regions equally and ignores users' preferences for specific individuals,} thus suffering from limited flexibility in interactive scenarios. In this work, we emphasize the importance of users' intents and explore the interactive portrait retouching task. Specifically, we propose a region-aware retouching framework with two branches: an automatic branch and an interactive branch. \pink{The automatic branch involves an encoding-decoding process, which searches region candidates and performs automatic region-aware retouching without user guidance. The interactive branch encodes sparse user guidance into a priority condition vector and modulates latent features with a region selection module to further emphasize the user-specified regions. Experimental results show that our interactive branch effectively captures users' intents and generalizes well to unseen scenes with sparse user guidance, while our automatic branch also outperforms the state-of-the-art retouching methods due to improved region-awareness.}
翻訳日:2023-04-11 18:16:26 公開日:2023-04-08
# ハードウェアアウェアの効率的なブロック設計のための算術インテンシティバランス畳み込み

Arithmetic Intensity Balancing Convolution for Hardware-aware Efficient Block Design ( http://arxiv.org/abs/2304.04016v1 )

ライセンス: Link先を確認
Shinkook Choi, Junkyeong Choi(参考訳) ディープラーニングが進むにつれ、エッジデバイスと軽量ニューラルネットワークの重要性が高まっている。 AIアクセラレータのレイテンシを低減するためには、FLOPの削減だけでなく、ハードウェアパフォーマンスの向上も不可欠だ。 計算強度バランス畳み込み (abconv) を提案し, 空間サイズが小さい畳み込みに対して, 計算強度が小重量の算術強度によって制限される問題に対処する。 ABConvは算術的強度の最大値を増やし、精度を犠牲にすることなくレイテンシを大幅に削減した。 我々は、Arm Ethos-U65 NPU上でABConvのレイテンシとハードウェア性能を様々な構成でテストし、CIFAR100の画像分類においてMobileNetV1とResNet50の一部を置き換えた。

As deep learning advances, edge devices and lightweight neural networks are becoming more important. To reduce latency in the AI accelerator, it's essential to not only reduce FLOPs but also enhance hardware performance. We proposed an arithmetic intensity balancing convolution (ABConv) to address the issue of the overall intensity being limited by the small weight arithmetic intensity for convolution with a small spatial size. ABConv increased the maximum bound of overall arithmetic intensity and significantly reduced latency, without sacrificing accuracy. We tested the latency and hardware performance of ABConv on the Arm Ethos-U65 NPU in various configurations and used it to replace some of MobileNetV1 and ResNet50 in image classification for CIFAR100.
翻訳日:2023-04-11 18:15:56 公開日:2023-04-08
# PVD-AL: 異なるNeRFアーキテクチャ間の効率的な変換のためのアクティブラーニングによるプログレッシブボリューム蒸留

PVD-AL: Progressive Volume Distillation with Active Learning for Efficient Conversion Between Different NeRF Architectures ( http://arxiv.org/abs/2304.04012v1 )

ライセンス: Link先を確認
Shuangkang Fang, Yufeng Wang, Yi Yang, Weixin Xu, Heng Wang, Wenrui Ding, Shuchang Zhou(参考訳) neural radiance field (nerf) は3dシーンの実用的かつ汎用的な表現として広く採用され、様々な下流タスクが容易になっている。 しかし、平易な多層パーセプトロン(mlp)、テンソル、低ランクテンソル、ハッシュテーブル、それらの構成を含む異なるアーキテクチャはトレードオフを持っている。 例えば、Hashtablesベースの表現はより高速なレンダリングを可能にするが、幾何学的意味が明確でないため、空間的関連性を認識した編集が困難である。 この制限に対処し、各アーキテクチャのポテンシャルを最大化するために、異なるアーキテクチャ間の任意の変換を可能にする体系的な蒸留法であるプログレッシブボリューム蒸留とアクティブラーニング(PVD-AL)を提案する。 PVD-ALは、各構造を2つの部分に分解し、より浅いものからより深いボリューム表現へと徐々に蒸留を行い、レンダリングプロセスから取得した有効な情報を活用する。 さらに,3段階の能動学習技術により蒸留プロセス中に連続的なフィードバックが得られ,高い結果が得られた。 複数のベンチマークデータセットでこの方法を検証するために実証的な証拠が提示されます。 例えば、PVD-ALは、Hashtablesベースのモデルから10~20倍高速かつ0.8dB~2dB高いPSNRでMLPベースのモデルを蒸留することができる。 さらに、PVD-ALは異なる構造間の多様な特徴の融合を可能にし、複数の編集特性を持つモデルを可能にし、リアルタイム要求を満たすためのより効率的なモデルを提供する。 プロジェクトウェブサイト:http://sk-fun.fun/PVD-AL

Neural Radiance Fields (NeRF) have been widely adopted as practical and versatile representations for 3D scenes, facilitating various downstream tasks. However, different architectures, including plain Multi-Layer Perceptron (MLP), Tensors, low-rank Tensors, Hashtables, and their compositions, have their trade-offs. For instance, Hashtables-based representations allow for faster rendering but lack clear geometric meaning, making spatial-relation-aware editing challenging. To address this limitation and maximize the potential of each architecture, we propose Progressive Volume Distillation with Active Learning (PVD-AL), a systematic distillation method that enables any-to-any conversions between different architectures. PVD-AL decomposes each structure into two parts and progressively performs distillation from shallower to deeper volume representation, leveraging effective information retrieved from the rendering process. Additionally, a Three-Levels of active learning technique provides continuous feedback during the distillation process, resulting in high-performance results. Empirical evidence is presented to validate our method on multiple benchmark datasets. For example, PVD-AL can distill an MLP-based model from a Hashtables-based model at a 10~20X faster speed and 0.8dB~2dB higher PSNR than training the NeRF model from scratch. Moreover, PVD-AL permits the fusion of diverse features among distinct structures, enabling models with multiple editing properties and providing a more efficient model to meet real-time requirements. Project website:http://sk-fun.fun/PVD-AL.
翻訳日:2023-04-11 18:15:34 公開日:2023-04-08
# Poincar\'e不等式によるガウスニューラルネットワークの非漸近近似

Non-asymptotic approximations of Gaussian neural networks via second-order Poincar\'e inequalities ( http://arxiv.org/abs/2304.04010v1 )

ライセンス: Link先を確認
Alberto Bordino, Stefano Favaro, Sandra Fortini(参考訳) ガウスニューラルネットワーク(NN)の広帯域漸近特性、すなわちガウス分布に応じてウェイトが初期化されるNNに対する関心が高まっている。 良く確立された結果は、幅が無限に近づくにつれて、ガウス的NNは分布をガウス的確率過程に収束させ、このNNの漸近的あるいは定性的ガウス的近似を与えるということである。 本稿では,gaussian nn の非漸近的あるいは定量的なガウス近似を導入し,(確率)分布に対する一般的な距離に対する近似誤差,例えば 1 ドルのワッサーシュタイン距離,総変動距離,コルモゴロフ-スミルノフ距離を定量化する。 我々の結果は、近似誤差の厳密な推定を最適なレートで提供する2階ガウスポアンカー不等式の使用に依存している。 これはガウスの確率過程の一般汎函数のガウス近似を得るための強力なツールとして、確率論的文献でよく知られる二階ガウスのポアンカル不等式の新しい応用である。 より深いガウスNNに対する結果の一般化について論じる。

There is a growing interest on large-width asymptotic properties of Gaussian neural networks (NNs), namely NNs whose weights are initialized according to Gaussian distributions. A well-established result is that, as the width goes to infinity, a Gaussian NN converges in distribution to a Gaussian stochastic process, which provides an asymptotic or qualitative Gaussian approximation of the NN. In this paper, we introduce some non-asymptotic or quantitative Gaussian approximations of Gaussian NNs, quantifying the approximation error with respect to some popular distances for (probability) distributions, e.g. the $1$-Wasserstein distance, the total variation distance and the Kolmogorov-Smirnov distance. Our results rely on the use of second-order Gaussian Poincar\'e inequalities, which provide tight estimates of the approximation error, with optimal rates. This is a novel application of second-order Gaussian Poincar\'e inequalities, which are well-known in the probabilistic literature for being a powerful tool to obtain Gaussian approximations of general functionals of Gaussian stochastic processes. A generalization of our results to deep Gaussian NNs is discussed.
翻訳日:2023-04-11 18:14:54 公開日:2023-04-08
# ディープ・スタブル・ニューラルネットの無限幅制限--サブ線形、リニア、スーパー線形活性化関数

Infinitely wide limits for deep Stable neural networks: sub-linear, linear and super-linear activation functions ( http://arxiv.org/abs/2304.04008v1 )

ライセンス: Link先を確認
Alberto Bordino, Stefano Favaro, Sandra Fortini(参考訳) ディープ・ガウスニューラルネットワーク(英語版)(NN)、すなわち、ガウス分布パラメータまたは重みを持つディープ・NN、およびガウス確率過程の研究に関する文献が増えている。 ガウス分布を安定分布、すなわち重い尾を持つ分布に置き換える可能性を示す実験的および理論的研究により、本論文では、深い安定NN、すなわち、安定分布パラメータを持つ深部NNの大きな幅特性について検討する。 線形アクティベーション関数の場合、最近の研究は、安定な確率過程において適切な再スケールされたディープ・スタブル・NNの無限に広い限界を特徴付けており、どちらも `joint growth' の仮定と NN の層上の幅の `sequential growth" の仮定の下である。 ここで、幅の `sequential growth" を仮定すると、そのような特徴付けを、サブ線形、漸近線形、超線形関数を含む活性化関数の一般クラスに拡張する。 先行研究の新規性として,重テール分布に対する一般化された中央極限定理を用いることにより,深い安定なnnに対する無限大極限の興味深い統一的処理が可能となる。 本研究は、安定なnnのスケーリングと無限に広い限界の安定性が活性化関数の選択に依存する可能性を示し、ガウス集合に関して重要な違いをもたらすことを示した。

There is a growing literature on the study of large-width properties of deep Gaussian neural networks (NNs), i.e. deep NNs with Gaussian-distributed parameters or weights, and Gaussian stochastic processes. Motivated by some empirical and theoretical studies showing the potential of replacing Gaussian distributions with Stable distributions, namely distributions with heavy tails, in this paper we investigate large-width properties of deep Stable NNs, i.e. deep NNs with Stable-distributed parameters. For sub-linear activation functions, a recent work has characterized the infinitely wide limit of a suitable rescaled deep Stable NN in terms of a Stable stochastic process, both under the assumption of a ``joint growth" and under the assumption of a ``sequential growth" of the width over the NN's layers. Here, assuming a ``sequential growth" of the width, we extend such a characterization to a general class of activation functions, which includes sub-linear, asymptotically linear and super-linear functions. As a novelty with respect to previous works, our results rely on the use of a generalized central limit theorem for heavy tails distributions, which allows for an interesting unified treatment of infinitely wide limits for deep Stable NNs. Our study shows that the scaling of Stable NNs and the stability of their infinitely wide limits may depend on the choice of the activation function, bringing out a critical difference with respect to the Gaussian setting.
翻訳日:2023-04-11 18:14:34 公開日:2023-04-08
# デコーダのみか、エンコーダデコーダか? 正規化エンコーダデコーダとしての言語モデルの解釈

Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder ( http://arxiv.org/abs/2304.04052v1 )

ライセンス: Link先を確認
Zihao Fu, Wai Lam, Qian Yu, Anthony Man-Cho So, Shengding Hu, Zhiyuan Liu, Nigel Collier(参考訳) シーケンス対シーケンス(seq2seq)タスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。 伝統的に、seq2seqタスクのほとんどはEncoder-Decoderフレームワークによって解決され、エンコーダはソースシーケンスをエンコードし、デコーダはターゲットテキストを生成する。 最近、seq2seqタスクにデコーダのみの言語モデルを直接適用する新しいアプローチが多数登場している。 seq2seqタスクに言語モデルを適用する大きな進歩にもかかわらず、デコーダのみの言語モデルアーキテクチャの有効性に関する詳細な分析はいまだにない。 本稿では,正規化エンコーダ-デコーダ構造の解析を通じて,エンコーダ-デコーダアーキテクチャとデコーダのみの言語モデルフレームワークとの詳細な比較を行うことにより,このギャップを解決することを目的とする。 この構造は、古典的なデコーダのみの言語モデルで全ての動作を複製するように設計されているが、エンコーダとデコーダを持ち、従来のエンコーダ-デコーダ構造と比較しやすい。 分析に基づいて,言語モデルにおける注意の低下問題,すなわち,生成ステップ数が増加するにつれて,ソースシーケンスに注目が集中する割合が小さくなることを明らかにする。 この問題を定量的に理解するために、我々はソース入力に対する注意出力の理論的感度解析を行う。 そこで本研究では,注目劣化問題を解決するために,新たな部分的注意言語モデルを提案する。 機械翻訳,要約,データ・テキスト生成タスクの実験結果により,提案モデルの有効性が実証された。

The sequence-to-sequence (seq2seq) task aims at generating the target sequence based on the given input source sequence. Traditionally, most of the seq2seq task is resolved by the Encoder-Decoder framework which requires an encoder to encode the source sequence and a decoder to generate the target text. Recently, a bunch of new approaches have emerged that apply decoder-only language models directly to the seq2seq task. Despite the significant advancements in applying language models to the seq2seq task, there is still a lack of thorough analysis on the effectiveness of the decoder-only language model architecture. This paper aims to address this gap by conducting a detailed comparison between the encoder-decoder architecture and the decoder-only language model framework through the analysis of a regularized encoder-decoder structure. This structure is designed to replicate all behaviors in the classical decoder-only language model but has an encoder and a decoder making it easier to be compared with the classical encoder-decoder structure. Based on the analysis, we unveil the attention degeneration problem in the language model, namely, as the generation step number grows, less and less attention is focused on the source sequence. To give a quantitative understanding of this problem, we conduct a theoretical sensitivity analysis of the attention output with respect to the source input. Grounded on our analysis, we propose a novel partial attention language model to solve the attention degeneration problem. Experimental results on machine translation, summarization, and data-to-text generation tasks support our analysis and demonstrate the effectiveness of our proposed model.
翻訳日:2023-04-11 18:07:38 公開日:2023-04-08
# ディープq学習とグラフニューラルネットワークを用いたグラフ彩色ヒューリスティックの生成

Generating a Graph Colouring Heuristic with Deep Q-Learning and Graph Neural Networks ( http://arxiv.org/abs/2304.04051v1 )

ライセンス: Link先を確認
George Watkins, Giovanni Montana, and Juergen Branke(参考訳) グラフ彩色問題は、グラフの頂点にラベルや色を割り当てることから成り、隣接する2つの頂点が同じ色を持つことはない。 本研究では,グラフカラー化の競争的構築ヒューリスティックを発見するために,深層強化学習が有効かどうかを検討する。 提案手法であるReLColは,グラフニューラルネットワークと併用して特徴抽出を行い,グラフをパラメータ化することで性能向上を実現している。 様々なトポロジを持つ標準ベンチマークグラフを用いて、既存の構築アルゴリズムと比較してReLColが学習したヒューリスティックの利点と限界を実証的に評価し、グラフ彩色問題をさらに研究するための有望な方向であることを示す。

The graph colouring problem consists of assigning labels, or colours, to the vertices of a graph such that no two adjacent vertices share the same colour. In this work we investigate whether deep reinforcement learning can be used to discover a competitive construction heuristic for graph colouring. Our proposed approach, ReLCol, uses deep Q-learning together with a graph neural network for feature extraction, and employs a novel way of parameterising the graph that results in improved performance. Using standard benchmark graphs with varied topologies, we empirically evaluate the benefits and limitations of the heuristic learned by ReLCol relative to existing construction algorithms, and demonstrate that reinforcement learning is a promising direction for further research on the graph colouring problem.
翻訳日:2023-04-11 18:07:12 公開日:2023-04-08
# 後方確率微分方程式を用いた深部生成モデル

Deep Generative Modeling with Backward Stochastic Differential Equations ( http://arxiv.org/abs/2304.04049v1 )

ライセンス: Link先を確認
Xingcheng Xu(参考訳) 本稿では,後方確率微分方程式(bsdes)の柔軟性と,高次元複雑なターゲットデータを生成するディープニューラルネットワークのパワーを組み合わせた,bsde-genと呼ばれる新しい深層生成モデルを提案する。 生成モデリングプロセスにおける確率性と不確実性の取り込みにより、BSDE-Genは高次元データを生成するための効果的で自然なアプローチとなる。 本論文は,bsde-genの理論フレームワークを提供し,そのモデルアーキテクチャを説明し,トレーニングに使用する最大平均損失(mmd)関数を提示し,実験結果を報告する。

This paper proposes a novel deep generative model, called BSDE-Gen, which combines the flexibility of backward stochastic differential equations (BSDEs) with the power of deep neural networks for generating high-dimensional complex target data, particularly in the field of image generation. The incorporation of stochasticity and uncertainty in the generative modeling process makes BSDE-Gen an effective and natural approach for generating high-dimensional data. The paper provides a theoretical framework for BSDE-Gen, describes its model architecture, presents the maximum mean discrepancy (MMD) loss function used for training, and reports experimental results.
翻訳日:2023-04-11 18:06:56 公開日:2023-04-08
# Polygonizer: 自動回帰型ビルディリニア

Polygonizer: An auto-regressive building delineator ( http://arxiv.org/abs/2304.04048v1 )

ライセンス: Link先を確認
Maxim Khomiakov, Michael Riis Andersen, Jes Frellsen(参考訳) 地理空間計画では、この形式はweb開発、グラフィックス、デザインといった下流のタスクに容易に変換するため、ベクトル化されたフォーマットでオブジェクトを表現することがしばしば必要となる。 これらの問題は、非自明な方法でオブジェクトをベクトル化するために追加の処理後処理を必要とするセマンティックセグメンテーション(セマンティックセグメンテーション)によって頻繁に解決されるが、画像からシーケンスへの直接推論が可能で、最初からベクトルベースのワークフローに対応できるモデルを提案する。 我々は、リモートセンシングアプリケーションでよく見られるバリエーションやアーティファクトに対応する画像入力に対する摂動を含む、様々な方法でモデルの性能を示す。 我々のモデルは、基底真理バウンディングボックス(画像毎に1つのオブジェクト)を使用する場合の先行処理よりも優れており、最大接角誤差が最低となる。

In geospatial planning, it is often essential to represent objects in a vectorized format, as this format easily translates to downstream tasks such as web development, graphics, or design. While these problems are frequently addressed using semantic segmentation, which requires additional post-processing to vectorize objects in a non-trivial way, we present an Image-to-Sequence model that allows for direct shape inference and is ready for vector-based workflows out of the box. We demonstrate the model's performance in various ways, including perturbations to the image input that correspond to variations or artifacts commonly encountered in remote sensing applications. Our model outperforms prior works when using ground truth bounding boxes (one object per image), achieving the lowest maximum tangent angle error.
翻訳日:2023-04-11 18:06:46 公開日:2023-04-08
# 高階テンソル推定における統計的および計算速度

Statistical and computational rates in high rank tensor estimation ( http://arxiv.org/abs/2304.04043v1 )

ライセンス: Link先を確認
Chanwoo Lee and Miaoyan Wang(参考訳) 高次のテンソルデータセットは一般的にレコメンデーションシステム、ニューロイメージング、ソーシャルネットワークに現れる。 ここでは,ノイズ観測から高階信号テンソルを推定する確率的手法を提案する。 我々は,単純なハイパーグラフモデル,単一インデックスモデル,低ランクcpモデル,低ランクタッカーモデルを含む,高ランクモデルと低ランクモデルの両方を組み込んだ生成的潜在変数テンソルモデルを考える。 信号テンソル推定の統計量と計算量の両方について総合的な結果が得られた。 高次元潜在変数テンソルはログランクであり、この事実はアプリケーションにおける低ランクテンソルの広範性を説明する。 さらに,計算最適速度を達成する多項式時間スペクトルアルゴリズムを提案する。 統計的-計算的ギャップは 3 以上の潜時変テンソルに対してのみ現れることを示す。 本手法の実用性を示すため,数値実験と2つの実データ応用を行った。

Higher-order tensor datasets arise commonly in recommendation systems, neuroimaging, and social networks. Here we develop probable methods for estimating a possibly high rank signal tensor from noisy observations. We consider a generative latent variable tensor model that incorporates both high rank and low rank models, including but not limited to, simple hypergraphon models, single index models, low-rank CP models, and low-rank Tucker models. Comprehensive results are developed on both the statistical and computational limits for the signal tensor estimation. We find that high-dimensional latent variable tensors are of log-rank; the fact explains the pervasiveness of low-rank tensors in applications. Furthermore, we propose a polynomial-time spectral algorithm that achieves the computationally optimal rate. We show that the statistical-computational gap emerges only for latent variable tensors of order 3 or higher. Numerical experiments and two real data applications are presented to demonstrate the practical merits of our methods.
翻訳日:2023-04-11 18:06:29 公開日:2023-04-08
# 信頼性の高い分散不確実性定量化を提供する深い反正規化アンサンブル

Deep Anti-Regularized Ensembles provide reliable out-of-distribution uncertainty quantification ( http://arxiv.org/abs/2304.04042v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Francois Deheeger, Mathilde Mougeot, Nicolas Vayatis(参考訳) 深層アンサンブルが有望な手法であることを証明した高次元回帰・分類における不確実性定量化の問題を考える。 近年の観測では、深層アンサンブルはしばしば訓練領域の外で過度に信頼された見積を返すことが示されており、これは現実のシナリオではシフト分布がしばしば発生するため、大きな制限である。 この問題に対する主な課題は、アンサンブル出力の多様化と正確な分布予測の間のトレードオフを解決することである。 本研究では,トレーニングデータに適合する重みを持つネットワークの集合が,この2つの目的に合致する可能性が高いことを示す。 このようなアンサンブルを,小重量をペナライズする元来の反正則化用語と,許容範囲で分配損失を抑える重量増加の制御プロセスに基づいて,簡便かつ実用的な方法で生成する。 開発したアプローチでは、トレードオフのハイパーパラメータ校正も不要な、分散外のトレーニングデータを必要としない。 このアプローチの理論的枠組みを導出し,提案する最適化を「水に満ちた」問題と見なすことができることを示した。 回帰および分類設定におけるいくつかの実験は、Dep Anti-Regularized Ensembles (DARE)が、最近のディープアンサンブルやアウト・オブ・ディストリビューション検出法と比較してトレーニング領域外の不確実性定量化を著しく改善していることを強調している。 すべての実験は再現可能であり、ソースコードは \url{https://github.com/antoinedemathelin/DARE} で入手できる。

We consider the problem of uncertainty quantification in high dimensional regression and classification for which deep ensemble have proven to be promising methods. Recent observations have shown that deep ensemble often return overconfident estimates outside the training domain, which is a major limitation because shifted distributions are often encountered in real-life scenarios. The principal challenge for this problem is to solve the trade-off between increasing the diversity of the ensemble outputs and making accurate in-distribution predictions. In this work, we show that an ensemble of networks with large weights fitting the training data are likely to meet these two objectives. We derive a simple and practical approach to produce such ensembles, based on an original anti-regularization term penalizing small weights and a control process of the weight increase which maintains the in-distribution loss under an acceptable threshold. The developed approach does not require any out-of-distribution training data neither any trade-off hyper-parameter calibration. We derive a theoretical framework for this approach and show that the proposed optimization can be seen as a "water-filling" problem. Several experiments in both regression and classification settings highlight that Deep Anti-Regularized Ensembles (DARE) significantly improve uncertainty quantification outside the training domain in comparison to recent deep ensembles and out-of-distribution detection methods. All the conducted experiments are reproducible and the source code is available at \url{https://github.com/antoinedemathelin/DARE}.
翻訳日:2023-04-11 18:06:16 公開日:2023-04-08
# RescueSNN:永続的故障下でのスパイクニューラルネットワーク加速器の信頼性向上

RescueSNN: Enabling Reliable Executions on Spiking Neural Network Accelerators under Permanent Faults ( http://arxiv.org/abs/2304.04041v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 資源制約のある組込みシステムにおけるスパイキングニューラルネットワーク(snn)処理の性能とエネルギー効率を最大化するため、専用ハードウェアアクセラレータ/チップを用いる。 しかし、これらのSNNチップは、重量記憶機能やニューロンの挙動に影響を及ぼす永続的な障害に悩まされ、結果として潜在的な精度低下とシステム機能不全を引き起こす可能性がある。 このような恒久的な欠陥は、製造工程中の製造欠陥や、実行時の装置/トランジスタ損傷(例えば、摩耗による損傷)から生じる可能性がある。 しかし,SNNチップにおける永久断層の影響と各緩和技術については,まだ十分に研究されていない。 そこで本研究では,SNNチップの計算機エンジンにおける永久欠陥を軽減する手法であるRescueSNNを提案し,スループットと品質を維持しつつ,設計時間と再トレーニングコストを大幅に削減する。 RescueSNN法の主な考え方は,(1)永久断層下でのSNNの特性解析,(2)有効故障認識マッピング(FAM)によるSNN耐故障性の向上,(3)FAMをサポートする軽量ハードウェア拡張の開発である。 我々のFAM技術はSNN計算エンジンの故障マップを利用する 一 不足記憶細胞に重みビットをマッピングする場合の体重減少を最小限にすること 2)SNN操作やデータフローの処理を考慮しつつ,精度とスループットを維持するために,重要な精度劣化を生じさせない故障ニューロンを選択的に採用する。 実験の結果,我々のRescueSNNは高い故障率(潜在的な故障箇所の0.5パーセント)でスループットを25%以下に抑えつつ,最大80%の精度向上を実現していることがわかった。

To maximize the performance and energy efficiency of Spiking Neural Network (SNN) processing on resource-constrained embedded systems, specialized hardware accelerators/chips are employed. However, these SNN chips may suffer from permanent faults which can affect the functionality of weight memory and neuron behavior, thereby causing potentially significant accuracy degradation and system malfunctioning. Such permanent faults may come from manufacturing defects during the fabrication process, and/or from device/transistor damages (e.g., due to wear out) during the run-time operation. However, the impact of permanent faults in SNN chips and the respective mitigation techniques have not been thoroughly investigated yet. Toward this, we propose RescueSNN, a novel methodology to mitigate permanent faults in the compute engine of SNN chips without requiring additional retraining, thereby significantly cutting down the design time and retraining costs, while maintaining the throughput and quality. The key ideas of our RescueSNN methodology are (1) analyzing the characteristics of SNN under permanent faults; (2) leveraging this analysis to improve the SNN fault-tolerance through effective fault-aware mapping (FAM); and (3) devising lightweight hardware enhancements to support FAM. Our FAM technique leverages the fault map of SNN compute engine for (i) minimizing weight corruption when mapping weight bits on the faulty memory cells, and (ii) selectively employing faulty neurons that do not cause significant accuracy degradation to maintain accuracy and throughput, while considering the SNN operations and processing dataflow. The experimental results show that our RescueSNN improves accuracy by up to 80% while maintaining the throughput reduction below 25% in high fault rate (e.g., 0.5 of the potential fault locations), as compared to running SNNs on the faulty chip without mitigation.
翻訳日:2023-04-11 18:05:48 公開日:2023-04-08
# EnforceSNN:組み込みシステムにおける近似DRAMを考慮したレジリエントかつエネルギー効率の良いスパイクニューラルネットワーク推論の実現

EnforceSNN: Enabling Resilient and Energy-Efficient Spiking Neural Network Inference considering Approximate DRAMs for Embedded Systems ( http://arxiv.org/abs/2304.04039v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、非教師なし設定下で高い精度を達成する能力と、バイオプレース可能な計算による運用電力/エネルギーの低さを示している。 以前の研究では、DRAMベースのオフチップメモリアクセスがSNN処理のエネルギー消費を支配していることが分かった。 しかし、最先端の研究はDRAMのアクセス当たりのエネルギー効率を最適化しないため、SNNベースのシステムがさらなるエネルギー効率向上を達成するのを妨げている。 アクセス当たりのDRAMエネルギーを大幅に削減するために、有効な解決策はDRAM供給電圧を下げることであるが、これはDRAMセル(いわゆる近似DRAM)のエラーにつながる可能性がある。 そこで本研究では, 組込みシステムにおける低電圧DRAMを用いたレジリエンスおよびエネルギー効率のよいSNN推論のためのソリューションを提供する, 新たな設計フレームワークである \textit{EnforceSNN} を提案する。 The key mechanisms of our EnforceSNN are: (1) employing quantized weights to reduce the DRAM access energy; (2) devising an efficient DRAM mapping policy to minimize the DRAM energy-per-access; (3) analyzing the SNN error tolerance to understand its accuracy profile considering different bit error rate (BER) values; (4) leveraging the information for developing an efficient fault-aware training (FAT) that considers different BER values and bit error locations in DRAM to improve the SNN error tolerance; and (5) developing an algorithm to select the SNN model that offers good trade-offs among accuracy, memory, and energy consumption. 実験の結果,我々の EnforceSNN は,DRAM のベースラインである SNN と比較して精度(すなわち,BER が 10^-3 以下である場合)を維持しつつ,最大84.9 % のDRAM 省エネを実現し,DRAM データのスループットの4.1 倍の高速化を実現していることがわかった。

Spiking Neural Networks (SNNs) have shown capabilities of achieving high accuracy under unsupervised settings and low operational power/energy due to their bio-plausible computations. Previous studies identified that DRAM-based off-chip memory accesses dominate the energy consumption of SNN processing. However, state-of-the-art works do not optimize the DRAM energy-per-access, thereby hindering the SNN-based systems from achieving further energy efficiency gains. To substantially reduce the DRAM energy-per-access, an effective solution is to decrease the DRAM supply voltage, but it may lead to errors in DRAM cells (i.e., so-called approximate DRAM). Towards this, we propose \textit{EnforceSNN}, a novel design framework that provides a solution for resilient and energy-efficient SNN inference using reduced-voltage DRAM for embedded systems. The key mechanisms of our EnforceSNN are: (1) employing quantized weights to reduce the DRAM access energy; (2) devising an efficient DRAM mapping policy to minimize the DRAM energy-per-access; (3) analyzing the SNN error tolerance to understand its accuracy profile considering different bit error rate (BER) values; (4) leveraging the information for developing an efficient fault-aware training (FAT) that considers different BER values and bit error locations in DRAM to improve the SNN error tolerance; and (5) developing an algorithm to select the SNN model that offers good trade-offs among accuracy, memory, and energy consumption. The experimental results show that our EnforceSNN maintains the accuracy (i.e., no accuracy loss for BER less-or-equal 10^-3) as compared to the baseline SNN with accurate DRAM, while achieving up to 84.9\% of DRAM energy saving and up to 4.1x speed-up of DRAM data throughput across different network sizes.
翻訳日:2023-04-11 18:05:17 公開日:2023-04-08
# 詩:多視点ステレオの点埋め込みによる手再建

POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo ( http://arxiv.org/abs/2304.04038v1 )

ライセンス: Link先を確認
Lixin Yang, Jian Xu, Licheng Zhong, Xinyu Zhan, Zhicheng Wang, Kejian Wu, Cewu Lu(参考訳) マルチビューベースの視覚タスクでは,3次元幾何学的特徴を捉えるニューラルネットワークの実現が不可欠である。 従来の手法は通常、マルチビューステレオの3D情報を2D機能にエンコードする。 これとは対照的に,マルチビューステレオに埋め込まれた3Dポインツを直接操作してハンドメッシュを再構築する,POEMという新しい手法を提案する。 ポイントは3D情報の自然な形態であり、異なるビューに異なる投影があるため、ビュー間で特徴を融合させる理想的な媒体である。 したがって、複雑な3Dハンドメッシュを3Dポイントの集合で表現できるという、シンプルで効果的なアイデアを念頭に置いている。 1)はマルチビューステレオに埋め込まれる。 2)多視点画像の特徴を持ち、 3) 手を囲む。 ポイントのパワーを活用するために,ポイントベースの特徴融合とクロスセットポイントアテンション機構という2つの操作を設計する。 3つの挑戦的なマルチビューデータセットの評価は、POEMが手メッシュ再構築の最先端よりも優れていることを示している。 コードとモデルはhttps://github.com/lixiny/POEMで研究することができる。

Enable neural networks to capture 3D geometrical-aware features is essential in multi-view based vision tasks. Previous methods usually encode the 3D information of multi-view stereo into the 2D features. In contrast, we present a novel method, named POEM, that directly operates on the 3D POints Embedded in the Multi-view stereo for reconstructing hand mesh in it. Point is a natural form of 3D information and an ideal medium for fusing features across views, as it has different projections on different views. Our method is thus in light of a simple yet effective idea, that a complex 3D hand mesh can be represented by a set of 3D points that 1) are embedded in the multi-view stereo, 2) carry features from the multi-view images, and 3) encircle the hand. To leverage the power of points, we design two operations: point-based feature fusion and cross-set point attention mechanism. Evaluation on three challenging multi-view datasets shows that POEM outperforms the state-of-the-art in hand mesh reconstruction. Code and models are available for research at https://github.com/lixiny/POEM.
翻訳日:2023-04-11 18:04:41 公開日:2023-04-08
# ロバストと生成モデルとのつながりを探る

Exploring the Connection between Robust and Generative Models ( http://arxiv.org/abs/2304.04033v1 )

ライセンス: Link先を確認
Senad Beadini and Iacopo Masi(参考訳) 我々は,敵対的訓練(AT)で訓練された頑健な識別的分類器と,エネルギーベースモデル(EBM)の形で生成的モデリングを結びつける研究を提案する。 我々は、識別的分類器の損失を分解し、識別的モデルが入力データ密度も認識していることを示す。 一般的な仮定は、逆数点が入力データの多様体を残していることであるが、我々の研究は、驚くほど、入力空間の未ターゲットの逆数点が、識別型分類器の内部に隠された生成モデルの下では、EMMのエネルギーが低いことを発見した。 非標的攻撃は、自然データよりもさらに可能性が高く、攻撃強度が増大するにつれてその可能性が増加する。 これにより、それらを簡単に検出し、分類器を騙してデータセットに似たエネルギーを持つ、High-Energy PGDと呼ばれる新しい攻撃を作れます。

We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier -- have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set.
翻訳日:2023-04-11 18:04:24 公開日:2023-04-08
# モンテカルロ木探索による大規模多目的最適化の性能低下

Improving Performance Insensitivity of Large-scale Multiobjective Optimization via Monte Carlo Tree Search ( http://arxiv.org/abs/2304.04071v1 )

ライセンス: Link先を確認
Haokai Hong, Min Jiang, and Gary G. Yen(参考訳) 大規模多目的最適化問題(LSMOP)は、複数の競合する目的を同時に最適化し、数百の決定変数を含むことを特徴とする。 工学分野における実世界のアプリケーションの多くは、LSMOPとしてモデル化することができる。 } この要件は、通常、アルゴリズムの実行結果が、パフォーマンスの観点からのすべての実行に良いだけでなく、複数の実行のパフォーマンスが余りに変動しすぎないこと、すなわち、アルゴリズムが優れた非感受性を示すことを意味する。 実行毎にかなりの計算資源が要求されると考えると、大規模多目的最適化アルゴリズムの性能とアルゴリズムの不感性を改善することが不可欠である。 しかし、既存の大規模多目的最適化アルゴリズムはアルゴリズムの性能向上にのみ焦点をあてており、不感度特性は無視されている。 本研究では,大規模多目的最適化問題に対する性能と非感受性を改善することを目的とした,いわゆるlmmoctsであるモンテカルロ木探索に基づくlsmopsの解法を提案する。 提案手法では,モンテカルロ木上に新しいノードを構築する決定変数をサンプリングし,最適化と評価を行う。 大規模決定変数が原因で生じる性能感度を下げるため,さらなる探索を行うための評価がよいノードを選択する。 } 提案アルゴリズムと,異なるベンチマーク関数の最先端設計との比較を行った。 また,アルゴリズムの感度を測定するための2つの指標を提案する。 実験の結果,大規模多目的最適化問題に対する提案手法の有効性と性能の非感受性が確認された。

The large-scale multiobjective optimization problem (LSMOP) is characterized by simultaneously optimizing multiple conflicting objectives and involving hundreds of decision variables. {Many real-world applications in engineering fields can be modeled as LSMOPs; simultaneously, engineering applications require insensitivity in performance.} This requirement usually means that the results from the algorithm runs should not only be good for every run in terms of performance but also that the performance of multiple runs should not fluctuate too much, i.e., the algorithm shows good insensitivity. Considering that substantial computational resources are requested for each run, it is essential to improve upon the performance of the large-scale multiobjective optimization algorithm, as well as the insensitivity of the algorithm. However, existing large-scale multiobjective optimization algorithms solely focus on improving the performance of the algorithms, leaving the insensitivity characteristics unattended. {In this work, we propose an evolutionary algorithm for solving LSMOPs based on Monte Carlo tree search, the so-called LMMOCTS, which aims to improve the performance and insensitivity for large-scale multiobjective optimization problems.} The proposed method samples the decision variables to construct new nodes on the Monte Carlo tree for optimization and evaluation. {It selects nodes with good evaluation for further search to reduce the performance sensitivity caused by large-scale decision variables.} We compare the proposed algorithm with several state-of-the-art designs on different benchmark functions. We also propose two metrics to measure the sensitivity of the algorithm. The experimental results confirm the effectiveness and performance insensitivity of the proposed design for solving large-scale multiobjective optimization problems.
翻訳日:2023-04-11 17:58:35 公開日:2023-04-08
# 単語レベルペルシャ読解データセット

Word-level Persian Lipreading Dataset ( http://arxiv.org/abs/2304.04068v1 )

ライセンス: Link先を確認
Javad Peymanfard, Ali Lashini, Samin Heydarian, Hossein Zeinali, Nasser Mozayani(参考訳) 近年、深層学習の進歩により、口唇読書は目覚ましい進歩を遂げている。 それでも、そのような進歩は適切なデータセットである。 本稿では,約1,800人の話者から244,000本のビデオを含む,ペルシャ語レベルのリップリードのための新しいインザワイルドデータセットを提供する。 本研究では,この分野での最先端の手法を評価し,単語レベルの唇読解に新しいアプローチを用いた。 本手法では,av-hubertモデルを用いて特徴抽出を行い,より優れた性能を得た。

Lip-reading has made impressive progress in recent years, driven by advances in deep learning. Nonetheless, the prerequisite such advances is a suitable dataset. This paper provides a new in-the-wild dataset for Persian word-level lipreading containing 244,000 videos from approximately 1,800 speakers. We evaluated the state-of-the-art method in this field and used a novel approach for word-level lip-reading. In this method, we used the AV-HuBERT model for feature extraction and obtained significantly better performance on our dataset.
翻訳日:2023-04-11 17:58:12 公開日:2023-04-08
# 大規模多目的最適化のためのレコメンダシステムアプローチ

A Recommender System Approach for Very Large-scale Multiobjective Optimization ( http://arxiv.org/abs/2304.04067v1 )

ライセンス: Link先を確認
Haokai Hong, Min Jiang, Jonathan M. Garibaldi, Qiuzhen Lin and Kay Chen Tan(参考訳) 非常に大きな多目的最適化問題を、決定変数の数が10万次元を超える多目的最適化問題と定義する。 多くの現実世界の問題は数十万の変数を最適化する必要があるため、これは重要な問題である。 既存の進化的最適化手法は、この非常に大規模な問題を扱う場合、このような要件に欠ける。 歴史的相互作用の少ない非常に大規模な項目を扱うための既存のレコメンダシステムの成功に触発されて,本論文では,レコメンダシステム(vmor)を用いた大規模多目的最適化手法を提案する。 提案手法の考え方は,定義した超大規模問題をレコメンダシステムによって解決可能な問題に変換することである。 フレームワークでは、ソリューションはユーザと見なされ、さまざまな進化方向が推奨を待っているアイテムである。 我々は,多目的最適化問題に対する最適解を許容時間内に非常に大きな探索空間に見つけるために,トンプソンサンプリングを用いて,異なるユーザ(ソリューション)に対して最適な項目(進化方向)を推薦する。 提案手法は,10万次元から50万次元の異なる問題に対して実験を行い,提案手法が優れた性能を示すだけでなく,既存の手法よりも大幅に改善することを示す。

We define very large multi-objective optimization problems to be multiobjective optimization problems in which the number of decision variables is greater than 100,000 dimensions. This is an important class of problems as many real-world problems require optimizing hundreds of thousands of variables. Existing evolutionary optimization methods fall short of such requirements when dealing with problems at this very large scale. Inspired by the success of existing recommender systems to handle very large-scale items with limited historical interactions, in this paper we propose a method termed Very large-scale Multiobjective Optimization through Recommender Systems (VMORS). The idea of the proposed method is to transform the defined such very large-scale problems into a problem that can be tackled by a recommender system. In the framework, the solutions are regarded as users, and the different evolution directions are items waiting for the recommendation. We use Thompson sampling to recommend the most suitable items (evolutionary directions) for different users (solutions), in order to locate the optimal solution to a multiobjective optimization problem in a very large search space within acceptable time. We test our proposed method on different problems from 100,000 to 500,000 dimensions, and experimental results show that our method not only shows good performance but also significant improvement over existing methods.
翻訳日:2023-04-11 17:58:04 公開日:2023-04-08
# 安全安定制御のためのバリア・リャプノフアクター・クリティカル強化学習手法

A Barrier-Lyapunov Actor-Critic Reinforcement Learning Approach for Safe and Stable Control ( http://arxiv.org/abs/2304.04066v1 )

ライセンス: Link先を確認
Liqun Zhao, Konstantinos Gatsis, Antonis Papachristodoulou(参考訳) 強化学習(rl)はビデオゲームやロボティクスといった様々な分野で印象的なパフォーマンスを示している。 しかしながら、制御の観点からは2つの重要な特性である安全性と安定性を確保することは、現実のシステムを制御するためにrlを使用する場合の大きな課題である。 本稿では、まず、RLシステムの安全性と安定性を定義し、次に制御バリア関数(CBF)と制御リアプノフ関数(CLF)をRLのアクター・クリティカルな手法と組み合わせ、前述の安全性と安定性を維持するためのバリア・リャプノフ・アクター・クリティカル(BLAC)フレームワークを提案する。 このフレームワークでは、リプレイバッファからサンプリングされたデータに基づいて安全のためのcbf制約と安定性のためのclf制約を構築し、rlベースのコントローラのパラメータを更新するために拡張ラグランジアン法を用いる。 さらに、安全性と安定性の制約を同時に満たさない場合に、RLベースのコントローラが有効な制御信号を提供できない場合に、追加のバックアップコントローラを導入する。 シミュレーションの結果、このフレームワークはシステムが望ましい状態に近づくのに役立ち、ベースラインアルゴリズムと比較して安全性制約の違反が少なくなることを示す。

Reinforcement learning (RL) has demonstrated impressive performance in various areas such as video games and robotics. However, ensuring safety and stability, which are two critical properties from a control perspective, remains a significant challenge when using RL to control real-world systems. In this paper, we first provide definitions of safety and stability for the RL system, and then combine the control barrier function (CBF) and control Lyapunov function (CLF) methods with the actor-critic method in RL to propose a Barrier-Lyapunov Actor-Critic (BLAC) framework which helps maintain the aforementioned safety and stability for the system. In this framework, CBF constraints for safety and CLF constraint for stability are constructed based on the data sampled from the replay buffer, and the augmented Lagrangian method is used to update the parameters of the RL-based controller. Furthermore, an additional backup controller is introduced in case the RL-based controller cannot provide valid control signals when safety and stability constraints cannot be satisfied simultaneously. Simulation results show that this framework yields a controller that can help the system approach the desired state and cause fewer violations of safety constraints compared to baseline algorithms.
翻訳日:2023-04-11 17:57:43 公開日:2023-04-08
# ニューラルネットワーク生成応答曲線の反事実的説明

Counterfactual Explanations of Neural Network-Generated Response Curves ( http://arxiv.org/abs/2304.04063v1 )

ライセンス: Link先を確認
Giorgio Morales and John Sheppard(参考訳) 反応曲線は、様々な刺激に対する感度システムの応答の大きさを示す。 しかし、そのようなシステムの応答は必ずしも独立ではない複数の刺激(すなわち入力特徴)に敏感である。 その結果、選択された入力特徴(「アクティブ特徴」と呼ばれる)に対して生成された応答曲線の形状は、他の入力特徴(「パッシブ特徴」と呼ばれる)の値に依存する可能性がある。 本研究では,回帰ニューラルネットワークを用いて応答を近似するシステムについて考察する。 本稿では,ニューラルネットワークブラックボックスが生成する応答曲線の形状に最も関連性が高い特徴の同定に,CFE(反実的説明)を用いることを提案する。 cfeは多目的最適化問題を解決する遺伝的アルゴリズムに基づくアプローチによって生成される。 特に、アクティブな特徴に対して生成された応答曲線を考えると、CFEは応答曲線の形状を変えるために修正される必要のある受動的特徴の最小の組み合わせを見つける。 我々は,1次元入力と2次元入力を用いた2つの収量予測データセットを用いた合成データセット上で実験を行った。 合成データセットで得られた特徴量と特徴の組み合わせの関連性ランキングは,問題発生に用いた方程式の解析と一致した。 収量予測データセットで得られた結果から, 受動特性の肥料応答性への影響は各分野の地形特性に依存することがわかった。

Response curves exhibit the magnitude of the response of a sensitive system to a varying stimulus. However, response of such systems may be sensitive to multiple stimuli (i.e., input features) that are not necessarily independent. As a consequence, the shape of response curves generated for a selected input feature (referred to as "active feature") might depend on the values of the other input features (referred to as "passive features"). In this work we consider the case of systems whose response is approximated using regression neural networks. We propose to use counterfactual explanations (CFEs) for the identification of the features with the highest relevance on the shape of response curves generated by neural network black boxes. CFEs are generated by a genetic algorithm-based approach that solves a multi-objective optimization problem. In particular, given a response curve generated for an active feature, a CFE finds the minimum combination of passive features that need to be modified to alter the shape of the response curve. We tested our method on a synthetic dataset with 1-D inputs and two crop yield prediction datasets with 2-D inputs. The relevance ranking of features and feature combinations obtained on the synthetic dataset coincided with the analysis of the equation that was used to generate the problem. Results obtained on the yield prediction datasets revealed that the impact on fertilizer responsivity of passive features depends on the terrain characteristics of each field.
翻訳日:2023-04-11 17:57:19 公開日:2023-04-08
# マルチモーダルディープニューラルネットワークによる多発性硬化症の重症度予測

Predicting multiple sclerosis disease severity with multimodal deep neural networks ( http://arxiv.org/abs/2304.04062v1 )

ライセンス: Link先を確認
Kai Zhang, John A. Lincoln, Xiaoqian Jiang, Elmer V. Bernstam, and Shayan Shams(参考訳) 多発性硬化症(Multiple Sclerosis、MS)は、ヒトの脳と脊髄に発生する慢性疾患であり、神経の恒久的な損傷や悪化を引き起こす。 MS病の重症度は、いくつかの機能的サブスコアからなるEDSS(Expanded Disability Status Scale)によって監視される。 早期かつ正確なMS病重症度分類は早期治療介入戦略を適用して疾患の進行を遅らせたり予防するために重要である。 近年のディープラーニングの進歩とElectronic Health Records(EHR)の普及により、この目標にデータ駆動および予測モデリングツールを適用する機会が生まれる。 単一モーダル機械学習とディープラーニングアルゴリズムの使用に焦点を当てた従来の研究は、データ不足やモデル単純さによる予測精度の面で制限されていた。 本稿では,病院訪問時の多発性硬化症の重症度を予測するために,マルチモーダル縦型および縦型ehrデータを用いた方法を提案する。 この作品には2つの重要な貢献がある。 まず,構造化ehrデータ,神経画像データ,臨床ノートを活用し,患者のms疾患の重症度を予測するマルチモーダル深層学習フレームワークを構築するためのパイロット活動について述べる。 提案したパイプラインは、単一モーダルデータを用いたモデルと比較して、受信者動作特性曲線(AUROC)の下での面積の最大25%増加を示す。 第二に、この研究は、各データモダリティに埋め込まれた有用な信号量について、MS病予測に関する洞察を与え、データ収集プロセスを改善する可能性がある。

Multiple Sclerosis (MS) is a chronic disease developed in human brain and spinal cord, which can cause permanent damage or deterioration of the nerves. The severity of MS disease is monitored by the Expanded Disability Status Scale (EDSS), composed of several functional sub-scores. Early and accurate classification of MS disease severity is critical for slowing down or preventing disease progression via applying early therapeutic intervention strategies. Recent advances in deep learning and the wide use of Electronic Health Records (EHR) creates opportunities to apply data-driven and predictive modeling tools for this goal. Previous studies focusing on using single-modal machine learning and deep learning algorithms were limited in terms of prediction accuracy due to the data insufficiency or model simplicity. In this paper, we proposed an idea of using patients' multimodal longitudinal and longitudinal EHR data to predict multiple sclerosis disease severity at the hospital visit. This work has two important contributions. First, we describe a pilot effort to leverage structured EHR data, neuroimaging data and clinical notes to build a multi-modal deep learning framework to predict patient's MS disease severity. The proposed pipeline demonstrates up to 25% increase in terms of the area under the Area Under the Receiver Operating Characteristic curve (AUROC) compared to models using single-modal data. Second, the study also provides insights regarding the amount useful signal embedded in each data modality with respect to MS disease prediction, which may improve data collection processes.
翻訳日:2023-04-11 17:56:59 公開日:2023-04-08
# 不完全な3次元顔構造再構築のためのMICAモデルへの自己監督学習の適用

Application of Self-Supervised Learning to MICA Model for Reconstructing Imperfect 3D Facial Structures ( http://arxiv.org/abs/2304.04060v1 )

ライセンス: Link先を確認
Phuong D. Nguyen, Thinh D. Le, Duong Q. Nguyen, Binh Nguyen, H. Nguyen-Xuan(参考訳) 本研究では,自己教師型学習手法を用いて,事前学習したMICAモデルと不完全な顔データセットの統合を強調した。 本稿では, 患者の治療過程において, 医師を効果的に支援する3Dプリント可能なアウトプットを提示する。 以上の結果から, モデルが傷を隠蔽し, 顔の包括的再建を実現する能力は, 識別可能な傷跡を伴わずに強調した。 予備訓練モデルの活用と補足訓練の数時間しか必要とせず,損傷や不完全な顔の特徴を再現するための最適なモデルを考案する。 現代の3Dプリンティング技術を利用して,実験室環境における患者のための現実的な迷彩マスクモデルを作成するための標準化されたプロトコルを構築した。

In this study, we emphasize the integration of a pre-trained MICA model with an imperfect face dataset, employing a self-supervised learning approach. We present an innovative method for regenerating flawed facial structures, yielding 3D printable outputs that effectively support physicians in their patient treatment process. Our results highlight the model's capacity for concealing scars and achieving comprehensive facial reconstructions without discernible scarring. By capitalizing on pre-trained models and necessitating only a few hours of supplementary training, our methodology adeptly devises an optimal model for reconstructing damaged and imperfect facial features. Harnessing contemporary 3D printing technology, we institute a standardized protocol for fabricating realistic, camouflaging mask models for patients in a laboratory environment.
翻訳日:2023-04-11 17:56:33 公開日:2023-04-08
# Open-Scenario半教師型医用画像分類に向けて

Towards Open-Scenario Semi-supervised Medical Image Classification ( http://arxiv.org/abs/2304.04059v1 )

ライセンス: Link先を確認
Lie Ju, Yicheng Wu, Wei Feng, Zhen Yu, Lin Wang, Zhuoting Zhu, Zongyuan Ge(参考訳) 半教師付き学習(SSL)は、特にディープラーニング手法において、適切なラベル付きトレーニングデータを収集するコストを低減し、多くの注目を集めている。 しかし、従来のsslはラベル付きデータとラベル付きデータは同じディストリビューション、例えばクラスとドメインからのものであるべきだという仮定に基づいている。 しかし、実際のシナリオでは、ラベルなしデータは未確認のクラスや未確認のドメインからのものであり、既存のSSLメソッドでそれらを活用することは依然として困難である。 そこで本稿では,この未表示データを利用した半教師付き医療画像分類のための統一的な枠組みを提案する。 まず,両経路外乱推定と呼ばれる新しいスコアリング機構を設計し,未知のクラスからサンプルを同定する。 一方、未検出領域のサンプルを抽出するために、有効な変分オートエンコーダ(vae)プリトレーニングを適用する。 その後、検出された未確認領域のサンプルの価値を完全に活用し、半教師付きトレーニングを促進するためにドメイン適応を行う。 提案する皮膚科と眼科の枠組みについて検討した。 広範囲にわたる実験により,医療用SSLシナリオにおいて,より優れた分類性能が得られた。

Semi-supervised learning (SSL) has attracted much attention since it reduces the expensive costs of collecting adequate well-labeled training data, especially for deep learning methods. However, traditional SSL is built upon an assumption that labeled and unlabeled data should be from the same distribution e.g., classes and domains. However, in practical scenarios, unlabeled data would be from unseen classes or unseen domains, and it is still challenging to exploit them by existing SSL methods. Therefore, in this paper, we proposed a unified framework to leverage these unseen unlabeled data for open-scenario semi-supervised medical image classification. We first design a novel scoring mechanism, called dual-path outliers estimation, to identify samples from unseen classes. Meanwhile, to extract unseen-domain samples, we then apply an effective variational autoencoder (VAE) pre-training. After that, we conduct domain adaptation to fully exploit the value of the detected unseen-domain samples to boost semi-supervised training. We evaluated our proposed framework on dermatology and ophthalmology tasks. Extensive experiments demonstrate our model can achieve superior classification performance in various medical SSL scenarios.
翻訳日:2023-04-11 17:56:19 公開日:2023-04-08
# 量子多体状態のエネルギーベース表現の学習

Learning Energy-Based Representations of Quantum Many-Body States ( http://arxiv.org/abs/2304.04058v1 )

ライセンス: Link先を確認
Abhijith Jayakumar, Marc Vuffray, Andrey Y. Lokhov(参考訳) 古典コンピュータにおける量子多体状態の効率的な表現は、非常に実用的な問題である。 量子状態の理想的な表現は、系の構造と対称性から情報を得た簡潔なキャラクタリゼーションと、物理的な観測可能性を予測する能力を組み合わせたものである。 近年,可観測物の予測が可能な古典表現 [1-6] や物理対称性 [8] を構築するために,機械学習のアプローチが数多く使用されている。 しかし、量子状態の構造は通常、システム[9-12]の事前知識に基づいて特別のアンサッツが採用されない限り失われる。 さらに、そのようなアプローチのほとんどは、他と比較して学習しやすい状態に関する情報を提供していない。 本稿では,古典スピン系の熱状態のモデル化に用いるギブス分布から導かれる量子多体状態の生成エネルギーに基づく新しい表現を提案する。 量子状態の族に関する事前情報に基づいて、エネルギー関数は、明示的な低次多項式やニューラルネットワークのような一般パラメトリック族を用いて、少数のパラメータで指定することができ、システムの既知の対称性を自然に含むことができる。 これらの表現は,物理観測値の予測が可能な形式で,正確なアルゴリズムを用いてデータから効率的に学習できることを示す。 重要なことに、学習エネルギー関数の構造は、与えられた量子状態のクラスに対する学習の難しさの自然な説明を与える。

Efficient representation of quantum many-body states on classical computers is a problem of enormous practical interest. An ideal representation of a quantum state combines a succinct characterization informed by the system's structure and symmetries, along with the ability to predict the physical observables of interest. A number of machine learning approaches have been recently used to construct such classical representations [1-6] which enable predictions of observables [7] and account for physical symmetries [8]. However, the structure of a quantum state gets typically lost unless a specialized ansatz is employed based on prior knowledge of the system [9-12]. Moreover, most such approaches give no information about what states are easier to learn in comparison to others. Here, we propose a new generative energy-based representation of quantum many-body states derived from Gibbs distributions used for modeling the thermal states of classical spin systems. Based on the prior information on a family of quantum states, the energy function can be specified by a small number of parameters using an explicit low-degree polynomial or a generic parametric family such as neural nets, and can naturally include the known symmetries of the system. Our results show that such a representation can be efficiently learned from data using exact algorithms in a form that enables the prediction of expectation values of physical observables. Importantly, the structure of the learned energy function provides a natural explanation for the hardness of learning for a given class of quantum states.
翻訳日:2023-04-11 17:56:00 公開日:2023-04-08
# tmn at semeval-2023 task 9: xlm-t, google translate, and ensemble learningを用いた多言語ツイートの親密性検出

tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using XLM-T, Google Translate, and Ensemble Learning ( http://arxiv.org/abs/2304.04054v1 )

ライセンス: Link先を確認
Anna Glazkova(参考訳) 本稿では,semeval-2023タスク9用に設計されたトランスフォーマーシステムについて述べる。 このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。 大会の公式トレーニングは6つの言語(英語、スペイン語、イタリア語、ポルトガル語、フランス語、中国語)で行われた。 テストセットには、与えられた6つの言語と、トレーニングセットに提示されない4つの言語(ヒンディー語、アラビア語、オランダ語、韓国語)の外部データが含まれていた。 我々はTwitterドメインに適応した多言語RoBERTaモデルであるXLM-Tのアンサンブルに基づくソリューションを提示した。 未発見の言語のパフォーマンスを向上させるため、各ツイートは英語の翻訳によって補われた。 我々は,未熟な言語と比較して,微調整で見られる言語に対する翻訳データの有効性と,トランスフォーマチックモデルにおける翻訳データ使用のための推定戦略について検討した。 私たちのソリューションは、テストセットでPearsonのrが0.599であるのに対して、リーダーボードで4位でした。 提案システムでは,45項目の平均スコアに対して,最大0.088Pearson's rを改良する。

The paper describes a transformer-based system designed for SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysis. The purpose of the task was to predict the intimacy of tweets in a range from 1 (not intimate at all) to 5 (very intimate). The official training set for the competition consisted of tweets in six languages (English, Spanish, Italian, Portuguese, French, and Chinese). The test set included the given six languages as well as external data with four languages not presented in the training set (Hindi, Arabic, Dutch, and Korean). We presented a solution based on an ensemble of XLM-T, a multilingual RoBERTa model adapted to the Twitter domain. To improve the performance of unseen languages, each tweet was supplemented by its English translation. We explored the effectiveness of translated data for the languages seen in fine-tuning compared to unseen languages and estimated strategies for using translated data in transformer-based models. Our solution ranked 4th on the leaderboard while achieving an overall Pearson's r of 0.599 over the test set. The proposed system improves up to 0.088 Pearson's r over a score averaged across all 45 submissions.
翻訳日:2023-04-11 17:55:39 公開日:2023-04-08
# tc-vae: 分散データ生成要因を明らかにする

TC-VAE: Uncovering Out-of-Distribution Data Generative Factors ( http://arxiv.org/abs/2304.04103v1 )

ライセンス: Link先を確認
Cristian Meo, Anirudh Goyal and Justin Dauwels(参考訳) データ生成要因を明らかにすることは、絡み合い学習の究極の目標である。 多くの研究が、データセットの根底にある生成因子を解明できる無絡生成モデルを提案したが、これまでのところ、OOD生成因子(すなわちデータセットに明示的に示されていない変動因子)を発見できなかった。 さらに、これらのモデルを検証するために使用されるデータセットは、予め定義された生成因子のバランスの取れた混合を用いて合成され、生成因子がデータセット全体に均一に分散されていることを暗黙的に仮定する。 しかし、実際のデータセットはこの性質を示さない。 本研究では,不均衡生成因子を用いたデータセットの利用の効果を分析し,広く用いられている生成モデルに対して質的・定量的な結果を与える。 さらに,学習した潜在表現と入力データとの結合総関係の下位境界を用いて最適化された生成モデルTC-VAEを提案する。 提案モデルでは, 異なるデータセット上のOOD生成因子を抽出し, 下流のアンタングル化指標を用いて, 関連するベースラインの平均値を上回る性能を示す。

Uncovering data generative factors is the ultimate goal of disentanglement learning. Although many works proposed disentangling generative models able to uncover the underlying generative factors of a dataset, so far no one was able to uncover OOD generative factors (i.e., factors of variations that are not explicitly shown on the dataset). Moreover, the datasets used to validate these models are synthetically generated using a balanced mixture of some predefined generative factors, implicitly assuming that generative factors are uniformly distributed across the datasets. However, real datasets do not present this property. In this work we analyse the effect of using datasets with unbalanced generative factors, providing qualitative and quantitative results for widely used generative models. Moreover, we propose TC-VAE, a generative model optimized using a lower bound of the joint total correlation between the learned latent representations and the input data. We show that the proposed model is able to uncover OOD generative factors on different datasets and outperforms on average the related baselines in terms of downstream disentanglement metrics.
翻訳日:2023-04-11 17:49:16 公開日:2023-04-08
# ディジタルヘルスにおけるブロックチェーンアプリケーションの課題: システムレビュー

Challenges of Blockchain Applications in Digital Health: A Systematic Review ( http://arxiv.org/abs/2304.04101v1 )

ライセンス: Link先を確認
Andrew M. Nguyen(参考訳) デジタルテクノロジーを医療に統合する新興分野であるデジタルヘルスは急速に進化し、医療プラクティスを変革する可能性を秘めている。 ブロックチェーン技術は、データセキュリティ、自動化、相互運用性、患者データオーナシップなど、デジタルヘルスにおけるさまざまな問題に対する潜在的なソリューションとして、大きな注目を集めています。 しかし、多くの利点にもかかわらず、ブロックチェーンは対処しなければならないいくつかの課題と未知に直面している。 この体系的な文献レビューは、デジタルヘルスにおけるブロックチェーンアプリケーションの課題を調査し、現在と将来の障害を克服するためのベストプラクティスを提供することを目的としている。 主な課題として、規制の遵守、エネルギー消費、ネットワーク効果、データ標準、ステークホルダーへのテクノロジのアクセシビリティなどが挙げられる。 デジタルヘルスにおけるブロックチェーンの統合が成功するためには、医療関係者とのコラボレーション、継続的な研究とイノベーションの追求、テクノロジの限界と可能性に関するオープンな議論が不可欠である。

Digital health, an emerging field integrating digital technologies into healthcare, is rapidly evolving and holds the potential to transform medical practices. Blockchain technology has garnered significant attention as a potential solution to various issues within digital health, including data security, automation, interoperability, and patient data ownership. However, despite the numerous advantages, blockchain faces several challenges and unknowns that must be addressed. This systematic literature review aims to explore the challenges of blockchain applications in digital health and provide best practices to overcome current and future roadblocks. Key issues identified include regulatory compliance, energy consumption, network effects, data standards, and the accessibility of the technology to stakeholders. To ensure the successful integration of blockchain within digital health, it is crucial to collaborate with healthcare stakeholders, pursue continued research and innovation, and engage in open discussions about the technology's limitations and potential.
翻訳日:2023-04-11 17:48:57 公開日:2023-04-08
# スケーラブルなテーマ埋め込みによる連続ニュースストリームからの教師なしストーリー発見

Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding ( http://arxiv.org/abs/2304.04099v1 )

ライセンス: Link先を確認
Susik Yoon, Dongha Lee, Yunyi Zhang, Jiawei Han(参考訳) 関連ニュース記事のあるストーリーをリアルタイムで発見することは、高価な人間のアノテーションなしで巨大なニュースストリームを消化するのに役立ちます。 教師なしオンラインストーリー発見のための既存の研究の一般的なアプローチは、ニュース記事を象徴的あるいはグラフベースの埋め込みで表現し、ストーリーに漸進的にクラスタ化することである。 最近の大規模言語モデルは、埋め込みをさらに改善することが期待されているが、記事にすべての情報を無差別にエンコードすることで、モデルを直接採用することは、テキストリッチで進化するニュースストリームを扱うには効果がない。 そこで本研究では,テーマの共有を考慮し,記事やストーリーを動的に表現する,既成の事前学習文エンコーダを用いたテーマ埋め込みを提案する。 教師なしのオンラインストーリー発見のアイデアを実現するために,UTORYは,テーマとタイムアウェアの動的埋め込みと,軽量なストーリーサマリーを駆使した新規な適応クラスタリングという,2つの主要な手法で導入された。 実ニュースデータセットによる徹底的な評価は、USTORYがベースラインよりも高いストーリー発見性能を達成し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることを示している。

Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings.
翻訳日:2023-04-11 17:48:42 公開日:2023-04-08
# Smoothness と Isoperimetry の下でのメトロポリス調整ランゲヴィンアルゴリズムの混合の簡単な証明

A Simple Proof of the Mixing of Metropolis-Adjusted Langevin Algorithm under Smoothness and Isoperimetry ( http://arxiv.org/abs/2304.04095v1 )

ライセンス: Link先を確認
Yuansi Chen and Khashayar Gatmiry(参考訳) 目標密度を$\mathbb{R}^d$でサンプリングするためのメトロポリス調整ランゲヴィンアルゴリズム(MALA)の混合時間について検討した。 対象密度が $\psi_\mu$-isoperimetry を満たすと仮定し、Hessian の作用素ノルムとトレースはそれぞれ $L$ と $\Upsilon$ で有界であると仮定する。 我々の主な結果は、温かいスタートから目標密度まで$\epsilon$-totalの変動距離を達成するために、malaは$o\left(\frac{(l\upsilon)^{\frac12}}{\psi_\mu^2} \log\left(\frac{1}{\epsilon}\right)\right)$の反復で混合する。 特に、この結果はlog-concaveサンプリング設定以上のものであり、混合時間は上限の$l d$ではなく$\upsilon$にのみ依存する。 m$-strongly logconcave と $L$-log-smooth sample set では、MALA~\cite{wu2021minimax} の以前のミニマックス混合境界を回復する。

We study the mixing time of Metropolis-Adjusted Langevin algorithm (MALA) for sampling a target density on $\mathbb{R}^d$. We assume that the target density satisfies $\psi_\mu$-isoperimetry and that the operator norm and trace of its Hessian are bounded by $L$ and $\Upsilon$ respectively. Our main result establishes that, from a warm start, to achieve $\epsilon$-total variation distance to the target density, MALA mixes in $O\left(\frac{(L\Upsilon)^{\frac12}}{\psi_\mu^2} \log\left(\frac{1}{\epsilon}\right)\right)$ iterations. Notably, this result holds beyond the log-concave sampling setting and the mixing time depends on only $\Upsilon$ rather than its upper bound $L d$. In the $m$-strongly logconcave and $L$-log-smooth sampling setting, our bound recovers the previous minimax mixing bound of MALA~\cite{wu2021minimax}.
翻訳日:2023-04-11 17:48:20 公開日:2023-04-08
# 基底素子による効率的な量子回路切断

Efficient Quantum Circuit Cutting by Neglecting Basis Elements ( http://arxiv.org/abs/2304.04093v1 )

ライセンス: Link先を確認
Daniel T. Chen and Ethan H. Hansen and Xinpeng Li and Vinooth Kulkarni and Vipin Chaudhary and Bin Ren and Qiang Guan and Sanmukh Kuppannagari and Ji Liu and Shuai Xu(参考訳) 量子回路切断は、小型でノイズの多いマシンのみを用いて大規模な量子回路を実行するのに役立つ。 直感的には、キュービットワイヤを切断することは、古典的に各要素の量子状態に関する情報を基底集合で渡すものと考えることができる。 カットの数が増えるにつれて、スケールを指数関数的に通過するために必要な量子自由度数が増加する。 カットを行うために必要な古典的および量子的資源を削減するための簡単な削減手法を提案する。 特に、いくつかのカットでは、特定の基底要素が「情報なし」をキュービット線に通し、効果的に無視できると認識する。 本手法は,ibm量子ハードウェアと同様に回路シミュレータ上で実証的に実証し,精度を損なうことなく最大33%の時間短縮を観測した。

Quantum circuit cutting has been proposed to help execute large quantum circuits using only small and noisy machines. Intuitively, cutting a qubit wire can be thought of as classically passing information of a quantum state along each element in a basis set. As the number of cuts increase, the number of quantum degrees of freedom needed to be passed through scales exponentially. We propose a simple reduction scheme to lower the classical and quantum resources required to perform a cut. Particularly, we recognize that for some cuts, certain basis element might pass "no information" through the qubit wire and can effectively be neglected. We empirically demonstrate our method on circuit simulators as well as IBM quantum hardware, and we observed up to 33 percent reduction in wall time without loss of accuracy.
翻訳日:2023-04-11 17:47:52 公開日:2023-04-08
# サブポピュレーションにおけるフェアネス制約のあるベストアーム識別

Best Arm Identification with Fairness Constraints on Subpopulations ( http://arxiv.org/abs/2304.04091v1 )

ライセンス: Link先を確認
Yuhang Wu, Zeyu Zheng, Tingyu Zhu(参考訳) サブポピュレーション(BAICS)におけるフェアネス制約によるベストアーム識別の問題を定式化し,解析し,解決する。 標準の腕識別問題は、人口全体に予想される最大の報酬を持つ腕を選択することを目的としている。 BAICSの問題は、選択された腕が全てのサブ人口(例えば、異なる民族グループ、年齢グループ、または顧客タイプ)に対して公平でなければならないことを要求する。 BAICS問題は、人口制限を満たす全ての腕から期待される最大の報酬を持つ腕を、高い信頼性で正しく識別することを目的としている。 本研究では,閉形式表現を用いたサンプル複雑性において,最善の達成可能な下限を証明し,baics問題の複雑性を解析する。 次にアルゴリズムを設計し、そのアルゴリズムのサンプル複雑性が次数で下限と一致することを証明します。 理論的知見を説明するために, 数値実験の簡単な説明を行った。

We formulate, analyze and solve the problem of best arm identification with fairness constraints on subpopulations (BAICS). Standard best arm identification problems aim at selecting an arm that has the largest expected reward where the expectation is taken over the entire population. The BAICS problem requires that an selected arm must be fair to all subpopulations (e.g., different ethnic groups, age groups, or customer types) by satisfying constraints that the expected reward conditional on every subpopulation needs to be larger than some thresholds. The BAICS problem aims at correctly identify, with high confidence, the arm with the largest expected reward from all arms that satisfy subpopulation constraints. We analyze the complexity of the BAICS problem by proving a best achievable lower bound on the sample complexity with closed-form representation. We then design an algorithm and prove that the algorithm's sample complexity matches with the lower bound in terms of order. A brief account of numerical experiments are conducted to illustrate the theoretical findings.
翻訳日:2023-04-11 17:47:38 公開日:2023-04-08
# 深層学習を用いた多ラベルベンガル毒素コメント分類の解釈

Interpretable Multi Labeled Bengali Toxic Comments Classification using Deep Learning ( http://arxiv.org/abs/2304.04087v1 )

ライセンス: Link先を確認
Tanveer Ahmed Belal, G. M. Shahariar, Md. Hasanul Kabir(参考訳) 本稿では,ベンガルの有毒コメントを分類する深層学習に基づくパイプラインを提案する。まず,コメントが有毒かどうかを判断するために二分分類モデルを用いて,コメントが属する毒性の種類を決定するために多ラベル分類器を用いる。 この目的のために,8,488の有毒なインスタンスを含む16,073の手動ラベル付きデータセットを作成し,有毒なコメントは,悪質,憎悪,宗教的,脅威,トロール,侮辱という6つの有毒なカテゴリの1つかそれ以上に対応できる。 bert埋め込み付きlong short term memory (lstm) はバイナリ分類タスクの89.42%の精度を達成し、マルチラベル分類器として畳み込みニューラルネットワークと双方向long short term memory (cnn-bilstm) の組み合わせは78.92%の精度と0.86を重み付きf1-scoreとして達成した。 提案するモデルによる分類における単語特徴量の重要性を説明するために,局所的解釈可能なモデル非依存説明(lime)フレームワークを用いた。 私たちはデータセットを公開し、https://github.com/deepu099cse/Multi-Labeled-Bengali-Toxic-Comments-Classificationでアクセスできます。

This paper presents a deep learning-based pipeline for categorizing Bengali toxic comments, in which at first a binary classification model is used to determine whether a comment is toxic or not, and then a multi-label classifier is employed to determine which toxicity type the comment belongs to. For this purpose, we have prepared a manually labeled dataset consisting of 16,073 instances among which 8,488 are Toxic and any toxic comment may correspond to one or more of the six toxic categories - vulgar, hate, religious, threat, troll, and insult simultaneously. Long Short Term Memory (LSTM) with BERT Embedding achieved 89.42% accuracy for the binary classification task while as a multi-label classifier, a combination of Convolutional Neural Network and Bi-directional Long Short Term Memory (CNN-BiLSTM) with attention mechanism achieved 78.92% accuracy and 0.86 as weighted F1-score. To explain the predictions and interpret the word feature importance during classification by the proposed models, we utilized Local Interpretable Model-Agnostic Explanations (LIME) framework. We have made our dataset public and can be accessed at - https://github.com/deepu099cse/Multi-Labeled-Bengali-Toxic-Comments-Classification
翻訳日:2023-04-11 17:47:21 公開日:2023-04-08
# 深部原型-部は形態学的腎臓石の識別を容易にし、光度摂動と競争的にロバストである

Deep Prototypical-Parts Ease Morphological Kidney Stone Identification and are Competitively Robust to Photometric Perturbations ( http://arxiv.org/abs/2304.04077v1 )

ライセンス: Link先を確認
Daniel Flores-Araiza, Francisco Lopez-Tiro, Jonathan El-Beze, Jacques Hubert, Miguel Gonzalez-Mendoza, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 腎臓結石の種類を特定することで、尿器科医は形成の原因を判断し、将来の再発を減らすために適切な治療法の処方を改善することができる。 現在、Morpho-constitutional Analysis (MCA) として知られるこの診断は時間がかかり、コストがかかり、高い演算子に依存した視覚分析コンポーネントを必要とするため、多くの経験を必要とする。 近年,生体内結石認識のための機械学習法が開発されている。 ディープラーニング(DL)ベースの手法は、精度では非DLメソッドよりも優れているが、説明性に欠ける。 このようなトレードオフにもかかわらず、ハイテイクな意思決定を行う上では、行動方針を規定するモデルではなく、合理的な証拠に基づく行動の道筋を示す理解可能なコンピュータ支援診断(CADx)を優先することが重要である。 本提案では,腎結石サブタイプ当たりのPP(Prototypeal Parts)を学習し,DLモデルを用いて出力分類を生成する。 分類タスクでppsを使用することで、このような出力のケースベース推論説明が可能になり、モデル解釈が可能になる。 さらに,ppsとの関連性とモデルの性能の感度を記述するために,グローバル視覚特性の修正を行った。 これにより、従来の作業とは対照的に、サンプル、クラス、モデルレベルで追加情報を含む説明を提供する。 我々の実装の平均精度は、最先端(SOTA)非解釈可能なDLモデルよりも1.5%低いが、我々のモデルは、対戦訓練なしで、標準偏差の低い摂動画像に対して2.8%向上する。 このように、学習PPはより堅牢なDLモデルを作成する可能性がある。

Identifying the type of kidney stones can allow urologists to determine their cause of formation, improving the prescription of appropriate treatments to diminish future relapses. Currently, the associated ex-vivo diagnosis (known as Morpho-constitutional Analysis, MCA) is time-consuming, expensive and requires a great deal of experience, as it requires a visual analysis component that is highly operator dependant. Recently, machine learning methods have been developed for in-vivo endoscopic stone recognition. Deep Learning (DL) based methods outperform non-DL methods in terms of accuracy but lack explainability. Despite this trade-off, when it comes to making high-stakes decisions, it's important to prioritize understandable Computer-Aided Diagnosis (CADx) that suggests a course of action based on reasonable evidence, rather than a model prescribing a course of action. In this proposal, we learn Prototypical Parts (PPs) per kidney stone subtype, which are used by the DL model to generate an output classification. Using PPs in the classification task enables case-based reasoning explanations for such output, thus making the model interpretable. In addition, we modify global visual characteristics to describe their relevance to the PPs and the sensitivity of our model's performance. With this, we provide explanations with additional information at the sample, class and model levels in contrast to previous works. Although our implementation's average accuracy is lower than state-of-the-art (SOTA) non-interpretable DL models by 1.5 %, our models perform 2.8% better on perturbed images with a lower standard deviation, without adversarial training. Thus, Learning PPs has the potential to create more robust DL models.
翻訳日:2023-04-11 17:46:52 公開日:2023-04-08
# 模擬コヒーレントイジングマシンにおける最短ベクトル問題の量子アルゴリズムによる解法

Quantum algorithmic solutions to the shortest vector problem on simulated coherent Ising machines ( http://arxiv.org/abs/2304.04075v1 )

ライセンス: Link先を確認
Edmund Dable-Heath, Laura Casa, Christian Porter, Florian Mintert, Cong Ling(参考訳) 量子コンピューティングは現代の暗号システムに脅威をもたらし、今後数十年にわたって予測される問題を引き起こすような状態へと進化する。 量子セキュアであるように設計された暗号システムの多くは、最短ベクトル問題と関連する問題に基づいている。 本稿では,量子イジングモデルとして実装された最短ベクトル問題の2次非拘束二進最適化をシミュレーションコヒーレントイジングマシン上で定式化し,アルゴリズムの3つの変種に対するsvpの解法に向けての進展を示す。

Quantum computing poses a threat to contemporary cryptosystems, with advances to a state in which it will cause problems predicted for the next few decades. Many of the proposed cryptosystems designed to be quantum-secure are based on the Shortest Vector Problem and related problems. In this paper we use the Quadratic Unconstrained Binary Optimisation formulation of the Shortest Vector Problem implemented as a quantum Ising model on a simulated Coherent Ising Machine, showing progress towards solving SVP for three variants of the algorithm.
翻訳日:2023-04-11 17:46:19 公開日:2023-04-08
# 2つの線形導波路に結合した非退化超ラマン過程のダイナミクスにおける量子ゼノおよび反ゼノ効果

Quantum Zeno and anti-Zeno effects in the dynamics of non-degenerate hyper-Raman processes coupled to two linear waveguides ( http://arxiv.org/abs/2304.04073v1 )

ライセンス: Link先を確認
Moumita Das, Biswajit Sen, Kishore Thapliyal and Anirban Pathak(参考訳) 2つのプローブ導波路の存在が超ラマン過程の力学に及ぼす影響を量子ゼノ効果と反ゼノ効果の観点から研究した。 具体的には、エバネッセント波によるプローブ導波路との相互作用による超ラマン過程の進化の促進(分裂)は量子ゼノ(反ゼノ)効果と見なされる。 2つのプローブ導波路が同時に1つの光学モードのみと相互作用すると考えた。 例えば、特定のシナリオとして、2つの非退化ポンプモードが各プローブ導波路と線形に相互作用し、ストークスモードと反ストークスモードはプローブと相互作用しないと考えられる。 同様に、別のシナリオでは、プローブ導波路がストークス(反ストークス)モードと同時に相互作用すると仮定する。 その結果,量子ゼノ効果は位相マッチング(ミスマッチ)と関連していることがわかった。 しかし,超ラマン過程に存在するボソニックモードにおける量子ゼノ効果の存在とアンチバンチングの関係は認められなかった。

The effect of the presence of two probe waveguides on the dynamics of hyper-Raman processes is studied in terms of quantum Zeno and anti-Zeno effects. Specifically, the enhancement (diminution) of the evolution of the hyper-Raman processes due to interaction with the probe waveguides via evanescent waves is viewed as quantum Zeno (anti-Zeno) effect. We considered the two probe waveguides interacting with only one of the optical modes at a time. For instance, as a specific scenario, it is considered that the two non-degenerate pump modes interact with each probe waveguide linearly while Stokes and anti-Stokes modes do not interact with the probes. Similarly, in another scenario, we assumed both the probe waveguides interact with Stokes (anti-Stokes) mode simultaneously. The present results show that quantum Zeno (anti-Zeno) effect is associated with phase-matching (mismatching). However, we did not find any relation between the presence of the quantum Zeno effect and antibunching in the bosonic modes present in the hyper-Raman processes.
翻訳日:2023-04-11 17:46:08 公開日:2023-04-08
# 近似ハードウェアの実行のためのニューラルネットワークのトレーニング

Training Neural Networks for Execution on Approximate Hardware ( http://arxiv.org/abs/2304.04125v1 )

ライセンス: Link先を確認
Tianmu Li, Shurui Li, Puneet Gupta(参考訳) 近似計算手法はディープラーニングに大きな可能性を示している。 ハードウェアコストの削減により、これらの手法は電力予算に制約されたバッテリー駆動デバイスでの推論タスクに特に適している。 しかし、訓練方法の不足のため、近似計算は完全な可能性に達していない。 本稿では,近似ハードウェアのトレーニング手法について議論する。 そこで本研究では,トレーニングをハードウェアに特化させる方法を示し,トレーニングプロセスを最大18倍高速化する手法を提案する。

Approximate computing methods have shown great potential for deep learning. Due to the reduced hardware costs, these methods are especially suitable for inference tasks on battery-operated devices that are constrained by their power budget. However, approximate computing hasn't reached its full potential due to the lack of work on training methods. In this work, we discuss training methods for approximate hardware. We demonstrate how training needs to be specialized for approximate hardware, and propose methods to speed up the training process by up to 18X.
翻訳日:2023-04-11 17:39:08 公開日:2023-04-08
# AI条約における核兵器制御の検証と教訓

Nuclear Arms Control Verification and Lessons for AI Treaties ( http://arxiv.org/abs/2304.04123v1 )

ライセンス: Link先を確認
Mauricio Baker(参考訳) AIによるセキュリティリスクは、テクノロジーを守るための国際協定の要求を動機付けている。 しかし、もし国家がAIにどのルールを設定するかに合意できたとしても、コンプライアンスを検証する問題はこれらの合意を無効にする可能性がある。 ai$\unicode{x2013}$の合意の検証の難しさを明らかにし、この困難さを低減させる可能性のあるアクションを特定するため、本報告は核兵器制御における検証のケーススタディを考察する。 我々は、3種類の核兵器規制協定の実施、記録の追跡、検証の政治についてレビューする。 そして、AI、特に数千の高度に専門化されたチップに依存するAI開発における意味を考察する。 この文脈において、このケーススタディは、特定の準備で、検証の予測可能な課題は、核兵器の制御でうまく管理されたレベルに還元されることを示唆している。 さらに深刻な問題を回避するためには、(1)ハードウェアのコンプライアンス、検査アクセス、(2)初期不完全な検証システムを構築するための、プライバシー保護、安全、そして許容可能な価格の方法を開発すること、(2)政治的意思が生じた場合、そのギャップを迅速に閉鎖できる当局や前例を整備することが必要である。

Security risks from AI have motivated calls for international agreements that guardrail the technology. However, even if states could agree on what rules to set on AI, the problem of verifying compliance might make these agreements infeasible. To help clarify the difficulty of verifying agreements on AI$\unicode{x2013}$and identify actions that might reduce this difficulty$\unicode{x2013}$this report examines the case study of verification in nuclear arms control. We review the implementation, track records, and politics of verification across three types of nuclear arms control agreements. Then, we consider implications for the case of AI, especially AI development that relies on thousands of highly specialized chips. In this context, the case study suggests that, with certain preparations, the foreseeable challenges of verification would be reduced to levels that were successfully managed in nuclear arms control. To avoid even worse challenges, substantial preparations are needed: (1) developing privacy-preserving, secure, and acceptably priced methods for verifying the compliance of hardware, given inspection access; and (2) building an initial, incomplete verification system, with authorities and precedents that allow its gaps to be quickly closed if and when the political will arises.
翻訳日:2023-04-11 17:39:01 公開日:2023-04-08
# サーロゲートラグランジュ緩和:リトレーニングフリーディープニューラルネットワークのプルーニングへの道

Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural Network Pruning ( http://arxiv.org/abs/2304.04120v1 )

ライセンス: Link先を確認
Shanglin Zhou, Mikhail A. Bragin, Lynn Pepin, Deniz Gurevin, Fei Miao, Caiwen Ding(参考訳) ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。 しかし、典型的な3段階のパイプラインはトレーニング時間を大幅に増加させる。 本稿では,重み付き問題の離散的性質に起因する困難を克服するために調整された,サロゲートラグランジュ緩和に基づく体系的重み付き最適化手法を提案する。 本手法はモデル圧縮問題の高速収束を保証し,2次罰則を用いてSLRの収束を加速することを証明する。 訓練期間中にSLRが取得したモデルパラメータは、他の最先端手法と比較すると、その最適値にかなり近い。 我々は,CIFAR-10 と ImageNet を用いた画像分類タスクについて,最先端の MLP-Mixer, Swin Transformer, VGG-16, ResNet-18, ResNet-50, ResNet-110, MobileNetV2 を用いて検討した。 また,COCO,KITTIベンチマーク,TuSimpleレーン検出データセット上で,様々なモデルを用いてオブジェクト検出とセグメント化タスクを評価する。 実験により,SLRに基づく重み付け最適化手法は,同じ精度条件下での最先端手法よりも高い圧縮率を達成するとともに,同じ圧縮速度要求条件下で高い圧縮精度が得られることを示した。 分類タスクでは、私たちのSLRアプローチは、両方のデータセットで所望の精度$3\times$高速に収束します。 オブジェクト検出とセグメンテーションタスクでは、SLRは所望の精度に2\times$速く収束する。 さらに,SLRは再トレーニングを伴わないハードプルーニング段階においても高いモデル精度を実現し,従来の3段階プルーニングを2段階に短縮する。 再学習の予算が限られているため、我々の手法はモデルの精度を迅速に回復する。

Network pruning is a widely used technique to reduce computation cost and model size for deep neural networks. However, the typical three-stage pipeline significantly increases the overall training time. In this paper, we develop a systematic weight-pruning optimization approach based on Surrogate Lagrangian relaxation, which is tailored to overcome difficulties caused by the discrete nature of the weight-pruning problem. We prove that our method ensures fast convergence of the model compression problem, and the convergence of the SLR is accelerated by using quadratic penalties. Model parameters obtained by SLR during the training phase are much closer to their optimal values as compared to those obtained by other state-of-the-art methods. We evaluate our method on image classification tasks using CIFAR-10 and ImageNet with state-of-the-art MLP-Mixer, Swin Transformer, and VGG-16, ResNet-18, ResNet-50 and ResNet-110, MobileNetV2. We also evaluate object detection and segmentation tasks on COCO, KITTI benchmark, and TuSimple lane detection dataset using a variety of models. Experimental results demonstrate that our SLR-based weight-pruning optimization approach achieves a higher compression rate than state-of-the-art methods under the same accuracy requirement and also can achieve higher accuracy under the same compression rate requirement. Under classification tasks, our SLR approach converges to the desired accuracy $3\times$ faster on both of the datasets. Under object detection and segmentation tasks, SLR also converges $2\times$ faster to the desired accuracy. Further, our SLR achieves high model accuracy even at the hard-pruning stage without retraining, which reduces the traditional three-stage pruning into a two-stage process. Given a limited budget of retraining epochs, our approach quickly recovers the model's accuracy.
翻訳日:2023-04-11 17:38:38 公開日:2023-04-08
# 長文における精神障害の背景要因の多クラス分類

Multi-class Categorization of Reasons behind Mental Disturbance in Long Texts ( http://arxiv.org/abs/2304.04118v1 )

ライセンス: Link先を確認
Muskan Garg(参考訳) ソーシャルメディア投稿におけるユーザの精神状態を推測する最近の進歩に動機づけられ,自己報告テキストで精神疾患の背後にある因果指標を見つける問題を同定し,定式化する。 過去には、facebookのキュレーションデータに因果説明分析のための規則に基づく研究が存在した。 Reddit投稿におけるマルチクラス因果分類のためのトランスフォーマーベースモデルの研究は、4000語までを含む長文の使用の問題を示している。 エンド・ツー・エンドのトランスフォーマーベースモデルの開発は、与えられたインスタンスで最大長の制限を受ける。 この問題に対処するために、longformerを使用し、そのエンコーディングをtransformerベースの分類器にデプロイする。 実験の結果,Longformer は 62\% F1-score のデータセットである M-CAMS 上で,最先端の新たな結果を得ることができた。 原因特異的解析およびアブレーション研究はLongformerの有効性を証明している。 私たちの研究は、ソーシャルメディアデータによるうつ病と自殺リスクの因果分析を促進し、他の精神疾患への応用の可能性を示しています。

Motivated with recent advances in inferring users' mental state in social media posts, we identify and formulate the problem of finding causal indicators behind mental illness in self-reported text. In the past, we witness the presence of rule-based studies for causal explanation analysis on curated Facebook data. The investigation on transformer-based model for multi-class causal categorization in Reddit posts point to a problem of using long-text which contains as many as 4000 words. Developing end-to-end transformer-based models subject to the limitation of maximum-length in a given instance. To handle this problem, we use Longformer and deploy its encoding on transformer-based classifier. The experimental results show that Longformer achieves new state-of-the-art results on M-CAMS, a publicly available dataset with 62\% F1-score. Cause-specific analysis and ablation study prove the effectiveness of Longformer. We believe our work facilitates causal analysis of depression and suicide risk on social media data, and shows potential for application on other mental health conditions.
翻訳日:2023-04-11 17:38:03 公開日:2023-04-08
# 雑音画像分割における限界しきい値

Marginal Thresholding in Noisy Image Segmentation ( http://arxiv.org/abs/2304.04116v1 )

ライセンス: Link先を確認
Marcus Nordstr\"om, Henrik Hult, Atsuto Maki(参考訳) 本研究は,ガウス場変形に基づく雑音モデルを考慮した医用画像分割におけるラベルノイズの検討である。 このようなノイズは、現実的な外観のセグメンテーションをもたらし、期待される変形が恒等写像であるという意味では偏りがないため、興味がある。 限界確率に対するサンプリングおよび閉形解の効率的な方法が提供される。 さらに,損失関数のクロスエントロピーとソフトディスに対する理論的最適解について検討し,ノイズレベルが増加するにつれてどのように分岐するかを示した。 損失関数のキャラクタリゼーションに関する最近の研究に基づき、効率的に計算できる特定の未知のしきい値を持つクロスエントロピーの解をしきい値にすることで、ソフトディースの最適解を復元できることが示されている。 これにより, クロスエントロピーをソフトディスと比較した場合のパフォーマンス低下は, 間違ったしきい値を用いて生じるのかという疑問が持ち上がる。 この仮説は、トータルセグメンタデータセットから3つの臓器区分問題に関する5倍の研究で検証され、4つの異なる雑音強度を用いて検証される。 その結果, 閾値の変化は, クロスエントロピーの性能をソフトディスより体系的に悪いものから, ソフトディスより良いものへと導くことが示唆された。

This work presents a study on label noise in medical image segmentation by considering a noise model based on Gaussian field deformations. Such noise is of interest because it yields realistic looking segmentations and because it is unbiased in the sense that the expected deformation is the identity mapping. Efficient methods for sampling and closed form solutions for the marginal probabilities are provided. Moreover, theoretically optimal solutions to the loss functions cross-entropy and soft-Dice are studied and it is shown how they diverge as the level of noise increases. Based on recent work on loss function characterization, it is shown that optimal solutions to soft-Dice can be recovered by thresholding solutions to cross-entropy with a particular a priori unknown threshold that efficiently can be computed. This raises the question whether the decrease in performance seen when using cross-entropy as compared to soft-Dice is caused by using the wrong threshold. The hypothesis is validated in 5-fold studies on three organ segmentation problems from the TotalSegmentor data set, using 4 different strengths of noise. The results show that changing the threshold leads the performance of cross-entropy to go from systematically worse than soft-Dice to similar or better results than soft-Dice.
翻訳日:2023-04-11 17:37:46 公開日:2023-04-08
# MedGen3D: ペアド3D画像とマスク生成のための深層生成フレームワーク

MedGen3D: A Deep Generative Framework for Paired 3D Image and Mask Generation ( http://arxiv.org/abs/2304.04106v1 )

ライセンス: Link先を確認
Kun Han, Yifeng Xiong, Chenyu You, Pooya Khosravi, Shanlin Sun, Xiangyi Yan, James Duncan, Xiaohui Xie(参考訳) 十分なラベル付きデータの取得と注釈付けは、正確で堅牢な学習ベースモデルの開発には不可欠であるが、そのようなデータを取得することは、多くの医療画像分割タスクにおいて困難である。 有望な解決策の1つは、接地マスクアノテーションで現実的なデータを合成することである。 しかし、マスクを用いた完全な3次元ボリューム画像の生成について、先行研究は行われていない。 本稿では,3次元医用画像とマスクをペアで生成する深層生成フレームワークであるmedgen3dについて述べる。 まず,3次元医用データを2次元配列として表現し,解剖学的形状に付着したマルチラベルマスク列を生成するためのマルチコンディション拡散確率モデル(MC-DPM)を提案する。 次に,生成マスク列に条件付き画像系列生成器とセマンティック拡散精製器を用いて,生成マスクと整合したリアルな3次元医用画像を生成する。 提案フレームワークは,合成画像とセグメンテーションマップの正確なアライメントを保証する。 3次元胸部ctと脳mriのデータセットを用いた実験では, 合成データはオリジナルデータに対して多様で忠実であり, 下流分節作業の利点を示す。 我々は,MedGen3Dが組み合わせた3次元医用画像とマスクを合成する能力は,医用画像処理タスクのためのディープラーニングモデルのトレーニングに有用であることが期待できる。

Acquiring and annotating sufficient labeled data is crucial in developing accurate and robust learning-based models, but obtaining such data can be challenging in many medical image segmentation tasks. One promising solution is to synthesize realistic data with ground-truth mask annotations. However, no prior studies have explored generating complete 3D volumetric images with masks. In this paper, we present MedGen3D, a deep generative framework that can generate paired 3D medical images and masks. First, we represent the 3D medical data as 2D sequences and propose the Multi-Condition Diffusion Probabilistic Model (MC-DPM) to generate multi-label mask sequences adhering to anatomical geometry. Then, we use an image sequence generator and semantic diffusion refiner conditioned on the generated mask sequences to produce realistic 3D medical images that align with the generated masks. Our proposed framework guarantees accurate alignment between synthetic images and segmentation maps. Experiments on 3D thoracic CT and brain MRI datasets show that our synthetic data is both diverse and faithful to the original data, and demonstrate the benefits for downstream segmentation tasks. We anticipate that MedGen3D's ability to synthesize paired 3D medical images and masks will prove valuable in training deep learning models for medical imaging tasks.
翻訳日:2023-04-11 17:37:24 公開日:2023-04-08