このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230210となっている論文です。

PDF登録状況(公開日: 20230210)

TitleAuthorsAbstract論文公表日・翻訳日
# NISQ時代の量子コンピューティングのためのマルチプログラミング機構

Enabling Multi-programming Mechanism for Quantum Computing in the NISQ Era ( http://arxiv.org/abs/2102.05321v3 )

ライセンス: Link先を確認
Siyuan Niu and Aida Todri-Sanial(参考訳) NISQデバイスはいくつかの物理的制限と不可避ノイズ量子演算を持ち、量子マシン上で小さな回路のみを実行して信頼性の高い結果を得ることができる。 これは量子ハードウェアの過小利用問題につながる。 本稿では,量子ハードウェア上で複数の量子回路を同時に実行するQuantum Multi-gramming Compiler (QuMC)を提案することにより,この問題に対処し,量子ハードウェアのスループットを向上させる。 このアプローチは回路全体の実行時間も削減できる。 まず並列化マネージャを導入し、同時に実行する回路の適切な数を選択する。 第2に,信頼性の高い分割を複数の回路に割り当てる2つの異なる量子ビット分割アルゴリズムを提案する。 第3に、同時ランダム化ベンチマークプロトコルを用いてクロストーク特性を特徴付け、それらをキュービット分割プロセスで考慮し、同時実行時のクロストーク効果を回避する。 最後に,回路をハードウェア上で実行可能にするために,挿入ゲート数を削減したマッピング遷移アルゴリズムを改良する。 我々は、IBM量子ハードウェア上で異なるサイズの回路を同時に実行することで、QuMCアプローチの性能を実証する。 また,本手法をvqeアルゴリズムを用いて検討し,そのオーバーヘッドを低減した。

NISQ devices have several physical limitations and unavoidable noisy quantum operations, and only small circuits can be executed on a quantum machine to get reliable results. This leads to the quantum hardware under-utilization issue. Here, we address this problem and improve the quantum hardware throughput by proposing a Quantum Multi-programming Compiler (QuMC) to execute multiple quantum circuits on quantum hardware simultaneously. This approach can also reduce the total runtime of circuits. We first introduce a parallelism manager to select an appropriate number of circuits to be executed at the same time. Second, we present two different qubit partitioning algorithms to allocate reliable partitions to multiple circuits - a greedy and a heuristic. Third, we use the Simultaneous Randomized Benchmarking protocol to characterize the crosstalk properties and consider them in the qubit partition process to avoid the crosstalk effect during simultaneous executions. Finally, we enhance the mapping transition algorithm to make circuits executable on hardware using a decreased number of inserted gates. We demonstrate the performance of our QuMC approach by executing circuits of different sizes on IBM quantum hardware simultaneously. We also investigate this method on VQE algorithm to reduce its overhead.
翻訳日:2023-04-12 00:58:56 公開日:2023-02-10
# esg金融投資のベイズ最適化

Bayesian Optimization of ESG Financial Investments ( http://arxiv.org/abs/2303.01485v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Gabriel Gonz\'alez Piris, Maria Coronado Vaca(参考訳) 金融専門家やアナリストは金融市場の変動性を予測しようとしている。 特に、この変動の正確な予測は投資家の投資を成功させる。 しかし、ESG基準である金融の過去数年間で大きな傾向が見られた。 具体的には、ESG(経済・社会・ガバナンス)基準は、投資の重要性が社会的責任を負うことの重要性が増し、金融機関がそれに従わない場合に苦しむことから、金融面でより重要になっている。 したがって、株式ポートフォリオの作成は、そのパフォーマンスだけでなく、ESG基準の遵守も考慮すべきである。 そこで本稿では,数理モデリングとesgとファイナンスを組み合わせる。 より詳しくは、ベイジアン最適化(bo、英: bayesian optimization)とは、未知の分析的かつコストのかかる計算式を持つブラックボックスを最適化し、目的関数に組み込んだesg基準ソフト制約の存在下での株式ポートフォリオのパフォーマンスを最大化するための、逐次的な最先端設計戦略である。 例示的な実験では、ポートフォリオのリターンとそのばらつきを考慮したシャープ比を使い、言い換えれば、リターン最大化とリスク最小化の間のトレードオフのバランスをとります。 本研究では, ESG基準を線形結合で用いる14の独立カテゴリーに分割し, 全ESGスコアを推定した。 最も重要なことは、提示されたアプローチは、ストックポートフォリオのパフォーマンスとesg準拠を推定する代替ブラックボックスメソッドにスケールすることです。 特に、この研究は、金融性能とESG基準の達成を考慮したBOを用いてポートフォリオを最適化できることが証明されたため、多くの新しい研究ラインへの扉を開いた。

Financial experts and analysts seek to predict the variability of financial markets. In particular, the correct prediction of this variability ensures investors successful investments. However, there has been a big trend in finance in the last years, which are the ESG criteria. Concretely, ESG (Economic, Social and Governance) criteria have become more significant in finance due to the growing importance of investments being socially responsible, and because of the financial impact companies suffer when not complying with them. Consequently, creating a stock portfolio should not only take into account its performance but compliance with ESG criteria. Hence, this paper combines mathematical modelling, with ESG and finance. In more detail, we use Bayesian optimization (BO), a sequential state-of-the-art design strategy to optimize black-boxes with unknown analytical and costly-to compute expressions, to maximize the performance of a stock portfolio under the presence of ESG criteria soft constraints incorporated to the objective function. In an illustrative experiment, we use the Sharpe ratio, that takes into consideration the portfolio returns and its variance, in other words, it balances the trade-off between maximizing returns and minimizing risks. In the present work, ESG criteria have been divided into fourteen independent categories used in a linear combination to estimate a firm total ESG score. Most importantly, our presented approach would scale to alternative black-box methods of estimating the performance and ESG compliance of the stock portfolio. In particular, this research has opened the door to many new research lines, as it has proved that a portfolio can be optimized using a BO that takes into consideration financial performance and the accomplishment of ESG criteria.
翻訳日:2023-03-05 05:36:34 公開日:2023-02-10
# 重み付きMaxCutの量子近似最適化のためのパラメータ転送

Parameter Transfer for Quantum Approximate Optimization of Weighted MaxCut ( http://arxiv.org/abs/2201.11785v2 )

ライセンス: Link先を確認
Ruslan Shaydulin, Phillip C. Lotshaw, Jeffrey Larson, James Ostrowski, and Travis S. Humble(参考訳) 量子近似最適化アルゴリズム(QAOA)を用いる場合、高品質なパラメータを見つけることが中心的な障害となる。 以前の研究は、異なる問題インスタンス間の客観的な状況における類似性を活用することで、未重み付けのMaxCut問題に関するQAOAの問題に部分的に対処する。 しかし,より一般的な重み付きマックスカット問題は,局所視能の低下とともに,客観的な景観を著しく変化させた。 私たちの主な貢献は、重みの有害な効果を克服するシンプルな再スケーリングスキームです。 与えられたQAOA深度に対して、QAOAパラメータの1つの「典型的」ベクトルを、重み付きMaxCutインスタンスに転送することに成功した。 この転送は、最大20ノードと複数の重み分布を持つ34,701インスタンスのデータセットにおいて、かなり高価な直接最適化と比較して、2.0パーセンテージの近似比の中央値の低下をもたらす。 この減少は、事前学習したメタディストリビューションからサンプリングしたパラメータを用いた10のQAOA回路評価のコストで1.2ポイントまで削減できるし、移行されたパラメータを1つの局所最適化ランの出発点として使用して、全最適化で得られるものと同等の近似比を求めることができる。

Finding high-quality parameters is a central obstacle to using the quantum approximate optimization algorithm (QAOA). Previous work partially addresses this issue for QAOA on unweighted MaxCut problems by leveraging similarities in the objective landscape among different problem instances. However, we show that the more general weighted MaxCut problem has significantly modified objective landscapes, with a proliferation of poor local optima. Our main contribution is a simple rescaling scheme that overcomes these deleterious effects of weights. We show that for a given QAOA depth, a single "typical" vector of QAOA parameters can be successfully transferred to weighted MaxCut instances. This transfer leads to a median decrease in the approximation ratio of only 2.0 percentage points relative to a considerably more expensive direct optimization on a dataset of 34,701 instances with up to 20 nodes and multiple weight distributions. This decrease can be reduced to 1.2 percentage points at the cost of only 10 additional QAOA circuit evaluations with parameters sampled from a pretrained metadistribution, or the transferred parameters can be used as a starting point for a single local optimization run to obtain approximation ratios equivalent to those achieved by exhaustive optimization in $96.35\%$ of our cases.
翻訳日:2023-02-27 18:01:34 公開日:2023-02-10
# OppLoD:LGMDからLPLC2へのローミング感度モデル拡張

OppLoD: the Opponency based Looming Detector, Model Extension of Looming Sensitivity from LGMD to LPLC2 ( http://arxiv.org/abs/2302.10284v1 )

ライセンス: Link先を確認
Feng Shuang, Yanpeng Zhu, Yupeng Xie, Lei Zhao, Quansheng Xie, Jiannan Zhao, and Shigang Yue(参考訳) 織機検出は昆虫の衝突防止システムにおいて重要な役割を果たす。 進化的生存の不可欠な能力として、神経科学において広範囲に研究され、衝突検出と航法との密接な関係からロボット研究への関心が高まりつつある。 角径、角速度、膨張などの視覚的手がかりは、光学的流れや初等ニューラルネットワークによる検出のために広く研究されている。 しかしながら、重要な視覚運動キューは、放射対運動(ROM)である拡張と混同し易いため、長い間無視されてきた。 ショウジョウバエのROM感受性ニューロンであるLPLC2の発見に関する最近の研究は、焦点、外向きの刺激にのみ反応するため、その超選択性を明らかにしている。 このrom感受性の特徴は衝突検出の要求と一致しており、これはオブザーバの中心に向かって移動する危険の略奪と強く関連している。 そこで我々は,ロブラ・ジャイアント・ムーブメント・ディテクター(LGMD)のニューラルネットワークをROM感度で拡張し,堅牢性と精度を同時に向上したいと考えている。 本稿では,画像速度に基づく略奪検知器であるlobula giant movement detector (lgmd) をrom感度で拡張する可能性について検討する。 そこで我々は,ROMの数学的定義とその主な性質である放射運動応答(RMO)を提案する。 次に、LPLC2のシナプス処理を類似させるシナプス神経パイルを、側方抑制と注意の形で提案する。 提案手法は,画像速度選択性とROM感度の両方を初めて行うモデルである。 システム実験を行い、提案されたバイオインスパイアされた浸水検知器の可能性を示す。

Looming detection plays an important role in insect collision prevention systems. As a vital capability evolutionary survival, it has been extensively studied in neuroscience and is attracting increasing research interest in robotics due to its close relationship with collision detection and navigation. Visual cues such as angular size, angular velocity, and expansion have been widely studied for looming detection by means of optic flow or elementary neural computing research. However, a critical visual motion cue has been long neglected because it is so easy to be confused with expansion, that is radial-opponent-motion (ROM). Recent research on the discovery of LPLC2, a ROM-sensitive neuron in Drosophila, has revealed its ultra-selectivity because it only responds to stimuli with focal, outward movement. This characteristic of ROM-sensitivity is consistent with the demand for collision detection because it is strongly associated with danger looming that is moving towards the center of the observer. Thus, we hope to extend the well-studied neural model of the lobula giant movement detector (LGMD) with ROM-sensibility in order to enhance robustness and accuracy at the same time. In this paper, we investigate the potential to extend an image velocity-based looming detector, the lobula giant movement detector (LGMD), with ROM-sensibility. To achieve this, we propose the mathematical definition of ROM and its main property, the radial motion opponency (RMO). Then, a synaptic neuropile that analogizes the synaptic processing of LPLC2 is proposed in the form of lateral inhibition and attention. Thus, our proposed model is the first to perform both image velocity selectivity and ROM sensitivity. Systematic experiments are conducted to exhibit the huge potential of the proposed bio-inspired looming detector.
翻訳日:2023-02-26 14:28:16 公開日:2023-02-10
# 生成拡散誘導レンズによる多モード対象物の解析

Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance ( http://arxiv.org/abs/2302.10305v1 )

ライセンス: Link先を確認
Chaerin Kong, Nojun Kwak(参考訳) 近年、マルチモーダル表現学習の分野で驚くべき進歩が見られ、対照的な学習が大きなブレークスルーの基盤となっている。 最新の成果は、マスキングモデリングやキャプションといったさまざまな目的をフレームワークに組み込むことによって、さらなる改善を実現しています。 本稿では,分類器誘導拡散モデルが,分類器が提供する意味的信号を反映した画像を生成し,マルチモーダル学習目標の特性について検討する。 具体的には, コントラスト, マッチング, キャプションの損失を, 意味的信号の観点で比較し, 分析だけでなく, 生成指導の質を簡便に向上させる単純なベースラインを導入する。

Recent years have witnessed astonishing advances in the field of multimodal representation learning, with contrastive learning being the cornerstone for major breakthroughs. Latest works delivered further improvements by incorporating different objectives such as masked modeling and captioning into the frameworks, but our understanding on how these objectives facilitate learning remains vastly incomplete. In this paper, we leverage the fact that classifier-guided diffusion models generate images that reflect the semantic signals provided by the classifier to study the characteristics of multimodal learning objectives. Specifically, we compare contrastive, matching and captioning loss in terms of their semantic signals, and introduce a simple baseline that not only supports our analyses but also improves the quality of generative guidance in a straightforward manner.
翻訳日:2023-02-26 14:17:34 公開日:2023-02-10
# 心電図画像を用いた心臓異常検出・スクリーニングのための人工知能システム

Artificial Intelligence System for Detection and Screening of Cardiac Abnormalities using Electrocardiogram Images ( http://arxiv.org/abs/2302.10301v1 )

ライセンス: Link先を確認
Deyun Zhang, Shijia Geng, Yang Zhou, Weilun Xu, Guodong Wei, Kai Wang, Jie Yu, Qiang Zhu, Yongkui Li, Yonghong Zhao, Xingyue Chen, Rui Zhang, Zhaoji Fu, Rongbo Zhou, Yanqi E, Sumei Fan, Qinghao Zhao, Chuandong Cheng, Nan Peng, Liang Zhang, Linlin Zheng, Jianjun Chu, Hongbin Xu, Chen Tan, Jian Liu, Huayue Tao, Tong Liu, Kangyin Chen, Chenyang Jiang, Xingpeng Liu, Shenda Hong(参考訳) 人工知能(AI)システムは心電図(ECG)信号解析において専門家レベルの性能を達成した。 しかし、医療情報システムが不十分な未開発国や地域では、紙ECGしか提供できない。 実世界のECG画像(紙ECGの写真やスキャン)の分析は、複雑な環境や干渉のために難しいままである。 本研究では,実際の心電図画像から心疾患(CA)を検出し,スクリーニングするAIシステムを提案する。 このシステムは、世界中の複数の地域および人口から52,357人の患者の大規模なデータセットで評価された。 検出作業において、AIシステムは、それぞれ0.996(ホールドアウトテスト)、0.994(外部テスト1)、0.984(外部テスト2)、0.979(外部テスト3)の受信操作曲線(AUC)の領域を得た。 一方, 心臓科医(R=0.794, p<1e-3), 心臓科医(R=0.812, p<1e-3)の診断には強い相関が認められた。 スクリーニングタスクでは、AIシステムは0.894(ホールドアウトテスト)と0.850(外部テスト)のAUCを達成した。 aiシステムのスクリーニング性能は, 循環器科医より優れていた (ai system (0.846) vs. cardioologist 1 (0.520) vs. cardioologist 2 (0.480))。 本研究は,CA検出およびスクリーニングのための精度,客観的,使いやすさ,高速,低コストなAIシステムの実現可能性を示す。 このシステムは、医療専門家、介護者、一般ユーザによって実際のECG画像に基づいてCAを評価するために使用される可能性がある。

The artificial intelligence (AI) system has achieved expert-level performance in electrocardiogram (ECG) signal analysis. However, in underdeveloped countries or regions where the healthcare information system is imperfect, only paper ECGs can be provided. Analysis of real-world ECG images (photos or scans of paper ECGs) remains challenging due to complex environments or interference. In this study, we present an AI system developed to detect and screen cardiac abnormalities (CAs) from real-world ECG images. The system was evaluated on a large dataset of 52,357 patients from multiple regions and populations across the world. On the detection task, the AI system obtained area under the receiver operating curve (AUC) of 0.996 (hold-out test), 0.994 (external test 1), 0.984 (external test 2), and 0.979 (external test 3), respectively. Meanwhile, the detection results of AI system showed a strong correlation with the diagnosis of cardiologists (cardiologist 1 (R=0.794, p<1e-3), cardiologist 2 (R=0.812, p<1e-3)). On the screening task, the AI system achieved AUCs of 0.894 (hold-out test) and 0.850 (external test). The screening performance of the AI system was better than that of the cardiologists (AI system (0.846) vs. cardiologist 1 (0.520) vs. cardiologist 2 (0.480)). Our study demonstrates the feasibility of an accurate, objective, easy-to-use, fast, and low-cost AI system for CA detection and screening. The system has the potential to be used by healthcare professionals, caregivers, and general users to assess CAs based on real-world ECG images.
翻訳日:2023-02-26 14:16:51 公開日:2023-02-10
# 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー

Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking ( http://arxiv.org/abs/2302.10902v1 )

ライセンス: Link先を確認
Maksims Kazijevs and Manar D. Samad(参考訳) 多変量時系列データにおける欠落値の計算は、最近提案された深層学習法を用いて検討されている。 これらの最先端手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。 これらの限定的な実験は、欠落率や無限欠落型が異なる現実的なデータシナリオにおけるインプテーション法を包括的に評価しない。 この調査は、データ中心のアプローチで、5つの時系列健康データセットと6つの実験条件にわたって、最先端のディープインプテーション手法をベンチマークする。 広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。 インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。 この文脈では、最先端の手法は時系列データの欠落値の横断的(横断的変数)と縦的(横断時間)のインプテーションを共同で行う。 しかし、高い相互相関を持つ変数は、横断的インプテーション法のみによってよりよく暗示される。 対照的に、時系列センサ信号を持つものは、縦方向のインプテーション法のみによってよりよくインプットされる。 本研究は,多変量時系列データの欠落値計算法を選択する際に,データ特異性を考慮することの重要性を強調した。

The imputation of missing values in multivariate time series data has been explored using a few recently proposed deep learning methods. The evaluation of these state-of-the-art methods is limited to one or two data sets, low missing rates, and completely random missing value types. These limited experiments do not comprehensively evaluate imputation methods on realistic data scenarios with varying missing rates and not-at-random missing types. This survey takes a data-centric approach to benchmark state-of-the-art deep imputation methods across five time series health data sets and six experimental conditions. Our extensive analysis reveals that no single imputation method outperforms the others on all five data sets. The imputation performance depends on data types, individual variable statistics, missing value rates, and types. In this context, state-of-the-art methods jointly perform cross-sectional (across variables) and longitudinal (across time) imputations of missing values in time series data. However, variables with high cross-correlation can be better imputed by cross-sectional imputation methods alone. In contrast, the ones with time series sensor signals may be better imputed by longitudinal imputation methods alone. The findings of this study emphasize the importance of considering data specifics when choosing a missing value imputation method for multivariate time series data.
翻訳日:2023-02-26 13:40:57 公開日:2023-02-10
# 難治性てんかんにおける切除手術の短期成績予測のための機械学習技術

Machine Learning Techniques for Predicting the Short-Term Outcome of Resective Surgery in Lesional-Drug Resistance Epilepsy ( http://arxiv.org/abs/2302.10901v1 )

ライセンス: Link先を確認
Zahra Jourahmad, Jafar Mehvari Habibabadi, Houshang Moein, Reza Basiratnia, Ali Rahmani Geranqayeh, Saeed Shiry Ghidary, and Seyed-Ali Sadegh-Zadeh(参考訳) 本研究では,非侵襲的臨床および人口統計データを用いてててんかん手術結果を予測する機械学習モデルを開発した。 方法:データ分析には7つのディフフェレント分類アルゴリズムが用いられた。 この手法はLeave-One-Out法でも評価される。 結果の精度評価のために,パラメータの精度,精度,リコール,f1-scoreを算出した。 結果: 薬剤抵抗性病変てんかん患者のてんかん手術の結果を, 機械学習による術前診断モデルで正確に予測できる可能性が示唆された。 線形核を持つサポートベクターマシン(SVM)の精度は76.1%であり、側頭葉てんかん(TLE)患者96.7%、側頭葉てんかん(ETLE)患者79.5%に10種類の臨床的特徴がある。 意義: てんかん手術の結果を予測するため, 本研究は, 教師付き分類と特徴サブセットデータマイニングの分離に基づく機械学習戦略の利用を推奨する。 機械学習に基づく予測モデルの開発の進展は、パーソナライズドメディカルアクセスに最適化を提供する。

In this study, we developed and tested machine learning models to predict epilepsy surgical outcome using noninvasive clinical and demographic data from patients. Methods: Seven dif-ferent categorization algorithms were used to analyze the data. The techniques are also evaluated using the Leave-One-Out method. For precise evaluation of the results, the parameters accuracy, precision, recall and, F1-score are calculated. Results: Our findings revealed that a machine learning-based presurgical model of patients' clinical features may accurately predict the outcome of epilepsy surgery in patients with drug-resistant lesional epilepsy. The support vector machine (SVM) with the linear kernel yielded 76.1% in terms of accuracy could predict results in 96.7% of temporal lobe epilepsy (TLE) patients and 79.5% of extratemporal lobe epilepsy (ETLE) cases using ten clinical features. Significance: To predict the outcome of epilepsy surgery, this study recommends the use of a machine learning strategy based on supervised classification and se-lection of feature subsets data mining. Progress in the development of machine learning-based prediction models offers optimism for personalised medicine access.
翻訳日:2023-02-26 13:40:33 公開日:2023-02-10
# 推薦のための半分散フェデレーションEgoグラフ学習

Semi-decentralized Federated Ego Graph Learning for Recommendation ( http://arxiv.org/abs/2302.10900v1 )

ライセンス: Link先を確認
Liang Qu, Ningzhi Tang, Ruiqi Zheng, Quoc Viet Hung Nguyen, Zi Huang, Yuhui Shi, Hongzhi Yin(参考訳) CF(Collaborative Filtering)ベースのレコメンダシステムは一般的に、egoグラフとして自然に表現できる個人間相互作用データ(例えばクリックと購入)に基づいて訓練される。 しかし、既存のリコメンデーション手法の多くは、これらのエゴグラフを全ユーザから収集して、ユーザとアイテム間の高次協調情報を得るためにグローバルグラフを構成するものであり、これらの集中型CFレコメンデーション手法は、ユーザプライバシリークのリスクを必然的に高める。 最近提案された連合レコメンデーションシステムは、プライバシの問題を軽減することができるが、デバイス上のローカルトレーニングを孤立したegoグラフに制限するか、他のegoグラフにアクセスするために追加のサードパーティサーバに頼るかのどちらかで、実際には動作が難しい。 さらに、既存のフェデレーションレコメンデーションシステムは、組み込みテーブル全体を維持するためにリソース制限のデバイスを必要とするため、通信コストが高い。 これを踏まえて,デバイス上でのレコメンデーションを行うための半分散型egoグラフ学習フレームワークであるsemidfeglを提案する。semidfeglは,スケーラビリティの向上と通信コストの削減を目的とした,新たなデバイス間コラボレーションを導入している。 さらに、提案するフレームワークはモデルに依存しないため、既存のグラフニューラルネットワークベースのレコメンデーションメソッドやプライバシ保護技術とシームレスに統合できる。 提案手法の有効性を検証するため,3つの公開データセットに対して広範囲な実験を行い,提案手法が他のフェデレーションレコメンデーション手法よりも優れていることを示す。

Collaborative filtering (CF) based recommender systems are typically trained based on personal interaction data (e.g., clicks and purchases) that could be naturally represented as ego graphs. However, most existing recommendation methods collect these ego graphs from all users to compose a global graph to obtain high-order collaborative information between users and items, and these centralized CF recommendation methods inevitably lead to a high risk of user privacy leakage. Although recently proposed federated recommendation systems can mitigate the privacy problem, they either restrict the on-device local training to an isolated ego graph or rely on an additional third-party server to access other ego graphs resulting in a cumbersome pipeline, which is hard to work in practice. In addition, existing federated recommendation systems require resource-limited devices to maintain the entire embedding tables resulting in high communication costs. In light of this, we propose a semi-decentralized federated ego graph learning framework for on-device recommendations, named SemiDFEGL, which introduces new device-to-device collaborations to improve scalability and reduce communication costs and innovatively utilizes predicted interacted item nodes to connect isolated ego graphs to augment local subgraphs such that the high-order user-item collaborative information could be used in a privacy-preserving manner. Furthermore, the proposed framework is model-agnostic, meaning that it could be seamlessly integrated with existing graph neural network-based recommendation methods and privacy protection techniques. To validate the effectiveness of the proposed SemiDFEGL, extensive experiments are conducted on three public datasets, and the results demonstrate the superiority of the proposed SemiDFEGL compared to other federated recommendation methods.
翻訳日:2023-02-26 13:40:13 公開日:2023-02-10
# ラベルフリーデータに基づく深部ニューラルネットワークの知識蒸留と量子化のための特徴親和性

Feature Affinity Assisted Knowledge Distillation and Quantization of Deep Neural Networks on Label-Free Data ( http://arxiv.org/abs/2302.10899v1 )

ライセンス: Link先を確認
Zhijian Li, Biao Yang, Penghang Yin, Yingyong Qi, and Jack Xin(参考訳) 本稿では,深層ニューラルネットワーク(DNN)の量子化学習を改善するために,機能親和性(FA)支援知識蒸留(KD)法を提案する。 DNNの中間機能マップにおけるFA損失は、ネットワークロジットに損失が作用する従来のKDにおいてのみ最終回答を与えるのではなく、生徒にソリューションの中間ステップを教える役割を担っている。 ロジット損失とfa損失を組み合わせることで,定量化学生ネットワークはラベル付き地中データよりも強い監督を受けていることがわかった。 FAQDはラベルのないデータでモデルを圧縮することができ、事前学習された教師モデルが容易に利用可能であり、ラベルなしデータが豊富であるので、すぐに実用的な利点をもたらす。 対照的に、データラベリングはしばしば手間と費用がかかる。 最後に,高速な特徴親和性(FFA)損失を計算複雑性の低い順で正確に近似し,高分解能画像入力のトレーニングを高速化する手法を提案する。

In this paper, we propose a feature affinity (FA) assisted knowledge distillation (KD) method to improve quantization-aware training of deep neural networks (DNN). The FA loss on intermediate feature maps of DNNs plays the role of teaching middle steps of a solution to a student instead of only giving final answers in the conventional KD where the loss acts on the network logits at the output level. Combining logit loss and FA loss, we found that the quantized student network receives stronger supervision than from the labeled ground-truth data. The resulting FAQD is capable of compressing model on label-free data, which brings immediate practical benefits as pre-trained teacher models are readily available and unlabeled data are abundant. In contrast, data labeling is often laborious and expensive. Finally, we propose a fast feature affinity (FFA) loss that accurately approximates FA loss with a lower order of computational complexity, which helps speed up training for high resolution image input.
翻訳日:2023-02-26 13:39:38 公開日:2023-02-10
# 実世界の医療環境における分布変化による公平性伝達障害の診断

Diagnosing failures of fairness transfer across distribution shift in real-world medical settings ( http://arxiv.org/abs/2202.01034v2 )

ライセンス: Link先を確認
Jessica Schrouff and Natalie Harris and Oluwasanmi Koyejo and Ibrahim Alabdulmohsin and Eva Schnider and Krista Opsahl-Ong and Alex Brown and Subhrajit Roy and Diana Mincu and Christina Chen and Awa Dieng and Yuan Liu and Vivek Natarajan and Alan Karthikesalingam and Katherine Heller and Silvia Chiappa and Alexander D'Amour(参考訳) 分散シフトによるモデルフェアネスの変化の診断と緩和は、医療環境における機械学習の安全な展開の重要な構成要素である。 重要なことは、緩和戦略の成功はシフトの構造に強く依存する。 それにもかかわらず、実際に遭遇している分布シフトの構造を実証的に評価する方法についてはほとんど議論されていない。 本研究では,条件付き独立テストの動機付けに因果的フレーミングを適用し,分布シフトを特徴付ける。 本手法を2つの医学的応用に適用することにより,本知識は,文献でよく想定されるよりも現実のシフトが複雑である事例を含む,公平性伝達の失敗の診断に有効であることを示す。 これらの結果に基づいて、機械学習パイプラインの各ステップにおける潜在的な改善について論じる。

Diagnosing and mitigating changes in model fairness under distribution shift is an important component of the safe deployment of machine learning in healthcare settings. Importantly, the success of any mitigation strategy strongly depends on the structure of the shift. Despite this, there has been little discussion of how to empirically assess the structure of a distribution shift that one is encountering in practice. In this work, we adopt a causal framing to motivate conditional independence tests as a key tool for characterizing distribution shifts. Using our approach in two medical applications, we show that this knowledge can help diagnose failures of fairness transfer, including cases where real-world shifts are more complex than is often assumed in the literature. Based on these results, we discuss potential remedies at each step of the machine learning pipeline.
翻訳日:2023-02-19 14:37:59 公開日:2023-02-10
# alloprof: フランスの新しい質問応答型教育データセットとその情報検索事例研究への応用

Alloprof: a new French question-answer education dataset and its use in an information retrieval case study ( http://arxiv.org/abs/2302.07738v1 )

ライセンス: Link先を確認
Antoine Lefebvre-Brossard, Stephane Gazaille, Michel C. Desmarais(参考訳) 教師と生徒は、学校で提供されるものを補うために、オンライン学習リソースをますます頼りにしている。 利用可能なリソースの広さと深さの増大は、学生にとって素晴らしいことですが、クエリに対する回答を見つけることができるのは彼らだけです。 質問応答と情報検索システムは、アルゴリズムを訓練し評価するために、公開データセットから恩恵を受けてきたが、これらのデータセットのほとんどは、大人向けの英語テキストで書かれている。 ケベック州に本拠を置く小学校・高校のヘルプサイトalloprofから収集した,フランスの公開質問応答データセットを紹介し,29,349の質問とその説明を10,368人の学生から収集し,その半数以上が他の質問へのリンクやウェブサイト上の2,596の参考ページを含む。 また、情報検索タスクにおいて、このデータセットのケーススタディを示す。 このデータセットは、alloprof public forumで収集され、すべての質問が適切性について検証され、説明は、その適切性と質問との関連性の両方について検証された。 関連する文書を予測するため、事前訓練されたBERTモデルを用いたアーキテクチャを微調整し、評価した。 このデータセットは、研究者がフランス語の教育コンテキストに特化した質問回答、情報検索、その他のアルゴリズムを開発することを可能にする。 さらに、言語習熟度、画像、数学的記号、スペルミスの範囲は、マルチモーダル理解に基づくアルゴリズムを必要とする。 私たちがベースラインとして提示するケーススタディは、最近の技術に依存するアプローチが許容できるパフォーマンスレベルを提供することを示しているが、プロダクション環境で確実に使用および信頼性を得るためには、より多くの作業が必要である。

Teachers and students are increasingly relying on online learning resources to supplement the ones provided in school. This increase in the breadth and depth of available resources is a great thing for students, but only provided they are able to find answers to their queries. Question-answering and information retrieval systems have benefited from public datasets to train and evaluate their algorithms, but most of these datasets have been in English text written by and for adults. We introduce a new public French question-answering dataset collected from Alloprof, a Quebec-based primary and high-school help website, containing 29 349 questions and their explanations in a variety of school subjects from 10 368 students, with more than half of the explanations containing links to other questions or some of the 2 596 reference pages on the website. We also present a case study of this dataset in an information retrieval task. This dataset was collected on the Alloprof public forum, with all questions verified for their appropriateness and the explanations verified both for their appropriateness and their relevance to the question. To predict relevant documents, architectures using pre-trained BERT models were fine-tuned and evaluated. This dataset will allow researchers to develop question-answering, information retrieval and other algorithms specifically for the French speaking education context. Furthermore, the range of language proficiency, images, mathematical symbols and spelling mistakes will necessitate algorithms based on a multimodal comprehension. The case study we present as a baseline shows an approach that relies on recent techniques provides an acceptable performance level, but more work is necessary before it can reliably be used and trusted in a production setting.
翻訳日:2023-02-19 14:24:24 公開日:2023-02-10
# AIとAIの衝突: ソーシャルメディアで機械生成の偽レストランレビュー

Combat AI With AI: Counteract Machine-Generated Fake Restaurant Reviews on Social Media ( http://arxiv.org/abs/2302.07731v1 )

ライセンス: Link先を確認
Alessandro Gambetti, Qiwei Han(参考訳) GPTのような生成モデルの最近の進歩は、識別不能な偽の顧客レビューをはるかに低コストで作成するために使われる可能性があるため、ソーシャルメディアプラットフォームがこれらのマシン生成の偽のレビューを検出する上での課題を提起する。 Yelpが検証した高品質なレストランレビューを活用して、OpenAI GPTレビュー作成者から偽レビューを生成し、最終的にGPT出力検出器を微調整して、既存のソリューションを著しく上回る偽レビューを予測することを提案する。 さらに,非礼儀正しくないレビューの予測や,レビューやユーザやレストランの特徴,書き方など,複数の次元にわたるパターンの識別にモデルを適用する。 疑わしいレビューをフィルタリングする検出システムを実装する可能性があるが、ソーシャルメディアプラットフォームはマシン生成の偽レビューに継続的に挑戦している。

Recent advances in generative models such as GPT may be used to fabricate indistinguishable fake customer reviews at a much lower cost, thus posing challenges for social media platforms to detect these machine-generated fake reviews. We propose to leverage the high-quality elite restaurant reviews verified by Yelp to generate fake reviews from the OpenAI GPT review creator and ultimately fine-tune a GPT output detector to predict fake reviews that significantly outperforms existing solutions. We further apply the model to predict non-elite reviews and identify the patterns across several dimensions, such as review, user and restaurant characteristics, and writing style. We show that social media platforms are continuously challenged by machine-generated fake reviews, although they may implement detection systems to filter out suspicious reviews.
翻訳日:2023-02-19 14:23:55 公開日:2023-02-10
# コミュニティ学習と支援ネットワークによるソフトウェア工学教育における多様性の活用

Leveraging Diversity in Software Engineering Education through Community Engaged Learning and a Supportive Network ( http://arxiv.org/abs/2302.07100v1 )

ライセンス: Link先を確認
Nowshin Nawar Arony, Kezia Devathasan, Ze Shi Li, Daniela Damian(参考訳) 多様性の欠如はコンピュータ科学と工学における長年の問題であるが、大学や組織はこの問題に対する解決策を探し続けている。 カナダのビクトリア大学のSTEM for Social Impactは、コンピュータ科学と工学の不足したグループから学生を動機付け、支援し、特定のコミュニティパートナーと経験的学習プロジェクトに従事し、社会に影響を及ぼすプロジェクトのためのデジタルソリューションを開発することを目的としています。 プログラムの24人の学生は、学問分野、性別、民族、技術および教育経験のレベルといった様々な背景から来ています。 6人のコミュニティパートナーと協力して、これらの学生は社会問題や環境問題に対する学習と解決策の開発に4ヶ月を費やした。 私たちの経験から、プレッシャー問題を解決するために、実際の顧客を持つ多様なチームで働くことは、自己決定理論の基礎となる能力、関連性、自律性を生み出します。 このプログラムの独特な構造のため、異なる経験を通じて自己決定理論の3つの原則が生まれ、最終的には学生が同志のネットワークを構築する動機となった。 このようなネットワークの重要性は、学生に成功の力を与え、振り返ってみれば、ソフトウェア工学の分野に留まる。 多様性の問題に対処するために、多様性に欠ける学生に、その潜在能力を学べる安全で類似した環境を提供する。 そこで本稿では,このアプローチから得られたプログラム設計,経験,教訓について述べる。 また、私たちのアプローチを適応させたい大学や組織にも推奨しています。

While a lack of diversity is a longstanding problem in computer science and engineering, universities and organizations continue to look for solutions to this issue. Among the first of its kind, we launched INSPIRE: STEM for Social Impact, a program at the University of Victoria, Canada, aimed to motivate and empower students from underrepresented groups in computer science and engineering to develop digital solutions for society impactful projects by engaging in experiential learning projects with identified community-partners. The twenty-four students in the program came from diverse backgrounds in terms of academic areas of study, genders, ethnicities, and levels of technical and educational experience. Working with six community partners, these students spent four months learning and developing solutions for a societal and/or environmental problem with potential for local and global impacts. Our experiences indicate that working in a diverse team with real clients on solving pressing issues produces a sense of competence, relatedness, and autonomy which are the basis of self-determination theory. Due to the unique structure of this program, the three principles of self-determination theory emerged through different experiences, ultimately motivating the students to build a network of like-minded people. The importance of such a network is profound in empowering students to succeed and, in retrospect, remain in software engineering fields. We address the diversity problem by providing diverse, underrepresented students with a safe and like-minded environment where they can learn and realize their full potential. Hence, in this paper, we describe the program design, experiences, and lessons learned from this approach. We also provide recommendations for universities and organizations that may want to adapt our approach.
翻訳日:2023-02-19 14:10:46 公開日:2023-02-10
# プライバシーポリシーの人間理解のための言語横断コーパスの構築

Building cross-language corpora for human understanding of privacy policies ( http://arxiv.org/abs/2302.05355v1 )

ライセンス: Link先を確認
Francesco Ciclosi, Silvia Vidor, and Fabio Massacci(参考訳) ユーザがそれらに影響を与えるプライバシーポリシーを理解することが、実際のGDPRデプロイメントにとって重要な課題である。 研究は主に英語で行われているが、ヨーロッパや他の地域では、ユーザーは英語でない言語を話す。 異なる言語で研究を複製するには、同等のクロス言語プライバシポリシコーパスが必要である。 この研究は、国語と参照学習言語で同等のクロス言語を構築するための方法論を提供する。 プライバシポリシにおける技術的用語の理解に関する最初の研究の1つとして,英語とイタリア語の比較手法を応用例として紹介する。 レプリケーションを難しくする、他のオープンな問題も調査します。

Making sure that users understand privacy policies that impact them is a key challenge for a real GDPR deployment. Research studies are mostly carried in English, but in Europe and elsewhere, users speak a language that is not English. Replicating studies in different languages requires the availability of comparable cross-language privacy policies corpora. This work provides a methodology for building comparable cross-language in a national language and a reference study language. We provide an application example of our methodology comparing English and Italian extending the corpus of one of the first studies about users understanding of technical terms in privacy policies. We also investigate other open issues that can make replication harder.
翻訳日:2023-02-19 14:06:46 公開日:2023-02-10
# ChatGPTとその他の大規模生成AIモデルの制御

Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v4 )

ライセンス: Link先を確認
Philipp Hacker, Andreas Engel, Marco Mauer(参考訳) ChatGPTやStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。 しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。 本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。 技術基盤を整備した後は、(1)直接規制、(2)データ保護、(3)コンテンツモデレーション、(4)政策提案の4段階に進む。 これは、LGAIMの開発者、デプロイ者、プロフェッショナルおよび非プロフェッショナルのユーザ、およびLGAIMのアウトプットを区別することで、LGAIM設定でAIバリューチェーンをキャプチャする新しい用語を提案する。 我々は、これらの異なるアクターに対する規制業務をバリューチェーンに沿って調整し、LGAIMが社会全体の利益のために信頼でき、デプロイされることを保証するための4つの戦略を提案する。 ai法やその他の直接規制の規則は、事前訓練されたモデルの特異性に合致しなければならない。 特に、規制は事前訓練されたモデル自身ではなく、具体的なハイリスクなアプリケーションに焦点を当てるべきであり、含めるべきである。 一 透明性に関する義務及び義務 (ii)リスク管理。 非差別規定 しかし、(iii)LGAIM開発者には適用できる。 最後に (4) DSA コンテンツモデレーションルールの中核は LGAIM をカバーするように拡張されるべきである。 これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。 あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。

Large generative AI models (LGAIMs), such as ChatGPT or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. After laying technical foundations, the legal part of the paper proceeds in four steps, covering (1) direct regulation, (2) data protection, (3) content moderation, and (4) policy proposals. It suggests a novel terminology to capture the AI value chain in LGAIM settings by differentiating between LGAIM developers, deployers, professional and non-professional users, as well as recipients of LGAIM output. We tailor regulatory duties to these different actors along the value chain and suggest four strategies to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. Rules in the AI Act and other direct regulation must match the specificities of pre-trained models. In particular, regulation should focus on concrete high-risk applications, and not the pre-trained model itself, and should include (i) obligations regarding transparency and (ii) risk management. Non-discrimination provisions (iii) may, however, apply to LGAIM developers. Lastly, (iv) the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al.
翻訳日:2023-02-19 14:02:48 公開日:2023-02-10
# 心の理論は、大きな言語モデルで自然発生的に現れたかもしれない

Theory of Mind May Have Spontaneously Emerged in Large Language Models ( http://arxiv.org/abs/2302.02083v2 )

ライセンス: Link先を確認
Michal Kosinski(参考訳) 心の理論、または他人に観察不能な精神状態をもたらす能力は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。 人間のToMテストに広く用いられている古典的偽理解タスクを,事例や事前学習を伴わずに,いくつかの言語モデルに管理する。 その結果,2022年以前のモデルでは,ToMタスクを解く能力がほとんどないことがわかった。 しかし、2022年1月のGPT-3(davinci-002)では、ToMタスクの70%が解決された。 さらに、2022年11月版(davinci-003)では、ToMタスクの93%が解決された。 これらの結果から,ToM様の能力は言語モデルの言語能力向上の副産物として自然に出現した可能性が示唆された。

Theory of mind (ToM), or the ability to impute unobservable mental states to others, is central to human social interactions, communication, empathy, self-consciousness, and morality. We administer classic false-belief tasks, widely used to test ToM in humans, to several language models, without any examples or pre-training. Our results show that models published before 2022 show virtually no ability to solve ToM tasks. Yet, the January 2022 version of GPT-3 (davinci-002) solved 70% of ToM tasks, a performance comparable with that of seven-year-old children. Moreover, its November 2022 version (davinci-003), solved 93% of ToM tasks, a performance comparable with that of nine-year-old children. These findings suggest that ToM-like ability (thus far considered to be uniquely human) may have spontaneously emerged as a byproduct of language models' improving language skills.
翻訳日:2023-02-19 14:02:05 公開日:2023-02-10
# Invisible Users: 説明可能なAIに対するエンドユーザの要求を明らかにする

Invisible Users: Uncovering End-Users' Requirements for Explainable AI via Explanation Forms and Goals ( http://arxiv.org/abs/2302.06609v1 )

ライセンス: Link先を確認
Weina Jin, Jianyu Fan, Diane Gromala, Philippe Pasquier, Ghassan Hamarneh(参考訳) 非技術系エンドユーザは、最先端の説明可能な人工知能(xai)技術の静かで目に見えないユーザである。 これらのAI説明可能性の要求と要件は、AI決定の根拠をエンドユーザに説明し、批判的な決定を支援するために開発されたXAIテクニックの設計と評価には組み込まれていない。 これにより、XAI技術は、医療、刑事司法、金融、自動運転システムといった、高額な応用において非効率または有害である。 XAIの技術的開発を支援するためのエンドユーザの要件を体系的に理解するために、我々は、32人のレイパーによるEUCAユーザスタディを4つのAI支援クリティカルタスクで実施した。 本研究は,機能-,例-およびルールベースのXAI技術(エンドユーザーフレンドリな説明形式によって特徴付けられる)とXAI評価目標(説明目標によって特徴付けられる)に対する包括的ユーザ要件を明らかにし,新しいXAIアルゴリズムの提案や評価指標の直接的インスピレーションに役立つことを示した。 EUCA研究の結果、特定された技術的仕様の形式と目標、そしてEUCA研究データセットは、アクセス可能で安全で説明可能なAIのためのエンドユーザー中心のXAI技術の設計と評価をサポートする。

Non-technical end-users are silent and invisible users of the state-of-the-art explainable artificial intelligence (XAI) technologies. Their demands and requirements for AI explainability are not incorporated into the design and evaluation of XAI techniques, which are developed to explain the rationales of AI decisions to end-users and assist their critical decisions. This makes XAI techniques ineffective or even harmful in high-stakes applications, such as healthcare, criminal justice, finance, and autonomous driving systems. To systematically understand end-users' requirements to support the technical development of XAI, we conducted the EUCA user study with 32 layperson participants in four AI-assisted critical tasks. The study identified comprehensive user requirements for feature-, example-, and rule-based XAI techniques (manifested by the end-user-friendly explanation forms) and XAI evaluation objectives (manifested by the explanation goals), which were shown to be helpful to directly inspire the proposal of new XAI algorithms and evaluation metrics. The EUCA study findings, the identified explanation forms and goals for technical specification, and the EUCA study dataset support the design and evaluation of end-user-centered XAI techniques for accessible, safe, and accountable AI.
翻訳日:2023-02-15 17:33:30 公開日:2023-02-10
# 線形最適化のための内部点法における量子線形系アルゴリズムの有効利用

Efficient Use of Quantum Linear System Algorithms in Interior Point Methods for Linear Optimization ( http://arxiv.org/abs/2205.01220v2 )

ライセンス: Link先を確認
Mohammadhossein Mohammadisiahroudi, Ramin Fakhimi, Tam\'as Terlaky(参考訳) 量子コンピューティングは、従来のスーパーコンピュータよりも早く最適化問題のクラスを解くことができるため、最適化コミュニティにおいて大きな関心を集めている。 量子コンピューティング手法、特に量子内点法(QIPM)を提案し、線形最適化、半有限最適化、二階錐最適化といった凸最適化問題を解く。 彼らのほとんどは、ニュートンステップを計算するために各イテレーションで量子線形システムアルゴリズムを適用した。 しかし、QIPMにおける量子線形解法の使用には、不条件のシステムや量子解法のかなりの誤差など、多くの課題が伴う。 本稿では,量子線形解法をQIPMで効率的に利用する方法を検討する。 そこで, 線形最適化問題を解くために, 不正確な量子内点法を開発した。 また、量子ソルバの過度な時間なしで、反復リファインメントによって正確な解を得る方法についても論じる。 最後に,量子シミュレータを用いたQIPMのQISKIT実装による計算結果を解析した。

Quantum computing has attracted significant interest in the optimization community because it potentially can solve classes of optimization problems faster than conventional supercomputers. Several researchers proposed quantum computing methods, especially Quantum Interior Point Methods (QIPMs), to solve convex optimization problems, such as Linear Optimization, Semidefinite Optimization, and Second-order Cone Optimization problems. Most of them have applied a Quantum Linear System Algorithm at each iteration to compute a Newton step. However, using quantum linear solvers in QIPMs comes with many challenges, such as having ill-conditioned systems and the considerable error of quantum solvers. This paper investigates how one can efficiently use quantum linear solvers in QIPMs. Accordingly, an Inexact Infeasible Quantum Interior Point Method is developed to solve linear optimization problems. We also discuss how can we get an exact solution by Iterative Refinement without excessive time of quantum solvers. Finally, computational results with QISKIT implementation of our QIPM using quantum simulators are analyzed.
翻訳日:2023-02-14 20:23:27 公開日:2023-02-10
# Element-Wise Attention Layers:最適化のためのオプション

Element-Wise Attention Layers: an option for optimization ( http://arxiv.org/abs/2302.05488v1 )

ライセンス: Link先を確認
Giovanni Araujo Bacochina, Rodrigo Clemente Thom de Souza(参考訳) Attention Layersの使用はTransformerベースのモデルの普及以来トレンドとなり、近年まで開発されてきた多くの最先端モデルのキー要素となっている。 しかし、これらのアーキテクチャを実装する上での最大の障害の1つは、Deep Learning Fieldの他の多くのものと同様に、それらが持つ膨大な量の最適化パラメータであり、堅牢なハードウェアの可用性を前提としている。 本稿では,行列乗算を用いたDot-Product Attentionに適応し,配列乗算を用いて要素単位となる新しいアテンション機構を提案する。 このような手法の有効性を検証するため、Fashion MNISTとCIFAR10データセットを用いた分類作業において、2つのモデル(VGG様アーキテクチャと提案手法)を訓練した。 各モデルは、google colaboratoryから1つのtesla t4 gpuで10エポックのトレーニングを受けた。 結果は、このメカニズムにより、Fashion MNISTデータセットのVGGに似た92%の精度が得られ、パラメータの数を97%削減できることを示している。 CIFAR10 の場合、精度は VGG の 60% に相当し、パラメータは 50% 少ない。

The use of Attention Layers has become a trend since the popularization of the Transformer-based models, being the key element for many state-of-the-art models that have been developed through recent years. However, one of the biggest obstacles in implementing these architectures - as well as many others in Deep Learning Field - is the enormous amount of optimizing parameters they possess, which make its use conditioned on the availability of robust hardware. In this paper, it's proposed a new method of attention mechanism that adapts the Dot-Product Attention, which uses matrices multiplications, to become element-wise through the use of arrays multiplications. To test the effectiveness of such approach, two models (one with a VGG-like architecture and one with the proposed method) have been trained in a classification task using Fashion MNIST and CIFAR10 datasets. Each model has been trained for 10 epochs in a single Tesla T4 GPU from Google Colaboratory. The results show that this mechanism allows for an accuracy of 92% of the VGG-like counterpart in Fashion MNIST dataset, while reducing the number of parameters in 97%. For CIFAR10, the accuracy is still equivalent to 60% of the VGG-like counterpart while using 50% less parameters.
翻訳日:2023-02-14 20:16:09 公開日:2023-02-10
# RAFaRE:擬似2D&3Dによるロバスト学習と非パラメトリック3次元顔再構成

RAFaRe: Learning Robust and Accurate Non-parametric 3D Face Reconstruction from Pseudo 2D&3D Pairs ( http://arxiv.org/abs/2302.05486v1 )

ライセンス: Link先を確認
Longwei Guo, Hao Zhu, Yuanxun Lu, Menghua Wu, Xun Cao(参考訳) 単視3次元顔再構成(SVFR)のための頑健で正確な非パラメトリック手法を提案する。 パラメトリックSVFRに多大な努力が注がれているが、結果の3次元形状と地上の真実の間にはまだ目に見えるギャップがある。 2つの大きな障害があります 1) パラメトリックモデルの表現は,特定の顔データベースに限定されている。 2) 装着したデータセットの2次元画像と3次元形状は明らかに不一致である。 これらの問題を解決するために、大規模な疑似2d\&3dデータセットは、まず詳細な3d顔をレンダリングし、次にワイルドイメージの顔をレンダリングされた顔に置き換える。 これらの擬似2D&3Dペアは、公開データセットから作成され、さまざまな外観、ポーズ、シーン、照明をカバーしながら、2Dデータと3Dデータのギャップを取り除く。 さらに,生成したデータセットから一般化したsvfrモデルを学ぶための非パラメトリックスキームを提案し,提案する階層的符号付き距離関数は,中小規模の3次元顔形状の予測に有効であることがわかった。 提案モデルは,FaceScape-wild/lab と MICC ベンチマークにおける従来の手法よりも優れており,様々な外観,ポーズ,表現,その内環境に対してよく一般化されている。 コードはhttp://github.com/zhuhao-nju/rafareでリリースされる。

We propose a robust and accurate non-parametric method for single-view 3D face reconstruction (SVFR). While tremendous efforts have been devoted to parametric SVFR, a visible gap still lies between the result 3D shape and the ground truth. We believe there are two major obstacles: 1) the representation of the parametric model is limited to a certain face database; 2) 2D images and 3D shapes in the fitted datasets are distinctly misaligned. To resolve these issues, a large-scale pseudo 2D\&3D dataset is created by first rendering the detailed 3D faces, then swapping the face in the wild images with the rendered face. These pseudo 2D&3D pairs are created from publicly available datasets which eliminate the gaps between 2D and 3D data while covering diverse appearances, poses, scenes, and illumination. We further propose a non-parametric scheme to learn a well-generalized SVFR model from the created dataset, and the proposed hierarchical signed distance function turns out to be effective in predicting middle-scale and small-scale 3D facial geometry. Our model outperforms previous methods on FaceScape-wild/lab and MICC benchmarks and is well generalized to various appearances, poses, expressions, and in-the-wild environments. The code is released at http://github.com/zhuhao-nju/rafare .
翻訳日:2023-02-14 20:15:49 公開日:2023-02-10
# 量子光学系における同軸近似について II:マクスウェル場のヘノクロマチックモード

On the paraxial approximation in quantum optics II: Henochromatic modes of a Maxwell field ( http://arxiv.org/abs/2302.05478v1 )

ライセンス: Link先を確認
M. Fernanda Jongewaard de Boer and Christopher Beetle(参考訳) 共著の論文では、スカラー場の単粒子量子状態と、同軸近似でモデル化された古典放射の狭い共役ビームのモードを結合する最善の方法は、スダルシャン、サイモン、ムクンダによって以前に導入された'henochromatic'状態を用いると論じている。 本稿では、その結果をマクスウェル場に拡張し、この関係の定義におけるユニタリティーの中心的な役割を強調した。 この議論における主要な新しい技術要素は、結果として生じる単一光子状態において偏光と空間自由度が絡み合うことである。

A companion paper has argued that the best way to associate single-particle quantum states of a scalar field to the modes of a narrowly collimated beam of classical radiation modeled in the paraxial approximation uses the ``henochromatic'' states previously introduced by Sudarshan, Simon and Mukunda. This paper extends that result to Maxwell fields, again emphasizing the central role of unitarity in defining the association. The principal new technical element in the present discussion has to do with the intertwining of polarization and spatial degrees of freedom in the resulting single-photon states.
翻訳日:2023-02-14 20:15:27 公開日:2023-02-10
# 量子光学における同軸近似 I:スカラー場のヘノクロマチックモード

The paraxial approximation in quantum optics I: Henochromatic modes of a scalar field ( http://arxiv.org/abs/2302.05477v1 )

ライセンス: Link先を確認
Christopher Beetle and M. Fernanda Jongewaard de Boer(参考訳) 本稿では,一粒子の量子状態と,同軸近似でモデル化された古典的放射の狭く収束したビームの異なるモードを関連付ける方法を検討する。 本分析は自然発生の2つの内積の関係の重要性を強調した。 これらは、半軸近似における直交モードの重ね合わせとして一般ビームを拡張するために用いられる内積であり、他方では量子(場)理論の統計的解釈が確立される正準内積である。 ビームモードと単粒子量子状態の関連については,いくつかの候補が文献で提案されているが,その1つは一意にタスクに適している。 具体的には、sudarshan、simon、mukundaが以前に導入した ‘henochromatic' 量子状態へのビームモードのマッピングは、数学的に正確な意味でユニタリであるという点で、類似したマッピングの大きなクラスの中で一意である。

This paper examines how best to associate quantum states of a single particle to different modes of a narrowly collimated beam of classical radiation modeled in the paraxial approximation. Our analysis stresses the importance of the relationship between two inner products naturally arising in the problem. These are the inner product used to expand a general beam as a superposition of orthogonal modes in the paraxial approximation, on the one hand, and the canonical inner product on which the statistical interpretation of quantum (field) theory is founded, on the other. While several candidates for the sort of association between beam modes and single-particle quantum states have been proposed in the literature, here we argue that one of them is uniquely well suited to the task. Specifically, the mapping of beam modes to the ``henochromatic'' quantum states previously introduced by Sudarshan, Simon and Mukunda is unique within a large class of similar mappings in that it is unitary in a mathematically precise sense.
翻訳日:2023-02-14 20:15:16 公開日:2023-02-10
# 重力性ハーモニウム:高調波路における重力誘起エンタングルメント

Gravitational Harmonium: Gravitationally Induced Entanglement in a Harmonic Trap ( http://arxiv.org/abs/2302.05463v1 )

ライセンス: Link先を確認
Jackson Yant and Miles Blencowe(参考訳) 近年の研究では、近い将来、表上実験で重力誘起の絡み合いを検出できることが示されている。 しかしながら、このタイプの実験では、この絡み合った粒子が相対論的量子場の励起としてより根本的に扱われ、観測可能な磁場の期待値を用いてモデル化されるようなモデルが開発されていない。 本稿では, 2つの粒子(すなわち, 大規模スカラー場量子)を, 共有3次元調和トラップ内のコヒーレント状態の重ね合わせで生成する思考実験を提案する。 粒子は相互重力相互作用によって絡み合い、粒子の位置検出確率によって探究することができる。 本研究は、ヘリウム原子内の近似電子相互作用のハーモニウムモデルとの類似性から「重力調和」と呼ばれるこの系の重力誘起絡み合いの非相対論的量子力学的解析を行い、この絡み合いは物質波の干渉可視性を通して操作的に決定される。 この研究は、量子場理論を用いてこのシステムをモデル化し、相対論的補正による重力誘起の絡み合いの量子的性質に関するさらなる洞察と、絡み合いを定量化する操作手順の基盤となる。

Recent work has shown that it may be possible to detect gravitationally induced entanglement in tabletop experiments in the not-too-distant future. However, there are at present no thoroughly developed models for this type of experiment where the entangled particles are treated more fundamentally as excitations of a relativistic quantum field, and with the measurements modeled using expectation values of field observables. Here we propose a thought experiment where two particles (i.e., massive scalar field quanta) are initially prepared in a superposition of coherent states within a common three-dimensional (3D) harmonic trap. The particles then develop entanglement through their mutual gravitational interaction, which can be probed through particle position detection probabilities. The present work gives a non-relativistic quantum mechanical analysis of the gravitationally induced entanglement of this system, which we term the `gravitational harmonium' due to its similarity to the harmonium model of approximate electron interactions in a helium atom; the entanglement is operationally determined through the matter wave interference visibility. The present work serves as the basis for a subsequent investigation, which models this system using quantum field theory, providing further insights into the quantum nature of gravitationally induced entanglement through relativistic corrections, together with an operational procedure to quantify the entanglement.
翻訳日:2023-02-14 20:15:00 公開日:2023-02-10
# クリロフ宇宙における断熱への近道

Shortcuts to Adiabaticity in Krylov Space ( http://arxiv.org/abs/2302.05460v1 )

ライセンス: Link先を確認
Kazutaka Takahashi, Adolfo del Campo(参考訳) 断熱性へのショートカットは量子状態の準備のための高速なプロトコルを提供し、補助的な反断熱制御を使用することで断熱戦略における緩やかな運転の要求を回避できる。 彼らの開発は単純なシステムで十分に確立されているが、工学と実装は多くの自由度を持つ多体量子システムでは困難である。 逆ダイアバティックな項、すなわち断熱ゲージポテンシャルの方程式は、クリロフ基底を導入することで解くことができる。 クリロフ基底は、ダイナミクスが展開する極小作用素部分空間にまたがり、対ダイアバティックな項を構築する効率的な方法を提供する。 我々はパラダイム的単一粒子モデルと多粒子モデルに戦略を適用する。 反断熱項の性質は、アルゴリズム的手法によりクリロフ基底の構成の過程で得られたランツォス係数に反映される。 クリャロフ基底の膨張が反断熱項における多体相互作用をどのように組み込むかを検討する。

Shortcuts to adiabaticity provide fast protocols for quantum state preparation in which the use of auxiliary counterdiabatic controls circumvents the requirement of slow driving in adiabatic strategies. While their development is well established in simple systems, their engineering and implementation are challenging in many-body quantum systems with many degrees of freedom. We show that the equation for the counterdiabatic term, equivalently the adiabatic gauge potential, is solved by introducing a Krylov basis. The Krylov basis spans the minimal operator subspace in which the dynamics unfolds and provides an efficient way to construct the counterdiabatic term. We apply our strategy to paradigmatic single and many-particle models. The properties of the counterdiabatic term are reflected in the Lanczos coefficients obtained in the course of the construction of the Krylov basis by an algorithmic method. We examine how the expansion in the Krylov basis incorporates many-body interactions in the counterdiabatic term.
翻訳日:2023-02-14 20:14:36 公開日:2023-02-10
# 圧縮量子誤差緩和

Compressed quantum error mitigation ( http://arxiv.org/abs/2302.05457v1 )

ライセンス: Link先を確認
Maurits S. J. Tepaske, David J. Luitz(参考訳) 本稿では,量子回路の適用時に蓄積した誤差を除去するために,確率的誤差消去に基づく量子誤差軽減手法を提案する。 提案手法はノイズ回路の動作後に最適な「デノイザー」を適用することに基づいており、任意の数のゲートで実行することができる。 デノイザーは準確率分布で分布する回路のアンサンブルによって与えられる。 単純なノイズモデルでは,効率良く局所的なデノイザが発見できることを示すとともに,単純なスピンチェーンの時間発展のディジタル量子シミュレーションの有効性を示す。

We introduce a quantum error mitigation technique based on probabilistic error cancellation to eliminate errors which have accumulated during the application of a quantum circuit. Our approach is based on applying an optimal "denoiser" after the action of a noisy circuit and can be performed with an arbitrary number of extra gates. The denoiser is given by an ensemble of circuits distributed with a quasiprobability distribution. For a simple noise model, we show that efficient, local denoisers can be found, and we demonstrate their effectiveness for the digital quantum simulation of the time evolution of simple spin chains.
翻訳日:2023-02-14 20:14:22 公開日:2023-02-10
# シーケンスラベリングのためのエンコーダ・デコーダ変換器の蒸留

Distillation of encoder-decoder transformers for sequence labelling ( http://arxiv.org/abs/2302.05454v1 )

ライセンス: Link先を確認
Marco Farina, Duccio Pappadopulo, Anant Gupta, Leslie Huang, Ozan \.Irsoy, Thamar Solorio(参考訳) 幅広いタスクの結果を奨励することで、nlpの分野はより大きな言語モデルを開発するための競争が加速している。 大型モデルのこのレースは、これらの大型モデルが獲得した知識を計算効率よく活用できる実用的な蒸留手法の追求を継続する必要性も強調している。 この目的を念頭に置いて,最近の研究として,特に蒸留に適した配列タグ付けのための幻覚を含まないフレームワークを提案する。 複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示し、このフレームワークが大規模モデルを数ショットの学習シナリオで蒸留する有用性を検証する。

Driven by encouraging results on a wide range of tasks, the field of NLP is experiencing an accelerated race to develop bigger language models. This race for bigger models has also underscored the need to continue the pursuit of practical distillation approaches that can leverage the knowledge acquired by these big models in a compute-efficient manner. Having this goal in mind, we build on recent work to propose a hallucination-free framework for sequence tagging that is especially suited for distillation. We show empirical results of new state-of-the-art performance across multiple sequence labelling datasets and validate the usefulness of this framework for distilling a large model in a few-shot learning scenario.
翻訳日:2023-02-14 20:14:14 公開日:2023-02-10
# fMRIとDTIデータに基づく脳効果コネクトーム:ベイジアン因果学習と評価

Brain Effective Connectome based on fMRI and DTI Data: Bayesian Causal Learning and Assessment ( http://arxiv.org/abs/2302.05451v1 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mahdi Dehshiri, Yamin Bagheri, Alireza Akhondi-Asl, Babak Nadjar Araabi(参考訳) 神経科学研究の野心的な目標は、正確で信頼性の高い脳効果コネクトーム(EC)を見つけることである。 現在の心電図発見法は脳組織の理解に寄与しているが,fMRIデータの短いサンプルサイズと時間分解能,脳コネクトームの高次元性により,その性能は著しく制約されている。 DTIデータを事前の知識として活用することにより、fMRIデータのみに基づくECの発見における現在の因果発見手法の欠点に対処する最も信頼性が高く正確な方法として、ベイズ的GOLEM(BGOLEM)とベイズ的FGES(BFGES)の2つのカジュアル発見フレームワークを導入する。 人工およびハイブリッド(ヒトコネクトームプロジェクト(hcp)被験者のdti)データと合成fmriデータに関する一連のシミュレーション研究を通じて,ecの発見における提案手法の有効性と重要性を実証した。 我々はまた、Pseudo False Discovery Rate (PFDR) を脳の因果発見のための新しい精度指標として導入し、ベイズ法が従来の経験的データ(Human Connectome Project (HCP) のDTI法とfMRI法よりも高い精度を達成することを示す。 さらに,rogers-tanimotoインデックスを用いて検出されたecsの信頼性を測定し,従来の手法に比べてベイズ法の方が再現性が高いことを示す。

The ambitious goal of neuroscientific studies is to find an accurate and reliable brain Effective Connectome (EC). Although current EC discovery methods have contributed to our understanding of brain organization, their performances are severely constrained by the short sample size and poor temporal resolution of fMRI data, and high dimensionality of the brain connectome. By leveraging the DTI data as prior knowledge, we introduce two Bayesian casual discovery frameworks -- the Bayesian GOLEM (BGOLEM) and Bayesian FGES (BFGES) methods -- as the most reliable and accurate methods in discovering EC that address the shortcomings of the current causal discovery methods in discovering ECs based on only fMRI data. Through a series of simulation studies on synthetic and hybrid (DTI of the Human Connectome Project (HCP) subjects and synthetic fMRI) data, we first demonstrate the effectiveness and importance of the proposed methods in discovering EC. We also introduce the Pseudo False Discovery Rate (PFDR) as a new accuracy metric for causal discovery in the brain and show that our Bayesian methods achieve higher accuracy than traditional methods on empirical data (DTI and fMRI of the Human Connectome Project (HCP) subjects). Additionally, we measure the reliability of discovered ECs using the Rogers-Tanimoto index for test-retest data and show that our Bayesian methods provide significantly more reproducible ECs compared to traditional methods.
翻訳日:2023-02-14 20:14:00 公開日:2023-02-10
# CodeBERTScore: 事前訓練されたコードモデルによるコード生成の評価

CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code ( http://arxiv.org/abs/2302.05527v1 )

ライセンス: Link先を確認
Shuyan Zhou, Uri Alon, Sumit Agarwal, Graham Neubig(参考訳) 1つの次点ではなく、長い表現とステートメントを生成することができるコードのニューラルモデルが台頭して以来、主要な問題の1つは、生成された出力を確実に評価してきた。 本稿では,BERTScore(Zhang et al., 2020)上に構築されたコード生成の自動評価指標であるCodeBERTScoreを提案する。 BLEUとして正確なトークンマッチングを測定する代わりに、CodeBERTScoreは、生成されたコードと参照コードの各トークン間のソフトな類似度スコアを、大きな事前訓練されたモデルのコンテキストエンコーディングを使用して計算する。 さらに、BERTScoreのように生成されたトークンのみをエンコードする代わりに、CodeBERTScoreは生成されたコードを取り巻くプログラムコンテキストをエンコードする。 我々は、4つのプログラミング言語でCodeBERTScoreを広範囲に評価する。 CodeBERTScoreは、既存のすべての指標よりも人間の嗜好と機能的正しさとの相関性が高いことがわかった。 つまり、CodeBERTScoreによって高いスコアを受け取る生成されたコードは、人間によって好まれる傾向があり、実行時に正しく機能する。 最後に、CodeBERTScoreは多言語のCodeBERTをベースモデルとして使用できますが、言語固有の事前訓練されたモデルを5つリリースし、公開コードで使用しています。 私たちの言語固有のモデルは、Huggingface Hubから25,000回以上ダウンロードされています。

Since the rise of neural models of code that can generate long expressions and statements rather than a single next-token, one of the major problems has been reliably evaluating their generated output. In this paper, we propose CodeBERTScore: an automatic evaluation metric for code generation, which builds on BERTScore (Zhang et al., 2020). Instead of measuring exact token matching as BLEU, CodeBERTScore computes a soft similarity score between each token in the generated code and in the reference code, using the contextual encodings of large pretrained models. Further, instead of encoding only the generated tokens as in BERTScore, CodeBERTScore also encodes the programmatic context surrounding the generated code. We perform an extensive evaluation of CodeBERTScore across four programming languages. We find that CodeBERTScore achieves a higher correlation with human preference and with functional correctness than all existing metrics. That is, generated code that receives a higher score by CodeBERTScore is more likely to be preferred by humans, as well as to function correctly when executed. Finally, while CodeBERTScore can be used with a multilingual CodeBERT as its base model, we release five language-specific pretrained models to use with our publicly available code at https://github.com/neulab/code-bert-score . Our language-specific models have been downloaded more than 25,000 times from the Huggingface Hub.
翻訳日:2023-02-14 20:07:06 公開日:2023-02-10
# ニューラルネットワークの遺伝的アンサンブルを用いた衛星異常検出

Satellite Anomaly Detection Using Variance Based Genetic Ensemble of Neural Networks ( http://arxiv.org/abs/2302.05525v1 )

ライセンス: Link先を確認
Mohammad Amin Maleki Sadr, Yeying Zhu, Peng Hu(参考訳) 本稿では、ニューラルネットワーク(NN)の分散に基づく遺伝的アンサンブル(VGE)を用いて、衛星の歴史的データの異常を検出する。 各モデルの不確実性レベル(ばらつき)を活用し、複数のリカレントニューラルネットワーク(rnn)からの予測の効率的なアンサンブルを用いる。 予測には、各RNNモデルに対して最適な構造を構築する遺伝的アルゴリズム(GA)が使用される。 しかし、多くの場合、モデルの不確実性レベルを見つけることは困難である。 ベイジアン nns (bnns) に基づく手法はモデルの信頼度境界を与えるのに人気があるが、計算上難解であるため複雑な nn 構造では使用できない。 本稿では,BNNの近似版としてモンテカルロ(MC)ドロップアウトを用いる。 そして、これらの不確実性レベルとGAによって提案される各予測モデルを使用して新しいモデルを生成し、TSとADを予測する。 シミュレーションの結果,アンサンブルモデルの予測とAD能力は既存手法よりも優れていた。

In this paper, we use a variance-based genetic ensemble (VGE) of Neural Networks (NNs) to detect anomalies in the satellite's historical data. We use an efficient ensemble of the predictions from multiple Recurrent Neural Networks (RNNs) by leveraging each model's uncertainty level (variance). For prediction, each RNN is guided by a Genetic Algorithm (GA) which constructs the optimal structure for each RNN model. However, finding the model uncertainty level is challenging in many cases. Although the Bayesian NNs (BNNs)-based methods are popular for providing the confidence bound of the models, they cannot be employed in complex NN structures as they are computationally intractable. This paper uses the Monte Carlo (MC) dropout as an approximation version of BNNs. Then these uncertainty levels and each predictive model suggested by GA are used to generate a new model, which is then used for forecasting the TS and AD. Simulation results show that the forecasting and AD capability of the ensemble model outperforms existing approaches.
翻訳日:2023-02-14 20:06:41 公開日:2023-02-10
# 機械領域における人工知能の構築 --情報知覚タスクを実現するために折り紙における貯留層計算パワーの収集-

Building Intelligence in the Mechanical Domain -- Harvesting the Reservoir Computing Power in Origami to Achieve Information Perception Tasks ( http://arxiv.org/abs/2302.05517v1 )

ライセンス: Link先を確認
Jun Wang and Suyi Li(参考訳) 本稿では,紙をベースとしたシンプルな三浦織(物理貯水池計算フレームワーク)の認知能力を実験的に検討し,異なる情報認識タスクを実現する。 単純な高調波ベース励起により励起される三浦織の身体力学を貯水池計算資源として利用することができる。 これらのダイナミクスを高解像度カメラと画像処理プログラムで記録し, トレーニングに線形回帰を用いたことにより, 折り紙貯水池はペイロードの重量と位置を推定するのに十分な計算能力を有することを示す。 また、入力周波数や大きさのパターンも認識できる。 さらに、同じリザーバ状態行列に2つの対象関数を同時に適用することで、マルチタスクが可能となる。 そこで,三浦織は身体と環境との動的相互作用を評価し,機械的領域における知的行動である有意義な情報を抽出できることを示した。 三浦織は、展開可能な構造、軽量材料、それに適合するロボットの構築に広く用いられており、このような情報認識タスクが、このような多目的構造の機能性に新たな次元を加えることができる。

In this paper, we experimentally examine the cognitive capability of a simple, paper-based Miura-ori -- using the physical reservoir computing framework -- to achieve different information perception tasks. The body dynamics of Miura-ori (aka. its vertices displacements), which is excited by a simple harmonic base excitation, can be exploited as the reservoir computing resource. By recording these dynamics with a high-resolution camera and image processing program and then using linear regression for training, we show that the origami reservoir has sufficient computing capacity to estimate the weight and position of a payload. It can also recognize the input frequency and magnitude patterns. Furthermore, multitasking is achievable by simultaneously applying two targeted functions to the same reservoir state matrix. Therefore, we demonstrate that Miura-ori can assess the dynamic interactions between its body and ambient environment to extract meaningful information -- an intelligent behavior in the mechanical domain. Given that Miura-ori has been widely used to construct deployable structures, lightweight materials, and compliant robots, enabling such information perception tasks can add a new dimension to the functionality of such a versatile structure.
翻訳日:2023-02-14 20:06:24 公開日:2023-02-10
# SGDにおける呼び出しヘビアタイルの周期的およびランダム化ステップサイズ

Cyclic and Randomized Stepsizes Invoke Heavier Tails in SGD ( http://arxiv.org/abs/2302.05516v1 )

ライセンス: Link先を確認
Mert G\"urb\"uzbalaban, Yuanhan Hu, Umut \c{S}im\c{s}ekli, Lingjiong Zhu(参考訳) 周期的およびランダムなステップサイズは、ディープラーニングの実践において広く使われており、SGDにおける定数ステップサイズのような標準的なステップサイズ選択よりも優れていることが多い。 経験的な成功にもかかわらず、理論的に一般化性能が向上できる時期と理由については、現時点ではあまり知られていない。 我々は,学習のためのマルコフステップの一般クラスとして,ランダムステップ化,サイクリックステップ化,および一定のステップ化を特別な場合として考慮し,sgdイテレートにおけるテールの重み(いわゆる「テールインデックス」によって測定される)が一般化と相関していることを示す文献に動機づけられ,テールインデックスを研究し,テールインデックスがスケジューリングにどのように依存するかを実証する理論的結果を提供する。 この結果から, 周期的およびランダムな段階化の利点に対する新たな理解が得られた。 線形回帰実験に関する我々の理論を解説し、マルコフのステップ化がより重いテールを達成でき、循環的および非ランダムなステップ化規則の代替となることの深層学習実験を通して示す。

Cyclic and randomized stepsizes are widely used in the deep learning practice and can often outperform standard stepsize choices such as constant stepsize in SGD. Despite their empirical success, not much is currently known about when and why they can theoretically improve the generalization performance. We consider a general class of Markovian stepsizes for learning, which contain i.i.d. random stepsize, cyclic stepsize as well as the constant stepsize as special cases, and motivated by the literature which shows that heaviness of the tails (measured by the so-called "tail-index") in the SGD iterates is correlated with generalization, we study tail-index and provide a number of theoretical results that demonstrate how the tail-index varies on the stepsize scheduling. Our results bring a new understanding of the benefits of cyclic and randomized stepsizes compared to constant stepsize in terms of the tail behavior. We illustrate our theory on linear regression experiments and show through deep learning experiments that Markovian stepsizes can achieve even a heavier tail and be a viable alternative to cyclic and i.i.d. randomized stepsize rules.
翻訳日:2023-02-14 20:06:02 公開日:2023-02-10
# 騒音勾配によらず加速を達成する

Achieving acceleration despite very noisy gradients ( http://arxiv.org/abs/2302.05515v1 )

ライセンス: Link先を確認
Kanan Gupta, Jonathan Siegel, Stephan Wojtowytsch(参考訳) 本稿では,勾配推定の確率的ノイズが勾配自身よりも桁違いに大きい場合でも,凸最小化の高速化を実現する新たな運動量ベース一階最適化法(agnes)を提案する。 ここでは,ノイズを,基礎となる勾配の大きさに比例する分散を持つものとしてモデル化する。 我々は、経験的証拠に基づいて、これは過パラメータ深層学習におけるミニバッチ勾配に適していると論じる。 さらに,本手法は,MNIST および CIFAR-10 上での CNN のトレーニングにおいて,競合性能を実現することを示す。

We present a novel momentum-based first order optimization method (AGNES) which provably achieves acceleration for convex minimization, even if the stochastic noise in the gradient estimates is many orders of magnitude larger than the gradient itself. Here we model the noise as having a variance which is proportional to the magnitude of the underlying gradient. We argue, based upon empirical evidence, that this is appropriate for mini-batch gradients in overparameterized deep learning. Furthermore, we demonstrate that the method achieves competitive performance in the training of CNNs on MNIST and CIFAR-10.
翻訳日:2023-02-14 20:05:38 公開日:2023-02-10
# FairPy:大規模言語モデルにおける社会的バイアスの評価と緩和のためのツールキット

FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation in Large Language Models ( http://arxiv.org/abs/2302.05508v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath and Tianyi Zhang(参考訳) 大規模な事前訓練された言語モデルは、彼らが訓練されたデータセットから受け継いだ人種、性別等に基づく社会グループに対するバイアスを示す。 様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。 このようなバイアスを軽減する方法が提案されている。 本稿では,bert,gpt-2などの一般的な事前学習言語モデルによって提示される,人種,性別,民族性,年齢等の異なる種類のバイアスの包括的定量的評価を行うとともに,bert,gpt-2などの大規模事前学習言語モデルとバイアスを識別する数学的ツールとを接続するプラグイン・アンド・プレイインターフェースを提供するとともに,これらのメトリクスに対してカスタムモデルをテストする機会を提供する。 このツールキットでは、これまで提案されていたデバイアステクニックを使用して、既存のモデルやカスタムモデルをデバイアスすることもできる。 ツールキットはhttps://github.com/HrishikeshVish/Fairpy.comで入手できる。

Studies have shown that large pretrained language models exhibit biases against social groups based on race, gender etc, which they inherit from the datasets they are trained on. Various researchers have proposed mathematical tools for quantifying and identifying these biases. There have been methods proposed to mitigate such biases. In this paper, we present a comprehensive quantitative evaluation of different kinds of biases such as race, gender, ethnicity, age etc. exhibited by popular pretrained language models such as BERT, GPT-2 etc. and also present a toolkit that provides plug-and-play interfaces to connect mathematical tools to identify biases with large pretrained language models such as BERT, GPT-2 etc. and also present users with the opportunity to test custom models against these metrics. The toolkit also allows users to debias existing and custom models using the debiasing techniques proposed so far. The toolkit is available at https://github.com/HrishikeshVish/Fairpy.
翻訳日:2023-02-14 20:05:26 公開日:2023-02-10
# 対話型テキスト環境における長文言語決定変換器と指数関数

Long-Context Language Decision Transformers and Exponential Tilt for Interactive Text Environments ( http://arxiv.org/abs/2302.05507v1 )

ライセンス: Link先を確認
Nicolas Gontier, Pau Rodriguez, Issam Laradji, David Vazquez, Christopher Pal(参考訳) エージェントはテキストの長いシーケンスを処理し、テキストを使って構成アクションを実行し、スパース報酬から学ぶ必要があるため、テキストベースのゲーム環境は困難である。 我々は,long-context language decision transformers (lldts) と decision transformers (dts) に基づくフレームワークを提案することで,これらの課題に対処する。 LLDTはDTを3成分で拡張する: 1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴーよりもはるかに優れた結果をもたらす新しいゴール条件付け法、(3) 将来の観測モデル。 アブレーションの結果,今後の予測がエージェント性能の向上に寄与することが示された。 私たちの知る限りでは、これらの挑戦的なゲームでオフラインrlに対処するのはlldtsが初めてです。 LLDTは,Enchanterなど,最も難易度の高いJerrichoゲームにおいて,多種多様なエージェントの中で最高のスコアを達成している。

Text-based game environments are challenging because agents must deal with long sequences of text, execute compositional actions using text and learn from sparse rewards. We address these challenges by proposing Long-Context Language Decision Transformers (LLDTs), a framework that is based on long transformer language models and decision transformers (DTs). LLDTs extend DTs with 3 components: (1) exponential tilt to guide the agent towards high obtainable goals, (2) novel goal conditioning methods yielding significantly better results than the traditional return-to-go (sum of all future rewards), and (3) a model of future observations. Our ablation results show that predicting future observations improves agent performance. To the best of our knowledge, LLDTs are the first to address offline RL with DTs on these challenging games. Our experiments show that LLDTs achieve the highest scores among many different types of agents on some of the most challenging Jericho games, such as Enchanter.
翻訳日:2023-02-14 20:05:07 公開日:2023-02-10
# CUDA:Long-Tailed Recognitionのためのデータ拡張カリキュラム

CUDA: Curriculum of Data Augmentation for Long-Tailed Recognition ( http://arxiv.org/abs/2302.05499v1 )

ライセンス: Link先を確認
Sumyeong Ahn, Jongwoo Ko, Se-Young Yun(参考訳) クラス不均衡問題は実世界のタスクで頻繁に発生し、従来のディープラーニングアルゴリズムは不均衡なトレーニングデータセットのパフォーマンス劣化でよく知られている。 この問題を軽減するために、多くのアプローチがトレーニングサンプルの再重み付けや再サンプリングによって、各クラス間でバランスをとることを目指している。 これらの再バランス手法はマイノリティクラスの影響を増加させ、モデル出力に対する多数派クラスの影響を減少させる。 しかしながら、抽出された表現は少数サンプルの数が限られているため品質が劣る可能性がある。 この制約に対処するため,多数サンプルの特徴を活用することで少数サンプルの表現を増大させる手法が開発されている。 近年の広範な研究にもかかわらず、強化すべきクラスの決定や強化の強さに関する深い分析は行われていない。 本研究では,まず,増級度と等級性能の相関について検討し,各クラスに対して等級不均衡問題を緩和する適切な増級度を割り当てなければならないことを示す。 そこで本研究では, CUDA: CUrriculum of Data Augmentation for long-tailed Recognition という,データ拡張のクラスごとの強度を求めるための, シンプルで効率的な新しいカリキュラムを提案する。 CUDAは、単に既存の長い尾の認識方法に統合できる。 CIFAR-100-LT, ImageNet-LT, iNaturalist 2018など, 各種不均衡データセットの最先端手法と比較して, CUDAが効率的な一般化性能を実現することを示す実験結果を示す。

Class imbalance problems frequently occur in real-world tasks, and conventional deep learning algorithms are well known for performance degradation on imbalanced training datasets. To mitigate this problem, many approaches have aimed to balance among given classes by re-weighting or re-sampling training samples. These re-balancing methods increase the impact of minority classes and reduce the influence of majority classes on the output of models. However, the extracted representations may be of poor quality owing to the limited number of minority samples. To handle this restriction, several methods have been developed that increase the representations of minority samples by leveraging the features of the majority samples. Despite extensive recent studies, no deep analysis has been conducted on determination of classes to be augmented and strength of augmentation has been conducted. In this study, we first investigate the correlation between the degree of augmentation and class-wise performance, and find that the proper degree of augmentation must be allocated for each class to mitigate class imbalance problems. Motivated by this finding, we propose a simple and efficient novel curriculum, which is designed to find the appropriate per-class strength of data augmentation, called CUDA: CUrriculum of Data Augmentation for long-tailed recognition. CUDA can simply be integrated into existing long-tailed recognition methods. We present the results of experiments showing that CUDA effectively achieves better generalization performance compared to the state-of-the-art method on various imbalanced datasets such as CIFAR-100-LT, ImageNet-LT, and iNaturalist 2018.
翻訳日:2023-02-14 20:04:46 公開日:2023-02-10
# masksketch: 非ペア構造誘導マスク画像生成

MaskSketch: Unpaired Structure-guided Masked Image Generation ( http://arxiv.org/abs/2302.05496v1 )

ライセンス: Link先を確認
Dina Bashkirova, Jose Lezama, Kihyuk Sohn, Kate Saenko and Irfan Essa(参考訳) 最近の条件付き画像生成手法は、顕著な多様性、忠実性、リアリズムのイメージを生成する。 しかし、これらの手法の大部分はラベルやテキストプロンプトのみを条件付けできるため、生成結果に対する制御のレベルが制限される。 本稿では,サンプリング中の余分なコンディショニング信号としてガイドスケッチを用いた生成結果の空間的コンディショニングを可能にする画像生成手法であるmasksketchを提案する。 masksketchは、事前訓練されたマスク生成トランスを使用し、モデルのトレーニングやペアの監督を必要としない。 本研究では,マスキング生成トランスの中間自己位置マップがシーンレイアウトや物体形状などの入力画像の重要な構造情報を符号化することを示すとともに,この観察に基づく新しいサンプリング手法を提案する。 以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。 masksketchは標準的なベンチマークデータセットで評価され、スケッチから画像への変換の最先端の手法や、画像から画像への変換のアプローチよりも優れている。

Recent conditional image generation methods produce images of remarkable diversity, fidelity and realism. However, the majority of these methods allow conditioning only on labels or text prompts, which limits their level of control over the generation result. In this paper, we introduce MaskSketch, an image generation method that allows spatial conditioning of the generation result using a guiding sketch as an extra conditioning signal during sampling. MaskSketch utilizes a pre-trained masked generative transformer, requiring no model training or paired supervision, and works with input sketches of different levels of abstraction. We show that intermediate self-attention maps of a masked generative transformer encode important structural information of the input image, such as scene layout and object shape, and we propose a novel sampling method based on this observation to enable structure-guided generation. Our results show that MaskSketch achieves high image realism and fidelity to the guiding structure. Evaluated on standard benchmark datasets, MaskSketch outperforms state-of-the-art methods for sketch-to-image translation, as well as unpaired image-to-image translation approaches.
翻訳日:2023-02-14 20:04:20 公開日:2023-02-10
# 整数プログラミングによる最大カットのための量子アルゴリズムの強化

Enhancing Quantum Algorithms for Maximum Cut via Integer Programming ( http://arxiv.org/abs/2302.05493v1 )

ライセンス: Link先を確認
Friedrich Wagner, Jonas N\"u{\ss}lein, Frauke Liers(参考訳) これまで量子計算は、リラクゼーションの決定の隣にある古典的な整数プログラミングアルゴリズムと比較して、組合せ最適化における将来の高速化の可能性も約束している。 整数型プログラミング法では,大規模インスタンスにおいても強い境界を効率的に計算することができるが,最適な解を決定するためには,多数のサブプロブレムを列挙する必要がある。 量子コンピューティングのポテンシャルが実現すれば、特に大きな解空間の探索が高速に行えることが期待できる。 しかし、近未来の量子ハードウェアは処理可能な問題のサイズをかなり制限し、ノイズも生じやすい。 本研究では、整数最適化のための量子および古典的手法のポテンシャルを統合するための一歩を踏み出す。 重み付きグラフの最大カット問題に対する量子古典ハイブリッドアルゴリズムを提案する。 このアルゴリズムは、奇サイクル不等式に基づく古典的な線形プログラミング緩和に依存する。 利用可能な量子マシンで解くには大きすぎるインスタンスに対しては、線形プログラミング緩和の解に従って問題のサイズを小さくする。 削減された問題は限られたサイズの量子コンピュータで解くことができる。 返却された解は元のインスタンスの可能な解に拡張される。 さらに、任意のインスタンスに対するパラメータ推定を動機付ける重み付き最大カット問題の特殊インスタンスに対する最適パラメータを導出することにより、よく知られたパラメータ化量子アルゴリズムであるQAOAの適用性を向上させる。 利用可能な量子ハードウェア容量を超える最大100ノードの物理により動機づけられたインスタンスに対して、実量子ハードウェアによる多数の計算結果を示す。 全てのインスタンスは古典的コンピュータによって容易に解くことができるが、それらは提案手法の原理証明を提供する。

To date, quantum computation promises potential for future speed-ups in combinatorial optimization, when compared to classical integer programming algorithms that -- next to determining relaxations -- typically also include some clever enumerative part. Integer programming methods can efficiently compute strong bounds even for large instances however, may have to enumerate a large number of subproblems for determining an optimum solution. If the potential of quantum computing realizes, it can be expected that in particular searching large solution spaces can be done fast. However, near-future quantum hardware considerably limits the size of treatable problems and is also prone to noise. In this work, we go one step into integrating the potentials of quantum and classical techniques for integer optimization. We propose a quantum-classical hybrid algorithm for the maximum cut problem on weighted graphs. The algorithm relies on a classical linear programming relaxation based on odd-cycle inequalities. For instances that are too large to be solved on available quantum machines, we reduce the problem size according to the solution of the linear programming relaxation. The reduced problem can be solved by quantum computers of limited size. Returned solutions are extended to feasible solutions of the original instance. Moreover, we improve the applicability of QAOA, a well-known parameterized quantum algorithm by deriving optimal parameters for special instances of the weighted maximum cut problem which motivates a parameter estimate for arbitrary instances. We present numerous computational results from real quantum hardware for instances motivated by physics with up to 100 nodes which exceeds the available quantum hardware capacities. Although all instances can be solved easily by classical computers, they provide a proof-of-principle for the proposed method.
翻訳日:2023-02-14 20:04:00 公開日:2023-02-10
# PDSum: 進化するマルチドキュメントセットストリームのプロトタイプ駆動連続要約

PDSum: Prototype-driven Continuous Summarization of Evolving Multi-document Sets Stream ( http://arxiv.org/abs/2302.05550v1 )

ライセンス: Link先を確認
Susik Yoon, Hou Pong Chan, Jiawei Han(参考訳) テキストリッチな文書の要約は長年にわたって文献で研究されてきたが,既存の作業の大部分は,静的かつ事前定義された多文書集合を要約するためのものである。 テキストリッチな文書を生成・配布するためのオンラインプラットフォームの急速な発展に伴い、文書と集合の構成が時間とともに変化しているマルチドキュメント集合を動的に進化させ続ける必要がある。 要約は、複数の同時文書セットから関連性、斬新、独特な情報を取り入れることだけでなく、オンラインアプリケーションの提供にも効果的であることから、特に難しい。 本研究では,複数文書集合のストリーム要約(emds)を進化させる新しい要約問題を提案し,プロトタイプ駆動連続要約という概念を持つ新しい教師なしアルゴリズムpdsumを提案する。 PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、以前のドキュメントから蓄積した知識を保持しながら、新しいドキュメントに適応する。 新しい要約を更新するために、各多文書集合の最も代表的な文は、プロトタイプと類似度を測定して抽出する。 実マルチドキュメントセットストリームによる徹底的な評価は、PDSumがEMDSのステート・オブ・ザ・テクストの教師なしマルチドキュメント・サマリゼーションアルゴリズムを、関連性、新規性、特異性の観点から上回り、様々な評価設定にも堅牢であることを示す。

Summarizing text-rich documents has been long studied in the literature, but most of the existing efforts have been made to summarize a static and predefined multi-document set. With the rapid development of online platforms for generating and distributing text-rich documents, there arises an urgent need for continuously summarizing dynamically evolving multi-document sets where the composition of documents and sets is changing over time. This is especially challenging as the summarization should be not only effective in incorporating relevant, novel, and distinctive information from each concurrent multi-document set, but also efficient in serving online applications. In this work, we propose a new summarization problem, Evolving Multi-Document sets stream Summarization (EMDS), and introduce a novel unsupervised algorithm PDSum with the idea of prototype-driven continuous summarization. PDSum builds a lightweight prototype of each multi-document set and exploits it to adapt to new documents while preserving accumulated knowledge from previous documents. To update new summaries, the most representative sentences for each multi-document set are extracted by measuring their similarities to the prototypes. A thorough evaluation with real multi-document sets streams demonstrates that PDSum outperforms state-of-the-art unsupervised multi-document summarization algorithms in EMDS in terms of relevance, novelty, and distinctiveness and is also robust to various evaluation settings.
翻訳日:2023-02-14 19:58:14 公開日:2023-02-10
# 垂直的フェデレーション学習における匿名推論攻撃に対するプライバシ

Privacy Against Agnostic Inference Attack in Vertical Federated Learning ( http://arxiv.org/abs/2302.05545v1 )

ライセンス: Link先を確認
Morteza Varasteh(参考訳) 縦型フェデレーション学習(VFL)における推論攻撃の新たな形態を提案し,機械学習(ML)モデルのトレーニングに協力する。 ロジスティック回帰はvflモデルにおいて考慮される。 1つのパーティは、アクティブパーティと呼ばれ、トレーニングフェーズでサンプルの基底的な真理ラベルを持ち、もう1つのパーティは受動的パーティと呼ばれ、これらのサンプルに対応する機能セットのみを共有している。 その結果、アクティブパーティは、トレーニングサンプルに基づいて個別にトレーニングされたMLモデルを取得することにより、トレーニングと予測フェーズの両方のサンプルに対して推論攻撃を行うことができることがわかった。 このタイプの推論攻撃は、特定のサンプルのスコアを認識するためにアクティブなパーティを必要としないため、非依存的推論攻撃(agnostic inference attack)と呼ばれる。 その結果,攻撃前の予測段階で観測された信頼度スコアを活用すれば,活動相手の自律的モデルの性能が向上し,非依存的推論攻撃の品質が向上することが示された。 対策としてプライバシ保護スキーム(PPS)を提案する。 提案手法は,VFLモデルの有用性を保ちながら,受動者の特徴に対応するVFLパラメータを体系的に歪曲する。 受動的政党のパラメータに課される歪みのレベルは調整可能であり、受動的政党のプライバシーと活動政党によるVFL結果の解釈との間にトレードオフをもたらす。 受動的当事者のパラメータの歪みレベルは、受動的当事者のプライバシーと解釈上の懸念に応じて慎重に選択することができ、両者(部分的に)を満足させることを期待している。 最後に,提案手法とppssの有効性を実験的に検証した。

A novel form of inference attack in vertical federated learning (VFL) is proposed, where two parties collaborate in training a machine learning (ML) model. Logistic regression is considered for the VFL model. One party, referred to as the active party, possesses the ground truth labels of the samples in the training phase, while the other, referred to as the passive party, only shares a separate set of features corresponding to these samples. It is shown that the active party can carry out inference attacks on both training and prediction phase samples by acquiring an ML model independently trained on the training samples available to them. This type of inference attack does not require the active party to be aware of the score of a specific sample, hence it is referred to as an agnostic inference attack. It is shown that utilizing the observed confidence scores during the prediction phase, before the time of the attack, can improve the performance of the active party's autonomous model, and thus improve the quality of the agnostic inference attack. As a countermeasure, privacy-preserving schemes (PPSs) are proposed. While the proposed schemes preserve the utility of the VFL model, they systematically distort the VFL parameters corresponding to the passive party's features. The level of the distortion imposed on the passive party's parameters is adjustable, giving rise to a trade-off between privacy of the passive party and interpretabiliy of the VFL outcomes by the active party. The distortion level of the passive party's parameters could be chosen carefully according to the privacy and interpretabiliy concerns of the passive and active parties, respectively, with the hope of keeping both parties (partially) satisfied. Finally, experimental results demonstrate the effectiveness of the proposed attack and the PPSs.
翻訳日:2023-02-14 19:57:13 公開日:2023-02-10
# テキスト・画像拡散モデルへの条件制御の追加

Adding Conditional Control to Text-to-Image Diffusion Models ( http://arxiv.org/abs/2302.05543v1 )

ライセンス: Link先を確認
Lvmin Zhang and Maneesh Agrawala(参考訳) 本稿では,事前学習された大規模拡散モデルを制御するニューラルネットワーク構造 controlnet を提案する。 ControlNetはエンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さくても堅牢である(50k)。 さらに、ControlNetのトレーニングは拡散モデルを微調整するのと同じくらい高速であり、モデルをパーソナルデバイスでトレーニングすることができる。 あるいは、強力な計算クラスタが利用可能であれば、モデルは大量のデータ(数百万から数十億)にスケールできる。 エッジマップ,セグメンテーションマップ,キーポイントなど条件付き入力を可能にするために,安定拡散のような大きな拡散モデルが制御ネットで拡張可能であることを報告する。 これにより、大きな拡散モデルを制御する方法が強化され、関連する応用がさらに促進される。

We present a neural network structure, ControlNet, to control pretrained large diffusion models to support additional input conditions. The ControlNet learns task-specific conditions in an end-to-end way, and the learning is robust even when the training dataset is small (< 50k). Moreover, training a ControlNet is as fast as fine-tuning a diffusion model, and the model can be trained on a personal devices. Alternatively, if powerful computation clusters are available, the model can scale to large amounts (millions to billions) of data. We report that large diffusion models like Stable Diffusion can be augmented with ControlNets to enable conditional inputs like edge maps, segmentation maps, keypoints, etc. This may enrich the methods to control large diffusion models and further facilitate related applications.
翻訳日:2023-02-14 19:56:33 公開日:2023-02-10
# 合成データを用いた材料画像における半教師付き大規模繊維検出

Semi-supervised Large-scale Fiber Detection in Material Images with Synthetic Data ( http://arxiv.org/abs/2302.05541v1 )

ライセンス: Link先を確認
Lan Fu, Zhiyuan Liu, Jinlong Li, Jeff Simmons, Hongkai Yu, Song Wang(参考訳) 2次元断面画像スライスにおける中心, 方位, 主軸のパラメータを含む, 大型楕円形繊維の高精度検出は, 微視的材料像中のシリンダー3次元構造を特徴付ける上で非常に重要である。 劣化画像中のファイバの検出は、現在のファイバ検出法と楕円検出法の両方に挑戦する。 本稿では,多量のデータアノテーションを不要とし,各種画像劣化に対して頑健な合成データを用いた,大規模楕円ファイバー検出のための半教師付き深層学習手法を提案する。 ドメイン適応戦略を用いて、合成データと実データとの領域分布のずれを低減し、提案手法には、新しい関心領域(RoI)楕円学習と対称性制約付き新規なRoIランキングが組み込まれている。 実顕微鏡による材料画像実験は, 大規模繊維検出における提案手法の有効性を実証するものである。

Accurate detection of large-scale, elliptical-shape fibers, including their parameters of center, orientation and major/minor axes, on the 2D cross-sectioned image slices is very important for characterizing the underlying cylinder 3D structures in microscopic material images. Detecting fibers in a degraded image poses a challenge to both current fiber detection and ellipse detection methods. This paper proposes a new semi-supervised deep learning method for large-scale elliptical fiber detection with synthetic data, which frees people from heavy data annotations and is robust to various kinds of image degradations. A domain adaptation strategy is utilized to reduce the domain distribution discrepancy between the synthetic data and the real data, and a new Region of Interest (RoI)-ellipse learning and a novel RoI ranking with the symmetry constraint are embedded in the proposed method. Experiments on real microscopic material images demonstrate the effectiveness of the proposed approach in large-scale fiber detection.
翻訳日:2023-02-14 19:56:19 公開日:2023-02-10
# 強化学習におけるロバストな知識伝達

Robust Knowledge Transfer in Tiered Reinforcement Learning ( http://arxiv.org/abs/2302.05534v1 )

ライセンス: Link先を確認
Jiawei Huang, Niao He(参考訳) 本稿では,低レベル(ソース)タスクから高レベル(ターゲット)タスクに知識を転送し,2つのタスクを並列に解きながら,後者の探索リスクを低減することを目的とした,並列転送学習フレームワークである階層強化学習セットについて検討する。 従来の作業とは異なり、低層タスクと高層タスクは同じダイナミクスや報酬関数を共有していないと仮定し、タスクの類似性に関する事前の知識がなければ、堅牢な知識伝達に注力する。 我々は「最適な価値支配」と呼ばれる自然で必要な条件を特定します。 この条件下では,ハイレベルなタスクではタスクの類似度に応じて部分的な状態に対して常に後悔し,2つのタスクが異なってもオプティマイズに近い後悔を保ちながら,低レベルなタスクでは犠牲をすることなく最適に近い状態を維持することができるという,新しいオンライン学習アルゴリズムを提案する。 さらに、複数の低層タスクで設定を更に研究し、全ての低層タスクから情報をアンサンブルし、より大きな状態-動作空間で証明可能な利点を享受できる新しい転送ソース選択機構を提案する。

In this paper, we study the Tiered Reinforcement Learning setting, a parallel transfer learning framework, where the goal is to transfer knowledge from the low-tier (source) task to the high-tier (target) task to reduce the exploration risk of the latter while solving the two tasks in parallel. Unlike previous work, we do not assume the low-tier and high-tier tasks share the same dynamics or reward functions, and focus on robust knowledge transfer without prior knowledge on the task similarity. We identify a natural and necessary condition called the "Optimal Value Dominance" for our objective. Under this condition, we propose novel online learning algorithms such that, for the high-tier task, it can achieve constant regret on partial states depending on the task similarity and retain near-optimal regret when the two tasks are dissimilar, while for the low-tier task, it can keep near-optimal without making sacrifice. Moreover, we further study the setting with multiple low-tier tasks, and propose a novel transfer source selection mechanism, which can ensemble the information from all low-tier tasks and allow provable benefits on a much larger state-action space.
翻訳日:2023-02-14 19:56:02 公開日:2023-02-10
# ブロッホ軌道を用いた材料のフォールトトレラント量子シミュレーション

Fault-tolerant quantum simulation of materials using Bloch orbitals ( http://arxiv.org/abs/2302.05531v1 )

ライセンス: Link先を確認
Nicholas C. Rubin, Dominic W. Berry, Fionn D. Malone, Alec F. White, Tanuj Khattar, A. Eugene DePrince III, Sabrina Sicolo, Michael K\"uhn, Michael Kaicher, Joonho Lee, Ryan Babbush(参考訳) 化学のシミュレーションは量子コンピューティングの最も有望な応用の一つである。 しかしながら、電子構造の固有基底におけるブロックエンコーディング、時間進化、サンプリングのアルゴリズムを探索する以前の研究は、有限サイズのシステムをモデル化することに注力するか、あるいは多くの平面波基底関数を必要とする。 本研究は、対称適応原子中心軌道から構築されたブロッホ軌道を用いた量子シミュレーションの手法を拡張し、穏やかな基底関数のみを用いて周期的 textit{ab initio} Hamiltonian をモデル化する。 量子化とクーロン作用素のテンソル分解を組み合わせた既存のアルゴリズムの適用に注目する。 これらのアルゴリズムの大幅な修正は、翻訳的(あるいはより広く、アーベル的)対称性を利用した漸近的な高速化を得るために必要である。 我々は既知のテンソル分解と新しいブロッホ軌道型テンソル超収縮を用いてブロック符号化を実装した。 最後に, 表面コード中の酸化リチウム電池カソードの化学に関連する古典的挑戦材料に対して, アルゴリズムを展開するために必要な資源を見積もる。

The simulation of chemistry is among the most promising applications of quantum computing. However, most prior work exploring algorithms for block-encoding, time-evolving, and sampling in the eigenbasis of electronic structure Hamiltonians has either focused on modeling finite-sized systems, or has required a large number of plane wave basis functions. In this work, we extend methods for quantum simulation with Bloch orbitals constructed from symmetry-adapted atom-centered orbitals so that one can model periodic \textit{ab initio} Hamiltonians using only a modest number of basis functions. We focus on adapting existing algorithms based on combining qubitization with tensor factorizations of the Coulomb operator. Significant modifications of those algorithms are required to obtain an asymptotic speedup leveraging translational (or, more broadly, Abelian) symmetries. We implement block encodings using known tensor factorizations and a new Bloch orbital form of tensor hypercontraction. Finally, we estimate the resources required to deploy our algorithms to classically challenging model materials relevant to the chemistry of Lithium Nickel Oxide battery cathodes within the surface code.
翻訳日:2023-02-14 19:55:39 公開日:2023-02-10
# 機械学習によるソフトウェア要件と設計仕様のためのMITRE ATT&CKフレームワークの提案

Machine Learning Based Approach to Recommend MITRE ATT&CK Framework for Software Requirements and Design Specifications ( http://arxiv.org/abs/2302.05530v1 )

ライセンス: Link先を確認
Nicholas Lasky, Benjamin Hallis, Mounika Vanamala, Rushit Dave, Jim Seliya(参考訳) エンジニアリングをよりセキュアなソフトウェアは、サイバー世界で重要な課題となっている。 セキュアなソフトウェアを開発するための方法論、テクニック、ツールを開発することが非常に重要です。 セキュアなソフトウェアを開発するには、ソフトウェアリポジトリをマイニングすることで、ソフトウェア開発者は攻撃者のように考える必要がある。 これらはソフトウェア開発に関連するデータリポジトリを分析し、理解することを目的としている。 主な目標は、これらのソフトウェアリポジトリを使用して、ソフトウェア開発の意思決定プロセスをサポートすることです。 Common Weakness Enumeration (CWE)、Common Vulnerabilities and Exposures Database (CVE)、CAPECなど、さまざまな脆弱性データベースがある。 私たちはMITREというデータベースを利用した。 mitre att&ckの戦術やテクニックは様々な方法や手法で使われてきたが、ソフトウェア開発ライフサイクル(sdlc)の初期段階でこれらの戦術やテクニックを利用するツールは不足している。 本稿では、機械学習アルゴリズムを用いて、要求をMITRE ATT&CKデータベースにマッピングし、データ分割に応じて各マッピングの精度を決定する。

Engineering more secure software has become a critical challenge in the cyber world. It is very important to develop methodologies, techniques, and tools for developing secure software. To develop secure software, software developers need to think like an attacker through mining software repositories. These aim to analyze and understand the data repositories related to software development. The main goal is to use these software repositories to support the decision-making process of software development. There are different vulnerability databases like Common Weakness Enumeration (CWE), Common Vulnerabilities and Exposures database (CVE), and CAPEC. We utilized a database called MITRE. MITRE ATT&CK tactics and techniques have been used in various ways and methods, but tools for utilizing these tactics and techniques in the early stages of the software development life cycle (SDLC) are lacking. In this paper, we use machine learning algorithms to map requirements to the MITRE ATT&CK database and determine the accuracy of each mapping depending on the data split.
翻訳日:2023-02-14 19:55:22 公開日:2023-02-10
# 多エージェントシステムにおける協調行動の学習

Learning cooperative behaviours in adversarial multi-agent systems ( http://arxiv.org/abs/2302.05528v1 )

ライセンス: Link先を確認
Ni Wang, Gautham P. Das, Alan G. Millard(参考訳) この作業は、RoboSumoと呼ばれる既存の仮想マルチエージェントプラットフォームを拡張して、TripleSumoを作成する。 本稿では,'bug' と 'ant' という2つのエージェントがチームを組んで,他のエージェント 'spider' をアリーナから押し出さなければならないシナリオについて検討する。 この目標を達成するため、新たに追加されたエージェント‘Bug’は、‘Ant’と‘Spider’の対戦中にトレーニングされる。 バグは、他のエージェントのアクションに対する認識を深め、双方の戦略を推論し、最終的には協力するためのアクションポリシーを学ぶ必要がある。 強化学習アルゴリズムであるDeep Deterministic Policy Gradient (DDPG) は、密度とスパース報酬を組み合わせたハイブリッド報酬構造を用いて実装されている。 協調行動は、試合に勝つ平均確率と、勝つために必要なステップ数によって定量的に評価される。

This work extends an existing virtual multi-agent platform called RoboSumo to create TripleSumo -- a platform for investigating multi-agent cooperative behaviors in continuous action spaces, with physical contact in an adversarial environment. In this paper we investigate a scenario in which two agents, namely `Bug' and `Ant', must team up and push another agent `Spider' out of the arena. To tackle this goal, the newly added agent `Bug' is trained during an ongoing match between `Ant' and `Spider'. `Bug' must develop awareness of the other agents' actions, infer the strategy of both sides, and eventually learn an action policy to cooperate. The reinforcement learning algorithm Deep Deterministic Policy Gradient (DDPG) is implemented with a hybrid reward structure combining dense and sparse rewards. The cooperative behavior is quantitatively evaluated by the mean probability of winning the match and mean number of steps needed to win.
翻訳日:2023-02-14 19:55:05 公開日:2023-02-10
# 可観測量に関する専門家の意見を統計モデルに取り入れる - 一般的なフレームワーク

Incorporating Expert Opinion on Observable Quantities into Statistical Models -- A General Framework ( http://arxiv.org/abs/2302.06391v1 )

ライセンス: Link先を確認
Philip Cooney, Arthur White(参考訳) 本稿では、先行するパラメータを規定するのではなく、事前の信念を更新するロス関数を用いて、観測可能な量に関する専門家の意見を統合するアプローチについて述べる。 可観測量に関する情報を引き出すことによって専門家は、可観測量を得る前に他のパラメータや非線形変換の対象となるモデルパラメータのエリシテーションとは対照的に、それらに精通した量についての有意義な情報を提供できる。 本論文で述べた専門家の意見を取り入れるアプローチは,専門家の意見にマッチする前触れを指定するのではなく,モデルパラメータを損失関数で更新することで後付けを得るという点で特徴的である。 この損失関数は観測可能な量を含み、パラメータの関数を表現しており、統計分布として一般に運用される専門家の意見と関連している。 専門家の意見からさらに多くの観測可能な量を生成するパラメータは、より高い損失をもたらし、データと専門家の意見に対する忠実さに基づいてモデルパラメータを推定することができる。 この方法で専門家の意見を含めれば、意見の柔軟な仕様が可能になり、多くの状況において、一般的な確率的プログラミングソフトウェアで簡単に実装できる。 我々は,サバイバルモデル,多変量正規分布,回帰問題を含むモデル複雑性の3つの実例を用いてこれを強調する。

This article describes an approach to incorporate expert opinion on observable quantities through the use of a loss function which updates a prior belief as opposed to specifying parameters on the priors. Eliciting information on observable quantities allows experts to provide meaningful information on a quantity familiar to them, in contrast to elicitation on model parameters, which may be subject to interactions with other parameters or non-linear transformations before obtaining an observable quantity. The approach to incorporating expert opinion described in this paper is distinctive in that we do not specify a prior to match an expert's opinion on observed quantity, rather we obtain a posterior by updating the model parameters through a loss function. This loss function contains the observable quantity, expressed a function of the parameters, and is related to the expert's opinion which is typically operationalized as a statistical distribution. Parameters which generate observable quantities which are further from the expert's opinion incur a higher loss, allowing for the model parameters to be estimated based on their fidelity to both the data and expert opinion, with the relative strength determined by the number of observations and precision of the elicited belief. Including expert opinion in this fashion allows for a flexible specification of the opinion and in many situations is straightforward to implement with commonly used probabilistic programming software. We highlight this using three worked examples of varying model complexity including survival models, a multivariate normal distribution and a regression problem.
翻訳日:2023-02-14 15:22:13 公開日:2023-02-10
# AV-data2vec:文脈的ターゲット表現を用いた音声音声表現の自己教師型学習

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations ( http://arxiv.org/abs/2302.06419v1 )

ライセンス: Link先を確認
Jiachen Lian and Alexei Baevski and Wei-Ning Hsu and Michael Auli(参考訳) 自己監督は、良質なシステムを構築するために必要なラベル付きデータの量を大幅に削減することで、音声視覚音声認識に大きな可能性を示した。 しかし、既存の方法は完全にエンドツーエンドではないし、両方のモダリティの合同表現を訓練していない。 本稿では,これらの課題に対処するAV-data2vecを導入し,ユニモーダルケースで成功した文脈化表現の予測に基づく音声視覚表現を構築する。 このモデルは、音声とビデオの両方に共有トランスフォーマーエンコーダを使用し、両方のモダリティを組み合わせて音声認識を改善することができる。 LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。

Self-supervision has shown great potential for audio-visual speech recognition by vastly reducing the amount of labeled data required to build good systems. However, existing methods are either not entirely end-to-end or do not train joint representations of both modalities. In this paper, we introduce AV-data2vec which addresses these challenges and builds audio-visual representations based on predicting contextualized representations which has been successful in the uni-modal case. The model uses a shared transformer encoder for both audio and video and can combine both modalities to improve speech recognition. Results on LRS3 show that AV-data2vec consistently outperforms existing methods under most settings.
翻訳日:2023-02-14 15:11:35 公開日:2023-02-10
# LAPTNet-FPN:リアルタイムセマンティックグリッド予測のためのマルチスケールLiDAR支援射影変換ネットワーク

LAPTNet-FPN: Multi-scale LiDAR-aided Projective Transform Network for Real Time Semantic Grid Prediction ( http://arxiv.org/abs/2302.06414v1 )

ライセンス: Link先を確認
Manuel Alejandro Diaz-Zapata (CHROMA), David Sierra Gonz\'alez (CHROMA), \"Ozg\"ur Erkent (CHROMA), Jilles Dibangoye (CHROMA), Christian Laugier (CHROMA, E-MOTION, Inria)(参考訳) セマンティックグリッドは、自律システム周辺のシーンの有用な表現となり得る。 周囲の空間のレイアウトに関する情報を得ることで、ロボットはナビゲーションやトラッキングといった重要なタスクにこの種の表現を活用することができる。 複数のセンサからの情報を融合することにより、堅牢性を高め、タスクの計算負荷を低減し、リアルタイム性能を実現することができる。 マルチスケールlidar支援視点変換ネットワークは,画像特徴の投影をトップビュー表現に導くために,ポイントクラウドで利用可能な情報を使用し,nuscenesデータセットにおける人間の意味格子生成(+8.67%)と可動オブジェクト(+49.07%)に対する技術状態が相対的に改善されるとともに,車両や乾燥可能なエリア,通路クラスの技術に近い結果を得るとともに,25fpsで推論を行う。

Semantic grids can be useful representations of the scene around an autonomous system. By having information about the layout of the space around itself, a robot can leverage this type of representation for crucial tasks such as navigation or tracking. By fusing information from multiple sensors, robustness can be increased and the computational load for the task can be lowered, achieving real time performance. Our multi-scale LiDAR-Aided Perspective Transform network uses information available in point clouds to guide the projection of image features to a top-view representation, resulting in a relative improvement in the state of the art for semantic grid generation for human (+8.67%) and movable object (+49.07%) classes in the nuScenes dataset, as well as achieving results close to the state of the art for the vehicle, drivable area and walkway classes, while performing inference at 25 FPS.
翻訳日:2023-02-14 15:11:23 公開日:2023-02-10
# POSGen:オンライン保険販売のパーソナライズされた公開文生成

POSGen: Personalized Opening Sentence Generation for Online Insurance Sales ( http://arxiv.org/abs/2302.06470v1 )

ライセンス: Link先を確認
Yu Li, Yi Zhang, Weijia Wu, Zimu Zhou and Qiang Li(参考訳) 保険業界は、デジタル化時代に巨大な顧客を獲得することを期待して、販売モードをオフラインからオンラインに変更している。 保険商品の複雑さと性質のため、コスト効率のよいオンライン販売ソリューションは、チャットボットAIを利用して顧客の注意を喚起し、さらなる販売のために人事担当者に利益をもたらす。 ユーザの応答率やコンバージョン率が高い場合には、チャットボットがユーザ固有のトピック選択と順序付けで生成されるパーソナライズされたオープニング文との会話を開始することが重要である。 このようなパーソナライズされた文生成は難しい (i)オンライン保険販売における会話トピック推薦の履歴サンプルは限られている。 (II)既存のテキスト生成方式は、ユーザの好みに基づいてカスタマイズされたトピックオーダをサポートしないことが多い。 オンライン保険販売専用のパーソナライズされた公開文生成スキームであるPOSGenを設計する。 補助的なオンラインユーザの行動から学習したユーザ埋め込みを伝達し、会話トピックの推薦を強化し、コンテキスト管理ユニットを利用して、推奨トピックをユーザ固有の順序で配置し、文章生成を開始する。 POSGenは現実世界のオンライン保険プラットフォームにデプロイされている。 総保険料は2ヶ月のグローバルテストで2.33倍に向上している。

The insurance industry is shifting their sales mode from offline to online, in expectation to reach massive potential customers in the digitization era. Due to the complexity and the nature of insurance products, a cost-effective online sales solution is to exploit chatbot AI to raise customers' attention and pass those with interests to human agents for further sales. For high response and conversion rates of customers, it is crucial for the chatbot to initiate a conversation with personalized opening sentences, which are generated with user-specific topic selection and ordering. Such personalized opening sentence generation is challenging because (i) there are limited historical samples for conversation topic recommendation in online insurance sales and (ii) existing text generation schemes often fail to support customized topic ordering based on user preferences. We design POSGen, a personalized opening sentence generation scheme dedicated for online insurance sales. It transfers user embeddings learned from auxiliary online user behaviours to enhance conversation topic recommendation, and exploits a context management unit to arrange the recommended topics in user-specific ordering for opening sentence generation. POSGen is deployed on a real-world online insurance platform. It achieves 2.33x total insurance premium improvement through a two-month global test.
翻訳日:2023-02-14 15:04:21 公開日:2023-02-10
# 深部ニューラルネットワーク検証のための増分満足度モード理論

Incremental Satisfiability Modulo Theory for Verification of Deep Neural Networks ( http://arxiv.org/abs/2302.06455v1 )

ライセンス: Link先を確認
Pengfei Yang, Zhiming Chi, Zongxin Liu, Mengyu Zhao, Cheng-Chao Huang, Shaowei Cai, and Lijun Zhang(参考訳) 制約解決はディープニューラルネットワーク(DNN)の基本的な検証方法である。 AI安全性の分野では、DNNは、その構造と、その修復や攻撃のパラメータを変更することができる。 そこで本研究では,DNN修正後の安全性が保たれているかどうかを問う,段階的なDNN検証問題を提案する。 この問題を解決するために、Reluplexフレームワークに基づく漸進的満足度変調理論(SMT)アルゴリズムを提案する。 従来の解法(元のネットワークに関して)における探索枝の検証結果を推測する構成の最も重要な特徴をシミュレートし、修正されたDNNに対して証明がまだ有効かどうかをヒューリスティックに検証する。 我々は,DeepIncと呼ばれる漸進的な解法としてアルゴリズムを実装し,実験結果から,ほとんどの場合,DeepIncの方が効率的であることが示された。 プロパティが修正前と修正後の両方を保持する場合、加速は数桁の速度で高速化され、DeepIncはインクリメンタルに反例を探すのに優れていることを示す。 さらに,本フレームワークをベースとして,多目的DNN修復問題を提案し,インクリメンタルSMT解法に基づくアルゴリズムを提案する。 本手法は, 修復済みDNNの安全性を, 最先端のDNNと比較して向上させる。

Constraint solving is an elementary way for verification of deep neural networks (DNN). In the domain of AI safety, a DNN might be modified in its structure and parameters for its repair or attack. For such situations, we propose the incremental DNN verification problem, which asks whether a safety property still holds after the DNN is modified. To solve the problem, we present an incremental satisfiability modulo theory (SMT) algorithm based on the Reluplex framework. We simulate the most important features of the configurations that infers the verification result of the searching branches in the old solving procedure (with respect to the original network), and heuristically check whether the proofs are still valid for the modified DNN. We implement our algorithm as an incremental solver called DeepInc, and exerimental results show that DeepInc is more efficient in most cases. For the cases that the property holds both before and after modification, the acceleration can be faster by several orders of magnitude, showing that DeepInc is outstanding in incrementally searching for counterexamples. Moreover, based on the framework, we propose the multi-objective DNN repair problem and give an algorithm based on our incremental SMT solving algorithm. Our repair method preserves more potential safety properties on the repaired DNNs compared with state-of-the-art.
翻訳日:2023-02-14 15:03:28 公開日:2023-02-10
# 自己教師付き学習を用いた言語対応多言語機械翻訳

Language-Aware Multilingual Machine Translation with Self-Supervised Learning ( http://arxiv.org/abs/2302.05008v1 )

ライセンス: Link先を確認
Haoran Xu, Jean Maillard, Vedanuj Goswami(参考訳) 多言語機械翻訳(MMT)は言語間変換の利点があるが、マルチタスク最適化の問題である。 これは、言語固有のパラメータを体系的に学習する明確なフレームワークがないためでもある。 大量のモノリンガルデータ(並列データが利用できない)を活用する自己教師あり学習(SSL)アプローチは、MTタスクを補完するタスクとして翻訳性能を改善することで、有望であることを示している。 しかし、SSLとMTタスクを共同で最適化することはさらに難しい。 本研究は,まず, 蒸留法を用いてさらに*言語固有パラメータを学習し, それらの言語固有パラメータの重要性を示す。 次に,エンコーダとデコーダの両方に単一言語データを同時に記述することで,MTタスクと協調学習を行う,新しい単純なSSLタスクを提案する。 最後に,このコトレーニング手法に蒸留法を適用した。 これら2つのアプローチを組み合わせることで、MTTのパフォーマンスが大幅に向上し、3つの最先端SSLメソッド、例えば11.3\%と3.7\%がMASSと比較して8言語と15言語でそれぞれ改善されている。

Multilingual machine translation (MMT) benefits from cross-lingual transfer but is a challenging multitask optimization problem. This is partly because there is no clear framework to systematically learn language-specific parameters. Self-supervised learning (SSL) approaches that leverage large quantities of monolingual data (where parallel data is unavailable) have shown promise by improving translation performance as complementary tasks to the MMT task. However, jointly optimizing SSL and MMT tasks is even more challenging. In this work, we first investigate how to utilize intra-distillation to learn more *language-specific* parameters and then show the importance of these language-specific parameters. Next, we propose a novel but simple SSL task, concurrent denoising, that co-trains with the MMT task by concurrently denoising monolingual data on both the encoder and decoder. Finally, we apply intra-distillation to this co-training approach. Combining these two approaches significantly improves MMT performance, outperforming three state-of-the-art SSL methods by a large margin, e.g., 11.3\% and 3.7\% improvement on an 8-language and a 15-language benchmark compared with MASS, respectively
翻訳日:2023-02-13 16:58:35 公開日:2023-02-10
# オンラインプラットフォームにおける予算制約下での最適に近い実験設計

Near-Optimal Experimental Design Under the Budget Constraint in Online Platforms ( http://arxiv.org/abs/2302.05005v1 )

ライセンス: Link先を確認
Yongkang Guo, Yuan Yuan, Jinshan Zhang, Yuqing Kong, Zhihua Zhu, Zheng Cai(参考訳) A/Bテスト(英: A/B testing)は、オンラインプラットフォームにおけるアルゴリズムのパフォーマンスを因果的に比較するためのゴールドスタンダードの手法である。 しかし、A/Bテストにおける従来のベルヌーイのランダム化は、流出や輸送効果といった多くの課題に直面している。 我々の研究は、特に予算の制約である両側プラットフォームでのA/Bテストにおいて、別の課題に焦点を当てています。 従来のa/bテストは適用できない可能性があり、2種類のアロケーションアルゴリズムが相反する可能性があり、同時に実装された場合、一部のバイヤーが予算を超える可能性があるためである。 我々は,購入者が限られた予算を持つ2面プラットフォームを記述するモデルを開発した。 次に,小バイアスと最小分散を保証する最適実験設計を提案する。 予算が増え、供給需要率が高くなると、バイアスは少なくなる。 我々は合成データと実世界のデータの両方で実験設計をテストし,理論結果を検証し,ベルヌーイのランダム化と比較した。

A/B testing, or controlled experiments, is the gold standard approach to causally compare the performance of algorithms on online platforms. However, conventional Bernoulli randomization in A/B testing faces many challenges such as spillover and carryover effects. Our study focuses on another challenge, especially for A/B testing on two-sided platforms -- budget constraints. Buyers on two-sided platforms often have limited budgets, where the conventional A/B testing may be infeasible to be applied, partly because two variants of allocation algorithms may conflict and lead some buyers to exceed their budgets if they are implemented simultaneously. We develop a model to describe two-sided platforms where buyers have limited budgets. We then provide an optimal experimental design that guarantees small bias and minimum variance. Bias is lower when there is more budget and a higher supply-demand rate. We test our experimental design on both synthetic data and real-world data, which verifies the theoretical results and shows our advantage compared to Bernoulli randomization.
翻訳日:2023-02-13 16:58:12 公開日:2023-02-10
# 表層水中における水文汚染物質輸送の追跡のためのグラフベースモデリングフレームワーク

A Graph-Based Modeling Framework for Tracing Hydrological Pollutant Transport in Surface Waters ( http://arxiv.org/abs/2302.04991v1 )

ライセンス: Link先を確認
David L. Cole, Gerardo J. Ruiz-Mercado, Victor M. Zavala(参考訳) 人為的な水系汚染は世界中の多様な地域社会や生態系に影響を及ぼす。 データ分析とモデリングツールは、重要なソースの特定、トレース輸送、複雑な水文学システムにおける影響の定量化に役立つため、この課題と戦う上で重要な役割を果たす。 詳細な物理モデルを用いて汚染物質輸送をシミュレートし、追跡するためのツールがいくつか存在する。これらのツールは強力だが、計算集約性があり、開発するためには大量のデータを必要とし、専門家の知識を必要としている(究極的には適用範囲を制限している)。 本研究では,水域,河川,流域を横断する汚染物質輸送と運命を理解するためのグラフモデリングフレームワーク(${\tt hydrographs}$)を提案する。 このフレームワークは、純粋なオープンソースデータ(National Hydrography DatasetとWatershed Boundary Dataset)に基づいて構築できる、水文システムの簡易表現を使用する。 グラフ表現は、接続性を捉えるための柔軟な直感的なアプローチを提供し、上流の汚染物質源を特定し、小規模で大規模な水文システム内の下流の衝撃をトレースする。 さらにグラフ表現は、グラフ理論、トポロジー、最適化、機械学習などの高度なアルゴリズムとツールを使用して、データ分析と意思決定を支援する。 我々は,ウィスコンシン州におけるケーススタディを用いて,農業慣行から発生する上流の栄養素汚染源を特定し,下流の水域,河川,河川への影響を追跡することを目的とした。 我々のツールは、ステークホルダーが効果的な汚染防止・緩和のプラクティスを設計し、表面の水がそのようなプラクティスにどのように反応するかを評価するのに役立ちます。

Anthropogenic pollution of hydrological systems affects diverse communities and ecosystems around the world. Data analytics and modeling tools play a key role in fighting this challenge, as they can help identify key sources as well as trace transport and quantify impact within complex hydrological systems. Several tools exist for simulating and tracing pollutant transport throughout surface waters using detailed physical models; these tools are powerful, but can be computationally intensive, require significant amounts of data to be developed, and require expert knowledge for their use (ultimately limiting application scope). In this work, we present a graph modeling framework -- which we call ${\tt HydroGraphs}$ -- for understanding pollutant transport and fate across waterbodies, rivers, and watersheds. This framework uses a simplified representation of hydrological systems that can be constructed based purely on open-source data (National Hydrography Dataset and Watershed Boundary Dataset). The graph representation provides an flexible intuitive approach for capturing connectivity and for identifying upstream pollutant sources and for tracing downstream impacts within small and large hydrological systems. Moreover, the graph representation can facilitate the use of advanced algorithms and tools of graph theory, topology, optimization, and machine learning to aid data analytics and decision-making. We demonstrate the capabilities of our framework by using case studies in the State of Wisconsin; here, we aim to identify upstream nutrient pollutant sources that arise from agricultural practices and trace downstream impacts to waterbodies, rivers, and streams. Our tool ultimately seeks to help stakeholders design effective pollution prevention/mitigation practices and evaluate how surface waters respond to such practices.
翻訳日:2023-02-13 16:57:57 公開日:2023-02-10
# 制御不能な因果推論:消費の安定度を推定する

Causal Inference out of Control: Estimating the Steerability of Consumption ( http://arxiv.org/abs/2302.04989v1 )

ライセンス: Link先を確認
Gary Cheng, Moritz Hardt, Celestine Mendler-D\"unner(参考訳) 規制当局や学者は、デジタルプラットフォームのアルゴリズム的行動が消費に与える影響にますます関心を寄せている。 我々は,利害関係を抽象化する汎用的因果推論問題(steerability of consumption)を提案する。 観察設計に焦点をあて,問題の構造を活用することで,標準設計の非現実的な重複仮定を著しく弱める因果識別可能性の仮定を示す。 このアプローチの目新しいところは、動的システムに作用するコントローラとしてプラットフォームを眺めながら、時間とともに消費のダイナミクスを明示的にモデル化することである。 このような動的システムの観点から、消費の変動と適切な応答性を持つアルゴリズム制御行動が、消費の操縦性を特定するのに十分であることを示すことができる。 本研究は,エコノメティクス,マクロ経済学,機械学習の例を例に,制御理論と因果推論の実りある相互作用を説明する。

Regulators and academics are increasingly interested in the causal effect that algorithmic actions of a digital platform have on consumption. We introduce a general causal inference problem we call the steerability of consumption that abstracts many settings of interest. Focusing on observational designs and exploiting the structure of the problem, we exhibit a set of assumptions for causal identifiability that significantly weaken the often unrealistic overlap assumptions of standard designs. The key novelty of our approach is to explicitly model the dynamics of consumption over time, viewing the platform as a controller acting on a dynamical system. From this dynamical systems perspective, we are able to show that exogenous variation in consumption and appropriately responsive algorithmic control actions are sufficient for identifying steerability of consumption. Our results illustrate the fruitful interplay of control theory and causal inference, which we illustrate with examples from econometrics, macroeconomics, and machine learning.
翻訳日:2023-02-13 16:57:28 公開日:2023-02-10
# SWATによる作物管理のための強化学習フレームワーク

A SWAT-based Reinforcement Learning Framework for Crop Management ( http://arxiv.org/abs/2302.04988v1 )

ライセンス: Link先を確認
Malvern Madondo, Muneeza Azmat, Kelsey Dipietro, Raya Horesh, Michael Jacobs, Arun Bawa, Raghavan Srinivasan, Fearghal O'Donncha(参考訳) 作物管理は、複雑で非常に不確実な環境における批判的、相互依存的な決定または行動の連続を伴い、空間的および時間的差異が異なる。 気候変動や供給の減退、価格の高騰に直面した肥料や灌水といった資源入力の管理は、単なるハーキュリアンタスクに過ぎません。 複雑な、非線形、高次元のデータセットを効率的に問う機械学習の能力は、農業における意思決定に革命をもたらす。 本稿では,土壌・水質評価ツール(SWAT)の力学を活用し,流域レベルでの経営実践の評価・評価を可能にする強化学習(RL)環境を提案する。 これにより、成長する季節に配備された時間と資源が大幅に節約される。 農作物管理は,外部の農業用インプットの使用を最小限に抑えつつ,収穫量を高めることを目的とした最適化問題であると考えている。 この問題は自然に降水、太陽放射、温度、土壌水分含量といった環境要因に左右される。 我々は,標準的農業実践と最先端のrlアルゴリズムから情報を得た経営戦略に従って,様々な意思決定エージェントを開発・ベンチマークすることにより,このフレームワークの有用性を実証する。

Crop management involves a series of critical, interdependent decisions or actions in a complex and highly uncertain environment, which exhibit distinct spatial and temporal variations. Managing resource inputs such as fertilizer and irrigation in the face of climate change, dwindling supply, and soaring prices is nothing short of a Herculean task. The ability of machine learning to efficiently interrogate complex, nonlinear, and high-dimensional datasets can revolutionize decision-making in agriculture. In this paper, we introduce a reinforcement learning (RL) environment that leverages the dynamics in the Soil and Water Assessment Tool (SWAT) and enables management practices to be assessed and evaluated on a watershed level. This drastically saves time and resources that would have been otherwise deployed during a full-growing season. We consider crop management as an optimization problem where the objective is to produce higher crop yield while minimizing the use of external farming inputs (specifically, fertilizer and irrigation amounts). The problem is naturally subject to environmental factors such as precipitation, solar radiation, temperature, and soil water content. We demonstrate the utility of our framework by developing and benchmarking various decision-making agents following management strategies informed by standard farming practices and state-of-the-art RL algorithms.
翻訳日:2023-02-13 16:57:11 公開日:2023-02-10
# ベイズ翻訳モデルを用いた事象時間関係抽出

Event Temporal Relation Extraction with Bayesian Translational Model ( http://arxiv.org/abs/2302.04985v1 )

ライセンス: Link先を確認
Xingwei Tan, Gabriele Pergola, Yulan He(参考訳) イベント間の時間関係を抽出する既存のモデルには、外部知識を組み込む原則的な方法が欠けている。 本研究では,時間関係表現を潜在変数としてモデル化し,ベイズ推論と翻訳関数を用いてその値を推定するベイズ学習に基づくベイズ変換法を提案する。 従来のニューラルアプローチと比較して、最適な設定パラメータを見つけるために点推定を行う代わりに、提案モデルはパラメータの後方分布を直接推定し、予測に関する不確実性をエンコードし表現するモデルの能力を高める。 広く使われている3つのデータセットの実験的結果は、ベイズ-トランスが事象時間関係抽出に既存のアプローチを上回っていることを示している。 さらに, 不確実性定量化, 事前比較, アブレーション研究の詳細な解析を行い, 提案手法の利点を明らかにした。

Existing models to extract temporal relations between events lack a principled method to incorporate external knowledge. In this study, we introduce Bayesian-Trans, a Bayesian learning-based method that models the temporal relation representations as latent variables and infers their values via Bayesian inference and translational functions. Compared to conventional neural approaches, instead of performing point estimation to find the best set parameters, the proposed model infers the parameters' posterior distribution directly, enhancing the model's capability to encode and express uncertainty about the predictions. Experimental results on the three widely used datasets show that Bayesian-Trans outperforms existing approaches for event temporal relation extraction. We additionally present detailed analyses on uncertainty quantification, comparison of priors, and ablation studies, illustrating the benefits of the proposed approach.
翻訳日:2023-02-13 16:56:52 公開日:2023-02-10
# マルチモードチャネル上でのフルパッシブプラグ・アンド・プレイタイムビン量子鍵分布の実現

Towards Fully Passive Plug and Play Time-Bin Quantum Key Distribution over Multi-Mode Channels ( http://arxiv.org/abs/2302.05038v1 )

ライセンス: Link先を確認
Ramy Tannous, Wilson Wu, St\'ephane Vinet, Chithrabhanu Perumangatt, Dogan Sinar, Alexander Ling, Thomas Jennewein(参考訳) 遠方量子時間ビン干渉計の位相安定化は、量子通信ネットワークにとって大きな課題であり、通常は、自由空間通信チャネルにおいて特に困難な、参照光学信号の交換によって達成される。 遠隔干渉計のアクティブな相対位相安定化の必要性を完全に回避する参照フレーム独立時間ビン量子鍵分布を用いた新しい解法を実証する。 偏光と時間ビンのハイブリッド絡み合いを用いた概念実証実験を行い,15mのマルチモード光ファイバーチャネル上で0.06bit/coincidence以上の漸近的保護鍵速度を示す。 これはモードフィルタリング、適応光学、アクティブ基底選択、アクティブ位相アライメントを使わずに実現される。 したがって、このシステムは、空間的にマルチモードチャネルに適したパッシブプラグおよび自己補償ソリューションと見なすことができ、空中、地上空間、マルチモードファイバといった挑戦的なチャネル上でのタイムビン量子通信リンクの実現性を向上させることができる。

Phase stabilization of distant quantum time-bin interferometers can be a major challenge for quantum communication networks, and is typically achieved by exchanging reference optical signals, which can be particularly challenging for free-space communication channels. We demonstrate a novel solution that utilizes reference frame independent time-bin quantum key distribution that completely avoids the need for active relative phase stabilization of the remote interferometers. We realized a proof of concept experiment using a source of hybrid entanglement with polarization and time-bin, and show a sustained asymptotic secure key rate of greater than 0.06 bits/coincidence over a 15m multi-mode fiber optical channel. This is achieved without the use of mode filtering, adaptive optics, active basis selection, nor active phase alignment. This system can therefore be considered a passive plug and play self-compensating solution that is suitable for spatially multi-mode channels, and improves the viability of time-bin quantum communication links over challenging channels such as airborne, ground to space, and multi-mode fibers.
翻訳日:2023-02-13 16:49:12 公開日:2023-02-10
# BiLSTMとCNN-BiLSTMを用いた短期集合住宅負荷予測

Short-Term Aggregated Residential Load Forecasting using BiLSTM and CNN-BiLSTM ( http://arxiv.org/abs/2302.05033v1 )

ライセンス: Link先を確認
Bharat Bohara, Raymond I. Fernandez, Vysali Gollapudi, Xingpeng Li(参考訳) 住宅レベルでの再生可能およびスマートホーム技術の普及は、電力系統の運用に複雑さを増すため、グリッド安定性に挑戦する。 その結果,短期的な住宅負荷予測が注目されている。 しかし,不確実性が高いため,住宅レベルでの予測は困難である。 最近、この問題に対処するためにディープニューラルネットワークが活用されている。 本稿では、双方向長短期メモリ(BiLSTM)と畳み込みニューラルネットワークベースのBiLSTM(CNN-BiLSTM)の機能について検討し、実負荷と予測負荷の間のルート平均二乗誤差(RMSE)を最小化しつつ、1時間間隔で予測する1日前(24時間)を提供する。 BLSTMとCNN-BiLSTMモデルは、38世帯からなる公開データセットを使用して、前回の24時間負荷データから、24時間以内の各時間毎のアクティブ電力需要を予測するように訓練されている。 BiLSTMモデルは1日当たりの予測で最低の1.4842RMSEを達成した。 さらに、標準のLSTMとCNN-LSTMモデルをトレーニングし、BiLSTMアーキテクチャと比較する。 BiLSTMのRMSEは、それぞれLSTM、CNN-LSTM、CNN-BiLSTMよりも5.60%、2.85%、および2.60%低い。 この作業のソースコードはhttps://github.com/Varat7v2/STLF-BiLSTM-CNNBiLSTM.gitで公開されている。

Higher penetration of renewable and smart home technologies at the residential level challenges grid stability as utility-customer interactions add complexity to power system operations. In response, short-term residential load forecasting has become an increasing area of focus. However, forecasting at the residential level is challenging due to the higher uncertainties involved. Recently deep neural networks have been leveraged to address this issue. This paper investigates the capabilities of a bidirectional long short-term memory (BiLSTM) and a convolutional neural network-based BiLSTM (CNN-BiLSTM) to provide a day ahead (24 hr.) forecasting at an hourly resolution while minimizing the root mean squared error (RMSE) between the actual and predicted load demand. Using a publicly available dataset consisting of 38 homes, the BiLSTM and CNN-BiLSTM models are trained to forecast the aggregated active power demand for each hour within a 24 hr. span, given the previous 24 hr. load data. The BiLSTM model achieved the lowest RMSE of 1.4842 for the overall daily forecast. In addition, standard LSTM and CNN-LSTM models are trained and compared with the BiLSTM architecture. The RMSE of BiLSTM is 5.60%, 2.85% and 2.60% lower than the LSTM, CNN-LSTM and CNN-BiLSTM models respectively. The source code of this work is available at https://github.com/Varat7v2/STLF-BiLSTM-CNNBiLSTM.git.
翻訳日:2023-02-13 16:48:52 公開日:2023-02-10
# 負の伝達を減らすための特徴分解:レコメンダシステムのための新しいマルチタスク学習法

Feature Decomposition for Reducing Negative Transfer: A Novel Multi-task Learning Method for Recommender System ( http://arxiv.org/abs/2302.05031v1 )

ライセンス: Link先を確認
Jie Zhou, Qian Yu, Chuan Luo, Jing Zhang(参考訳) 近年,ディープラーニング(DL)の急速な発展により,MTL(Multi-task Learning)は大きな進歩を遂げ,レコメンデーションシステム(RS)にも適用されている。 しかし、レコメンダシステムでは、関連するタスク間の相関は複雑である。 したがって、RS用に設計された既存のMTLモデルは、異なる次数への負の転送に悩まされ、MTLの最適化が損なわれる。 負の転送の根本原因は、異なるタスクで学習された機能が相互に干渉する機能冗長性にあることが分かりました。 ネガティブトランスファーの問題を軽減するために,FDN(Feature Decomposition Network)と呼ばれる新しいマルチタスク学習手法を提案する。 提案するFDNの鍵となる考え方は,特徴をタスク固有機能とタスク共有機能に明示的に分解することで,特徴冗長性の現象を低減することである。 本稿では,合成データセットと公開データセット(Ali-CCP)の2つのデータセットに対して提案手法の有効性を示す。 実験結果から,提案するFDNは最先端技術(SOTA)法よりも顕著なマージンで優れていることがわかった。

In recent years, thanks to the rapid development of deep learning (DL), DL-based multi-task learning (MTL) has made significant progress, and it has been successfully applied to recommendation systems (RS). However, in a recommender system, the correlations among the involved tasks are complex. Therefore, the existing MTL models designed for RS suffer from negative transfer to different degrees, which will injure optimization in MTL. We find that the root cause of negative transfer is feature redundancy that features learned for different tasks interfere with each other. To alleviate the issue of negative transfer, we propose a novel multi-task learning method termed Feature Decomposition Network (FDN). The key idea of the proposed FDN is reducing the phenomenon of feature redundancy by explicitly decomposing features into task-specific features and task-shared features with carefully designed constraints. We demonstrate the effectiveness of the proposed method on two datasets, a synthetic dataset and a public datasets (i.e., Ali-CCP). Experimental results show that our proposed FDN can outperform the state-of-the-art (SOTA) methods by a noticeable margin.
翻訳日:2023-02-13 16:48:24 公開日:2023-02-10
# 選択整合性損失に基づく画像ステッチングの深部シーム予測

Deep Seam Prediction for Image Stitching Based on Selection Consistency Loss ( http://arxiv.org/abs/2302.05027v1 )

ライセンス: Link先を確認
Senmao Cheng, Fan Yang, Zhi Chen, Nanjun Yuan, Wenbin Tao(参考訳) 画像縫合は、視界の広いパノラマ画像(FOV)を、異なる視点から撮影した画像から構築することである。 縫合画像における融合ゴーストの問題を解決するため、シーム駆動方式では、最高のシームを予測して画像の融合を誤認する領域を避ける。 現在、opencvライブラリの標準ツールとして、動的プログラミング(dp)とグラフカット(gc)が20年前に提案されたにもかかわらず、seamの予測手法として広く使われている。 しかし, DP法は効率が良く, シーム品質は低いが, GCは優れたシーム品質が得られるが, リアルタイム性能は劣る。 本稿では,高効率のシーム品質を実現するために,深層学習に基づくシーム予測手法(DSeam)を提案する。 ネットワークにおけるシーム記述の難しさを克服するため,ネットワーク学習を監督するために,シーム形状制約とシーム品質制約を組み合わせた選択的な一貫性損失を設計する。 一貫性損失の選択の制約により,マスク境界をシームとして暗黙的に定義し,seam予測をマスク予測に変換する。 提案するdseamは,画像縫合における最初の深層学習に基づくシーム予測手法である。 提案手法は, 従来のGCシーム予測法よりも15倍高速で, 類似のシーム品質を有するOpenCV 2.4.9よりも優れた性能を示した。

Image stitching is to construct panoramic images with wider field of vision (FOV) from some images captured from different viewing positions. To solve the problem of fusion ghosting in the stitched image, seam-driven methods avoid the misalignment area to fuse images by predicting the best seam. Currently, as standard tools of the OpenCV library, dynamic programming (DP) and GraphCut (GC) are still the only commonly used seam prediction methods despite the fact that they were both proposed two decades ago. However, GC can get excellent seam quality but poor real-time performance while DP method has good efficiency but poor seam quality. In this paper, we propose a deep learning based seam prediction method (DSeam) for the sake of high seam quality with high efficiency. To overcome the difficulty of the seam description in network and no GroundTruth for training we design a selective consistency loss combining the seam shape constraint and seam quality constraint to supervise the network learning. By the constraint of the selection of consistency loss, we implicitly defined the mask boundaries as seams and transform seam prediction into mask prediction. To our knowledge, the proposed DSeam is the first deep learning based seam prediction method for image stitching. Extensive experimental results well demonstrate the superior performance of our proposed Dseam method which is 15 times faster than the classic GC seam prediction method in OpenCV 2.4.9 with similar seam quality.
翻訳日:2023-02-13 16:48:04 公開日:2023-02-10
# マニフォールド学習のためのヘッセン系平滑化スプライン

Hessian Based Smoothing Splines for Manifold Learning ( http://arxiv.org/abs/2302.05025v1 )

ライセンス: Link先を確認
Juno Kim(参考訳) 多様体学習における多次元平滑化スプラインアルゴリズムを提案する。 我々は、ヘッセン行列のフロベニウスノルムに基づいて、薄板スプラインの曲げエネルギーペナルティを平坦多様体のソボレフ空間上の二次形式に一般化する。 これは多様体上の平滑化スプラインの自然な定義につながり、大域曲率ペナルティを最適化しながら平方誤差を最小化する。 解の存在と一意性は、再生核ヒルベルト空間の理論を適用することによって示される。 最小化子は、双調和作用素のグリーン函数と、至る所で消えるヘッセンの「線型」函数の組合せとして表される。 さらに、Hessian EigenmapsアルゴリズムからのHessian推定手法を用いて、真の多様体が未知のときにスプライン損失を近似する。 これにより、基礎となる多様体に収まることなく応答値を滑らかにするための特に単純な二次最適化アルゴリズムが得られる。 漸近的誤差とロバスト性の分析と、サンプル外予測法と応用に関する議論が行われる。

We propose a multidimensional smoothing spline algorithm in the context of manifold learning. We generalize the bending energy penalty of thin-plate splines to a quadratic form on the Sobolev space of a flat manifold, based on the Frobenius norm of the Hessian matrix. This leads to a natural definition of smoothing splines on manifolds, which minimizes square error while optimizing a global curvature penalty. The existence and uniqueness of the solution is shown by applying the theory of reproducing kernel Hilbert spaces. The minimizer is expressed as a combination of Green's functions for the biharmonic operator, and 'linear' functions of everywhere vanishing Hessian. Furthermore, we utilize the Hessian estimation procedure from the Hessian Eigenmaps algorithm to approximate the spline loss when the true manifold is unknown. This yields a particularly simple quadratic optimization algorithm for smoothing response values without needing to fit the underlying manifold. Analysis of asymptotic error and robustness are given, as well as discussion of out-of-sample prediction methods and applications.
翻訳日:2023-02-13 16:47:40 公開日:2023-02-10
# ShapeWordNet: 生理学的信号分類のための解釈可能なシェープレットニューラルネットワーク

ShapeWordNet: An Interpretable Shapelet Neural Network for Physiological Signal Classification ( http://arxiv.org/abs/2302.05021v1 )

ライセンス: Link先を確認
Wenqiang He, Mingyue Cheng, Qi Liu, Zhi Li(参考訳) 生理的シグナルは、医療や医療の応用において重要な実践的価値の高次元時系列である。 しかし,その分類に関する先行研究は,難解なデータ特性とラベルスパーシティの問題により,有望な結果が得られなかった。 本稿では,生理的信号分類タスクに適応した,より効果的で解釈可能なスキームを提案することで,これらの課題に対処しようとする。 具体的には,時系列シェイプレットを用いて顕著な局所パターンを抽出し,解釈可能なシーケンス識別を行い,全系列情報を抽出する。 これにより、長期かつ連続的な生信号は短くて離散的なトークンシーケンスに圧縮され、局所パターンとグローバルコンテキストの両方がよく保存される。 さらに、ラベル空間の問題を軽減するために、データを増やすためにマルチスケール変換戦略を適応的に設計し、モデルトレーニングをガイドするために、クロススケールコントラスト学習機構を考案する。 本研究では,本手法をShapeWordNetと命名し,実世界の3つのデータセットを対象とした実験を行った。 比較の結果,提案手法は最先端アプローチの4つのカテゴリを著しく上回っている。 可視化分析により、シェープレットに基づくシーケンス離散化アイデアのよい解釈性がさらに証明される。

Physiological signals are high-dimensional time series of great practical values in medical and healthcare applications. However, previous works on its classification fail to obtain promising results due to the intractable data characteristics and the severe label sparsity issues. In this paper, we try to address these challenges by proposing a more effective and interpretable scheme tailored for the physiological signal classification task. Specifically, we exploit the time series shapelets to extract prominent local patterns and perform interpretable sequence discretization to distill the whole-series information. By doing so, the long and continuous raw signals are compressed into short and discrete token sequences, where both local patterns and global contexts are well preserved. Moreover, to alleviate the label sparsity issue, a multi-scale transformation strategy is adaptively designed to augment data and a cross-scale contrastive learning mechanism is accordingly devised to guide the model training. We name our method as ShapeWordNet and conduct extensive experiments on three real-world datasets to investigate its effectiveness. Comparative results show that our proposed scheme remarkably outperforms four categories of cutting-edge approaches. Visualization analysis further witnesses the good interpretability of the sequence discretization idea based on shapelets.
翻訳日:2023-02-13 16:47:22 公開日:2023-02-10
# 信頼度最適輸送による分布誤差予測

Predicting Out-of-Distribution Error with Confidence Optimal Transport ( http://arxiv.org/abs/2302.05018v1 )

ライセンス: Link先を確認
Yuzhe Lu, Zhenlin Wang, Runtian Zhai, Soheil Kolouri, Joseph Campbell, Katia Sycara(参考訳) out-of-distribution(ood)データは、デプロイされた機械学習モデルにおいて深刻な課題を提起する。 モデルの決定にいつ信頼するかを示すため、実際にテストデータでモデルのパフォーマンスを見積もることができることは重要です。 本稿では,未知の分布上でのモデルの性能を付加アノテーションなしで予測する簡易かつ効果的な手法を提案する。 このアプローチは最適な輸送理論に根ざしており、テストサンプルの出力ソフトマックススコアをディープニューラルネットワークから、未知の分布から経験的サンプルとして見る。 提案手法である信頼度最適輸送(COT)は,対象領域におけるモデルの性能を頑健に推定する。 そのシンプルさにもかかわらず、この手法は3つのベンチマークデータセットで最先端の結果を達成し、既存の手法を大きく上回っています。

Out-of-distribution (OOD) data poses serious challenges in deployed machine learning models as even subtle changes could incur significant performance drops. Being able to estimate a model's performance on test data is important in practice as it indicates when to trust to model's decisions. We present a simple yet effective method to predict a model's performance on an unknown distribution without any addition annotation. Our approach is rooted in the Optimal Transport theory, viewing test samples' output softmax scores from deep neural networks as empirical samples from an unknown distribution. We show that our method, Confidence Optimal Transport (COT), provides robust estimates of a model's performance on a target domain. Despite its simplicity, our method achieves state-of-the-art results on three benchmark datasets and outperforms existing methods by a large margin.
翻訳日:2023-02-13 16:47:03 公開日:2023-02-10
# 顔画像の劣化に関する調査

A survey on facial image deblurring ( http://arxiv.org/abs/2302.05017v1 )

ライセンス: Link先を確認
Bingnan Wang, Fanjiang Xu and Quan Zheng(参考訳) 顔画像がぼやけていると、顔認識などのハイレベルな視覚タスクに大きな影響を与えます。 顔画像デブラリングの目的は、ぼやけた入力画像から鮮明な画像を復元することであり、認識精度等を向上できる。 一般的なデブロアリング法は顔画像ではうまく機能しない。 そこで, 顔画像の特徴に応じて, 特定の先行情報として意味情報や構造情報を付加することにより, 性能向上を図るために, 顔の難読化手法を提案する。 本稿では,近年発表された顔画像のデブラリング手法を概説し,そのほとんどはディープラーニングに基づくものである。 まず、画像のぼかしのモデリングについて簡単に紹介する。 次に,顔認識手法をモデルベース手法とディープラーニング方式の2つのカテゴリにまとめる。 さらに、ニューラルネットワークトレーニングプロセスで一般的に使用されるデータセット、損失関数、パフォーマンス評価メトリクスを要約する。 これらのデータセットとメトリクス上での古典的手法の性能を示し、モデルに基づく手法と学習に基づく手法の違いについて簡単な議論を行う。 最後に,現在の課題と今後の研究の方向性について論じる。

When the facial image is blurred, it has a great impact on high-level vision tasks such as face recognition. The purpose of facial image deblurring is to recover a clear image from a blurry input image, which can improve the recognition accuracy and so on. General deblurring methods can not perform well on facial images. So some face deblurring methods are proposed to improve the performance by adding semantic or structural information as specific priors according to the characteristics of facial images. This paper surveys and summarizes recently published methods for facial image deblurring, most of which are based on deep learning. Firstly, we give a brief introduction to the modeling of image blur. Next, we summarize face deblurring methods into two categories, namely model-based methods and deep learning-based methods. Furthermore, we summarize the datasets, loss functions, and performance evaluation metrics commonly used in the neural network training process. We show the performance of classical methods on these datasets and metrics and give a brief discussion on the differences of model-based and learning-based methods. Finally, we discuss current challenges and possible future research directions.
翻訳日:2023-02-13 16:46:48 公開日:2023-02-10
# マルチモーダルビジョンの監督は言語に有益か?

Is multi-modal vision supervision beneficial to language? ( http://arxiv.org/abs/2302.05016v1 )

ライセンス: Link先を確認
Avinash Madasu, Vasudev Lal(参考訳) vision (image and video) - 言語(vl) 事前トレーニングは、イメージリトライ、ビデオリトライ、ビジュアル質問応答など、マルチモーダルタスクの最先端結果を達成する、最近の一般的なパラダイムである。 これらのモデルは教師なしの方法で訓練され、相補的なモダリティ監督の恩恵を受ける。 本稿では,視覚指導を用いて訓練された言語表現が,自然言語理解や常識推論のベンチマークにおいて,バニラ言語表現よりも優れているかを検討する。 本研究では,ALBEF,BLIP,METER,ALPRO,Frozen-in-Time (FiT),VIOLETといった多様な画像テキストモデルの実験を行った。 これらのモデルのスタンドアロンテキストエンコーダの言語表現の性能と,視覚監視により学習したテキストエンコーダの言語表現の比較を行った。 我々の実験は、バニラ言語表現がほとんどのタスクにおいて優れたパフォーマンスを示すことを示唆している。 これらの結果は、視覚言語モデルの現在の欠点に光を当てた。

Vision (image and video) - Language (VL) pre-training is the recent popular paradigm that achieved state-of-the-art results on multi-modal tasks like image-retrieval, video-retrieval, visual question answering etc. These models are trained in an unsupervised way and greatly benefit from the complementary modality supervision. In this paper, we explore if the language representations trained using vision supervision perform better than vanilla language representations on Natural Language Understanding and commonsense reasoning benchmarks. We experiment with a diverse set of image-text models such as ALBEF, BLIP, METER and video-text models like ALPRO, Frozen-in-Time (FiT), VIOLET. We compare the performance of language representations of stand-alone text encoders of these models to the language representations of text encoders learnt through vision supervision. Our experiments suggest that vanilla language representations show superior performance on most of the tasks. These results shed light on the current drawbacks of the vision-language models.
翻訳日:2023-02-13 16:46:31 公開日:2023-02-10
# コンピュータビジョンにおける文脈理解:調査

Context Understanding in Computer Vision: A Survey ( http://arxiv.org/abs/2302.05011v1 )

ライセンス: Link先を確認
Xuan Wang, Zhigang Zhu(参考訳) コンテキスト情報は、オブジェクト検出、ビデオアクション検出、画像分類など、多くのコンピュータビジョンタスクにおいて重要な役割を果たす。 コンテキストからひとつのオブジェクトやアクションを認識することは、時として非常に難しい場合があり、コンテキスト情報は、シーンやイベントの理解を大幅に改善するのに役立つ。 オブジェクトの背景の色や形状などの出現コンテキスト情報は、シーン内のオブジェクトの認識精度を向上させることができる。 セマンティックコンテキスト(例えば、空の机上のキーボードとデスクトップコンピュータの隣のキーボード)は精度を改善し、無関係なイベントを除外する。 キャプチャされた画像の時間や位置など、画像自体にないコンテキスト情報は、特定のイベントやアクションが発生するかどうかを判断するのに役立ちます。 他のタイプのコンテキスト(建物の3d構造など)も、精度を向上させるための追加情報を提供する。 本調査では,コンピュータビジョンタスクで使用されるコンテキスト情報について概説する。 コンテキストを異なるタイプと異なるレベルに分類します。 また、コンテキスト情報を活用可能な機械学習モデルと画像/ビデオデータセットについてもレビューする。 さらに,コンテキストベース統合と文脈自由統合を,主に画像ベースとビデオベースという2つのタスクのクラスで比較した。 最後に、この調査は、コンテキスト学習と活用における将来的な方向性のセットによって締めくくられる。

Contextual information plays an important role in many computer vision tasks, such as object detection, video action detection, image classification, etc. Recognizing a single object or action out of context could be sometimes very challenging, and context information may help improve the understanding of a scene or an event greatly. Appearance context information, e.g., colors or shapes of the background of an object can improve the recognition accuracy of the object in the scene. Semantic context (e.g. a keyboard on an empty desk vs. a keyboard next to a desktop computer ) will improve accuracy and exclude unrelated events. Context information that are not in the image itself, such as the time or location of an images captured, can also help to decide whether certain event or action should occur. Other types of context (e.g. 3D structure of a building) will also provide additional information to improve the accuracy. In this survey, different context information that has been used in computer vision tasks is reviewed. We categorize context into different types and different levels. We also review available machine learning models and image/video datasets that can employ context information. Furthermore, we compare context based integration and context-free integration in mainly two classes of tasks: image-based and video-based. Finally, this survey is concluded by a set of promising future directions in context learning and utilization.
翻訳日:2023-02-13 16:46:14 公開日:2023-02-10
# マルチエージェント強化学習における低エントロピー通信

Low Entropy Communication in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.05055v1 )

ライセンス: Link先を確認
Lebin Yu, Yunbo Qiu, Qiexiang Wang, Xudong Zhang, Jian Wang(参考訳) 近年,マルチエージェント強化学習におけるコミュニケーションが注目されている。 しかし、マルチエージェントシステムは通信資源の制限に悩まされ、現実のシナリオでは効率的な通信技術が必要である。 シャノン=ハートレーの定理によれば、より悪いチャネルで確実に送信されるメッセージはエントロピーが低い。 そこで我々は,マルチエージェント通信におけるメッセージエントロピーの低減を目指す。 基本的な課題は、エントロピーの勾配が0か無限であり、勾配に基づく手法を無効にすることである。 そこで本研究では,メッセージの分布を適切に調整することでエントロピーを低減する擬似勾配降下方式を提案する。 環境設定が6つある2つの基盤通信フレームワーク上で実験を行い、協調性能の損失がほとんどなく、メッセージのエントロピーを最大90%削減できることを示した。

Communication in multi-agent reinforcement learning has been drawing attention recently for its significant role in cooperation. However, multi-agent systems may suffer from limitations on communication resources and thus need efficient communication techniques in real-world scenarios. According to the Shannon-Hartley theorem, messages to be transmitted reliably in worse channels require lower entropy. Therefore, we aim to reduce message entropy in multi-agent communication. A fundamental challenge is that the gradients of entropy are either 0 or infinity, disabling gradient-based methods. To handle it, we propose a pseudo gradient descent scheme, which reduces entropy by adjusting the distributions of messages wisely. We conduct experiments on two base communication frameworks with six environment settings and find that our scheme can reduce message entropy by up to 90% with nearly no loss of cooperation performance.
翻訳日:2023-02-13 16:40:01 公開日:2023-02-10
# 雑音中規模量子(nisq)デバイスにおける量子状態ゆらぎに対する非マルコフ的アプローチ

Non-Markovian approach to quantum state fluctuations in noisy intermediate-scale quantum (NISQ) devices ( http://arxiv.org/abs/2302.05053v1 )

ライセンス: Link先を確認
Doyeol Ahn (1,2,3) and Byeongyong Park (1,3) ((1) Department of Electrical and Computer Engineering, University of Seoul, Republic of Korea (2) Physics Department, Florida Atlantic University, USA (3) First Quantum, Inc, Republic of Korea)(参考訳) ノイズの多い中間スケール量子(nisq)デバイスなど、短期量子コンピュータにおけるエラーやデコヒーレンスの影響を低減することが重要である。 これらの要因が量子アルゴリズムの実現可能性を大幅に制限するため、エラー軽減手順を効果的に実行するためには、それらの物理的原因を理解することが不可欠である。 本稿では、単純な高調波発振器を雑音源として記述した環境と相互作用するnisqデバイスにおける量子状態ゆらぎの非マルコフ的検討を行う。 出力量子状態の還元密度作用素は、投影作用素形式と時間内の進行および遅延プロパゲータを用いた量子リウヴィル方程式の解を通じて、時間畳み込みのない形で得られる。 同一性および制御NOT(CNOT)ゲート演算の両方の出力量子状態変動を2量子演算で異なる入力状態に対して解析し、イオントラップおよび超伝導量子コンピューティングシステムによる実験結果と比較する。 イオントラップを用いたNISQ装置の理論的予測と実験結果との間には強い相関関係が認められた。

It is crucial to reduce the impact of errors and decoherence in near-term quantum computers, such as noisy intermediate-scale quantum (NISQ) devices. As these factors severely limit the feasibility of quantum algorithms, it is imperative to comprehend their physical causes in order to execute error mitigation procedures effectively. This paper presents a non-Markovian examination of quantum state fluctuations in NISQ devices interacting with an environment described by a set of simple harmonic oscillators as a noise source. The reduced density operator for the output quantum states is obtained in time-convolutionless form through the solution of the quantum Liouville equation using the projection operator formalism and advanced and retarded propagators in time. The output quantum state fluctuations for both identity and controlled-NOT (CNOT) gate operations are analyzed for different input states in a two-qubit operation and compared to experimental results from ion-trap and superconducting quantum computing systems. The study finds a strong correlation between the theoretical predictions and the experimental results for an ion-trap-based NISQ device.
翻訳日:2023-02-13 16:39:45 公開日:2023-02-10
# 身元不明な共同創設者の学習による脱バイアス推薦

Debiasing Recommendation by Learning Identifiable Latent Confounders ( http://arxiv.org/abs/2302.05052v1 )

ライセンス: Link先を確認
Qing Zhang, Xiaoying Zhang, Yang Liu, Hongning Wang, Min Gao, Jiheng Zhang, Ruocheng Guo(参考訳) レコメンデーションシステムは、公開されていないアイテムに対するユーザのフィードバックを予測することを目的としている。 矛盾するバイアスは、測定されていない変数(例えば、ユーザの社会経済的地位)の存在によって生じ、ユーザーの露出とフィードバックの両方に影響を与える。 既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。 しかし、反事実フィードバックの同定は保証できず、偏りのある予測につながる可能性がある。 そこで本研究では,前述の非識別問題を解決するために,一連のプロキシ変数(例えば,ユーザ特徴)を活用する新しい手法,すなわち識別可能なデコノウ(iDCF)を提案する。 提案したiDCFは,不測な共同創設者を推測し,理論的保証とともに反事実的フィードバックを識別するために,近因性推論を適用した一般的な非定型推薦フレームワークである。 様々な実世界および合成データセットに関する大規模な実験は、提案手法の有効性と堅牢性を検証する。

Recommendation systems aim to predict users' feedback on items not exposed to them. Confounding bias arises due to the presence of unmeasured variables (e.g., the socio-economic status of a user) that can affect both a user's exposure and feedback. Existing methods either (1) make untenable assumptions about these unmeasured variables or (2) directly infer latent confounders from users' exposure. However, they cannot guarantee the identification of counterfactual feedback, which can lead to biased predictions. In this work, we propose a novel method, i.e., identifiable deconfounder (iDCF), which leverages a set of proxy variables (e.g., observed user features) to resolve the aforementioned non-identification issue. The proposed iDCF is a general deconfounded recommendation framework that applies proximal causal inference to infer the unmeasured confounders and identify the counterfactual feedback with theoretical guarantees. Extensive experiments on various real-world and synthetic datasets verify the proposed method's effectiveness and robustness.
翻訳日:2023-02-13 16:39:29 公開日:2023-02-10
# 勾配投影によるFederated Domain Adaptation

Federated Domain Adaptation via Gradient Projection ( http://arxiv.org/abs/2302.05049v1 )

ライセンス: Link先を確認
Enyi Jiang, Yibo Jacky Zhang, Oluwasanmi Koyejo(参考訳) フェデレーションドメイン適応(fda)は、ソースクライアントのセットが協調して動作し、ターゲットクライアントのパフォーマンスが向上し、ターゲットクライアントがラベル付きデータを制限したフェデレーション学習設定を記述する。 ソースとターゲットドメイン間のドメインシフトとターゲットドメイン内の限られたサンプルを組み合わせることで、FDAはFedAvgのような一般的な技術や、大きなドメインシフトを伴う微調整の失敗など、難しい問題となる。 このギャップを埋めるために、トレーニング中にソース勾配とターゲット勾配を集約するために使われるFDAの新しいアグリゲーションルールであるFederated Gradient Projection(\texttt{FedGP}$)を提案する。 さらに,fda設定を特徴付ける指標を導入し,独立した関心を持つかもしれない集約ルールの性能分析のための理論的枠組みを提案する。 このフレームワークを使用すると、なぜ$\texttt{FedGP}$がベースラインと比較して動作するのか、いつ、なぜなのかを理論的に特徴づける。 我々の理論は、実践の予測可能な一定の実践ルールを示唆している。 合成および実世界のデータセットの実験は理論的洞察を検証し、提案手法の有効性を実証する。

Federated Domain Adaptation (FDA) describes the federated learning setting where a set of source clients work collaboratively to improve the performance of a target client and where the target client has limited labeled data. The domain shift between the source and target domains, combined with limited samples in the target domain, makes FDA a challenging problem, e.g., common techniques such as FedAvg and fine-tuning fail with a large domain shift. To fill this gap, we propose Federated Gradient Projection ($\texttt{FedGP}$), a novel aggregation rule for FDA, used to aggregate the source gradients and target gradient during training. Further, we introduce metrics that characterize the FDA setting and propose a theoretical framework for analyzing the performance of aggregation rules, which may be of independent interest. Using this framework, we theoretically characterize how, when, and why $\texttt{FedGP}$ works compared to baselines. Our theory suggests certain practical rules that are predictive of practice. Experiments on synthetic and real-world datasets verify the theoretical insights and illustrate the effectiveness of the proposed method in practice.
翻訳日:2023-02-13 16:39:11 公開日:2023-02-10
# プルーニングニューラルネットワークにおけるスパーシティを活用した大規模モデルトレーニングの最適化

Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model Training ( http://arxiv.org/abs/2302.05045v1 )

ライセンス: Link先を確認
Siddharth Singh, Abhinav Bhatele(参考訳) 大規模ニューラルネットワークの並列トレーニングは、通信によるオーバーヘッドが大きいため困難である。 近年,ニューラルネットワークにおけるパラメータの80-90%のプルーニング(すなわちゼロに設定)が可能な様々なプルーニングアルゴリズムを開発し,未解析の親ネットワークの精度に匹敵するスパースサブネットを構築している。 本研究では,これらのスパースサブネットワークを利用して,並列ディープラーニングのための2つの一般的なアルゴリズム,すなわちデータと層間並列処理のメモリ利用と通信を最適化する新しい手法を提案する。 我々は、データと層間並列性に依存した並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。 512nvidia v100 gpuでは,2.7億パラメータモデルのメモリ消費を74%削減し,通信時間を40%削減し,axon上で34%,deepspeed-3d上で32%,スパース行列計算ベースラインであるsputnik上で46%高速化した。

Parallel training of neural networks at scale is challenging due to significant overheads arising from communication. Recently, deep learning researchers have developed a variety of pruning algorithms that are capable of pruning (i.e. setting to zero) 80-90% of the parameters in a neural network to yield sparse subnetworks that equal the accuracy of the unpruned parent network. In this work, we propose a novel approach that exploits these sparse subnetworks to optimize the memory utilization and communication in two popular algorithms for parallel deep learning namely -- data and inter-layer parallelism. We integrate our approach into AxoNN, a highly scalable framework for parallel deep learning that relies on data and inter-layer parallelism, and demonstrate the reduction in communication times and memory utilization. On 512 NVIDIA V100 GPUs, our optimizations reduce the memory consumption of a 2.7 billion parameter model by 74%, and the total communication times by 40%, thus providing an overall speedup of 34% over AxoNN, 32% over DeepSpeed-3D and 46% over Sputnik, a sparse matrix computation baseline.
翻訳日:2023-02-13 16:38:48 公開日:2023-02-10
# 埋め込み型知識グラフ補完におけるDegree Biasに向けて

Toward Degree Bias in Embedding-Based Knowledge Graph Completion ( http://arxiv.org/abs/2302.05044v1 )

ライセンス: Link先を確認
Harry Shomer, Wei Jin, Wentao Wang, Jiliang Tang(参考訳) 知識グラフの基本的なタスクは知識グラフ補完(KGC)である。 KG内のすべての実体と関係の表現を学習することで、目に見えないエッジを予測することを目的としている。 伝統的なグラフで表現を学ぶ際の共通の関心事は次数バイアスである。 低次ノードの表現の貧弱さを学習することでグラフアルゴリズムに影響を与える可能性がある。 しかし, 埋込型KGCには次数バイアスが存在するか, あるいはそのようなバイアスがKGCの性能に与える影響について, 限定的な研究がなされている。 本稿では,埋め込み型kgcにおける次数バイアスの存在を検証し,次数バイアスの鍵となる要因を特定する。 次に,このバイアスを軽減するために合成三重項を生成する新しいデータ拡張手法KG-Mixupを導入する。 大規模な実験により,本手法は様々な組込み型KGC法を改良し,複数のベンチマークデータセットのバイアス問題に対処する他の手法より優れていることが示された。

A fundamental task for knowledge graphs (KGs) is knowledge graph completion (KGC). It aims to predict unseen edges by learning representations for all the entities and relations in a KG. A common concern when learning representations on traditional graphs is degree bias. It can affect graph algorithms by learning poor representations for lower-degree nodes, often leading to low performance on such nodes. However, there has been limited research on whether there exists degree bias for embedding-based KGC and how such bias affects the performance of KGC. In this paper, we validate the existence of degree bias in embedding-based KGC and identify the key factor to degree bias. We then introduce a novel data augmentation method, KG-Mixup, to generate synthetic triples to mitigate such bias. Extensive experiments have demonstrated that our method can improve various embedding-based KGC methods and outperform other methods tackling the bias problem on multiple benchmark datasets.
翻訳日:2023-02-13 16:38:29 公開日:2023-02-10
# 医用画像における予測的・対比的自己教師付き学習の展望

A Review of Predictive and Contrastive Self-supervised Learning for Medical Images ( http://arxiv.org/abs/2302.05043v1 )

ライセンス: Link先を確認
Wei-Chien Wang, Euijoon Ahn, Dagan Feng, Jinman Kim(参考訳) 過去10年間で、手動でアノテートされたビッグデータの教師付きディープラーニングが、コンピュータビジョンタスクで大きく進歩している。 しかし, 医用画像解析における深層学習の適用は, 高品質な注記医用画像データの不足によって制限された。 SSLとは対照的なアプローチであり、教師付き学習に対抗したり、性能を向上させるのに最も成功したアプローチである。 本稿では,自然画像を用いたコントラストsslアルゴリズムと医用画像への適応について検討し,最近の進歩,現在の限界,医用領域におけるコントラストssl適用の今後の方向性について考察する。

Over the last decade, supervised deep learning on manually annotated big data has been progressing significantly on computer vision tasks. But the application of deep learning in medical image analysis was limited by the scarcity of high-quality annotated medical imaging data. An emerging solution is self-supervised learning (SSL), among which contrastive SSL is the most successful approach to rivalling or outperforming supervised learning. This review investigates several state-of-the-art contrastive SSL algorithms originally on natural images as well as their adaptations for medical images, and concludes by discussing recent advances, current limitations, and future directions in applying contrastive SSL in the medical domain.
翻訳日:2023-02-13 16:38:13 公開日:2023-02-10
# 時空間符号化による画像を用いたデータ駆動確率運動評価と最適化

Data-Driven Stochastic Motion Evaluation and Optimization with Image by Spatially-Aligned Temporal Encoding ( http://arxiv.org/abs/2302.05041v1 )

ライセンス: Link先を確認
Takeru Oba and Norimichi Ukita(参考訳) 本稿では,長い動きに対する確率的動き予測手法を提案する。 動きは、与えられた画像で観察された初期状態からタスクを達成するように予測される。 本手法は,エネルギベースモデル(EBM)によりタスク達成性を評価するが,従来のEMMは異なる領域間の整合性(画像と動き)を評価するように設計されていない。 本手法は,画像上に投影された運動軌跡に沿って特徴が抽出されるように,空間的に時間的符号化によって画像特徴領域に画像と動きデータをシームレスに統合する。 さらに,データ駆動型モーション最適化手法であるdeep motion optimizer (dmo) を提案する。 従来の勾配に基づく最適化と異なり、我々の自己監督型DMOは局所最小化を避けるためにハイパーパラメータチューニングの難しさを軽減する。 提案手法の有効性は, 同様のSOTA法を用いて様々な実験を行った。

This paper proposes a probabilistic motion prediction method for long motions. The motion is predicted so that it accomplishes a task from the initial state observed in the given image. While our method evaluates the task achievability by the Energy-Based Model (EBM), previous EBMs are not designed for evaluating the consistency between different domains (i.e., image and motion in our method). Our method seamlessly integrates the image and motion data into the image feature domain by spatially-aligned temporal encoding so that features are extracted along the motion trajectory projected onto the image. Furthermore, this paper also proposes a data-driven motion optimization method, Deep Motion Optimizer (DMO), that works with EBM for motion prediction. Different from previous gradient-based optimizers, our self-supervised DMO alleviates the difficulty of hyper-parameter tuning to avoid local minima. The effectiveness of the proposed method is demonstrated with a variety of experiments with similar SOTA methods.
翻訳日:2023-02-13 16:38:02 公開日:2023-02-10
# patcorrect: asr誤り訂正のための非自己回帰音素提示トランス

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction ( http://arxiv.org/abs/2302.05040v1 )

ライセンス: Link先を確認
Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan(参考訳) 自動音声認識(ASR)システムによる音声テキスト誤りは、ASR転写に依存する下流モデルに悪影響を及ぼす。 近年,テキスト編集手法としての言語誤り訂正モデルが開発されている。 しかし, 産業グレード生産システムの低レイテンシ要件を満たすasr転写の誤り訂正のための効率的なモデルについては, 十分に研究されていない。 本研究では、単語誤り率(WER)を低減し、異なる上流ASRシステム間で堅牢な性能を実現することにより、転写品質を向上させる新しい非自己回帰的(NAR)誤り訂正手法を提案する。 提案手法は,音素エンコーダによるトランスフォーマーモデルのテキストエンコーディングを強化し,発音情報を埋め込む。 音素エンコーダとテキストエンコーダからの表現は、目標シーケンス長を予測する長さタグ付け予測器に供給する前にマルチモーダル融合により結合される。 ジョイントエンコーダは、NARデコーダのアテンション機構への入力も提供する。 2つの公開英語コーパスデータセット上で,音声からテキストへの書き起こし品質の異なる3つのオープンソースasrシステムとその誤転写実験を行った。 その結果,我々のPATCorrect (Phoneme Augmented Transformer for ASR error Correction) は,様々な上流ASRシステムにおいて,英語コーパスにおける最先端のNAR誤り訂正法より一貫して優れていた。 例えば、PATCorrectは3つのASRシステムで平均11.62%のWER削減(WERR)を、テキストのみを用いた他の手法で達成した9.46%のWERRと比較して達成し、GPUハードウェアにおいて、他のNARモデルと10ミリ秒スケールで同等の遅延を達成し、Common VoiceやLibriSpeechデータセットの自己回帰モデルよりも4.2~6.7倍高速である。

Speech-to-text errors made by automatic speech recognition (ASR) system negatively impact downstream models relying on ASR transcriptions. Language error correction models as a post-processing text editing approach have been recently developed for refining the source sentences. However, efficient models for correcting errors in ASR transcriptions that meet the low latency requirements of industrial grade production systems have not been well studied. In this work, we propose a novel non-autoregressive (NAR) error correction approach to improve the transcription quality by reducing word error rate (WER) and achieve robust performance across different upstream ASR systems. Our approach augments the text encoding of the Transformer model with a phoneme encoder that embeds pronunciation information. The representations from phoneme encoder and text encoder are combined via multi-modal fusion before feeding into the length tagging predictor for predicting target sequence lengths. The joint encoders also provide inputs to the attention mechanism in the NAR decoder. We experiment on 3 open-source ASR systems with varying speech-to-text transcription quality and their erroneous transcriptions on 2 public English corpus datasets. Results show that our PATCorrect (Phoneme Augmented Transformer for ASR error Correction) consistently outperforms state-of-the-art NAR error correction method on English corpus across different upstream ASR systems. For example, PATCorrect achieves 11.62% WER reduction (WERR) averaged on 3 ASR systems compared to 9.46% WERR achieved by other method using text only modality and also achieves an inference latency comparable to other NAR models at tens of millisecond scale, especially on GPU hardware, while still being 4.2 - 6.7x times faster than autoregressive models on Common Voice and LibriSpeech datasets.
翻訳日:2023-02-13 16:37:44 公開日:2023-02-10
# 解説文における証拠・推論の望ましい見直し予測

Predicting Desirable Revisions of Evidence and Reasoning in Argumentative Writing ( http://arxiv.org/abs/2302.05039v1 )

ライセンス: Link先を確認
Tazin Afrin and Diane Litman(参考訳) 学生弁論書において,望ましい証拠と望ましい推論修正を分類するモデルを構築した。 本研究は,改訂のエッセイコンテキストと,改訂前の学生のフィードバックを用いて,分類器の性能を改善する方法を検討する。 我々は各モデルに対して内在的および外在的評価を行い,質的分析を報告する。 その結果,フィードバック情報を用いたモデルはベースラインモデルよりも改善されているものの,コンテキストを利用したモデルが最も望ましいリビジョンの特定に成功していることがわかった。

We develop models to classify desirable evidence and desirable reasoning revisions in student argumentative writing. We explore two ways to improve classifier performance - using the essay context of the revision, and using the feedback students received before the revision. We perform both intrinsic and extrinsic evaluation for each of our models and report a qualitative analysis. Our results show that while a model using feedback information improves over a baseline model, models utilizing context - either alone or with feedback - are the most successful in identifying desirable revisions.
翻訳日:2023-02-13 16:37:09 公開日:2023-02-10
# 代替モデルのベイジアン化による逆例の伝達性向上

Making Substitute Models More Bayesian Can Enhance Transferability of Adversarial Examples ( http://arxiv.org/abs/2302.05086v1 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen(参考訳) ディープニューラルネットワーク(DNN)にまたがる敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。 代用モデルの入力の多様性を増大させることで、転送可能性の向上に多くの努力が注がれている。 本稿では,代用モデルの多様性を選択し,望ましい転送性を実現するためにベイズモデルを攻撃することを提唱する。 ベイズ方程式の定式化から導かれ,DNNパラメータよりも多くの既成ガウス後部近似と組み合わせることができるファインタニングの原理的戦略を開発した。 本手法の有効性を検証するために,共通ベンチマークデータセットを用いて広範な実験を行い,近年の最先端技術(imagenetにおける攻撃成功率の絶対値の約19%)を上回っており,これらの手法と組み合わせることで,さらなる性能向上が期待できることを示した。 私たちのコード:https://github.com/qizhangli/MoreBayesian- attack。

The transferability of adversarial examples across deep neural networks (DNNs) is the crux of many black-box attacks. Many prior efforts have been devoted to improving the transferability via increasing the diversity in inputs of some substitute models. In this paper, by contrast, we opt for the diversity in substitute models and advocate to attack a Bayesian model for achieving desirable transferability. Deriving from the Bayesian formulation, we develop a principled strategy for possible finetuning, which can be combined with many off-the-shelf Gaussian posterior approximations over DNN parameters. Extensive experiments have been conducted to verify the effectiveness of our method, on common benchmark datasets, and the results demonstrate that our method outperforms recent state-of-the-arts by large margins (roughly 19% absolute increase in average attack success rate on ImageNet), and, by combining with these recent methods, further performance gain can be obtained. Our code: https://github.com/qizhangli/MoreBayesian-attack.
翻訳日:2023-02-13 16:31:09 公開日:2023-02-10
# drgcn:ディープグラフ畳み込みネットワークのための動的発展初期残差

DRGCN: Dynamic Evolving Initial Residual for Deep Graph Convolutional Networks ( http://arxiv.org/abs/2302.05083v1 )

ライセンス: Link先を確認
Lei Zhang, Xiaodong Yan, Jianshan He, Ruopeng Li, Wei Chu(参考訳) グラフ畳み込みネットワーク(GCN)は、様々なグラフ関連タスクを扱うのに非常に実用的であることが証明されている。 浅いものに比べて性能が優れていたため、深いGCNの研究にはかなりの研究関心が寄せられている。 しかし、単にネットワークの深さを増やすだけで、過度にスムーズな問題のために性能が損なわれる。 残差接続の追加はディープ畳み込みニューラルネットワーク(deep cnn)の学習に有効であることが証明されており、ディープgcnに適用すると自明ではない。 最近の研究は、深いGCNの過密問題を緩和する最初の残留メカニズムを提案した。 しかし、我々の研究によると、アルゴリズムは異なるデータセットに非常に敏感である。 彼らの設定では、残差がどのように適用されるかのパーソナライズ(動的)と相関(進化)は無視される。 この目的のために,動的発展初期グラフ畳み込みネットワーク(drgcn)と呼ばれる新しいモデルを提案する。 まず,各ノードに対して動的ブロックを用いて初期表現から情報を適応的に取得する。 第二に、層間の残留進化パターンをモデル化するために、進化的ブロックを使用します。 実験結果から,本モデルはGCNの過度なスムース化の問題を効果的に解消し,様々なベンチマークデータセット上でのSOTA法よりも優れていることがわかった。 さらに,大規模データに適用可能なDRGCNのミニバッチバージョンを開発した。 いくつかの公正なトレーニング手法と組み合わせて、我々のモデルはOpen Graph Benchmark (OGB)の大規模ogbn-arxivデータセット上で新しいSOTA結果に達する。 再現可能なコードはGitHubで入手可能です。

Graph convolutional networks (GCNs) have been proved to be very practical to handle various graph-related tasks. It has attracted considerable research interest to study deep GCNs, due to their potential superior performance compared with shallow ones. However, simply increasing network depth will, on the contrary, hurt the performance due to the over-smoothing problem. Adding residual connection is proved to be effective for learning deep convolutional neural networks (deep CNNs), it is not trivial when applied to deep GCNs. Recent works proposed an initial residual mechanism that did alleviate the over-smoothing problem in deep GCNs. However, according to our study, their algorithms are quite sensitive to different datasets. In their setting, the personalization (dynamic) and correlation (evolving) of how residual applies are ignored. To this end, we propose a novel model called Dynamic evolving initial Residual Graph Convolutional Network (DRGCN). Firstly, we use a dynamic block for each node to adaptively fetch information from the initial representation. Secondly, we use an evolving block to model the residual evolving pattern between layers. Our experimental results show that our model effectively relieves the problem of over-smoothing in deep GCNs and outperforms the state-of-the-art (SOTA) methods on various benchmark datasets. Moreover, we develop a mini-batch version of DRGCN which can be applied to large-scale data. Coupling with several fair training techniques, our model reaches new SOTA results on the large-scale ogbn-arxiv dataset of Open Graph Benchmark (OGB). Our reproducible code is available on GitHub.
翻訳日:2023-02-13 16:30:52 公開日:2023-02-10
# 動的リバランシングによる長期部分ラベル学習

Long-Tailed Partial Label Learning via Dynamic Rebalancing ( http://arxiv.org/abs/2302.05080v1 )

ライセンス: Link先を確認
Feng Hong, Jiangchao Yao, Zhihan Zhou, Ya Zhang, Yanfeng Wang(参考訳) 現実世界のデータは通常、ラベル曖昧性と重い不均衡を結合し、部分ラベル学習(pll)とロングテール学習(lt)のアルゴリズム的堅牢性に挑戦する。 LT-PLL と LT-PLL の直接的な組み合わせは基本的なジレンマに悩まされる: LT メソッドは PLL では利用できない特定のクラス分布の上に構築され、PLL のパフォーマンスは長い尾のコンテキストに大きく影響される。 PLL におけるラベルの曖昧さに対して,LT の定常的再バランスが厳密であるという事実から, 先行するオラクルクラスの補助的手法においても, 最先端の手法が不十分であることを示す。 この課題を克服するために,クラス分布に関する事前の知識を仮定することなく,RECORDSと呼ばれる動的リバランス手法を提案する。 バイアス付きアウトプットのパラメトリック分解に基づいて、この手法はラベルの曖昧さのプロセスに無関係な動的調整を構築し、理論上はoracleクラスに事前収束する。 3つのベンチマークデータセットに対する大規模な実験は、RECORDSがベースラインの範囲と比較して大幅に向上したことを示している。 コードは公開されている。

Real-world data usually couples the label ambiguity and heavy imbalance, challenging the algorithmic robustness of partial label learning (PLL) and long-tailed learning (LT). The straightforward combination of LT and PLL, i.e., LT-PLL, suffers from a fundamental dilemma: LT methods build upon a given class distribution that is unavailable in PLL, and the performance of PLL is severely influenced in long-tailed context. We show that even with the auxiliary of an oracle class prior, the state-of-the-art methods underperform due to an adverse fact that the constant rebalancing in LT is harsh to the label disambiguation in PLL. To overcome this challenge, we thus propose a dynamic rebalancing method, termed as RECORDS, without assuming any prior knowledge about the class distribution. Based on a parametric decomposition of the biased output, our method constructs a dynamic adjustment that is benign to the label disambiguation process and theoretically converges to the oracle class prior. Extensive experiments on three benchmark datasets demonstrate the significant gain of RECORDS compared with a range of baselines. The code is publicly available.
翻訳日:2023-02-13 16:30:23 公開日:2023-02-10
# XFL: ハイパフォーマンスで軽量なフェデレーション学習フレームワーク

XFL: A High Performace, Lightweighted Federated Learning Framework ( http://arxiv.org/abs/2302.05076v1 )

ライセンス: Link先を確認
Hong Wang, Yuanzhi Zhou, Chi Zhang, Chen Peng, Mingxia Huang, Yi Liu, Lintao Zhang(参考訳) 本稿では,産業レベルの連邦学習プロジェクトであるXFLを紹介する。 xflは、ホモモーフィック暗号化、差分プライバシー、セキュアなマルチパーティ計算、その他のセキュリティ技術を利用して、複数のデバイス上で協調してaiモデルをトレーニングする。 xflは豊富なアルゴリズムライブラリを提供し、多数の事前構築され、セキュアで、優れた連合学習アルゴリズムを統合し、水平および垂直連合学習シナリオをカバーする。 数値実験によりこれらのアルゴリズムの顕著な性能が示された。 XFLは、すべてのフェデレーションアルゴリズムのプリセットを備えた簡潔な設定インターフェースを構築し、dockerコンテナによる迅速なデプロイをサポートします。 XFLはオープンソースであり、コードとドキュメントはhttps://github.com/paritybit-ai/XFLで入手できる。

This paper introduces XFL, an industrial-grade federated learning project. XFL supports training AI models collaboratively on multiple devices, while utilizes homomorphic encryption, differential privacy, secure multi-party computation and other security technologies ensuring no leakage of data. XFL provides an abundant algorithms library, integrating a large number of pre-built, secure and outstanding federated learning algorithms, covering both the horizontally and vertically federated learning scenarios. Numerical experiments have shown the prominent performace of these algorithms. XFL builds a concise configuration interfaces with presettings for all federation algorithms, and supports the rapid deployment via docker containers.Therefore, we believe XFL is the most user-friendly and easy-to-develop federated learning framework. XFL is open-sourced, and both the code and documents are available at https://github.com/paritybit-ai/XFL.
翻訳日:2023-02-13 16:30:00 公開日:2023-02-10
# BEST: Coupling Tokenizationによる手話認識のためのBERT事前学習

BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization ( http://arxiv.org/abs/2302.05075v1 )

ライセンス: Link先を確認
Weichao Zhao, Hezhen Hu, Wengang Zhou, Jiaxin Shi, Houqiang Li(参考訳) 本研究では,bertプリトレーニングの成功を活用し,手話認識モデル(slr)を成熟させるためにドメイン固有統計をモデル化する。 手と体が手話表現の優位性を考えると、それらを3重奏単位として整理し、フレームワイドでトランスフォーマーのバックボーンに供給する。 マスク付き三重項ユニットを破損した入力シーケンスから再構成し、内部および外部三重項ユニット間の階層的相関コンテキストキューを学習する。 特に、BERTの高度に意味のある単語トークンとは異なり、ポーズユニットはもともと連続空間に位置する低レベル信号であり、BERTのクロスエントロピー目的の直接適用を防止する。 この目的のために、三重項単位の結合トークン化により、この意味ギャップを橋渡しする。 意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。 事前学習後、下流SLRタスクの事前学習エンコーダを、新たに追加されたタスク固有層と共に微調整する。 提案手法の有効性を検証し,4つのベンチマークで新たな最先端性能を実現し,有意な評価を得た。

In this work, we are dedicated to leveraging the BERT pre-training success and modeling the domain-specific statistics to fertilize the sign language recognition~(SLR) model. Considering the dominance of hand and body in sign language expression, we organize them as pose triplet units and feed them into the Transformer backbone in a frame-wise manner. Pre-training is performed via reconstructing the masked triplet unit from the corrupted input sequence, which learns the hierarchical correlation context cues among internal and external triplet units. Notably, different from the highly semantic word token in BERT, the pose unit is a low-level signal originally located in continuous space, which prevents the direct adoption of the BERT cross-entropy objective. To this end, we bridge this semantic gap via coupling tokenization of the triplet unit. It adaptively extracts the discrete pseudo label from the pose triplet unit, which represents the semantic gesture/body state. After pre-training, we fine-tune the pre-trained encoder on the downstream SLR task, jointly with the newly added task-specific layer. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.
翻訳日:2023-02-13 16:29:46 公開日:2023-02-10
# 再構成可能なインテリジェント表面支援・アップリンク・ユーザ中心セルフリーシステムのためのデジタル双対学習

Digital Twin-Aided Learning for Managing Reconfigurable Intelligent Surface-Assisted, Uplink, User-Centric Cell-Free Systems ( http://arxiv.org/abs/2302.05073v1 )

ライセンス: Link先を確認
Yingping Cui, Tiejun Lv, Wei Ni, Abbas Jamalipour(参考訳) 本稿では、デジタルツイン(DT)の助けを借りて、新しい、再構成可能なインテリジェントサーフェス(RIS)支援、アップリンク、ユーザ中心のセルフリー(UCCF)システムを提案する。 具体的には,アクセスポイントとユーザアソシエーション(aua),電力制御,risビームフォーミングを共同で最適化し,総和率を最大化する新しい学習フレームワークを提案する。 この問題は困難であり、その巨大で複雑な解空間のために解決されたことはない。 我々のフレームワークは、AUAを出力制御とRISビームフォーミング(PCRB)から分離し、それらの変数の異なる性質に基づいて解空間を減少させる。 新しい位置適応二元粒子群最適化法(PABPSO)がAUA向けに設計されている。 PCRB向けには2つの2遅延深い決定論的ポリシー勾配 (TD3) モデルと、新しいおよび洗練された状態前処理層を開発した。 もうひとつの重要な側面は、DTが学習フレームワークのトレーニングに利用され、チャネル推定のリプレイが格納されていることだ。 AUA、パワーコントロール、RISビームフォーミングは、選択されたエポックの終わりの物理的環境でのみ試験される。 シミュレーションにより、RISの使用はUCCFシステムの総和率を大幅に向上させ、DTは限界性能損失でオーバーヘッドを劇的に減少させることが示された。 提案手法は, 総和率と収束安定性の点で, 代替案よりも優れている。

This paper puts forth a new, reconfigurable intelligent surface (RIS)-assisted, uplink, user-centric cell-free (UCCF) system managed with the assistance of a digital twin (DT). Specifically, we propose a novel learning framework that maximizes the sum-rate by jointly optimizing the access point and user association (AUA), power control, and RIS beamforming. This problem is challenging and has never been addressed due to its prohibitively large and complex solution space. Our framework decouples the AUA from the power control and RIS beamforming (PCRB) based on the different natures of their variables, hence reducing the solution space. A new position-adaptive binary particle swarm optimization (PABPSO) method is designed for the AUA. Two twin-delayed deep deterministic policy gradient (TD3) models with new and refined state pre-processing layers are developed for the PCRB. Another important aspect is that a DT is leveraged to train the learning framework with its replay of channel estimates stored. The AUA, power control, and RIS beamforming are only tested in the physical environment at the end of selected epochs. Simulations show that using RISs contributes to considerable increases in the sum-rate of UCCF systems, and the DT dramatically reduces overhead with marginal performance loss. The proposed framework is superior to its alternatives in terms of sum-rate and convergence stability.
翻訳日:2023-02-13 16:29:24 公開日:2023-02-10
# EVC: マスクダウンによるリアルタイムニューラルイメージ圧縮を目指す

EVC: Towards Real-Time Neural Image Compression with Mask Decay ( http://arxiv.org/abs/2302.05071v1 )

ライセンス: Link先を確認
Guo-Hua Wang, Jiahao Li, Bin Li, Yan Lu(参考訳) ニューラル画像圧縮は、RDのパフォーマンスにおいて最先端の伝統的なコーデック(H.266/VVC)を上回っているが、大きな複雑さと異なるレート歪みトレードオフのための分離モデルに悩まされている。 本稿では,768x512入力画像で30fpsで動作可能で,rd性能ではvvcよりも優れる,効率的な単一モデル可変ビットレートコーデック(evc)を提案する。 さらにエンコーダとデコーダの複雑さを減らし,1920×1080の入力画像で30FPSを実現した。 異なる容量モデル間の性能ギャップを埋めるために、我々はマスク崩壊を慎重に設計し、大きなモデルのパラメータを自動的に小さなモデルに変換する。 また、L_p$正規化の欠点を軽減するために、新しい疎正則化損失を提案する。 このアルゴリズムは,中小モデルでは50%,小モデルでは30%の性能差を著しく狭めている。 最後に,ニューラルネットワーク圧縮のためのスケーラブルエンコーダを提唱する。 エンコーディングの複雑さは、異なるレイテンシ要件を満たすために動的です。 本稿では, 大規模エンコーダを複数回減衰させて, 残留表現を段階的に減少させる手法を提案する。 マスク減衰と残留表現学習の両方が、スケーラブルエンコーダのRD性能を大幅に向上させる。 私たちのコードはhttps://github.com/microsoft/DCVCにあります。

Neural image compression has surpassed state-of-the-art traditional codecs (H.266/VVC) for rate-distortion (RD) performance, but suffers from large complexity and separate models for different rate-distortion trade-offs. In this paper, we propose an Efficient single-model Variable-bit-rate Codec (EVC), which is able to run at 30 FPS with 768x512 input images and still outperforms VVC for the RD performance. By further reducing both encoder and decoder complexities, our small model even achieves 30 FPS with 1920x1080 input images. To bridge the performance gap between our different capacities models, we meticulously design the mask decay, which transforms the large model's parameters into the small model automatically. And a novel sparsity regularization loss is proposed to mitigate shortcomings of $L_p$ regularization. Our algorithm significantly narrows the performance gap by 50% and 30% for our medium and small models, respectively. At last, we advocate the scalable encoder for neural image compression. The encoding complexity is dynamic to meet different latency requirements. We propose decaying the large encoder multiple times to reduce the residual representation progressively. Both mask decay and residual representation learning greatly improve the RD performance of our scalable encoder. Our code is at https://github.com/microsoft/DCVC.
翻訳日:2023-02-13 16:29:00 公開日:2023-02-10
# Controversial QA: 質問回答における論争を探る

ControversialQA: Exploring Controversy in Question Answering ( http://arxiv.org/abs/2302.05061v1 )

ライセンス: Link先を確認
Zhen Wang, Peide Zhu, Jie Yang(参考訳) 議論はオンラインで広まっている。 先行研究は主に、ヘイトスピーチや不快な言葉のような感情との関係の曖昧な仮定に基づいて議論を定義する。 本稿では,ユーザ認識によるコンテンツ論争,すなわち多くのユーザからの投票を定義する最初の質問回答データセットを紹介する。 質問には1万近い質問が含まれており、各質問にはベスト回答と最も議論の多い回答がある。 実験の結果,質問応答における議論検出は必須かつ困難であり,議論と感情課題の間には強い相関関係が認められなかった。

Controversy is widespread online. Previous studies mainly define controversy based on vague assumptions of its relation to sentiment such as hate speech and offensive words. This paper introduces the first question-answering dataset that defines content controversy by user perception, i.e., votes from plenty of users. It contains nearly 10K questions, and each question has a best answer and a most controversial answer. Experimental results reveal that controversy detection in question answering is essential and challenging, and there is no strong correlation between controversy and sentiment tasks.
翻訳日:2023-02-13 16:28:40 公開日:2023-02-10
# $\mathbb{Z}_3$ Kitaevモデルにおけるキラルフィボナッチスピン液体

Chiral Fibonacci spin liquid in a $\mathbb{Z}_3$ Kitaev model ( http://arxiv.org/abs/2302.05060v1 )

ライセンス: Link先を確認
Li-Mei Chen, Tyler D. Ellison, Meng Cheng, Peng Ye, Ji-Yao Chen(参考訳) 近傍相互作用を持つハニカム格子上での$\mathbb{Z}_3$ Kitaevモデルについて検討する。 行列積状態のシミュレーションと対称性の考察に基づいて、強磁性等方性カップリングにより、モデルがキラルフィボナッチスピン液体を実現し、$\mathbb{Z}_3$パラフェルミオントポロジカル秩序が特徴的であることを示す。 これはシリンダーとストリップのジオメトリーのシミュレーションによって支えられている。 幅の異なる無限長円筒では、絡み合いエントロピーと最大相関長のスケーリング解析により、モデルが2次元バルクの隙間を持つことを示す。 位相的絡み合いエントロピーは抽出され、$\mathbb{z}_3$パラフェルミオン位相秩序と一致することが分かる。 適度な幅を持つ無限長のストリップについて、モデルは、$\mathbb{z}_3$パラフェルミオン位相位相位相のキラルエッジ理論と一致する中心電荷で臨界であることが分かる。 最後に、rydberg原子配列におけるこのモデルの実験的実現についてコメントする。

We study a $\mathbb{Z}_3$ Kitaev model on the honeycomb lattice with nearest neighbor interactions. Based on matrix product state simulations and symmetry considerations, we find evidence that, with ferromagnetic isotropic couplings, the model realizes a chiral Fibonacci spin liquid, characterized by the $\mathbb{Z}_3$ parafermion topological order. This is supported by simulations on both cylinder and strip geometries. On infinitely long cylinders with various widths, scaling analysis of entanglement entropy and maximal correlation length suggests that the model has a gapped 2D bulk. The topological entanglement entropy is extracted and found to be in agreement with the $\mathbb{Z}_3$ parafermion topological order. On infinitely long strips with moderate widths, we find the model is critical with a central charge consistent with the chiral edge theory of the $\mathbb{Z}_3$ parafermion topological phase. We conclude by commenting on an experimental realization of this model in Rydberg atom arrays.
翻訳日:2023-02-13 16:28:31 公開日:2023-02-10
# 量子ニューラルネットワークの過パラメトリゼーションにおける雑音の影響

Effects of noise on the overparametrization of quantum neural networks ( http://arxiv.org/abs/2302.05059v1 )

ライセンス: Link先を確認
Diego Garc\'ia-Mart\'in, Martin Larocca, M. Cerezo(参考訳) オーバーパラメトリゼーションは、機械学習で最も驚き、悪名高い現象の1つである。 近年、ハードウェアノイズのない量子ニューラルネットワーク(qnn)が過度にパラメトリズされるかどうか、そしてどのように作用するかの研究がなされている。 特に、状態空間で利用可能なすべての方向を探索するのに十分なパラメータがある場合、QNNを過度にパラメータ化することができることが提案されている。 すなわち、QNNの出力状態に対する量子フィッシャー情報行列(QFIM)のランクが飽和している場合である。 本稿では,ノイズの存在が過度なパラメータ化現象に与える影響を考察する。 以上の結果から,ノイズはQFIMの事前ゼロ固有値を「オン」することができることがわかった。 これにより、パラメータ化状態がアクセス不能な方向を探索することが可能となり、オーバーパラメータ化qnnをアンダーパラメータ化状態に変換することができる。 ノイズレベルが小さい場合、QNNは、大きな固有値と小さな値が共存するため、準過度化される。 そして,ノイズの大きさが増加するにつれて,qfimの固有値が指数関数的に抑制され,パラメータの変化に対して状態が非感受性になることを示す。 このように、ノイズが新しい方向を可能にするだけでなく、パラメータ更新に対する感度も抑制できる、プル・アンド・タグ効果がある。 最後に,現在のqnnのキャパシティ測定は,ハードウェアノイズ発生時に不定義であることを示す。

Overparametrization is one of the most surprising and notorious phenomena in machine learning. Recently, there have been several efforts to study if, and how, Quantum Neural Networks (QNNs) acting in the absence of hardware noise can be overparametrized. In particular, it has been proposed that a QNN can be defined as overparametrized if it has enough parameters to explore all available directions in state space. That is, if the rank of the Quantum Fisher Information Matrix (QFIM) for the QNN's output state is saturated. Here, we explore how the presence of noise affects the overparametrization phenomenon. Our results show that noise can "turn on" previously-zero eigenvalues of the QFIM. This enables the parametrized state to explore directions that were otherwise inaccessible, thus potentially turning an overparametrized QNN into an underparametrized one. For small noise levels, the QNN is quasi-overparametrized, as large eigenvalues coexists with small ones. Then, we prove that as the magnitude of noise increases all the eigenvalues of the QFIM become exponentially suppressed, indicating that the state becomes insensitive to any change in the parameters. As such, there is a pull-and-tug effect where noise can enable new directions, but also suppress the sensitivity to parameter updates. Finally, our results imply that current QNN capacity measures are ill-defined when hardware noise is present.
翻訳日:2023-02-13 16:28:13 公開日:2023-02-10
# ドメインの多様化と一般化によるクロスコーポラ音声言語識別

Cross-Corpora Spoken Language Identification with Domain Diversification and Generalization ( http://arxiv.org/abs/2302.05110v1 )

ライセンス: Link先を確認
Spandan Dey, Md Sahidullah, Goutam Saha(参考訳) 本研究は低リソース音声言語識別(LID)問題に対するクロスコーパス一般化問題に対処する。 本研究では,インドリッドの文脈で実験を行い,コーパス依存の非言語バイアスによるクロスコーポラ一般化が著しく不良であることを確認した。 この仕事への私たちの貢献は2倍です。 まず、異なる音声データ拡張手法を用いて、限られたトレーニングデータを多様化するドメイン多様化を提案する。 次に,最大に多様性を意識したカスケード拡張の概念を提案し,学習データの効果的な多様化のために拡張係数を最適化する。 次に,拡張手法を擬似ドメインとして考える領域一般化の考え方を紹介する。 そこで本研究では,ドメイン不変性とドメイン認識の両方のアプローチについて検討する。 我々のLIDシステムは、チャネルアテンション、伝搬、集約に基づく時間遅延ニューラルネットワーク(ECAPA-TDNN)アーキテクチャの最先端に重点を置いている。 インドにおけるLID研究に広く用いられている3つのコーパスを用いて広範な実験を行った。 さらに,野生で採取したVoxLingua107コーパスのインドサブセットについて,提案手法の盲点評価を行った。 実験により,提案する領域の多様化が,一般的な単純な拡張法よりも有望であることを実証した。 この研究はまた、ドメインの一般化はドメインの多様化よりも効果的な解決策であることも明らかにしている。 また、ドメイン認識学習は同一コーパスのLIDに対して優れており、一方、ドメイン不変学習はクロスコーパスの一般化に適している。 ECAPA-TDNNと比較して、提案されたドメイン不変拡張はクロスコーパスEERを5.23%改善した。 対照的に、提案されたドメインアウェア拡張は、同じコーポラテストシナリオのパフォーマンスも改善する。

This work addresses the cross-corpora generalization issue for the low-resourced spoken language identification (LID) problem. We have conducted the experiments in the context of Indian LID and identified strikingly poor cross-corpora generalization due to corpora-dependent non-lingual biases. Our contribution to this work is twofold. First, we propose domain diversification, which diversifies the limited training data using different audio data augmentation methods. We then propose the concept of maximally diversity-aware cascaded augmentations and optimize the augmentation fold-factor for effective diversification of the training data. Second, we introduce the idea of domain generalization considering the augmentation methods as pseudo-domains. Towards this, we investigate both domain-invariant and domain-aware approaches. Our LID system is based on the state-of-the-art emphasized channel attention, propagation, and aggregation based time delay neural network (ECAPA-TDNN) architecture. We have conducted extensive experiments with three widely used corpora for Indian LID research. In addition, we conduct a final blind evaluation of our proposed methods on the Indian subset of VoxLingua107 corpus collected in the wild. Our experiments demonstrate that the proposed domain diversification is more promising over commonly used simple augmentation methods. The study also reveals that domain generalization is a more effective solution than domain diversification. We also notice that domain-aware learning performs better for same-corpora LID, whereas domain-invariant learning is more suitable for cross-corpora generalization. Compared to basic ECAPA-TDNN, its proposed domain-invariant extensions improve the cross-corpora EER up to 5.23%. In contrast, the proposed domain-aware extensions also improve performance for same-corpora test scenarios.
翻訳日:2023-02-13 16:22:53 公開日:2023-02-10
# リモートセンシング画像変化検出のための3次元CNNと隣接レベルのクロスフュージョン

Adjacent-level Feature Cross-Fusion with 3D CNN for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2302.05109v1 )

ライセンス: Link先を確認
Yuanxin Ye, Mengmeng Wang, Liang Zhou, Guangyang Lei, Jianwei Fan, and Yao Qin(参考訳) 近年,リモートセンシング画像を用いたディープラーニングに基づく変化検出が注目されている。 しかし、バイタイム画像の深い特徴を効果的に抽出・融合し、変化検出の精度を向上させる方法は依然として課題である。 そこで本論文では, AFCF3D-Net と呼ばれる3次元畳み込みを伴う隣接レベル特徴融合ネットワークを提案する。 まず,3次元畳み込みの内的融合特性を用いて,両時間画像から特徴情報を同時に抽出・融合する特徴融合法を設計する。 そこで我々は,低レベル特徴と高レベル特徴のセマンティックギャップを埋めるために,隣接レベル特徴の相互融合(AFCF)モジュールを提案する。 さらに、画素ワイズ予測能力と、変化したオブジェクトのコンパクト性を向上させるために、密スキップ接続戦略を導入する。 最後に、提案されたAFCF3D-Netは、Wuhan building dataset(WHU-CD)、LEVIR building dataset(LEVIR-CD)、Sun Yat-Sen University(SYSU-CD)の3つの挑戦的なリモートセンシング変更検出データセットで検証されている。 定量的解析と定性比較の結果,提案したAFCF3D-Netは,他の最先端変化検出手法と比較して性能が向上することが示された。

Deep learning-based change detection using remote sensing images has received increasing attention in recent years. However, how to effectively extract and fuse the deep features of bi-temporal images to improve the accuracy of change detection is still a challenge. To address that, a novel adjacent-level feature fusion network with 3D convolution (named AFCF3D-Net) is proposed in this article. First, through the inner fusion property of 3D convolution, we design a new feature fusion way that can simultaneously extract and fuse the feature information from bi-temporal images. Then, in order to bridge the semantic gap between low-level features and high-level features, we propose an adjacent-level feature cross-fusion (AFCF) module to aggregate complementary feature information between the adjacent-levels. Furthermore, the densely skip connection strategy is introduced to improve the capability of pixel-wise prediction and compactness of changed objects in the results. Finally, the proposed AFCF3D-Net has been validated on the three challenging remote sensing change detection datasets: Wuhan building dataset (WHU-CD), LEVIR building dataset (LEVIR-CD), and Sun Yat-Sen University (SYSU-CD). The results of quantitative analysis and qualitative comparison demonstrate that the proposed AFCF3D-Net achieves better performance compared to the other state-of-the-art change detection methods.
翻訳日:2023-02-13 16:22:29 公開日:2023-02-10
# 事前学習cnnを用いた画像のテキスト認識

Text recognition on images using pre-trained CNN ( http://arxiv.org/abs/2302.05105v1 )

ライセンス: Link先を確認
Afgani Fajar Rizky, Novanto Yudistira, Edy Santoso(参考訳) 画像上のテキストは、しばしば重要な情報を格納し、直接高レベルのセマンティクスを持ち、重要な情報源となり、非常に活発な研究テーマとなる。 多くの研究により、cnnベースのニューラルネットワークの使用は、テキスト認識の基礎となる画像分類に非常に効果的で正確であることが示されている。 ImageNetデータセットでトレーニングされたトレーニング済みモデルから移行学習を初期重みとして使用することで、さらに強化することもできる。 本研究では、Chars74Kデータセットを用いて認識を訓練し、IIIT-5K-Datasetのサンプルでテストした。 その結果, vgg-16 アーキテクチャを用いて, ローテーション 15{\deg} の画像変換, 0.9 の画像スケール, ガウスのぼけ効果を訓練したモデルが最も精度が高いことがわかった。 検証データには97.94%、テストデータには98.16%、IIIT-5K-Datasetには95.62%の精度がある。 これらの結果から,事前学習したcnnはテキスト認識の精度が向上し,本研究で用いたモデルアーキテクチャをテキスト検出システムの開発における参考資料として用いることができると結論づけることができる。

A text on an image often stores important information and directly carries high level semantics, makes it as important source of information and become a very active research topic. Many studies have shown that the use of CNN-based neural networks is quite effective and accurate for image classification which is the basis of text recognition. It can also be more enhanced by using transfer learning from pre-trained model trained on ImageNet dataset as an initial weight. In this research, the recognition is trained by using Chars74K dataset and the best model results then tested on some samples of IIIT-5K-Dataset. The research results showed that the best accuracy is the model that trained using VGG-16 architecture applied with image transformation of rotation 15{\deg}, image scale of 0.9, and the application of gaussian blur effect. The research model has an accuracy of 97.94% for validation data, 98.16% for test data, and 95.62% for the test data from IIIT-5K-Dataset. Based on these results, it can be concluded that pre-trained CNN can produce good accuracy for text recognition, and the model architecture that used in this study can be used as reference material in the development of text detection systems in the future
翻訳日:2023-02-13 16:22:02 公開日:2023-02-10
# 確率的表現によるPDE学習のためのモンテカルロニューラル演算子

Monte Carlo Neural Operator for Learning PDEs via Probabilistic Representation ( http://arxiv.org/abs/2302.05104v1 )

ライセンス: Link先を確認
Rui Zhang, Qi Meng, Rongchan Zhu, Yue Wang, Wenlei Shi, Shihua Zhang, Zhi-Ming Ma, Tie-Yan Liu(参考訳) ニューラルネットワークを用いて偏微分方程式(PDE)系の解写像を近似するニューラル演算子が,PDEシミュレーションの新たなパラダイムとして登場した。 神経オペレータは、例えば生成されたデータやPDE情報を使用して、教師なしまたは教師なしの方法で訓練することができる。 教師なしのトレーニングアプローチは、データ生成が費用がかかるか、データの資格が低い場合(例えば、不十分でノイズ)に必須である。 しかし、その性能と効率性は改善の余地が十分にある。 この目的のために、Feynman-Kac式に基づく新たな損失関数を設計し、開発したニューラル演算子 Monte-Carlo Neural Operator (MCNO) を呼び出し、時間ステップを大きくし、分数拡散演算子を効率的に扱うことができる。 解析の結果,MCNOは複雑な空間条件や時間的ステップを扱う上で,他の教師なし手法と比較して有利であることがわかった。 さらに、MCNOは数値スキームと演算子近似によって引き起こされる摂動によりより堅牢である。 拡散方程式とナビエ・ストークス方程式の数値実験は、他の教師なしベースライン、特に振動初期条件と長時間のシミュレーション設定において、有意な精度の向上を示した。

Neural operators, which use deep neural networks to approximate the solution mappings of partial differential equation (PDE) systems, are emerging as a new paradigm for PDE simulation. The neural operators could be trained in supervised or unsupervised ways, i.e., by using the generated data or the PDE information. The unsupervised training approach is essential when data generation is costly or the data is less qualified (e.g., insufficient and noisy). However, its performance and efficiency have plenty of room for improvement. To this end, we design a new loss function based on the Feynman-Kac formula and call the developed neural operator Monte-Carlo Neural Operator (MCNO), which can allow larger temporal steps and efficiently handle fractional diffusion operators. Our analyses show that MCNO has advantages in handling complex spatial conditions and larger temporal steps compared with other unsupervised methods. Furthermore, MCNO is more robust with the perturbation raised by the numerical scheme and operator approximation. Numerical experiments on the diffusion equation and Navier-Stokes equation show significant accuracy improvement compared with other unsupervised baselines, especially for the vibrated initial condition and long-time simulation settings.
翻訳日:2023-02-13 16:21:41 公開日:2023-02-10
# 制御可能性を考慮した教師なしスキル発見

Controllability-Aware Unsupervised Skill Discovery ( http://arxiv.org/abs/2302.05103v1 )

ライセンス: Link先を確認
Seohong Park, Kimin Lee, Youngwoon Lee, Pieter Abbeel(参考訳) インテリジェントエージェントの重要な能力の1つは、外部の監督なしに有用なスキルを発見する能力である。 しかし、現在の教師なしのスキル発見手法は、より複雑で挑戦的な行動を発見するインセンティブがないため、単純で分かりやすいスキルを取得することに限定されることが多い。 そこで本研究では,制御不能な複雑なスキルを積極的に探究する,教師なしスキル発見法である制御可能性認識スキル発見法(csd)を提案する。 CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。 距離を最大化するスキル発見と組み合わせることで、csdはトレーニングの過程で徐々に挑戦的なスキルを習得します。 ロボット操作と移動環境の6つの実験結果から,CSDは物体操作や移動スキルを含む多様な複雑なスキルを,監督なしで発見できることを示した。 ビデオとコードはhttps://sites.google.com/view/icml2023csdで入手できる。

One of the key capabilities of intelligent agents is the ability to discover useful skills without external supervision. However, the current unsupervised skill discovery methods are often limited to acquiring simple, easy-to-learn skills due to the lack of incentives to discover more complex, challenging behaviors. We introduce a novel unsupervised skill discovery method, Controllability-aware Skill Discovery (CSD), which actively seeks complex, hard-to-control skills without supervision. The key component of CSD is a controllability-aware distance function, which assigns larger values to state transitions that are harder to achieve with the current skills. Combined with distance-maximizing skill discovery, CSD progressively learns more challenging skills over the course of training as our jointly trained distance function reduces rewards for easy-to-achieve skills. Our experimental results in six robotic manipulation and locomotion environments demonstrate that CSD can discover diverse complex skills including object manipulation and locomotion skills with no supervision, significantly outperforming prior unsupervised skill discovery methods. Videos and code are available at https://sites.google.com/view/icml2023csd
翻訳日:2023-02-13 16:21:19 公開日:2023-02-10
# デュアルノイズ下における信頼度に基づく信頼度学習

Confidence-based Reliable Learning under Dual Noises ( http://arxiv.org/abs/2302.05098v1 )

ライセンス: Link先を確認
Peng Cui, Yang Yue, Zhijie Deng, Jun Zhu(参考訳) ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクにおいて、モデル最適化に大量のラベル付きイメージが日常的に必要となる顕著な成功を収めている。 しかし、オープンワールドから収集されたデータはノイズによって不可避的に汚染され、学習モデルの有効性を著しく損なう可能性がある。 データノイズ下でDNNを確実に訓練する様々な試みがなされているが、ラベルに存在するノイズと画像に存在するノイズを別々に考慮している。 2つの作品の組み合わせは両サイドの限界に苦しめられ、2種類のノイズを並行して処理する機会を逃すことになる。 この作業は、ジョイント(イメージ、ラベル)ノイズの下での信頼性学習のための、最初の統一されたフレームワークを提供する。 技術面では,事前のノイズ比を必要とせず,徐々にノイズデータをフィルタリングする信頼度に基づくサンプルフィルタを開発した。 そして、検出されたノイズデータのモデル不確実性を、誤認した情報を過度に適合させることなく、ペナルティ化する。 様々な難解な合成データと実世界のノイズデータセットの実験結果は、提案手法が分類性能の面で競合するベースラインを上回ることを検証している。

Deep neural networks (DNNs) have achieved remarkable success in a variety of computer vision tasks, where massive labeled images are routinely required for model optimization. Yet, the data collected from the open world are unavoidably polluted by noise, which may significantly undermine the efficacy of the learned models. Various attempts have been made to reliably train DNNs under data noise, but they separately account for either the noise existing in the labels or that existing in the images. A naive combination of the two lines of works would suffer from the limitations in both sides, and miss the opportunities to handle the two kinds of noise in parallel. This work provides a first, unified framework for reliable learning under the joint (image, label)-noise. Technically, we develop a confidence-based sample filter to progressively filter out noisy data without the need of pre-specifying noise ratio. Then, we penalize the model uncertainty of the detected noisy data instead of letting the model continue over-fitting the misleading information in them. Experimental results on various challenging synthetic and real-world noisy datasets verify that the proposed method can outperform competing baselines in the aspect of classification performance.
翻訳日:2023-02-13 16:21:00 公開日:2023-02-10
# CCDN:ロバストカメラ校正のためのチェッカーボードコーナー検出ネットワーク

CCDN: Checkerboard Corner Detection Network for Robust Camera Calibration ( http://arxiv.org/abs/2302.05097v1 )

ライセンス: Link先を確認
Ben Chen, Caihua Xiong, Qi Zhang(参考訳) レンズ歪み, 極端ポーズ, ノイズなどの画質の悪い画像に対して, チェッカーボード角検出の堅牢性を向上させることを目的として, チェッカーボードパターンの事前知識を必要とせず, 複数シナリオの入力に対して高い精度を維持できる新しい検出アルゴリズムを提案する。 このアルゴリズムは、チェッカーボードコーナー検出ネットワークといくつかの後処理技術を含んでいる。 ネットワークモデルは、損失関数と学習率を改善した完全畳み込みネットワークであり、任意のサイズの画像を処理し、効率的な推論と学習により各画素のコーナースコアで対応する大きさのアウトプットを生成することができる。 また,偽陽性を除去するために,最大応答の閾値,非最大抑制,クラスタリングを含む3つの後処理技術を用いる。 2つの異なるデータセットの評価は、MATE、ChESS、ROCHADE、OCamCalibといった最先端の手法と比較して、その優れた堅牢性、精度、幅広い適用性を示している。

Aiming to improve the checkerboard corner detection robustness against the images with poor quality, such as lens distortion, extreme poses, and noise, we propose a novel detection algorithm which can maintain high accuracy on inputs under multiply scenarios without any prior knowledge of the checkerboard pattern. This whole algorithm includes a checkerboard corner detection network and some post-processing techniques. The network model is a fully convolutional network with improvements of loss function and learning rate, which can deal with the images of arbitrary size and produce correspondingly-sized output with a corner score on each pixel by efficient inference and learning. Besides, in order to remove the false positives, we employ three post-processing techniques including threshold related to maximum response, non-maximum suppression, and clustering. Evaluations on two different datasets show its superior robustness, accuracy and wide applicability in quantitative comparisons with the state-of-the-art methods, like MATE, ChESS, ROCHADE and OCamCalib.
翻訳日:2023-02-13 16:20:27 公開日:2023-02-10
# ポイントワイズv情報を用いたインテント検出のための選択的文脈内データ拡張

Selective In-Context Data Augmentation for Intent Detection using Pointwise V-Information ( http://arxiv.org/abs/2302.05096v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Alexandros Papangelis, Seokhwan Kim, Sungjin Lee, Devamanyu Hazarika, Mahdi Namazifar, Di Jin, Yang Liu, Dilek Hakkani-Tur(参考訳) 本研究はインテント検出のためのコンテキスト内データ拡張に焦点を当てている。 大規模事前学習言語モデル(plm)のコンテキスト内プロンプトによる拡張は性能を向上しないことが判明し、plmsとpvi(pointwise v-information)に基づいた新しいアプローチを導入し、モデルトレーニングにおけるデータポイントの有用性を測定する。 提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。 次に、PVIに基づくインテント認識フィルタリングを使用して、ダウンストリームインテント分類器に役立たないデータポイントを削除する。 そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。 実験結果から,本手法は,3つの挑戦的意図検出データセットに対して,数ショット設定(5ショットでは1.28%,10ショットでは1.18%,平均では1.18%)で最先端を達成し,フルショット設定では最先端と同等の性能(平均では0.01%)を達成できることを示す。

This work focuses on in-context data augmentation for intent detection. Having found that augmentation via in-context prompting of large pre-trained language models (PLMs) alone does not improve performance, we introduce a novel approach based on PLMs and pointwise V-information (PVI), a metric that can measure the usefulness of a datapoint for training a model. Our method first fine-tunes a PLM on a small seed of training data and then synthesizes new datapoints - utterances that correspond to given intents. It then employs intent-aware filtering, based on PVI, to remove datapoints that are not helpful to the downstream intent classifier. Our method is thus able to leverage the expressive power of large language models to produce diverse training data. Empirical results demonstrate that our method can produce synthetic training data that achieve state-of-the-art performance on three challenging intent detection datasets under few-shot settings (1.28% absolute improvement in 5-shot and 1.18% absolute in 10-shot, on average) and perform on par with the state-of-the-art in full-shot settings (within 0.01% absolute, on average).
翻訳日:2023-02-13 16:20:06 公開日:2023-02-10
# 同一商品検索のための統一視覚言語表現モデル

Unified Vision-Language Representation Modeling for E-Commerce Same-Style Products Retrieval ( http://arxiv.org/abs/2302.05093v1 )

ライセンス: Link先を確認
Ben Chen, Linbo Jin, Xinxin Wang, Dehong Gao, Wen Jiang, Wei Ning(参考訳) 同じスタイルの製品検索は、Eコマースプラットフォームにおいて重要な役割を担い、異なるテキスト記述や画像を持つものと同じ製品を特定することを目的としている。 異なるサプライヤーからの類似商品の検索や、1つのサプライヤーの重複商品の検出に使用できる。 一般的な手法では検出されたオブジェクトとして画像を使用するが、視覚的特徴のみを考慮し、テキスト記述に含まれる属性情報を見落とし、追加のテキストマッチングモジュールが追加されても、機械、ハードウェアツール、電子部品といった重要でない分野の製品に対して弱い性能を発揮する。 本稿では,電子商取引における同型商品検索のための統一視覚言語モデリング手法を提案する。 カテゴリと関連性制約のあるユーザクリックログから正のペアを収集するサンプリングスキルと、画像、テキスト、画像+テキスト表現を1つのジョイント埋め込み空間にモデル化する新しいコントラスト損失ユニットとを含む。 クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。 注釈付きデータのオフライン評価は、検索性能が優れており、オンラインテストでは、より多くのクリックや変換を引き付けることができる。 さらに、このモデルは、世界最大のb2b電子商取引プラットフォームであるalibaba.comで同様の商品検索のために既にオンラインに展開されている。

Same-style products retrieval plays an important role in e-commerce platforms, aiming to identify the same products which may have different text descriptions or images. It can be used for similar products retrieval from different suppliers or duplicate products detection of one supplier. Common methods use the image as the detected object, but they only consider the visual features and overlook the attribute information contained in the textual descriptions, and perform weakly for products in image less important industries like machinery, hardware tools and electronic component, even if an additional text matching module is added. In this paper, we propose a unified vision-language modeling method for e-commerce same-style products retrieval, which is designed to represent one product with its textual descriptions and visual contents. It contains one sampling skill to collect positive pairs from user click log with category and relevance constrained, and a novel contrastive loss unit to model the image, text, and image+text representations into one joint embedding space. It is capable of cross-modal product-to-product retrieval, as well as style transfer and user-interactive search. Offline evaluations on annotated data demonstrate its superior retrieval performance, and online testings show it can attract more clicks and conversions. Moreover, this model has already been deployed online for similar products retrieval in alibaba.com, the largest B2B e-commerce platform in the world.
翻訳日:2023-02-13 16:19:41 公開日:2023-02-10
# 一般化ビデオ異常事象検出:系統分類と深部モデルの比較

Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models ( http://arxiv.org/abs/2302.05087v1 )

ライセンス: Link先を確認
Yang Liu, Dingkang Yang, Yan Wang, Jing Liu, Liang Song(参考訳) video anomaly event detection (vaed)は、ビデオ中の異常なイベントを時間的または空間的に検出することを目的とした、インテリジェントな監視システムの中核技術である。 深層学習の浸透に伴い、最近のVAEDの進歩は様々な経路を分岐させ、大きな成功を収めた。 しかし、既存のレビューのほとんどは従来のVAED手法と教師なしのVAED手法に焦点を合わせており、弱く監督された完全な教師なしのルートに注意を払っていない。 そこで,本研究では,教師なしビデオ異常検出から一般化ビデオ異常事象検出(GVAED)まで,狭義のVAED概念を拡張し,様々な仮定や学習フレームワークに基づく最近の研究を直感的な分類学に統合し,教師なし,弱教師なし,完全教師なし,教師なしのVAED経路をコーディネートする総合的な調査を行った。 将来の研究者を促進するために、このレビューはデータセット、利用可能なコード、プログラミングツール、文学などの研究リソースをまとめ、リリースする。 さらに, モデルの性能を定量的に比較し, 今後の研究課題と可能性について分析した。

Video Anomaly Event Detection (VAED) is the core technology of intelligent surveillance systems aiming to temporally or spatially locate anomalous events in videos. With the penetration of deep learning, the recent advances in VAED have diverged various routes and achieved significant success. However, most existing reviews focus on traditional and unsupervised VAED methods, lacking attention to emerging weakly-supervised and fully-unsupervised routes. Therefore, this review extends the narrow VAED concept from unsupervised video anomaly detection to Generalized Video Anomaly Event Detection (GVAED), which provides a comprehensive survey that integrates recent works based on different assumptions and learning frameworks into an intuitive taxonomy and coordinates unsupervised, weakly-supervised, fully-unsupervised, and supervised VAED routes. To facilitate future researchers, this review collates and releases research resources such as datasets, available codes, programming tools, and literature. Moreover, this review quantitatively compares the model performance and analyzes the research challenges and possible trends for future work.
翻訳日:2023-02-13 16:19:16 公開日:2023-02-10
# 校正信頼度と不確かさ測定に基づく回答選択による現実的会話質問応答

Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement ( http://arxiv.org/abs/2302.05137v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sung Ju Hwang, Jong C. Park(参考訳) 対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。 そのようなモデルを現実のシナリオに適用するために、既存の研究では、推論のための会話履歴として、予測された答えを使用する。 しかし、これらのモデルは通常間違った答えを予測するため、全ての予測を使用することでモデルのパフォーマンスを著しく損なう。 そこで本研究では,ConvQAモデルからの信頼度や不確実性に基づいて,アーキテクチャ上の変更を伴わずに,会話履歴における不正確な回答をフィルタリングすることを提案する。 さらに、信頼度と不確実性値をより信頼性の高いものにするため、さらにキャリブレーションを行い、モデル予測を円滑にすることを提案する。 我々は,2つの標準ConvQAデータセットを用いて,回答選択に基づく現実的会話質問回答モデルの有効性を検証し,本モデルが関連するベースラインを大幅に上回ることを示す。 コードは、https://github.com/starsuzi/AS-ConvQA.comで入手できる。

Conversational Question Answering (ConvQA) models aim at answering a question with its relevant paragraph and previous question-answer pairs that occurred during conversation multiple times. To apply such models to a real-world scenario, some existing work uses predicted answers, instead of unavailable ground-truth answers, as the conversation history for inference. However, since these models usually predict wrong answers, using all the predictions without filtering significantly hampers the model performance. To address this problem, we propose to filter out inaccurate answers in the conversation history based on their estimated confidences and uncertainties from the ConvQA model, without making any architectural changes. Moreover, to make the confidence and uncertainty values more reliable, we propose to further calibrate them, thereby smoothing the model predictions. We validate our models, Answer Selection-based realistic Conversation Question Answering, on two standard ConvQA datasets, and the results show that our models significantly outperform relevant baselines. Code is available at: https://github.com/starsuzi/AS-ConvQA.
翻訳日:2023-02-13 16:12:31 公開日:2023-02-10
# 神経容量型クラスタリング

Neural Capacitated Clustering ( http://arxiv.org/abs/2302.05134v1 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 深層クラスタリングに関する最近の研究は、制約付きクラスタリング問題にも新しい有望な方法を発見した。 典型的なペアワイズ制約は、しばしばデータのパーティショニングのガイドに使用することができる。 しかし、多くの問題はクラスタレベルの制約(例えばキャパシテーションクラスタリング問題(ccp))を特徴としており、各ポイントは重みを持ち、各クラスタ内のすべてのポイントの合計重量和は所定の容量で区切られている。 本稿では,CCPの新しい手法であるNeural Capacited Clusteringを提案し,他の問題インスタンスの最適あるいはほぼ最適過去の解のデータセットから,クラスタセンターへのポイントの割り当て確率を予測するニューラルネットワークを学習する。 推論の間、結果のスコアは、キャパシティ制約の下で割り当てを洗練するための反復的なk平均のような手順で使用される。 人工データと2つの実世界のデータセットに関する実験では、我々のアプローチは、文学の最先端の数学的、ヒューリスティックな解法よりも優れています。 さらに,本手法をキャパシタ付き車両ルーティング問題(cvrp)にクラスタファーストルート秒アプローチの文脈に適用し,よく知られているuchoaベンチマークで競合結果を示す。

Recent work on deep clustering has found new promising methods also for constrained clustering problems. Their typically pairwise constraints often can be used to guide the partitioning of the data. Many problems however, feature cluster-level constraints, e.g. the Capacitated Clustering Problem (CCP), where each point has a weight and the total weight sum of all points in each cluster is bounded by a prescribed capacity. In this paper we propose a new method for the CCP, Neural Capacited Clustering, that learns a neural network to predict the assignment probabilities of points to cluster centers from a data set of optimal or near optimal past solutions of other problem instances. During inference, the resulting scores are then used in an iterative k-means like procedure to refine the assignment under capacity constraints. In our experiments on artificial data and two real world datasets our approach outperforms several state-of-the-art mathematical and heuristic solvers from the literature. Moreover, we apply our method in the context of a cluster-first-route-second approach to the Capacitated Vehicle Routing Problem (CVRP) and show competitive results on the well-known Uchoa benchmark.
翻訳日:2023-02-13 16:12:12 公開日:2023-02-10
# GCNet: 一般化カウントネットワークのための自己相似学習の提案

GCNet: Probing Self-Similarity Learning for Generalized Counting Network ( http://arxiv.org/abs/2302.05132v1 )

ライセンス: Link先を確認
Mingjie Wang and Yande Li and Jun Zhou and Graham W. Taylor and Minglun Gong(参考訳) CAC(class-agnostic counting)問題は最近、広範囲の社会的応用と困難な課題により注目を集めている。 異なるカテゴリのオブジェクトを数えるために、既存のアプローチはユーザーが提供するexemplarsに依存しています。 本稿では,このフレームワークが画像全体において適応的な例を認識できるようにすることを目的としている。 ゼロショット一般化計数ネットワーク(GCNet)が開発され、擬似シーム構造を用いて、固有の反復パターンから擬似例手がかりを自動かつ効果的に学習する。 さらに, 従来のCACモデルすべてで要求される手間のかかる密度マップの負担を軽減するため, GCNetをエンドツーエンドにカウントレベル監視信号を用いてトレーニングする手法も提案されている。 空間的な位置のヒントを提供することなく、gcnetは慎重に設計された自己相似学習戦略を通じてそれらを適応的に捉えることができる。 ゼロショットCACのためのベンチマークFSC147の大規模な実験とアブレーション研究は、GCNetの優位性を示している。 既存の例による手法と同等に動作し、上海技術パートA、パートB、UCF_QNRFなど、群衆固有のデータセット上で、驚くほどのクロスデータセットの一般性を示す。

The class-agnostic counting (CAC) problem has caught increasing attention recently due to its wide societal applications and arduous challenges. To count objects of different categories, existing approaches rely on user-provided exemplars, which is hard-to-obtain and limits their generality. In this paper, we aim to empower the framework to recognize adaptive exemplars within the whole images. A zero-shot Generalized Counting Network (GCNet) is developed, which uses a pseudo-Siamese structure to automatically and effectively learn pseudo exemplar clues from inherent repetition patterns. In addition, a weakly-supervised scheme is presented to reduce the burden of laborious density maps required by all contemporary CAC models, allowing GCNet to be trained using count-level supervisory signals in an end-to-end manner. Without providing any spatial location hints, GCNet is capable of adaptively capturing them through a carefully-designed self-similarity learning strategy. Extensive experiments and ablation studies on the prevailing benchmark FSC147 for zero-shot CAC demonstrate the superiority of our GCNet. It performs on par with existing exemplar-dependent methods and shows stunning cross-dataset generality on crowd-specific datasets, e.g., ShanghaiTech Part A, Part B and UCF_QNRF.
翻訳日:2023-02-13 16:11:52 公開日:2023-02-10
# the out-of-sample $R^2$: Estimation and inference

The out-of-sample $R^2$: estimation and inference ( http://arxiv.org/abs/2302.05131v1 )

ライセンス: Link先を確認
Stijn Hawinkel, Willem Waegeman, Steven Maere(参考訳) サンプル外予測は予測モデルのアシッドテストであるが、予測エラーの評価には独立したテストデータセットが利用できないことが多い。 このため,クロスバリデーションやブートストラップといったデータ分割アルゴリズムを用いて,サンプル外性能を推定することが一般的である。 定量的な結果について、全分散に説明される分散の比率は、決定係数または、解釈し易く、異なる結果変数間で比較できるインサンプル$R^2$で要約できる。 サンプル内$R^2$とは対照的に、サンプル外$R^2$は十分に定義されておらず、サンプル外$\hat{R}^2$の変数はほとんど無視されている。 通常、その点推定のみが報告され、異なる結果変数の予測可能性の形式的比較を妨げる。 ここでは、2つの予測モデルの比較としてサンプル外$R^2$を明示的に定義し、バイアスのない推定器を提供し、データ分割推定の不確実性に関する最近の理論的進歩を利用して、$\hat{R}^2$の標準誤差を与える。 シミュレーション実験において,R^2$に対する推定器の性能と標準誤差について検討した。 本稿では,信頼区間を構築し,遺伝子発現データに基づく量的$\text{brassica napus}$および$\text{zea mays}$表現型予測のためのモデルを比較することにより,新たな手法を示す。

Out-of-sample prediction is the acid test of predictive models, yet an independent test dataset is often not available for assessment of the prediction error. For this reason, out-of-sample performance is commonly estimated using data splitting algorithms such as cross-validation or the bootstrap. For quantitative outcomes, the ratio of variance explained to total variance can be summarized by the coefficient of determination or in-sample $R^2$, which is easy to interpret and to compare across different outcome variables. As opposed to the in-sample $R^2$, the out-of-sample $R^2$ has not been well defined and the variability on the out-of-sample $\hat{R}^2$ has been largely ignored. Usually only its point estimate is reported, hampering formal comparison of predictability of different outcome variables. Here we explicitly define the out-of-sample $R^2$ as a comparison of two predictive models, provide an unbiased estimator and exploit recent theoretical advances on uncertainty of data splitting estimates to provide a standard error for the $\hat{R}^2$. The performance of the estimators for the $R^2$ and its standard error are investigated in a simulation study. We demonstrate our new method by constructing confidence intervals and comparing models for prediction of quantitative $\text{Brassica napus}$ and $\text{Zea mays}$ phenotypes based on gene expression data.
翻訳日:2023-02-13 16:11:30 公開日:2023-02-10
# 自然言語を大規模言語モデルで計画目標に翻訳する

Translating Natural Language to Planning Goals with Large-Language Models ( http://arxiv.org/abs/2302.05128v1 )

ライセンス: Link先を確認
Yaqi Xie, Chen Yu, Tongyao Zhu, Jinbin Bai, Ze Gong, Harold Soh(参考訳) 最近の大規模言語モデル(llm)は、様々な自然言語処理(nlp)タスクにおいて顕著な性能を示しており、様々なドメインにまたがる適用性に強い興奮をもたらした。 残念なことに、最近の研究により、LSMは正確な推論や計画上の問題の解決ができず、ロボット関連タスクに対する有用性を制限できないことが示されている。 本研究では,LLMが自然言語で指定された目標を構造化された計画言語に翻訳できるかどうかを考察する。 もしそうなら、LLMはプランナーと人間のユーザーの間の自然なインターフェースとして機能し、翻訳されたゴールは、計画に非常に効果的なドメインに依存しないAIプランナーに渡される。 GPT 3.5 変種に対する実験結果から,LCM は計画よりも翻訳に適していることが示された。 LLMはコモンセンスの知識と推論を利用して、未指定の目標(しばしば自然言語の場合のように)から不足した詳細を抽出することができる。 しかし、我々の実験は、LLMが数値的または物理的推論(例えば空間的推論)を含むタスクの目標を達成できず、LLMが使用するプロンプトに敏感であることも明らかにした。 このように、これらのモデルは構造化された計画言語への翻訳を約束するが、その使用には注意が必要である。

Recent large language models (LLMs) have demonstrated remarkable performance on a variety of natural language processing (NLP) tasks, leading to intense excitement about their applicability across various domains. Unfortunately, recent work has also shown that LLMs are unable to perform accurate reasoning nor solve planning problems, which may limit their usefulness for robotics-related tasks. In this work, our central question is whether LLMs are able to translate goals specified in natural language to a structured planning language. If so, LLM can act as a natural interface between the planner and human users; the translated goal can be handed to domain-independent AI planners that are very effective at planning. Our empirical results on GPT 3.5 variants show that LLMs are much better suited towards translation rather than planning. We find that LLMs are able to leverage commonsense knowledge and reasoning to furnish missing details from under-specified goals (as is often the case in natural language). However, our experiments also reveal that LLMs can fail to generate goals in tasks that involve numerical or physical (e.g., spatial) reasoning, and that LLMs are sensitive to the prompts used. As such, these models are promising for translation to structured planning languages, but care should be taken in their use.
翻訳日:2023-02-13 16:11:03 公開日:2023-02-10
# ステップバイステップの損失が極端に拡大: 逆テキスト攻撃のためのマルチステップ量子化

Step by Step Loss Goes Very Far: Multi-Step Quantization for Adversarial Text Attacks ( http://arxiv.org/abs/2302.05120v1 )

ライセンス: Link先を確認
Piotr Gai\'nski, Klaudia Ba{\l}azy(参考訳) 本稿では,トークン確率の連続空間における逆例を探索するトランスフォーマーに基づく言語モデルに対する,新しい勾配に基づく攻撃を提案する。 本アルゴリズムは、連続したテキスト表現と離散的なテキスト表現の対向損失のギャップを減らし、量子化補償ループで多段階量子化を行う。 実験の結果,本手法は様々な自然言語処理(NLP)タスクにおいて,他の手法よりも優れていることがわかった。

We propose a novel gradient-based attack against transformer-based language models that searches for an adversarial example in a continuous space of token probabilities. Our algorithm mitigates the gap between adversarial loss for continuous and discrete text representations by performing multi-step quantization in a quantization-compensation loop. Experiments show that our method significantly outperforms other approaches on various natural language processing (NLP) tasks.
翻訳日:2023-02-13 16:10:40 公開日:2023-02-10
# 最適勾配と低ランク近似を用いた結合非負テンソル分解の高速学習

Fast Learnings of Coupled Nonnegative Tensor Decomposition Using Optimal Gradient and Low-rank Approximation ( http://arxiv.org/abs/2302.05119v1 )

ライセンス: Link先を確認
Xiulin Wang, Tapani Ristaniemi and Fengyu Cong(参考訳) 非負のテンソル分解は信号処理や神経科学などに広く応用されている。 マルチブロックテンソルの群解析に関しては、従来のテンソル分解はテンソル間の共有/類似情報を利用するには不十分である。 本研究では,CANDECOMP/PARAFAC分解アルゴリズムを交互近位勾配法 (CoNCPDAPG) で最適化し,部分結合した異なる試料からテンソルを同時分解し,共通成分,個々の成分,コアテンソルを同時抽出する手法を提案する。 非負の制約によってもたらされる低最適化効率と高次元特性により、低ランク近似と提案したCoNCPD-APG法を組み合わせることで、lraCoNCPD-APGアルゴリズムを提案する。 マルチブロック大規模テンソルを処理する場合,提案アルゴリズムは分解品質を損なうことなく計算負荷を大幅に削減することができる。 合成データ, 実世界の顔画像, 事象関連電位データを対象とした非負のテンソル分解問題の結合実験の結果, 提案アルゴリズムの実用性と優位性を示す。

Nonnegative tensor decomposition has been widely applied in signal processing and neuroscience, etc. When it comes to group analysis of multi-block tensors, traditional tensor decomposition is insufficient to utilize the shared/similar information among tensors. In this study, we propose a coupled nonnegative CANDECOMP/PARAFAC decomposition algorithm optimized by the alternating proximal gradient method (CoNCPDAPG), which is capable of a simultaneous decomposition of tensors from different samples that are partially linked and a simultaneous extraction of common components, individual components and core tensors. Due to the low optimization efficiency brought by the nonnegative constraint and the high-dimensional nature of the data, we further propose the lraCoNCPD-APG algorithm by combining low-rank approximation and the proposed CoNCPD-APG method. When processing multi-block large-scale tensors, the proposed lraCoNCPD-APG algorithm can greatly reduce the computational load without compromising the decomposition quality. Experiment results of coupled nonnegative tensor decomposition problems designed for synthetic data, real-world face images and event-related potential data demonstrate the practicability and superiority of the proposed algorithms.
翻訳日:2023-02-13 16:10:32 公開日:2023-02-10
# ドメイン内シナリオを超えて:ロバスト密度対応キャリブレーション

Beyond In-Domain Scenarios: Robust Density-Aware Calibration ( http://arxiv.org/abs/2302.05118v1 )

ライセンス: Link先を確認
Christian Tomani, Futa Waseda, Yuesong Shen and Daniel Cremers(参考訳) 深層ニューラルネットワークがますます安全クリティカルなアプリケーションに展開されていく中、ディープラーニングモデルを校正して不確実性を認識することは重要だ。 既存のhoc後のキャリブレーション手法は、ドメイン内テストデータセットで印象的な結果が得られたが、それらはドメインシフトおよびドメイン外(ood)シナリオにおいて信頼性の高い不確実性推定ができないため、制限されている。 このギャップを,k-nearest-neighbors (knn) に基づく精度保存法であるdacと密度認識校正法を提案することで橋渡しする。 従来のポストホック法とは対照的に,分類器の隠れた層を不確実性に関する情報の源として利用し,その重要性について検討する。 DACは最先端のポストホック手法と簡単に組み合わせられる汎用手法であることを示す。 DACは、ドメインシフトとOODのキャリブレーション性能のロバスト性を高め、ドメイン内予測の不確実性評価を良好に維持する。 私たちは、DACが多数のモデルアーキテクチャ、データセット、メトリクスのキャリブレーションを一貫して改善することを示した。 さらに,DACは大量のデータを事前学習した最近の大規模ニューラルネットワークにおいて,キャリブレーションを大幅に改善することを示す。

Calibrating deep learning models to yield uncertainty-aware predictions is crucial as deep neural networks get increasingly deployed in safety-critical applications. While existing post-hoc calibration methods achieve impressive results on in-domain test datasets, they are limited by their inability to yield reliable uncertainty estimates in domain-shift and out-of-domain (OOD) scenarios. We aim to bridge this gap by proposing DAC, an accuracy-preserving as well as Density-Aware Calibration method based on k-nearest-neighbors (KNN). In contrast to existing post-hoc methods, we utilize hidden layers of classifiers as a source for uncertainty-related information and study their importance. We show that DAC is a generic method that can readily be combined with state-of-the-art post-hoc methods. DAC boosts the robustness of calibration performance in domain-shift and OOD, while maintaining excellent in-domain predictive uncertainty estimates. We demonstrate that DAC leads to consistently better calibration across a large number of model architectures, datasets, and metrics. Additionally, we show that DAC improves calibration substantially on recent large-scale neural networks pre-trained on vast amounts of data.
翻訳日:2023-02-13 16:10:12 公開日:2023-02-10
# 拡散モデルを用いた例ベースサンプリング

Example-Based Sampling with Diffusion Models ( http://arxiv.org/abs/2302.05116v1 )

ライセンス: Link先を確認
Bastien Doignies and Nicolas Bonneel and David Coeurjolly and Julie Digne and Lo\"is Paulin and Jean-Claude Iehl and Victor Ostromoukhov(参考訳) ブルーノイズ、低分解率、格子、ポアソンディスクサンプルなど、特定の特性を持つサンプルの開発に多くの努力が費やされている。 これらのサンプリングは、最適化プロセスに依存する場合や、幅広い数値手法に依存する場合、必ずしも微分可能であるとは限らない。 画像生成のための最近の拡散モデルの成功は、これらのモデルが例から点集合を生成する方法を学ぶのに適していることを示唆している。 しかし、それらの畳み込みの性質により、これらの手法は点集合のような散在したデータを扱うために実用的でない。 拡散モデルを用いて既存のサンプルを模した2次元点集合を観測点集合から生成する方法を提案する。 グリッド上の高速な畳み込みの恩恵を享受し,非一様サンプリングパターンのサンプルベース学習を支援するために,最適輸送マッチングから均一グリッドへの近傍情報を活用することで,畳み込み層の問題に対処する。 我々は、我々のアプローチの微分可能性を用いて、特性を強制する点集合を最適化する方法を実証する。

Much effort has been put into developing samplers with specific properties, such as producing blue noise, low-discrepancy, lattice or Poisson disk samples. These samplers can be slow if they rely on optimization processes, may rely on a wide range of numerical methods, are not always differentiable. The success of recent diffusion models for image generation suggests that these models could be appropriate for learning how to generate point sets from examples. However, their convolutional nature makes these methods impractical for dealing with scattered data such as point sets. We propose a generic way to produce 2-d point sets imitating existing samplers from observed point sets using a diffusion model. We address the problem of convolutional layers by leveraging neighborhood information from an optimal transport matching to a uniform grid, that allows us to benefit from fast convolutions on grids, and to support the example-based learning of non-uniform sampling patterns. We demonstrate how the differentiability of our approach can be used to optimize point sets to enforce properties.
翻訳日:2023-02-13 16:09:50 公開日:2023-02-10
# 変化検出のための近傍構造特徴の活用

Exploiting Neighborhood Structural Features for Change Detection ( http://arxiv.org/abs/2302.05114v1 )

ライセンス: Link先を確認
Mengmeng Wang, Zhiqiang Han, Peizhen Yang, Bai Zhu, Ming Hao, Jianwei Fan, Yuanxin Ye(参考訳) 本稿では,近傍構造相関を用いた新しい変化検出手法を提案する。 二重時間画像間の強度差には構造特徴が影響を受けないため,強度情報よりも構造特徴の相関解析を行う。 まず,多方向勾配情報を用いて構造特徴写像を抽出する。 そして、その構造特徴マップを用いて、コンテキスト構造情報を表現可能な隣り合う構造相関画像(NSCI)を得る。 また,近隣情報の改善に使用可能な「マッチングエラー」という尺度も導入する。 その後、ランダム森林に基づく変化検出モデルを構築する。 NSCIの特徴とマッチングエラーは、トレーニングと予測のためのモデル入力として使用される。 最後に、決定木投票を用いて変更検出結果を生成する。 提案手法の性能を評価するため,3つの現状変化検出手法と比較した。 2つのデータセットに対する実験結果から,提案手法の有効性とロバスト性を示した。

In this letter, a novel method for change detection is proposed using neighborhood structure correlation. Because structure features are insensitive to the intensity differences between bi-temporal images, we perform the correlation analysis on structure features rather than intensity information. First, we extract the structure feature maps by using multi-orientated gradient information. Then, the structure feature maps are used to obtain the Neighborhood Structural Correlation Image (NSCI), which can represent the context structure information. In addition, we introduce a measure named matching error which can be used to improve neighborhood information. Subsequently, a change detection model based on the random forest is constructed. The NSCI feature and matching error are used as the model inputs for training and prediction. Finally, the decision tree voting is used to produce the change detection result. To evaluate the performance of the proposed method, it was compared with three state-of-the-art change detection methods. The experimental results on two datasets demonstrated the effectiveness and robustness of the proposed method.
翻訳日:2023-02-13 16:09:33 公開日:2023-02-10
# AIOSA:ディープラーニングに基づく閉塞型睡眠時無呼吸症候群の自動同定へのアプローチ

AIOSA: An approach to the automatic identification of obstructive sleep apnea events based on deep learning ( http://arxiv.org/abs/2302.05179v1 )

ライセンス: Link先を確認
Andrea Bernardini, Andrea Brunello, Gian Luigi Gigli, Angelo Montanari, Nicola Saccomanno(参考訳) 閉塞型睡眠時無呼吸症候群(OSAS)は最も一般的な睡眠関連呼吸障害である。 睡眠中の上気道抵抗の増加によって引き起こされ、気流の部分的または完全な中断のエピソードを決定する。 OSASの検出と治療は脳卒中患者において特に重要であり、重度OSASの存在は、死亡率の上昇、神経障害の悪化、リハビリテーション後の機能低下、高血圧の発症率の上昇と関連している。 OSASを診断するためのゴールドスタンダードテストは、PSG(Polysomnography)である。 残念なことに、神経障害のある患者に対する脳卒中単位のような電気的に敵対的な環境でPSGを実行することは難しい作業であり、また1日当たりの脳卒中数はポリソムノグラフや専門の医療専門家の数を上回っている。 したがって, 急性期脳卒中患者のOSASを, 日常的に記録されるバイタルサインに依存する簡易かつ自動認識システムが望ましい。 これまで行われた研究の大部分は、理想的な状況と高度に選択された患者で記録されたデータに焦点を当てているため、実際の使用となるような実生活環境ではほとんど利用できない。 本稿では,物理信号などの生波形データの時間分解能を低減し,さらなる処理に使用できる重要な特徴を抽出できる畳み込み型深層学習アーキテクチャを提案する。 このようなアーキテクチャに基づくモデルを用いて,脳卒中単位記録におけるオサ事象を非選択患者の監視から検出する。 既存のアプローチとは異なり、アノテーションは1秒の粒度で実行され、医師はモデルの結果をよりよく解釈できる。 結果はドメインの専門家によって満足できると考えられている。 さらに,広く利用されているベンチマークから,提案手法が現在の最先端ソリューションより優れていることを示す。

Obstructive Sleep Apnea Syndrome (OSAS) is the most common sleep-related breathing disorder. It is caused by an increased upper airway resistance during sleep, which determines episodes of partial or complete interruption of airflow. The detection and treatment of OSAS is particularly important in stroke patients, because the presence of severe OSAS is associated with higher mortality, worse neurological deficits, worse functional outcome after rehabilitation, and a higher likelihood of uncontrolled hypertension. The gold standard test for diagnosing OSAS is polysomnography (PSG). Unfortunately, performing a PSG in an electrically hostile environment, like a stroke unit, on neurologically impaired patients is a difficult task; also, the number of strokes per day outnumbers the availability of polysomnographs and dedicated healthcare professionals. Thus, a simple and automated recognition system to identify OSAS among acute stroke patients, relying on routinely recorded vital signs, is desirable. The majority of the work done so far focuses on data recorded in ideal conditions and highly selected patients, and thus it is hardly exploitable in real-life settings, where it would be of actual use. In this paper, we propose a convolutional deep learning architecture able to reduce the temporal resolution of raw waveform data, like physiological signals, extracting key features that can be used for further processing. We exploit models based on such an architecture to detect OSAS events in stroke unit recordings obtained from the monitoring of unselected patients. Unlike existing approaches, annotations are performed at one-second granularity, allowing physicians to better interpret the model outcome. Results are considered to be satisfactory by the domain experts. Moreover, based on a widely-used benchmark, we show that the proposed approach outperforms current state-of-the-art solutions.
翻訳日:2023-02-13 16:04:20 公開日:2023-02-10
# 高速ガンベルマックススケッチとその応用

Fast Gumbel-Max Sketch and its Applications ( http://arxiv.org/abs/2302.05176v1 )

ライセンス: Link先を確認
Yuanming Zhang and Pinghui Wang and Yiyan Qi and Kuankuan Cheng and Junzhou Zhao and Guangjian Tian and Xiaohong Guan(参考訳) カテゴリー分布(あるいは一般には非負ベクトル)から要素をサンプリングするための有名なガンベル・マックス・トリックとその変種は、機械学習や情報検索などの分野で広く使われている。 Gumbel-Max Trickは、その正の重みに比例してランダム要素$i$をサンプリングするために、まず、各正の重み要素$i$に対してGumbelランダム変数$g_i$を計算し、次に最大値$g_i+\ln v_i$で要素$i$をサンプリングする。 近年、類似度推定や重み付けされた濃度推定を含む応用では、高次元ベクトルから$k$独立なGumbel-Max変数を生成する必要がある。 しかし、従来のgumbel-maxトリックを使用する場合、大きなk$(例えば数百ドルや数千ドル)の計算コストがかかる。 この問題を解決するために、FastGMという新しいアルゴリズムを提案する。これは、時間複雑性を$O(kn^+)$から$O(k \ln k + n^+)$に減らし、$n^+$は興味のあるベクトルの正の要素の数である。 FastGMは、Gumbelランダム変数の多くの要素、特に小さな重みを持つ要素の計算を停止する。 実世界の様々なデータセットの実験を行い、実験結果から、FastGMは精度を犠牲にしたり、追加費用を発生させることなく、最先端の手法よりも桁違いに高速であることが示された。

The well-known Gumbel-Max Trick for sampling elements from a categorical distribution (or more generally a non-negative vector) and its variants have been widely used in areas such as machine learning and information retrieval. To sample a random element $i$ in proportion to its positive weight $v_i$, the Gumbel-Max Trick first computes a Gumbel random variable $g_i$ for each positive weight element $i$, and then samples the element $i$ with the largest value of $g_i+\ln v_i$. Recently, applications including similarity estimation and weighted cardinality estimation require to generate $k$ independent Gumbel-Max variables from high dimensional vectors. However, it is computationally expensive for a large $k$ (e.g., hundreds or even thousands) when using the traditional Gumbel-Max Trick. To solve this problem, we propose a novel algorithm, FastGM, which reduces the time complexity from $O(kn^+)$ to $O(k \ln k + n^+)$, where $n^+$ is the number of positive elements in the vector of interest. FastGM stops the procedure of Gumbel random variables computing for many elements, especially for those with small weights. We perform experiments on a variety of real-world datasets and the experimental results demonstrate that FastGM is orders of magnitude faster than state-of-the-art methods without sacrificing accuracy or incurring additional expenses.
翻訳日:2023-02-13 16:03:49 公開日:2023-02-10
# ベル実験のための適切な確率モデル

An Appropriate Probability Model for the Bell Experiment ( http://arxiv.org/abs/2302.05174v1 )

ライセンス: Link先を確認
Kees van Hee, Kees van Berkel, Jan de Graaf(参考訳) ベルの不等式は、遠方の絡み合った粒子の対の測定結果を制限する。 ベルの不等式は、これらの量子実験の計算結果と矛盾している。 この矛盾は、多くの人が根底にある仮定、いわゆるリアリズムとローカリティに疑問を投げかけることになった。 本稿ではベル実験に適した確率モデルを提案する。 このモデルは測定毎に2つの同時観測可能な検出器設定しか持たないため、現実主義を仮定しない。 量子力学と実験の両方と完全に一致している。 このモデルでは、特定の一対の観測に対する期待は、選択された検出器設定に部分的である。 これにより、ベルの不等式はわずかに異なっており、量子力学と測定の両方と一致している。 このモデルではベルの矛盾はない。 さらに,提案する確率モデルは統計的に局所的であり,分解可能ではなく,ベル分離可能ではない。 後者は、隠れた変数を除外するか、ローカル性に違反する必要があることを意味する。 したがって、この結論はベルの結論と一致する。

The Bell inequality constrains the outcomes of measurements on pairs of distant entangled particles. The Bell contradiction states that the Bell inequality is inconsistent with the calculated outcomes of these quantum experiments. This contradiction led many to question the underlying assumptions, viz. so-called realism and locality. This paper proposes an appropriate probability model for the Bell experiment. This model has only two simultaneously observable detector settings per measurement, and therefore does not assume realism. It is in full agreement with both quantum mechanics and experiments. In this model the expectation for a particular pair of observations is partial to the selected detector settings. This leads to a slightly different variant of the Bell inequality, one that is consistent with both quantum mechanics and measurements. In this model there is no Bell contradiction. Furthermore, the proposed probability model is statistically local, is not factorizable, and is not Bell-separable. The latter implies that either hidden variables must be ruled out, or that locality must be violated. Thus, our conclusion agrees with Bell's conclusion.
翻訳日:2023-02-13 16:03:14 公開日:2023-02-10
# 量子クエンチ実験におけるトランスモンの2レベル近似

Two-level approximation of transmons in quantum quench experiments ( http://arxiv.org/abs/2302.05169v1 )

ライセンス: Link先を確認
H. S. Yan, Yong-Yi Wang, S. K. Zhao, Z. H. Yang, Z. T. Wang, Kai Xu, Ye Tian, H. F. Yu, Heng Fan, and S. P. Zhao(参考訳) 量子クエンチは、量子多体系の非平衡力学の研究における典型的なプロトコルである。 近年,2つのエネルギー準位を有するスピン・ハードコアボース・ハバード模型を用いた超伝導トランスモン量子ビットの実験が数多く報告されている。 トランスモンは非等価エネルギー準位を持ち、2つの最低レベルが計算部分空間を形成する。 本研究では,量子クエンチ力学の現実的な実験を数値シミュレーションし,マルチレベルトランモンに対する2レベル近似の適用性について議論する。 時間逆転と時間逆転の2種類の量子クエンチ実験において, 状態リークからトランスモン高エネルギーレベルへの遷移による忠実度減衰(時間依存性の波動関数の重なり)をそれぞれ1方向に計算する。 種々の初期状態, クォービット結合強度, 外部駆動を有するハミルトン系の異なる系に対する忠実度減衰の結果を示す。 スピンおよびハードコアのボース・ハバードモデルが様々な状況下で適用できる範囲について検討し,実験結果と比較した。 我々の研究は、量子クエンチ実験におけるトランスモンの2レベル近似を正確に評価する方法を提供し、今日の超伝導回路アーキテクチャを用いて優れた近似が到達可能であることを示す。

Quantum quench is a typical protocol in the study of nonequilibrium dynamics of quantum many-body systems. Recently a number of experiments with superconducting transmon qubits are reported, in which the celebrated spin and hard-core Bose-Hubbard models with two energy levels on individual sites are used. The transmons have nonequidistant energy levels, among which the two lowest levels form the computational subspace. In this work, we numerically simulate realistic experiments of quantum quench dynamics and discuss the applicability of the two-level approximation for the multilevel transmons. We calculate the fidelity decay (i.e., the time-dependent overlap of evolving wave functions) due to the state leakage to transmon high energy levels for two kinds of quantum quench experiments with time reversal and time evolution in one direction, respectively. We present the results of the fidelity decay for different system Hamiltonians with various initial state, qubit coupling strength, and external driving. The extent to which the spin and hard-core Bose-Hubbard models can be applied under various circumstances is discussed and compared with experimental observations. Our work provides a precise way to assess the two-level approximation of transmons in quantum quench experiments and shows that good approximation is reachable using the present-day superconducting circuit architecture.
翻訳日:2023-02-13 16:03:00 公開日:2023-02-10
# 弱教師付きビデオ異常検出のための不確実性制御付きデュアルメモリユニット

Dual Memory Units with Uncertainty Regulation for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2302.05160v1 )

ライセンス: Link先を確認
Hang Zhou, Junqing Yu, Wei Yang(参考訳) 異常事象を正規性から効果的に分離する学習の特徴は、弱教師付きビデオ異常検出(ws-vad)タスクにとって重要である。 ビデオとセグメントレベルのラベル指向の既存のアプローチは、通常データの含意を無視しながら、異常データの表現を抽出することに焦点を当てている。 このようなスキームが準最適であること、すなわち異常をよりよく区別するためには、正常な状態が何であるかを理解する必要があり、より高い誤報率をもたらす可能性がある。 この問題に対処するために,正規データの表現と異常データの識別特徴の両方を学習する不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。 具体的には,グラフ畳み込みネットワークにおける従来のグローバル・ローカル構造に触発されて,トランスフォーマーネットワークのためのグローバル・ローカル・マルチヘッド・セルフ・アテンション(gl-mhsa)モジュールを導入し,ビデオの関連を捉えるための表現力の高い埋め込みを得る。 次に,2つのメモリバンク,さらに1つの異常なメモリをハードサンプルの処理に使用し,異常なプロトタイプと通常のプロトタイプを分離し,両表現間のマージンを最大化する。 最後に,カメラのスイッチング,オブジェクトの変更,シーンの変換などのノイズに対して頑健な,通常のデータ潜時空間を学習するための不確実性学習手法を提案する。 XD-ViolenceデータセットとUCF-Crimeデータセットの大規模な実験により、我々の手法が最先端の手法よりも大きなマージンで優れていることが示された。

Learning discriminative features for effectively separating abnormal events from normality is crucial for weakly supervised video anomaly detection (WS-VAD) tasks. Existing approaches, both video and segment-level label oriented, mainly focus on extracting representations for anomaly data while neglecting the implication of normal data. We observe that such a scheme is sub-optimal, i.e., for better distinguishing anomaly one needs to understand what is a normal state, and may yield a higher false alarm rate. To address this issue, we propose an Uncertainty Regulated Dual Memory Units (UR-DMU) model to learn both the representations of normal data and discriminative features of abnormal data. To be specific, inspired by the traditional global and local structure on graph convolutional networks, we introduce a Global and Local Multi-Head Self Attention (GL-MHSA) module for the Transformer network to obtain more expressive embeddings for capturing associations in videos. Then, we use two memory banks, one additional abnormal memory for tackling hard samples, to store and separate abnormal and normal prototypes and maximize the margins between the two representations. Finally, we propose an uncertainty learning scheme to learn the normal data latent space, that is robust to noise from camera switching, object changing, scene transforming, etc. Extensive experiments on XD-Violence and UCF-Crime datasets demonstrate that our method outperforms the state-of-the-art methods by a sizable margin.
翻訳日:2023-02-13 16:02:38 公開日:2023-02-10
# TTN:テスト時間適応におけるドメインシフト対応バッチ正規化

TTN: A Domain-Shift Aware Batch Normalization in Test-Time Adaptation ( http://arxiv.org/abs/2302.05155v1 )

ライセンス: Link先を確認
Hyesu Lim, Byeonggeun Kim, Jaegul Choo, Sungha Choi(参考訳) 本稿では,テスト時間適応のためのバッチ正規化手法を提案する。 近年の試験時間適応法は改良されたバッチ正規化(TBN)に大きく依存しており、従来のバッチ正規化(CBN)はソースデータから得られた実行平均と分散を利用するのではなく、現在のテストバッチからの平均と分散を計算する。 テストバッチ統計を用いたTBNの採用は、ドメインシフトによるパフォーマンス劣化を軽減する。 しかしながら、テストデータを用いた正規化統計の再見積は、テストバッチがi.i.d.ストリームから引き出すのに十分な大きさでなければならないという非現実的な仮定に依存している。 本稿では,CBN と TBN がトレードオフ関係にあることを確認し,各 BN 層のドメインシフト感度に応じて CBN と TBN の重要度を調整することで統計を補間するテスト時正規化(TTN)法を提案する。 提案するttnは、広範囲のバッチサイズおよび様々な現実的な評価シナリオにおいて、シフトドメインのモデルロバスト性を改善する。 ttnはバックプロパゲーションによるモデルパラメータの更新に依存する他のテスト時間適応法にも広く適用できる。 我々は,TTNの採用によりパフォーマンスが向上し,様々な標準ベンチマークで最先端のパフォーマンスが達成されることを示した。

This paper proposes a novel batch normalization strategy for test-time adaptation. Recent test-time adaptation methods heavily rely on the modified batch normalization, i.e., transductive batch normalization (TBN), which calculates the mean and the variance from the current test batch rather than using the running mean and variance obtained from the source data, i.e., conventional batch normalization (CBN). Adopting TBN that employs test batch statistics mitigates the performance degradation caused by the domain shift. However, re-estimating normalization statistics using test data depends on impractical assumptions that a test batch should be large enough and be drawn from i.i.d. stream, and we observed that the previous methods with TBN show critical performance drop without the assumptions. In this paper, we identify that CBN and TBN are in a trade-off relationship and present a new test-time normalization (TTN) method that interpolates the statistics by adjusting the importance between CBN and TBN according to the domain-shift sensitivity of each BN layer. Our proposed TTN improves model robustness to shifted domains across a wide range of batch sizes and in various realistic evaluation scenarios. TTN is widely applicable to other test-time adaptation methods that rely on updating model parameters via backpropagation. We demonstrate that adopting TTN further improves their performance and achieves state-of-the-art performance in various standard benchmarks.
翻訳日:2023-02-13 16:02:10 公開日:2023-02-10
# 循環型対向ネットワークによる産業・医療異常検出

Industrial and Medical Anomaly Detection Through Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2302.05154v1 )

ライセンス: Link先を確認
Arnaud Bougaham, Valentin Delchevalerie, Mohammed El Adoui, Beno\^it Fr\'enay(参考訳) 本研究では,実世界の画像に対する新たな異常検出(AD)手法を提案する。 この方法は教師なし学習の理論的な強みと、正規クラスと異常クラスの両方のデータ可用性を活用する。 ADは、しばしば、データセットの頻繁な不均衡の性質と、異常なクラス全体をキャプチャする課題によって動機付けられた教師なしのタスクとして定式化される。 このような方法はトレーニング中にのみ通常のイメージに依存し、例えばオートエンコーダアーキテクチャによって再構築される。 しかし、この復元には異常データに含まれる情報も有用である。 実際、このモデルでは、異常な(または正常な)イメージを正常な(または異常な)イメージに変換する方法を学ぶことで、その弱点を識別することができる。 これらのタスクのそれぞれは、モデル全体が通常のレコンストラクションよりも高い精度で学習するのに役立つだろう。 この課題に対処するために,提案手法ではCycle-Generative Adversarial Networks (Cycle-GANs) を用いて正規翻訳を行う。 私たちの知る限りでは、この目的のためにサイクルガンが研究されたのはこれが初めてです。 入力画像が通常のジェネレータによって再構成された後、異常スコアは入力画像と再構成画像の違いを記述する。 ビジネス品質制約が設定されたしきい値に基づいて、入力画像が正常かどうかをフラグ付けする。 本手法は, 産業用および医療用の画像を用いて評価され, バランスの取れたデータセットや, 30個の異常画像を含む。 この結果は, あらゆる種類の異常に対して, 特に, 平均精度が97.2%に達するテクスチャ形状の画像に対して, 精度と優れた一般化が示された。

In this study, a new Anomaly Detection (AD) approach for real-world images is proposed. This method leverages the theoretical strengths of unsupervised learning and the data availability of both normal and abnormal classes. The AD is often formulated as an unsupervised task motivated by the frequent imbalanced nature of the datasets, as well as the challenge of capturing the entirety of the abnormal class. Such methods only rely on normal images during training, which are devoted to be reconstructed through an autoencoder architecture for instance. However, the information contained in the abnormal data is also valuable for this reconstruction. Indeed, the model would be able to identify its weaknesses by better learning how to transform an abnormal (or normal) image into a normal (or abnormal) image. Each of these tasks could help the entire model to learn with higher precision than a single normal to normal reconstruction. To address this challenge, the proposed method utilizes Cycle-Generative Adversarial Networks (Cycle-GANs) for abnormal-to-normal translation. To the best of our knowledge, this is the first time that Cycle-GANs have been studied for this purpose. After an input image has been reconstructed by the normal generator, an anomaly score describes the differences between the input and reconstructed images. Based on a threshold set with a business quality constraint, the input image is then flagged as normal or not. The proposed method is evaluated on industrial and medical images, including cases with balanced datasets and others with as few as 30 abnormal images. The results demonstrate accurate performance and good generalization for all kinds of anomalies, specifically for texture-shaped images where the method reaches an average accuracy of 97.2% (85.4% with an additional zero false negative constraint).
翻訳日:2023-02-13 16:01:46 公開日:2023-02-10
# DOMINO: ディープラーニング校正のためのドメイン認識損失

DOMINO: Domain-aware Loss for Deep Learning Calibration ( http://arxiv.org/abs/2302.05142v1 )

ライセンス: Link先を確認
Skylar E. Stolte, Kyle Volle, Aprinda Indahlastari, Alejandro Albizu, Adam J. Woods, Kevin Brink, Matthew Hale, and Ruogu Fang(参考訳) 深層学習は医用画像タスクにおける最先端のパフォーマンスを達成したが、モデル校正は考慮されないことが多い。 ユーザがいつ失敗するかを知らないため、高リスクなアプリケーションでは、非対応モデルは潜在的に危険である。 そこで本稿では,深層学習モデルの校正を行う新しいドメイン認識損失関数を提案する。 提案した損失関数は、与えられた対象領域内のクラス間の類似性に基づいてクラスワイズペナルティを適用する。 このように、アプローチはキャリブレーションを改善し、モデルが誤りであってもリスクの少ないエラーを確実にする。 このソフトウェアのコードはhttps://github.com/lab-smile/DOMINOで入手できる。

Deep learning has achieved the state-of-the-art performance across medical imaging tasks; however, model calibration is often not considered. Uncalibrated models are potentially dangerous in high-risk applications since the user does not know when they will fail. Therefore, this paper proposes a novel domain-aware loss function to calibrate deep learning models. The proposed loss function applies a class-wise penalty based on the similarity between classes within a given target domain. Thus, the approach improves the calibration while also ensuring that the model makes less risky errors even when incorrect. The code for this software is available at https://github.com/lab-smile/DOMINO.
翻訳日:2023-02-13 16:01:14 公開日:2023-02-10
# 最適単一ビットトモグラフィー:量子コンピュータ上での局所的最適測定の実現

Optimal Single Qubit Tomography: Realization of Locally Optimal Measurements on a Quantum Computer ( http://arxiv.org/abs/2302.05140v1 )

ライセンス: Link先を確認
Bacui Li, Lorcan O. Conlon, Ping Koy Lam, Syed M. Assad(参考訳) 量子ビット(qubits)は、現在の量子コンピュータの基本構成要素である。 したがって、できるだけ正確に量子ビットの状態を特徴付けることが重要である。 量子メトロロジーの観点から量子ビットキャラクタリゼーション問題を評価することにより,適切な事前知識を仮定して最適な測定値を求めることができる。 これらの測定を超伝導量子コンピュータに実装する。 提案実験は, 長岡-早石境界で与えられる理論限界の飽和を許容するための十分低い誤差を生じる。 また,提案手法を用いた適応計測方式のシミュレーションを行った。 シミュレーションの結果,事前知識の相違による任意の量子状態の特徴付けにおける手法の堅牢性を示す。

Quantum bits, or qubits, are the fundamental building blocks of present quantum computers. Hence, it is important to be able to characterize the state of a qubit as accurately as possible. By evaluating the qubit characterization problem from the viewpoint of quantum metrology, we are able to find optimal measurements under the assumption of good prior knowledge. We implement these measurements on a superconducting quantum computer. Our experiment produces sufficiently low error to allow the saturation of the theoretical limits, given by the Nagaoka--Hayashi bound. We also present simulations of adaptive measurement schemes utilizing the proposed method. The results of the simulations show the robustness of the method in characterizing arbitrary qubit states with different amounts of prior knowledge.
翻訳日:2023-02-13 16:01:05 公開日:2023-02-10
# Plan-then-Seam: 効率的なテーブル-テキスト生成を目指して

Plan-then-Seam: Towards Efficient Table-to-Text Generation ( http://arxiv.org/abs/2302.05138v1 )

ライセンス: Link先を確認
Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Binhua Li, and Yongbin Li(参考訳) テーブルからテキストへの自動生成は、人々がテーブルの有用な情報を得るのに役立つテキストを自動的に生成することを目的としている。 最近の研究は、生成過程をコンテンツ計画と表面生成段階に明確に分解し、それぞれ2つの自己回帰ネットワークを用いている。 しかし、自己回帰復号化の非並列性と2つのネットワークの冗長パラメータのため、計算コストがかかる。 本稿では,1つのネットワークに並列に出力を出力する完全非自己回帰型表-テキストモデル(Plan-then-Seam, PTS)を提案する。 PTSはまず、新しく再考されたポインタ予測器で生成されたコンテンツの1つの計画を書き、校正し、その後、その記述をデコードするためのシーミングのコンテキストとしてその計画を採る。 これら2つのステップはパラメータを共有し、並列デコーディングを維持しながらトークン間の依存性をキャプチャするために反復的に実行する。 2つの公開ベンチマークの実験では、PSSは推論時間の3.0~5.6倍のスピードアップを実現し、50%のパラメータを削減した。

Table-to-text generation aims at automatically generating text to help people conveniently obtain salient information in tables. Recent works explicitly decompose the generation process into content planning and surface generation stages, employing two autoregressive networks for them respectively. However, they are computationally expensive due to the non-parallelizable nature of autoregressive decoding and the redundant parameters of two networks. In this paper, we propose the first totally non-autoregressive table-to-text model (Plan-then-Seam, PTS) that produces its outputs in parallel with one single network. PTS firstly writes and calibrates one plan of the content to be generated with a novel rethinking pointer predictor, and then takes the plan as the context for seaming to decode the description. These two steps share parameters and perform iteratively to capture token inter-dependency while keeping parallel decoding. Experiments on two public benchmarks show that PTS achieves 3.0~5.6 times speedup for inference time, reducing 50% parameters, while maintaining as least comparable performance against strong two-stage table-to-text competitors.
翻訳日:2023-02-13 16:00:53 公開日:2023-02-10
# CGA-PoseNet:コンフォーマル幾何代数への1Dアップアプローチによるカメラポス回帰

CGA-PoseNet: Camera Pose Regression via a 1D-Up Approach to Conformal Geometric Algebra ( http://arxiv.org/abs/2302.05211v1 )

ライセンス: Link先を確認
Alberto Pepe, Joan Lasenby(参考訳) CGA-PoseNetは,CGA(Conformal Geometric Algebra)の1D-Upアプローチを用いて,1つの数学的対象であるモータの回転と変換をカメラポーズの回帰として表現する。 私たちは、RGBフレームの小さなデータセットからカメラのポーズをうまく予測するPoseNetから始めています。 しかし、最先端の手法では、カメラポーズの向き付けと翻訳のバランスをとるために高価なチューニングが必要であり、通常は複雑なアドホックな損失関数によって最小化され、場合によっては画像だけでなく3dポイントも必要となる。 我々のアプローチは、モーターを通してカメラの位置と方向を統一する利点がある。 その結果、ネットワークはユークリッド符号を持つ4次元空間に居住する1つの物体を探索する。 つまり、画像のみのデータセットの場合に対処することができ、予測と基底の真理モータ間の平均二乗誤差(mse)と呼ばれる単純な損失関数で効率的に動作する。 より簡単な問題定式化により,高精度なカメラポーズの回帰を実現できることを示す。 CGAへのこの1D-Upアプローチは、コンパクトでエレガントな方法でカメラポーズ回帰における翻訳成分と向き成分の二分法を克服するために利用できる。

We introduce CGA-PoseNet, which uses the 1D-Up approach to Conformal Geometric Algebra (CGA) to represent rotations and translations with a single mathematical object, the motor, for camera pose regression. We do so starting from PoseNet, which successfully predicts camera poses from small datasets of RGB frames. State-of-the-art methods, however, require expensive tuning to balance the orientational and translational components of the camera pose.This is usually done through complex, ad-hoc loss function to be minimized, and in some cases also requires 3D points as well as images. Our approach has the advantage of unifying the camera position and orientation through the motor. Consequently, the network searches for a single object which lives in a well-behaved 4D space with a Euclidean signature. This means that we can address the case of image-only datasets and work efficiently with a simple loss function, namely the mean squared error (MSE) between the predicted and ground truth motors. We show that it is possible to achieve high accuracy camera pose regression with a significantly simpler problem formulation. This 1D-Up approach to CGA can be employed to overcome the dichotomy between translational and orientational components in camera pose regression in a compact and elegant way.
翻訳日:2023-02-13 15:54:09 公開日:2023-02-10
# 因果強化学習に関する調査研究

A Survey on Causal Reinforcement Learning ( http://arxiv.org/abs/2302.05209v1 )

ライセンス: Link先を確認
Yan Zeng, Ruichu Cai, Fuchun Sun, Libo Huang, Zhifeng Hao(参考訳) 強化学習(Reinforcement Learning, RL)は多くの領域の逐次決定問題において大きな成功を収める一方で、データ非効率性と解釈可能性の欠如という重要な課題に直面している。 興味深いことに、近年多くの研究者が因果関係の文献からの洞察を活用して、因果関係の利点を統一し、RLの課題にうまく対処するための卓越した成果を生み出している。 そのため、これらの因果強化学習(CRL)の成果を照合し、CRL手法のレビューを行い、因果性からRLへの潜在的な機能について検討することが極めて重要である。 特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。 さらに、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から各カテゴリを解析する。 さらに,今後のCRL開発に向けての展望とともに,新たなアプリケーションについて議論しながら,評価行列とオープンソースを要約する。

While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
翻訳日:2023-02-13 15:53:44 公開日:2023-02-10
# Hindsightの知恵は、言語モデルを改善する

The Wisdom of Hindsight Makes Language Models Better Instruction Followers ( http://arxiv.org/abs/2302.05206v1 )

ライセンス: Link先を確認
Tianjun Zhang, Fangchen Liu, Justin Wong, Pieter Abbeel, Joseph E. Gonzalez(参考訳) 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功した。 いわゆるReinforcement Learning with Human Feedback(RLHF)アルゴリズムは、GPTシリーズモデルで素晴らしいパフォーマンスを示す。 しかし、基盤となる強化学習(RL)アルゴリズムは複雑で、報酬と価値のネットワークのための追加のトレーニングパイプラインが必要である。 本稿では,フィードバックを命令に変換する手法として,元来のフィードバックをリラベルし,教師ありの方法でモデルを訓練する手法を提案する。 このようなアルゴリズムは、元の言語モデルを除いて追加のパラメータを必要とせず、事前トレーニングパイプラインを最大限に再利用する。 これを実現するために,意思決定における目標到達問題として,言語モデルの指示アライメント問題を定式化する。 言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。 その結果得られた2段階のアルゴリズムは、フィードバックに基づいて、後から許容される命令を利用する報酬のないアプローチの族に光を当てた。 我々は,12の課題であるBigBench推論タスクにおいて,HIRの性能を広範囲に評価し,HIRがベースラインアルゴリズムより優れており,教師付き微調整に匹敵する,あるいは超越していることを示す。

Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates impressive performance on the GPT series models. However, the underlying Reinforcement Learning (RL) algorithm is complex and requires an additional training pipeline for reward and value networks. In this paper, we consider an alternative approach: converting feedback to instruction by relabeling the original one and training the model for better alignment in a supervised manner. Such an algorithm doesn't require any additional parameters except for the original language model and maximally reuses the pretraining pipeline. To achieve this, we formulate instruction alignment problem for language models as a goal-reaching problem in decision making. We propose Hindsight Instruction Relabeling (HIR), a novel algorithm for aligning language models with instructions. The resulting two-stage algorithm shed light to a family of reward-free approaches that utilize the hindsightly relabeled instructions based on feedback. We evaluate the performance of HIR extensively on 12 challenging BigBench reasoning tasks and show that HIR outperforms the baseline algorithms and is comparable to or even surpasses supervised finetuning.
翻訳日:2023-02-13 15:53:24 公開日:2023-02-10
# pointwavelet: 3次元点雲解析のためのスペクトル領域学習

PointWavelet: Learning in Spectral Domain for 3D Point Cloud Analysis ( http://arxiv.org/abs/2302.05201v1 )

ライセンス: Link先を確認
Cheng Wen, Jianzhi Long, Baosheng Yu, Dacheng Tao(参考訳) 2次元視覚認識におけるディープラーニングの成功により、ディープラーニングベースの3dポイントクラウド分析は、特に自動運転技術の急速な発展により、コミュニティから注目を集めている。 しかし、既存の手法のほとんどは空間領域の点特徴を直接学習し、スペクトル領域の局所構造は十分に研究されていない。 本稿では,学習可能なグラフウェーブレット変換を用いてスペクトル領域の局所グラフを探索する新しい手法であるPointWaveletを提案する。 具体的には、まずグラフウェーブレット変換を導入し、マルチスケールのスペクトルグラフ畳み込みを行い、効率的な局所構造表現を学習する。 時間を要するスペクトル分解を避けるために、学習可能なグラフウェーブレット変換を考案し、全体のトレーニングプロセスを著しく加速する。 modelnet40、scanobjectnn、shapenet-part、s3disの4つの人気のあるポイントクラウドデータセットに関する広範な実験は、ポイントクラウドの分類とセグメンテーションにおける提案手法の有効性を示している。

With recent success of deep learning in 2D visual recognition, deep learning-based 3D point cloud analysis has received increasing attention from the community, especially due to the rapid development of autonomous driving technologies. However, most existing methods directly learn point features in the spatial domain, leaving the local structures in the spectral domain poorly investigated. In this paper, we introduce a new method, PointWavelet, to explore local graphs in the spectral domain via a learnable graph wavelet transform. Specifically, we first introduce the graph wavelet transform to form multi-scale spectral graph convolution to learn effective local structural representations. To avoid the time-consuming spectral decomposition, we then devise a learnable graph wavelet transform, which significantly accelerates the overall training process. Extensive experiments on four popular point cloud datasets, ModelNet40, ScanObjectNN, ShapeNet-Part, and S3DIS, demonstrate the effectiveness of the proposed method on point cloud classification and segmentation.
翻訳日:2023-02-13 15:53:02 公開日:2023-02-10
# クロスモーダルアライメントを用いたエンドツーエンド意味オブジェクト検出

End-to-end Semantic Object Detection with Cross-Modal Alignment ( http://arxiv.org/abs/2302.05200v1 )

ライセンス: Link先を確認
Silvan Ferreira, Allan Martins, Ivanovitch Silva(参考訳) 従来の意味画像検索手法は、テキストクエリの意味にマッチした画像の検索を目的としている。 しかし、これらの手法は通常、画像内のオブジェクトの局在を考慮せずに、画像全体のオブジェクトを検索する。 本稿では,オブジェクト提案とテキストクエリ間の意味的アラインメントを考慮した意味画像検索のための既存のオブジェクト検出モデルの拡張について述べる。 提案モデルは,1つの特徴抽出器,事前訓練された畳み込みニューラルネットワーク,およびテキストクエリを符号化するトランスフォーマーエンコーダを使用する。 提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。 領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。 提案モデルはエンドツーエンドでトレーニングされ、テキストクエリの意味にマッチした画像を検索し、意味的に関連するオブジェクト提案を生成するセマンティック画像検索の有望なソリューションを提供する。

Traditional semantic image search methods aim to retrieve images that match the meaning of the text query. However, these methods typically search for objects on the whole image, without considering the localization of objects within the image. This paper presents an extension of existing object detection models for semantic image search that considers the semantic alignment between object proposals and text queries, with a focus on searching for objects within images. The proposed model uses a single feature extractor, a pre-trained Convolutional Neural Network, and a transformer encoder to encode the text query. Proposal-text alignment is performed using contrastive learning, producing a score for each proposal that reflects its semantic alignment with the text query. The Region Proposal Network (RPN) is used to generate object proposals, and the end-to-end training process allows for an efficient and effective solution for semantic image search. The proposed model was trained end-to-end, providing a promising solution for semantic image search that retrieves images that match the meaning of the text query and generates semantically relevant object proposals.
翻訳日:2023-02-13 15:52:44 公開日:2023-02-10
# バナッハ空間における線形逆問題に対する確率勾配の収束性について

On the Convergence of Stochastic Gradient Descent for Linear Inverse Problems in Banach Spaces ( http://arxiv.org/abs/2302.05197v1 )

ライセンス: Link先を確認
Z. Kereta and B. Jin(参考訳) 本研究では、バナッハ空間における線形逆問題の解法として確率勾配降下(SGD)を考える。 SGDとその変種は、機械学習、イメージング、信号処理などにおいて最も成功した最適化方法の1つとして確立されている。 各イテレーションでsgdは単一のデータム、あるいはデータの小さなサブセットを使用しており、大規模な逆問題に対して非常に魅力的な、高度にスケーラブルなメソッドを生み出します。 それでも、逆問題に対するSGDに基づくアプローチの理論解析は、これまではユークリッド空間とヒルベルト空間に限られてきた。 本稿では,一般バナッハ空間における線形逆問題に対するSGDの新たな収束解析について述べる。 このアプローチの特徴を説明するために、数値的な結果も提示される。

In this work we consider stochastic gradient descent (SGD) for solving linear inverse problems in Banach spaces. SGD and its variants have been established as one of the most successful optimisation methods in machine learning, imaging and signal processing, etc. At each iteration SGD uses a single datum, or a small subset of data, resulting in highly scalable methods that are very attractive for large-scale inverse problems. Nonetheless, the theoretical analysis of SGD-based approaches for inverse problems has thus far been largely limited to Euclidean and Hilbert spaces. In this work we present a novel convergence analysis of SGD for linear inverse problems in general Banach spaces: we show the almost sure convergence of the iterates to the minimum norm solution and establish the regularising property for suitable a priori stopping criteria. Numerical results are also presented to illustrate features of the approach.
翻訳日:2023-02-13 15:52:23 公開日:2023-02-10
# OOD例の2段階対実生成

Two-step counterfactual generation for OOD examples ( http://arxiv.org/abs/2302.05196v1 )

ライセンス: Link先を確認
Nawid Keshtmand, Raul Santos-Rodriguez, Jonathan Lawry(参考訳) 安全クリティカルなシステムに機械学習モデルを配置するための2つの基本的な要件は、配布外データ(OOD)を正しく検出し、モデルの予測を説明することである。 OOD検出と説明可能なAIの両方に多大な努力を払っているが、モデルがOODを予測している理由を説明する作業はほとんど行われていない。 本稿では,様々なOODカテゴリ間で反復的に移動する摂動データポイントであるOODカウンターファクトアルの概念を導入することで,この問題に対処する。 そこで本研究では,このような反事実を生成し,合成データとベンチマークデータに適用し,様々な指標を用いたベンチマーク手法と比較する手法を提案する。

Two fundamental requirements for the deployment of machine learning models in safety-critical systems are to be able to detect out-of-distribution (OOD) data correctly and to be able to explain the prediction of the model. Although significant effort has gone into both OOD detection and explainable AI, there has been little work on explaining why a model predicts a certain data point is OOD. In this paper, we address this question by introducing the concept of an OOD counterfactual, which is a perturbed data point that iteratively moves between different OOD categories. We propose a method for generating such counterfactuals, investigate its application on synthetic and benchmark data, and compare it to several benchmark methods using a range of metrics.
翻訳日:2023-02-13 15:52:09 公開日:2023-02-10
# 低データレジームと低リソース設定における自己監督学習による頚椎細胞診

Self-Supervised Learning-Based Cervical Cytology Diagnostics in Low-Data Regime and Low-Resource Setting ( http://arxiv.org/abs/2302.05195v1 )

ライセンス: Link先を確認
Thomas Stegm\"uller, Christian Abbet, Behzad Bozorgtabar, Holly Clarke, Patrick Petignat, Pierre Vassilakos, and Jean-Philippe Thiran(参考訳) パパニコラウ検査標本のスクリーニングは、子宮頸がん関連死亡率を効果的に減少させるが、訓練された細胞病理学者の欠如は、低リソース環境において広く採用されるのを防いでいる。 aiアルゴリズムの開発、例えば、リソースに制約のある国に適したデジタル化された細胞診画像を分析するためのディープラーニングは魅力的である。 成功したとしても、大きな注釈付きトレーニングデータセットを収集するコストは高く、費用も時間もかかる。 本研究は, デジタル化細胞診スライドから採取可能な未ラベル画像が多数存在することにより, 自己教師型学習手法が様々な下流タスクにおいて, 既成の深層学習モデルより向上し, 向上することを示す。 また,最近の拡張戦略により,性能とデータ効率が向上したことを報告する。

Screening Papanicolaou test samples effectively reduces cervical cancer-related mortality, but the lack of trained cytopathologists prevents its widespread adoption in low-resource settings. Developing AI algorithms, e.g., deep learning to analyze the digitized cytology images suited to resource-constrained countries is appealing. Albeit successful, it comes at the price of collecting large annotated training datasets, which is both costly and time-consuming. Our study shows that the large number of unlabeled images that can be sampled from digitized cytology slides make for a ripe ground where self-supervised learning methods can thrive and even outperform off-the-shelf deep learning models on various downstream tasks. Along the same line, we report improved performance and data efficiency using modern augmentation strategies.
翻訳日:2023-02-13 15:51:57 公開日:2023-02-10
# 単一RGBカメラを用いたLIDARセンサの測定周波数の仮想的増加

Virtually increasing the measurement frequency of LIDAR sensor utilizing a single RGB camera ( http://arxiv.org/abs/2302.05192v1 )

ライセンス: Link先を確認
Zoltan Rozsa and Tamas Sziranyi(参考訳) インテリジェントな車両で使用されるほとんどの3D LIDARセンサーのフレームレートは、同じ車両に搭載されている現在のカメラよりもかなり低い。 本研究は、モノカメラを用いてLIDARのフレームレートを事実上向上させ、周囲の動的物体の高速な監視を可能にすることを示唆している。 第1ステップとして、ダイナミックオブジェクト候補を識別し、カメラフレーム内で追跡する。 その後、これらの項目のLIDAR測定ポイントは、2次元境界ボックスのフラストラムにクラスタリングすることによって得られる。 これらをカメラに投影し、次のカメラフレームに追跡することで、異なるタイムステップ間の3D-2D対応を作成することができる。 最後のLIDARフレームと実際のカメラフレームとの対応は、PnP(Perspective-n-Point)問題を解決するために使用される。 最後に、推定変換を予め測定した点に適用して仮想計測を行う。 提案手法では,エゴ運動が知られている場合,静止物体の位置がカメラ計測が可能な時間ステップで決定されるだけでなく,動的物体の位置も決定できる。 実測値と精度および類似性の観点から,大規模な公開データセット上での最先端性能を実現する。

The frame rates of most 3D LIDAR sensors used in intelligent vehicles are substantially lower than current cameras installed in the same vehicle. This research suggests using a mono camera to virtually enhance the frame rate of LIDARs, allowing the more frequent monitoring of dynamic objects in the surroundings that move quickly. As a first step, dynamic object candidates are identified and tracked in the camera frames. Following that, the LIDAR measurement points of these items are found by clustering in the frustums of 2D bounding boxes. Projecting these to the camera and tracking them to the next camera frame can be used to create 3D-2D correspondences between different timesteps. These correspondences between the last LIDAR frame and the actual camera frame are used to solve the PnP (Perspective-n-Point) problem. Finally, the estimated transformations are applied to the previously measured points to generate virtual measurements. With the proposed estimation, if the ego movement is known, not just static object position can be determined at timesteps where camera measurement is available, but positions of dynamic objects as well. We achieve state-of-the-art performance on large public datasets in terms of accuracy and similarity to real measurements.
翻訳日:2023-02-13 15:51:40 公開日:2023-02-10
# ペナルティに基づく二値勾配法について

On Penalty-based Bilevel Gradient Descent Method ( http://arxiv.org/abs/2302.05185v1 )

ライセンス: Link先を確認
Han Shen and Tianyi Chen(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習において幅広い応用を享受している。 しかし、二段階最適化問題は解決が難しい。 スケーラブルなbilevelアルゴリズムの最近の進歩は、主に低レベル目標が強い凸か非拘束かの2レベル最適化問題に焦点を当てている。 本研究では, ペナルティ手法のレンズを用いて, バイレベル問題に取り組む。 一定の条件下では、ペナルティ改革は元の二段階問題の解を回復する。 さらに,ペナルティに基づく二レベル勾配降下(pbgd)アルゴリズムを提案し,その有限時間収束を,低レベル強い凸性を持たずに確立する。 実験では提案したPBGDアルゴリズムの有効性を示す。

Bilevel optimization enjoys a wide range of applications in hyper-parameter optimization, meta-learning and reinforcement learning. However, bilevel optimization problems are difficult to solve. Recent progress on scalable bilevel algorithms mainly focuses on bilevel optimization problems where the lower-level objective is either strongly convex or unconstrained. In this work, we tackle the bilevel problem through the lens of the penalty method. We show that under certain conditions, the penalty reformulation recovers the solutions of the original bilevel problem. Further, we propose the penalty-based bilevel gradient descent (PBGD) algorithm and establish its finite-time convergence for the constrained bilevel problem without lower-level strong convexity. Experiments showcase the efficiency of the proposed PBGD algorithm.
翻訳日:2023-02-13 15:51:23 公開日:2023-02-10
# 氷と火の歌:サイエンスワールドにおけるテクスチュアルオートテリックエージェントの分析

A Song of Ice and Fire: Analyzing Textual Autotelic Agents in ScienceWorld ( http://arxiv.org/abs/2302.05244v1 )

ライセンス: Link先を確認
Laetitia Teodorescu, Eric Yuan, Marc-Alexandre C\^ot\'e, Pierre-Yves Oudeyer(参考訳) 行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。 この課題は、自発的なrlエージェントの枠組み、すなわち、学習カリキュラムを自己組織化することで学習するエージェントの枠組みで研究することができる。 最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。 この観点で、我々は以下のオープンな科学的疑問を調査する: 社会的仲間(例えば、選択的対排他的)からの後視的フィードバックの影響は? エージェントは、経験的なリプレイで非常に稀な言語目標例からどのように学ぶことができるのか? 複数の形態の探査を組み合わせることで、より簡単な目標を、より難しいものに到達するための踏み台として活用できるだろうか? これらの問題に対処するために、私たちは、抽象的および組合せ的物理学の豊富なテキスト環境であるscienceworldを使っています。 我々は,ソーシャル・ピアのフィードバックから選択性を選択することの重要性,レア・ゴールの例をオーバーサンプリングする必要があること,エージェントの能力が中間的な自己生成目標シーケンスに従えば,最終的なパフォーマンスが大幅に向上することを示す。

Building open-ended agents that can autonomously discover a diversity of behaviours is one of the long-standing goals of artificial intelligence. This challenge can be studied in the framework of autotelic RL agents, i.e. agents that learn by selecting and pursuing their own goals, self-organizing a learning curriculum. Recent work identified language has a key dimension of autotelic learning, in particular because it enables abstract goal sampling and guidance from social peers for hindsight relabelling. Within this perspective, we study the following open scientific questions: What is the impact of hindsight feedback from a social peer (e.g. selective vs. exhaustive)? How can the agent learn from very rare language goal examples in its experience replay? How can multiple forms of exploration be combined, and take advantage of easier goals as stepping stones to reach harder ones? To address these questions, we use ScienceWorld, a textual environment with rich abstract and combinatorial physics. We show the importance of selectivity from the social peer's feedback; that experience replay needs to over-sample examples of rare goals; and that following self-generated goal sequences where the agent's competence is intermediate leads to significant improvements in final performance.
翻訳日:2023-02-13 15:45:15 公開日:2023-02-10
# 命令サブセットによる帰納的プログラミング検索空間の縮小

Shrinking the Inductive Programming Search Space with Instruction Subsets ( http://arxiv.org/abs/2302.05226v1 )

ライセンス: Link先を確認
Edward McDaid, Sarah McDaid(参考訳) 帰納的プログラミングは、候補解を特定するために、ある種の探索にしばしば依存する。 しかし、探索空間の大きさは、比較的小さなプログラムの生成に帰納的プログラミングの使用を制限している。 与えられた問題に必要な命令のサブセットを正確に予測できれば、帰納的プログラミングはより魅力的になるだろう。 これは高い割合のケースで達成できることを示します。 本稿では,Zoea分散インダクティブプログラミングシステムにおける探索空間分割を支援するために構築された,新しいプログラミング言語命令共起モデルを提案する。 これは、オープンソースコードの大規模なサンプルから派生した、相互に交差する命令サブセットの集合からなる。 探索空間の異なる部分のアプローチを用いることで、並列に探索することができる。 必要なサブセットの数は、それらを生成するのに使用されるコード量と線形に増加せず、管理可能なサブセットの数は、見えないコードの割合をカバーするのに十分である。 このアプローチはまた、検索空間の全体サイズ(多くの場合、桁違いに)を大幅に削減する。

Inductive programming frequently relies on some form of search in order to identify candidate solutions. However, the size of the search space limits the use of inductive programming to the production of relatively small programs. If we could somehow correctly predict the subset of instructions required for a given problem then inductive programming would be more tractable. We will show that this can be achieved in a high percentage of cases. This paper presents a novel model of programming language instruction co-occurrence that was built to support search space partitioning in the Zoea distributed inductive programming system. This consists of a collection of intersecting instruction subsets derived from a large sample of open source code. Using the approach different parts of the search space can be explored in parallel. The number of subsets required does not grow linearly with the quantity of code used to produce them and a manageable number of subsets is sufficient to cover a high percentage of unseen code. This approach also significantly reduces the overall size of the search space - often by many orders of magnitude.
翻訳日:2023-02-13 15:44:54 公開日:2023-02-10
# 量子乱流の種類

Types of quantum turbulence ( http://arxiv.org/abs/2302.05221v1 )

ライセンス: Link先を確認
C.F. Barenghi, H.A.J. Middleton-Spencer, L. Galantucci, N.G. Parker(参考訳) 我々は、量子流体、特に超流動ヘリウムと原子凝縮物における乱流の観測された幾何学的および力学的性質を収集し、記述する。 スペクトル特性や時間的減衰、関連する古典的流れとの比較を考慮して、コルモゴロフ量子乱流、ビネン量子乱流、強い量子乱流の3つの主要な制限型を同定した。 この分類は、これらや他の量子流体の新たな結果を分析し、解釈するのに有用である。

We collect and describe the observed geometrical and dynamical properties of turbulence in quantum fluids, particularly superfluid helium and atomic condensates for which more information about turbulence is available. Considering the spectral features, the temporal decay, and the comparison with relevant turbulent classical flows, we identify three main limiting types of quantum turbulence: Kolmogorov quantum turbulence, Vinen quantum turbulence, and strong quantum turbulence. This classification will be useful to analyse and interpret new results in these and other quantum fluids.
翻訳日:2023-02-13 15:44:41 公開日:2023-02-10
# 臨界駆動散逸集合スピン系をもつ量子計測

Quantum metrology with critical driven-dissipative collective spin system ( http://arxiv.org/abs/2302.05216v1 )

ライセンス: Link先を確認
Venelin V. Pavlov, Diego Porras, and Peter A. Ivanov(参考訳) そこで本研究では,n$スピン1/2粒子のコヒーレント駆動アンサンブルからなる量子プローブに基づく単一パラメータ推定のための臨界分散型量子メトロロジースキームを提案する。 集合スピン系は、熱と強磁性相の散逸相転移を示し、スピン観測装置の非解析的挙動を特徴とする。 発散相転移によりパラメータ推定の感度を大幅に向上できることを示す。 さらに, この定常状態は, 準ショットノイズ測定の不確かさを伴うパラメータ推定を可能にする絡み合いスピンスクイーズ状態であることを示した。

We propose a critical dissipaive quantum metrology schemes for single parameter estimation which are based on a quantum probe consisting of coherently driven ensemble of $N$ spin-1/2 particles under the effect of squeezed, collective spin decay. The collective spin system exhibits a dissipative phase transition between thermal and ferromagnetic phases, which is characterized with nonanalytical behavior of the spin observables. We show that thanks to the dissipative phase transition the sensitivity of the parameter estimation can be significantly enhanced. Furthermore, we show that our steady state is an entangled spin squeezed state which allow to perform parameter estimation with sub shot-noise limited measurement uncertainty.
翻訳日:2023-02-13 15:44:32 公開日:2023-02-10
# CEN-HDR:リアルタイム高速ダイナミックレンジイメージングのための計算効率の良いニューラルネットワーク

CEN-HDR: Computationally Efficient neural Network for real-time High Dynamic Range imaging ( http://arxiv.org/abs/2302.05213v1 )

ライセンス: Link先を確認
Steven Tel, Barth\'el\'emy Heyrman, Dominique Ginhac(参考訳) 高ダイナミックレンジ(HDR)イメージングは現代のデジタル写真では依然として難しい課題である。 最近の研究は、高品質な取得を提供するが、非常に多くの操作と、軽量リアルタイムシステムにおけるこれらのソリューションの実装を阻害する遅い推論時間のコストのかかるソリューションを提案している。 本稿では,リアルタイムHDRイメージングのための光注意機構とサブピクセル畳み込み操作に基づく新しいアーキテクチャを提供することにより,新しい計算効率の高いニューラルネットワークであるCEN-HDRを提案する。 また,知識蒸留を用いたネットワーク圧縮による効率的な学習手法を提案する。 提案手法は,最先端のソリューションよりも高速でありながら,画像品質の競争結果が得られ,リアルタイムな制約下で実用化可能であることを示す。 実験の結果,Macbook M1 NPU を用いて,Klantari2017 データセットの 43.04 mu-PSNR のフレームレートが 33 FPS であることを示す。

High dynamic range (HDR) imaging is still a challenging task in modern digital photography. Recent research proposes solutions that provide high-quality acquisition but at the cost of a very large number of operations and a slow inference time that prevent the implementation of these solutions on lightweight real-time systems. In this paper, we propose CEN-HDR, a new computationally efficient neural network by providing a novel architecture based on a light attention mechanism and sub-pixel convolution operations for real-time HDR imaging. We also provide an efficient training scheme by applying network compression using knowledge distillation. We performed extensive qualitative and quantitative comparisons to show that our approach produces competitive results in image quality while being faster than state-of-the-art solutions, allowing it to be practically deployed under real-time constraints. Experimental results show our method obtains a score of 43.04 mu-PSNR on the Kalantari2017 dataset with a framerate of 33 FPS using a Macbook M1 NPU.
翻訳日:2023-02-13 15:44:23 公開日:2023-02-10
# 木組分類器の概念的視点

Conceptual Views on Tree Ensemble Classifiers ( http://arxiv.org/abs/2302.05270v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) ランダムフォレストと関連するツリーベースの手法は、テーブルベースのデータから教師付き学習に人気がある。 並列化の容易さとは別に、その分類性能も優れている。 しかし、この性能、特に並列性は説明可能性の喪失によって相殺される。 統計手法はこの不利を補うためにしばしば用いられる。 しかし、局所的な説明の能力、特にグローバルな説明の能力は限られている。 本研究では, 格子理論に根ざした代数的手法を提案し, ツリーアンサンブルの(大域的)説明について述べる。 本稿では,木組分類器に関する2つの新しい概念的見解を紹介し,標準パラメータで訓練されたランダムフォレストにおける説明能力を示す。

Random Forests and related tree-based methods are popular for supervised learning from table based data. Apart from their ease of parallelization, their classification performance is also superior. However, this performance, especially parallelizability, is offset by the loss of explainability. Statistical methods are often used to compensate for this disadvantage. Yet, their ability for local explanations, and in particular for global explanations, is limited. In the present work we propose an algebraic method, rooted in lattice theory, for the (global) explanation of tree ensembles. In detail, we introduce two novel conceptual views on tree ensemble classifiers and demonstrate their explanatory capabilities on Random Forests that were trained with standard parameters.
翻訳日:2023-02-13 15:43:31 公開日:2023-02-10
# 掘削工具摩耗検出のための意味画像分割におけるデータ拡張と損失関数の評価

Evaluation of Data Augmentation and Loss Functions in Semantic Image Segmentation for Drilling Tool Wear Detection ( http://arxiv.org/abs/2302.05262v1 )

ライセンス: Link先を確認
Elke Schlager, Andreas Windisch, Lukas Hanna, Thomas Kl\"unsner, Elias Jan Hagendorfer, Tamara Teppernegg(参考訳) 工具摩耗モニタリングは製造プロセスの品質管理とコスト削減に不可欠であり、その例として掘削アプリケーションが挙げられる。 本稿では,U-Netをベースとした切削挿入画像の顕微鏡画像上に展開するセマンティック画像分割パイプラインを提案する。 摩耗面積は2つの異なるタイプで区別され、結果としてマルチクラス分類問題が発生する。 一方、一般の摩耗クラスで2つの摩耗タイプを結合することで、問題を二分分類タスクとして定式化することができる。 バイナリ問題とマルチクラス問題の比較は別として、損失関数も異なる。 e. The Intersection over Union (IoU) に基づくクロスエントロピー, クロスエントロピー, フーカルクロスエントロピー, ロスについて検討した。 さらに、異なるサイズの画像タイルに基づいてモデルをトレーニングし、様々な強度の強化技術を展開する。 最高のパフォーマンスモデルはバイナリモデルであり、適度な拡張とIoUベースの損失関数を持つデータに基づいてトレーニングされている。

Tool wear monitoring is crucial for quality control and cost reduction in manufacturing processes, of which drilling applications are one example. In this paper, we present a U-Net based semantic image segmentation pipeline, deployed on microscopy images of cutting inserts, for the purpose of wear detection. The wear area is differentiated in two different types, resulting in a multiclass classification problem. Joining the two wear types in one general wear class, on the other hand, allows the problem to be formulated as a binary classification task. Apart from the comparison of the binary and multiclass problem, also different loss functions, i. e., Cross Entropy, Focal Cross Entropy, and a loss based on the Intersection over Union (IoU), are investigated. Furthermore, models are trained on image tiles of different sizes, and augmentation techniques of varying intensities are deployed. We find, that the best performing models are binary models, trained on data with moderate augmentation and an IoU-based loss function.
翻訳日:2023-02-13 15:43:23 公開日:2023-02-10
# 星型分極拡散確率モデル

Star-Shaped Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.05259v1 )

ライセンス: Link先を確認
Andrey Okhotin, Dmitry Molchanov, Vladimir Arkhipkin, Grigory Bartosh, Aibek Alanov, Dmitry Vetrov(参考訳) denoising diffusion probabilistic models (ddpm)に基づく手法は、生成モデリングにおいてユビキタスなツールとなった。 しかし、それらは主にガウス過程と離散拡散過程に限られる。 我々は,非マルコフ拡散様雑音発生過程のモデルであるSS-DDPM(Star-Shaped Denoising Diffusion Probabilistic Models)を提案する。 ガウス分布の場合、このモデルはマルコフ DDPM と同値である。 しかし、任意の雑音分布で定義および適用することができ、指数族に属する幅広い分布に対する効率的なトレーニングとサンプリングアルゴリズムが認められている。 単体球、正半定値行列の空間、確率的単純行列などの制約付き多様体上にデータを置く場合、特に有用である、ベータ、フォン・ミセス-フィッシャー、ディリクレ、ウィッシャートなどの分布を持つ拡散様モデルの設計法を提供する。 我々は,このモデルを異なる設定で評価し,ベータSS-DDPMがガウスDDPMに匹敵する結果が得られる画像データでも競合することを示した。

Methods based on Denoising Diffusion Probabilistic Models (DDPM) became a ubiquitous tool in generative modeling. However, they are mostly limited to Gaussian and discrete diffusion processes. We propose Star-Shaped Denoising Diffusion Probabilistic Models (SS-DDPM), a model with a non-Markovian diffusion-like noising process. In the case of Gaussian distributions, this model is equivalent to Markovian DDPMs. However, it can be defined and applied with arbitrary noising distributions, and admits efficient training and sampling algorithms for a wide range of distributions that lie in the exponential family. We provide a simple recipe for designing diffusion-like models with distributions like Beta, von Mises--Fisher, Dirichlet, Wishart and others, which can be especially useful when data lies on a constrained manifold such as the unit sphere, the space of positive semi-definite matrices, the probabilistic simplex, etc. We evaluate the model in different settings and find it competitive even on image data, where Beta SS-DDPM achieves results comparable to a Gaussian DDPM.
翻訳日:2023-02-13 15:43:04 公開日:2023-02-10
# 断片的静止多目的多腕バンディットと関節通信・センシングへの応用

Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing ( http://arxiv.org/abs/2302.05257v1 )

ライセンス: Link先を確認
Amir Rezaei Balef and Setareh Maghsudi(参考訳) 動的環境における多目的マルチアームバンディット問題について検討する。 この問題は、所定のセットから腕を順次選択する意思決定者を表す。 選択された場合、各作用は報酬ベクトルを生成し、各要素は片側定常ベルヌーイ分布に従う。 エージェントは、後悔を最小限に抑えるために、パレートの最適な腕の中から腕を選択することを目指している。 本稿では,この問題を解決するために,変更検出を伴うpareto general upper confidence bound (ucb) に基づくアルゴリズムを提案する。 多次元空間に対する本質的不等式を開発することにより、この提案は、ブレークポイントの数が$\gamma_T$であるときに、$\gamma_T\log(T/{\gamma_T})$の順序で後悔境界が保証される。 この仮定がなければ、我々のアルゴリズムの後悔境界は$\gamma_T\log(T)$である。 最後に,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。 トイ例と合成および実世界のデータセットに関する数値実験は、現在の手法と比較して、我々のポリシーの効率性を示している。

We study a multi-objective multi-armed bandit problem in a dynamic environment. The problem portrays a decision-maker that sequentially selects an arm from a given set. If selected, each action produces a reward vector, where every element follows a piecewise-stationary Bernoulli distribution. The agent aims at choosing an arm among the Pareto optimal set of arms to minimize its regret. We propose a Pareto generic upper confidence bound (UCB)-based algorithm with change detection to solve this problem. By developing the essential inequalities for multi-dimensional spaces, we establish that our proposal guarantees a regret bound in the order of $\gamma_T\log(T/{\gamma_T})$ when the number of breakpoints $\gamma_T$ is known. Without this assumption, the regret bound of our algorithm is $\gamma_T\log(T)$. Finally, we formulate an energy-efficient waveform design problem in an integrated communication and sensing system as a toy example. Numerical experiments on the toy example and synthetic and real-world datasets demonstrate the efficiency of our policy compared to the current methods.
翻訳日:2023-02-13 15:42:46 公開日:2023-02-10
# テンソルネットワークを用いた量子力学のクラウドオンデマンドエミュレーション

Cloud on-demand emulation of quantum dynamics with tensor networks ( http://arxiv.org/abs/2302.05253v1 )

ライセンス: Link先を確認
Kemal Bidzhiev and Aleksander Wennersteen and Mourad Beji and Mario Dagrada and Mauro D'Arcangelo and Sebastian Grijalva and Anne-Claire Le Henaff and Anton Quelle and Alvin Sashala Naik(参考訳) 本稿では,プログラム可能なアナログ量子処理ユニット(QPU)を模擬したテンソルネットワークに基づくエミュレータを提案する。 ソフトウェアパッケージは、HPCクラスタ上でジョブを実行し、それらをQPUデバイスにディスパッチするための共通インターフェースを提供するクラウドプラットフォームに完全に統合されている。 我々はまた、多数のキュービットからなるシステムに対して、入力パルスパラメータ値の集合に並列スイープを適用して、状態準備パルス列の質を評価し、最大独立セット問題を解くなど、中性原子量子プロセッサの文脈における典型的なエミュレーションユースケースを提示する。

We introduce a tensor network based emulator, simulating a programmable analog quantum processing unit (QPU). The software package is fully integrated in a cloud platform providing a common interface for executing jobs on a HPC cluster as well as dispatching them to a QPU device. We also present typical emulation use cases in the context of Neutral Atom Quantum Processors, such as evaluating the quality of a state preparation pulse sequence, and solving Maximum Independent Set problems by applying a parallel sweep over a set of input pulse parameter values, for systems composed of a large number of qubits.
翻訳日:2023-02-13 15:42:26 公開日:2023-02-10
# プライバシー保護型エッジインテリジェンスの実現について

On Achieving Privacy-Preserving State-of-the-Art Edge Intelligence ( http://arxiv.org/abs/2302.05323v1 )

ライセンス: Link先を確認
Daphnee Chabal. Dolly Sapra, Zolt\'an \'Ad\'am Mann(参考訳) エッジコンピューティングにおけるディープニューラルネットワーク(dnn)推論はエッジインテリジェンスと呼ばれ、機密性と知的財産がその過程で明らかにされないことを保証するソリューションを必要とする。 エッジコンピューティングがマシンラーニング・アズ・ア・サービス(Machine-Learning-as-a-Service)のコンテキストとして普及しているにもかかわらず、プライバシ保護のエッジインテリジェンス(Edge Intelligence)は出現しつつある。 ソリューションはまだ、最先端のDNNに適用されていない。 本稿では,プライバシー保護のための既存のDNN推論技術とEdge Computingのセットアップの特徴との整合性について,この文脈における秘密共有の適切性を強調した。 次に、DNNの秘密共有に向けた研究におけるモデル圧縮手法の将来的な役割について述べる。

Deep Neural Network (DNN) Inference in Edge Computing, often called Edge Intelligence, requires solutions to insure that sensitive data confidentiality and intellectual property are not revealed in the process. Privacy-preserving Edge Intelligence is only emerging, despite the growing prevalence of Edge Computing as a context of Machine-Learning-as-a-Service. Solutions are yet to be applied, and possibly adapted, to state-of-the-art DNNs. This position paper provides an original assessment of the compatibility of existing techniques for privacy-preserving DNN Inference with the characteristics of an Edge Computing setup, highlighting the appropriateness of secret sharing in this context. We then address the future role of model compression methods in the research towards secret sharing on DNNs with state-of-the-art performance.
翻訳日:2023-02-13 15:35:38 公開日:2023-02-10
# スペクトル物理学インフォームドニューラルネットワークを用いた多様体上のPDEの数値解法

Numerical Methods For PDEs Over Manifolds Using Spectral Physics Informed Neural Networks ( http://arxiv.org/abs/2302.05322v1 )

ライセンス: Link先を確認
Yuval Zelig and Shai Dekel(参考訳) 本稿では,アーキテクチャがスペクトル法に適合する物理インフォームドニューラルネットワークを用いて,多様体上のpdesの解法を提案する。 ネットワークは、初期条件、タイムスタンプ、多様体上のポイント(s)の入力サンプルとして入力し、所定の時間とポイントで解の値を出力するように訓練される。 本稿では,間隔における熱方程式の方法の証明と,球面およびトーラス上の非線形方程式に適応するユニークなネットワークアーキテクチャの例を示す。 また、スペクトルにインスパイアされたニューラルネットワークアーキテクチャは、標準的な物理情報アーキテクチャよりも優れていることを示す。 我々は,初期条件のテストデータセットをトレーニングセットよりもはるかに広い空間からランダムにサンプリングする一般化研究を含む広い実験結果を得た。

We introduce an approach for solving PDEs over manifolds using physics informed neural networks whose architecture aligns with spectral methods. The networks are trained to take in as input samples of an initial condition, a time stamp and point(s) on the manifold and then output the solution's value at the given time and point(s). We provide proofs of our method for the heat equation on the interval and examples of unique network architectures that are adapted to nonlinear equations on the sphere and the torus. We also show that our spectral-inspired neural network architectures outperform the standard physics informed architectures. Our extensive experimental results include generalization studies where the testing dataset of initial conditions is randomly sampled from a significantly larger space than the training set.
翻訳日:2023-02-13 15:35:23 公開日:2023-02-10
# セキュアで脆弱なコードを生成するための大規模言語モデル制御

Controlling Large Language Models to Generate Secure and Vulnerable Code ( http://arxiv.org/abs/2302.05319v1 )

ライセンス: Link先を確認
Jingxuan He and Martin Vechev(参考訳) 大規模言語モデル(LM)は、オープンソースプログラムの膨大なコーパスに事前訓練され、プログラム合成タスクの解決に応用されている。 しかし、LMの基本的な制限は、事前訓練や推論中にセキュリティや脆弱性を認識できないことである。 その結果、lmsは高い不確実性を持つセキュアまたは脆弱なプログラムを生成する(最近の研究によれば、github copilotの約60%/40%の確率)。 これは特にセキュリティに敏感なシナリオにおいて、lmsのユーザビリティを著しく損なう。 この制限に対処するため、この研究は制御コード生成と呼ばれる新しい問題を定式化し、ユーザはLMにブールプロパティを入力して、LMがセキュアまたは脆弱なコードを生成するかどうかを制御することができる。 制御されたコード生成を解決するための効果的で軽量な学習手法であるsvGenを提案する。 svGenはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなく、プログラム生成を与えられたプロパティに向けて操る。 svGenのトレーニングは、コードの異なる領域に特別な損失項を慎重に適用することで、これらの連続ベクトルを最適化する。 我々の広範な評価は、svGenが様々なソフトウェア脆弱性や異なるパラメータサイズのLMに対して強力な制御能力を発揮することを示している。 例えば、9つの危険な脆弱性では、2.7Bパラメータを持つ最先端のCodeGen LMが57%の確率でセキュアなプログラムを生成する。 セキュアな(脆弱性のある)プログラムを生成するためにsvGenを使用すると、その確率は82%に向上する(resp., 35%に低下する)。

Large language models (LMs) are increasingly pretrained on massive corpora of open-source programs and applied to solve program synthesis tasks. However, a fundamental limitation of LMs is their unawareness of security and vulnerability during pretraining and inference. As a result, LMs produce secure or vulnerable programs with high uncertainty (e.g., around 60%/40% chances for GitHub Copilot according to a recent study). This greatly impairs LMs' usability, especially in security-sensitive scenarios. To address this limitation, this work formulates a new problem called controlled code generation, which allows users to input a boolean property into an LM to control if the LM generates secure or vulnerable code. We propose svGen, an effective and lightweight learning approach for solving controlled code generation. svGen leverages property-specific continuous vectors to steer program generation toward the given property, without altering the weights of the LM. svGen's training optimizes those continuous vectors by carefully applying specialized loss terms on different regions of code. Our extensive evaluation shows that svGen achieves strong control capability across various software vulnerabilities and LMs of different parameter sizes. For example, on 9 dangerous vulnerabilities, a state-of-the-art CodeGen LM with 2.7B parameters generates secure programs with a 57% chance. When we use svGen to control the LM to generate secure (resp., vulnerable) programs, the chance is significantly increased to 82% (resp., decreased to 35%).
翻訳日:2023-02-13 15:35:10 公開日:2023-02-10
# 圧電材料のスパースヒステリシスモデル:磁気ヒステリシスのモデル化に関するデータ駆動研究と展望

Discovering Sparse Hysteresis Models for Piezoelectric Materials: A Data-Driven Study and Perspectives into Modelling Magnetic Hysteresis ( http://arxiv.org/abs/2302.05313v1 )

ライセンス: Link先を確認
Abhishek Chandra, Bram Daniels, Mitrofan Curti, Koen Tiels, Elena A. Lomonova and Daniel M. Tartakovsky(参考訳) 本稿では,最近の機械学習の進歩を生かした圧電材料におけるヒステリシスのモデル化手法について述べる。 スパース回帰は、以前は様々な科学的・工学的現象のモデル化に用いられてきたが、圧電材料における非線形ヒステリシスモデリングへの応用はまだ検討されていない。 この研究は、シーケンシャルしきい値最小二乗法を用いてヒステリシスに責任を持つ力学系をモデル化し、シミュレートおよび実験的な圧電材料データのヒステリシスを正確に予測する簡潔なモデルをもたらす。 また、非方向性電磁鋼を例に挙げた磁性材料に対するヒステリシスの疎白箱モデリングに関する洞察も提供される。 提案手法は,従来の回帰型およびニューラルネットワーク法と比較し,その効率性と頑健性を示す。

This article presents an approach for modelling hysteresis in piezoelectric materials that leverages recent advancements in machine learning, particularly in sparse-regression techniques. While sparse regression has previously been used to model various scientific and engineering phenomena, its application to nonlinear hysteresis modelling in piezoelectric materials has yet to be explored. The study employs the sequential threshold least-squares algorithm to model the dynamic system responsible for hysteresis, resulting in a concise model that accurately predicts hysteresis for both simulated and experimental piezoelectric material data. Additionally, insights are provided on sparse white-box modelling of hysteresis for magnetic materials taking non-oriented electrical steel as an example. The presented approach is compared to traditional regression-based and neural network methods, demonstrating its efficiency and robustness.
翻訳日:2023-02-13 15:34:46 公開日:2023-02-10
# LuViRAデータセット:測定記述

The LuViRA Dataset: Measurement Description ( http://arxiv.org/abs/2302.05309v1 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Martin Larsson, Patrik Persson, Michiel Sandra, Alexander D\"urr, Erik Tegler, Nikhil Challa, Henrik Garde, Fredrik Tufvesson, Kalle \r{A}str\"om, Ove Edfors, Steffen Malkowsky, Liang Liu(参考訳) 本稿では,Lund University Vision, Radio, and Audio (LuViRA) Dataset という視覚, オーディオ, 無線センサを用いたローカライゼーションアルゴリズムの評価データセットを提案する。 データセットには、RGB画像、対応する深度マップ、IMU読み取り、巨大なMIMOチャネルサウンドとユーザ機器間のチャネル応答、12マイクロフォンによるオーディオ記録、0.5mm精度の6DoFの真理の合成が含まれている。 これらのセンサーを同期させて、すべてのデータが同時に記録されるようにします。 ゆっくりと動くサービスロボットの上にカメラ、スピーカ、および送信アンテナを設置し、88の軌跡を記録する。 各軌道は、記録されたセンサデータと地上の真実ラベルの20~50秒を含む。 異なるセンサからのデータを別々または共同でローカライズタスクに使用することができ、ローカライズアルゴリズムによって得られた結果を検証するためにモーションキャプチャシステムを使用する。 このデータセットの主な目的は、最も一般的に使用されるセンサをローカライズタスクに使用する研究を可能にすることである。 しかしながら、完全なデータセットやその一部は、チャネル推定や画像分類など、他の研究分野にも使用することができる。 ハウジングセンサデータにより、ローカライズ精度と信頼性が向上し、レイテンシと消費電力が減少する。 生成されたデータセットは、後日公開される予定だ。

We present a dataset to evaluate localization algorithms, which utilizes vision, audio, and radio sensors: the Lund University Vision, Radio, and Audio (LuViRA) Dataset. The dataset includes RGB images, corresponding depth maps, IMU readings, channel response between a massive MIMO channel sounder and a user equipment, audio recorded by 12 microphones, and 0.5 mm accurate 6DoF pose ground truth. We synchronize these sensors to make sure that all data are recorded simultaneously. A camera, speaker, and transmit antenna are placed on top of a slowly moving service robot and 88 trajectories are recorded. Each trajectory includes 20 to 50 seconds of recorded sensor data and ground truth labels. The data from different sensors can be used separately or jointly to conduct localization tasks and a motion capture system is used to verify the results obtained by the localization algorithms. The main aim of this dataset is to enable research on fusing the most commonly used sensors for localization tasks. However, the full dataset or some parts of it can also be used for other research areas such as channel estimation, image classification, etc. Fusing sensor data can lead to increased localization accuracy and reliability, as well as decreased latency and power consumption. The created dataset will be made public at a later date.
翻訳日:2023-02-13 15:34:29 公開日:2023-02-10
# 量子ボルツマン法におけるデータ符号化の重要性について

On the importance of data encoding in quantum Boltzmann methods ( http://arxiv.org/abs/2302.05305v1 )

ライセンス: Link先を確認
Merel A. Schalkers and Matthias M\"oller(参考訳) 近年、量子ボルツマン法は、この新興計算技術が成熟し、フォールトトレラントな多くの量子ビット系が利用可能になると、量子コンピュータ上の流体力学問題を解くための有効な経路を提供する可能性が高くなっている。 ボルツマン方程式の終端量子アルゴリズムを開発する際の大きな課題は、関連するデータを量子ビット(量子ビット)で効率的に符号化し、ストリーミング、衝突、反射ステップを1つの包括的なユニタリ演算として定式化することである。 量子ボルツマン法に関する現在の文献は、主に完全なアルゴリズムと組み合わせることができると仮定して、パイプラインの個々の位相に対するデータエンコーディングと量子プリミティブを提案する。 本稿では,文献でよく議論される符号化について,衝突やストリーミングのステップが一元化できないことを示すことにより,この仮定を否定する。 この画期的な結果に基づいて, 速度をエンコードするために使用される量子ビット数をシミュレートする時間ステップ数に依存し, グリッド点の総数に応じて上限値を求める新しい符号化法を提案する。 既存のエンコーディングのために確立された非ユニタリティの結果を踏まえると、我々の知る限りでは、衝突とストリーミングのステップの両方がユニタリ操作として実装される、初期からエンドツーエンドの量子ボルツマンソルバに使用できる唯一のエンコーディング方法である。 さらに,理論的なユニタリティの結果は,検討すべきエンコーディングの種類や,反復計測と再初期化を伴う'ストップ・アンド・ゴー'法が選択方法であるか否かのガイドラインとして機能する。

In recent years, quantum Boltzmann methods have gained more and more interest as they might provide a viable path towards solving fluid dynamics problems on quantum computers once this emerging compute technology has matured and fault-tolerant many-qubit systems become available. The major challenge in developing a start-to-end quantum algorithm for the Boltzmann equation consists in encoding relevant data efficiently in quantum bits (qubits) and formulating the streaming, collision and reflection steps as one comprehensive unitary operation. The current literature on quantum Boltzmann methods mostly proposes data encodings and quantum primitives for individual phases of the pipeline assuming that they can be combined to a full algorithm. In this paper we disprove this assumption by showing that for encodings commonly discussed in literature either the collision or the streaming step cannot be unitary. Building on this landmark result we propose a novel encoding in which the number of qubits used to encode the velocity depends on the number of time steps one wishes to simulate, with the upper bound depending on the total number of grid points. In light of the non-unitarity result established for existing encodings, our encoding method is to the best of our knowledge the only one currently known that can be used for a start-to-end quantum Boltzmann solver where both the collision and the streaming step are implemented as a unitary operation. Furthermore our theoretical unitarity result can serve as a guideline on which types of encodings to consider or whether a `stop-and-go' method with repeated measurements and re-initializations is the method of choice.
翻訳日:2023-02-13 15:34:08 公開日:2023-02-10
# グループ差分から単射確率へ:共形予測に基づく脳年齢モデルの不確実性推定

From Group-Differences to Single-Subject Probability: Conformal Prediction-based Uncertainty Estimation for Brain-Age Modeling ( http://arxiv.org/abs/2302.05304v1 )

ライセンス: Link先を確認
Jan Ernsting, Nils R. Winter, Ramona Leenings, Kelvin Sarink, Carlotta B. C. Barkhau, Lukas Fisch, Daniel Emden, Vincent Holstein, Jonathan Repple, Dominik Grotegerd, Susanne Meinert, NAKO Investigators, Klaus Berger, Benjamin Risse, Udo Dannlowski, Tim Hahn(参考訳) 脳年齢差は、障害間の脳変化の最も調査された危険マーカーの1つである。 この分野は、近年の不確実性推定を組み込んだ大規模モデルに向かって進んでいるが、これまでのモデルは、臨床応用に不可欠な単射リスク評価能力を提供していない。 バイオマーカーとしてブレインエイジを臨床利用するために,不確実性を考慮したディープニューラルネットワークと共形予測理論を組み合わせる。 このアプローチは、単射不確実性推定に関する統計的保証を提供し、脳老化を加速する個人の確率の計算を可能にする。 これに基づいて、n=16,794の参加者のサンプルを実証的に示す。 1.最先端の大規模脳年齢モデルと低い、または同等の誤差 2.各参加者に対する単射不確実性推定に関する統計的保証 3) アルツハイマー病, 双極性障害, 大うつ病にともなう加速型脳老化の確率が高いこと。

The brain-age gap is one of the most investigated risk markers for brain changes across disorders. While the field is progressing towards large-scale models, recently incorporating uncertainty estimates, no model to date provides the single-subject risk assessment capability essential for clinical application. In order to enable the clinical use of brain-age as a biomarker, we here combine uncertainty-aware deep Neural Networks with conformal prediction theory. This approach provides statistical guarantees with respect to single-subject uncertainty estimates and allows for the calculation of an individual's probability for accelerated brain-aging. Building on this, we show empirically in a sample of N=16,794 participants that 1. a lower or comparable error as state-of-the-art, large-scale brain-age models, 2. the statistical guarantees regarding single-subject uncertainty estimation indeed hold for every participant, and 3. that the higher individual probabilities of accelerated brain-aging derived from our model are associated with Alzheimer's Disease, Bipolar Disorder and Major Depressive Disorder.
翻訳日:2023-02-13 15:33:37 公開日:2023-02-10
# 人間中心の責任ある人工知能を目指して -chi研究と産業ツールキットのレビュー-

Toward Human-Centered Responsible Artificial Intelligence: A Review of CHI Research and Industry Toolkits ( http://arxiv.org/abs/2302.05284v1 )

ライセンス: Link先を確認
Mohammad Tahaei, Marios Constantinides, Daniele Quercia(参考訳) 人工知能(AI)は急速に進歩し続けており、AIの倫理的・社会的意味を考えることがますます重要になっている。 本稿では,産業・学界から27のCHI研究論文と19のツールキットを理論的に検討し,HCR-AI(Human-Centered Responsible AI)研究の現状をボトムアップマッピングする。 HCR-AIの現在の研究は、説明可能性、公正性、プライバシ、セキュリティに重点を置いている。 また、AIのアカウンタビリティを研究し、非専門家がAIを監査するための有用なツールを構築する余地があることもわかりました。 CHIコミュニティは、直接的または間接的にAIに影響された個人の幸福を擁護し始めているが、個人、社会、そして天然資源(人間の繁栄と持続可能性)に対するAIの長期的な影響に対処するためには、より多くの研究とツールキットが必要である。

As Artificial Intelligence (AI) continues to advance rapidly, it becomes increasingly important to consider AI's ethical and societal implications. In this paper, we present a bottom-up mapping of the current state of research in Human-Centered Responsible AI (HCR-AI) by thematically reviewing and analyzing 27 CHI research papers and 19 toolkits from industry and academia. Our results show that the current research in HCR-AI places a heavy emphasis on explainability, fairness, privacy, and security. We also found that there is space to research accountability in AI and build usable tools for non-experts to audit AI. While the CHI community has started to champion the well-being of individuals directly or indirectly impacted by AI, more research and toolkits are still required to address the long-term effects of AI on individuals, societies, and natural resources (human flourishing and sustainability).
翻訳日:2023-02-13 15:33:21 公開日:2023-02-10
# グラフニューラルネットワークが前方へ

Graph Neural Networks Go Forward-Forward ( http://arxiv.org/abs/2302.05282v1 )

ライセンス: Link先を確認
Daniele Paliotta, Mathieu Alain, B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 本稿では,グラフのノードに分散した特徴を扱えるグラフフォワード・フォワード法の拡張であるグラフフォワード・フォワード法を提案する。 これにより、バックプロパゲーションなしでフォワードパスのみによるグラフニューラルネットワークのトレーニングが可能になる。 提案手法はメッセージパス方式に非依存であり,バックプロパゲーションよりも生物学的に妥当な学習方式を提供するとともに,計算上の利点ももたらしている。 gffでは、グラフニューラルネットワークは、正のサンプルと負のサンプルの両方を使用して、層ごとにゆるやかにトレーニングされる。 我々は、11の標準グラフ特性予測タスクで実験を行い、gffがグラフニューラルネットワークのトレーニングにバックプロパゲーションの効果的な代替を提供する方法を示した。 これは特に、GNNにおける処理の局所性と層ごとのトレーニングを組み合わせながら、この手順が極めて効率的であることを示している。

We present the Graph Forward-Forward (GFF) algorithm, an extension of the Forward-Forward procedure to graphs, able to handle features distributed over a graph's nodes. This allows training graph neural networks with forward passes only, without backpropagation. Our method is agnostic to the message-passing scheme, and provides a more biologically plausible learning scheme than backpropagation, while also carrying computational advantages. With GFF, graph neural networks are trained greedily layer by layer, using both positive and negative samples. We run experiments on 11 standard graph property prediction tasks, showing how GFF provides an effective alternative to backpropagation for training graph neural networks. This shows in particular that this procedure is remarkably efficient in spite of combining the per-layer training with the locality of the processing in a GNN.
翻訳日:2023-02-13 15:33:03 公開日:2023-02-10
# テンソル一般化正準相関解析

Tensor Generalized Canonical Correlation Analysis ( http://arxiv.org/abs/2302.05277v1 )

ライセンス: Link先を確認
Fabien Girka, Arnaud Gloaguen, Laurent Le Brusquet, Violetta Zujovic, Arthur Tenenhaus(参考訳) RGCCA(Regularized Generalized Canonical correlation Analysis)は、マルチブロックデータ解析のための一般的な統計フレームワークである。 RGCCAは変数の集合間の関係の解読を可能にし、多くのよく知られた多変量解析法を特別な場合として仮定する。 しかし、RCCCAはベクトル値ブロックのみを扱うため、高次構造は無視される。 本稿では,直交ランクRCP分解を許容する正準ベクトルを用いた高次テンソル解析法であるTensor GCCA(TGCCA)を提案する。 さらに、分離可能な共分散構造が課されるか否かに基づくtgccaの2つのアルゴリズムを収束保証とともに提示する。 シミュレーションデータと実データを用いてtgccaの効率と有用性を評価し,最新手法と比較した。

Regularized Generalized Canonical Correlation Analysis (RGCCA) is a general statistical framework for multi-block data analysis. RGCCA enables deciphering relationships between several sets of variables and subsumes many well-known multivariate analysis methods as special cases. However, RGCCA only deals with vector-valued blocks, disregarding their possible higher-order structures. This paper presents Tensor GCCA (TGCCA), a new method for analyzing higher-order tensors with canonical vectors admitting an orthogonal rank-R CP decomposition. Moreover, two algorithms for TGCCA, based on whether a separable covariance structure is imposed or not, are presented along with convergence guarantees. The efficiency and usefulness of TGCCA are evaluated on simulated and real data and compared favorably to state-of-the-art approaches.
翻訳日:2023-02-13 15:32:46 公開日:2023-02-10
# 単画像シャドウ除去のためのレバレッジインペインティング

Leveraging Inpainting for Single-Image Shadow Removal ( http://arxiv.org/abs/2302.05361v1 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Rabab Abdelfattah, Di Lin, Wei Feng, Ivor Tsang, Song Wang(参考訳) 完全な教師付きシャドウ除去手法は、パブリックデータセットで最高の修復品質を達成しますが、シャドウ残差は発生します。 理由の1つは、大規模なシャドウとシャドウフリーの画像ペアがないことである。 教師なしの方法は問題を緩和できるが、その修復性は教師なしの方法よりもはるかに低い。 本研究では,画像インペインティングデータセット上の事前トレーニングされたシャドウ除去ネットワークにより,シャドウ残差を著しく低減できることを見出した。 さらに,事前学習を必要とせずに,ネットワーク間の差異を分析し,事前学習を施すことにより,欠落したセマンティック情報を補うネットワークの能力が向上し,シャドー除去の微調整により,ネットワークがシャドー領域の詳細を補う方法を知ることができる。 上記の観測から着想を得た陰影除去は,陰影除去と画像塗布を生かした陰影誘導塗装作業として定式化した。 具体的には,2つのブランチからなる動的フィルタネットワークを構築した。画像インペイントブランチはシャドウマップイメージを入力とし,第2ブランチはシャドウイメージを入力とし,第1ブランチの動的カーネルとオフセットを推定し,不足するセマンティック情報と詳細を提供する。 広範にわたる実験により,本手法はすべての最先端手法よりも優れた性能を示した。

Fully-supervised shadow removal methods achieve top restoration qualities on public datasets but still generate some shadow remnants. One of the reasons is the lack of large-scale shadow & shadow-free image pairs. Unsupervised methods can alleviate the issue but their restoration qualities are much lower than those of fully-supervised methods. In this work, we find that pretraining shadow removal networks on the image inpainting dataset can reduce the shadow remnants significantly: a naive encoder-decoder network gets competitive restoration quality w.r.t. the state-of-the-art methods via only 10% shadow & shadow-free image pairs. We further analyze the difference between networks with/without inpainting pretraining and observe that: inpainting pretraining enhances networks' capability of filling missed semantic information; shadow removal fine-tuning makes the networks know how to fill details of the shadow regions. Inspired by the above observations, we formulate shadow removal as a shadow-guided inpainting task to take advantage of the shadow removal and image inpainting. Specifically, we build a shadow-informed dynamic filtering network with two branches: the image inpainting branch takes the shadow-masked image as input while the second branch takes the shadow image as input and is to estimate dynamic kernels and offsets for the first branch to provide missing semantic information and details. The extensive experiments show that our method empowered with inpainting outperforms all state-of-the-art methods.
翻訳日:2023-02-13 15:26:51 公開日:2023-02-10
# 量子ドットキャビティQED分光法における光のクロス偏極消滅促進とスピン軌道結合

Cross-polarization extinction enhancement and spin-orbit coupling of light for quantum-dot cavity-QED spectroscopy ( http://arxiv.org/abs/2302.05359v1 )

ライセンス: Link先を確認
P. Steindl, J.A. Frey, J. Norman, J.E. Bowers, D. Bouwmeester, W. L\"offler(参考訳) 共鳴レーザー分光法は、半導体量子ドットのような単一量子システムのキャラクタリゼーション、操作、および操作に必須である。 励起レーザーからの弱い共鳴蛍光の分離は、高品質な単一および絡み合った光子源の鍵となる。 これはしばしば、光学素子の質によって制限される偏光レーザーの消滅によって達成される。 近年,Fresnel-reflection birefringenceと単一モードフィルタによるスピン軌道結合効果を組み合わせることで,偏光消滅(PRX 11,021007 (2021))の3次改善が可能であることが判明した。 そこで本研究では,まず複数の反射を解析し,ビームリシェープ解析を行い,単一反射消滅促進が最適であることを示す。 次に, 複屈折光マイクロキャビティにおける共振励起半導体量子ドットのクロス偏光消滅促進法を実証し, 単一光子コントラストの10倍の改善を観察した。

Resonant laser spectroscopy is essential for the characterization, operation, and manipulation of single quantum systems such as semiconductor quantum dots. The separation of the weak resonance fluorescence from the excitation laser is key for high-quality single- and entangled photon sources. This is often achieved by cross-polarization laser extinction, which is limited by the quality of the optical elements. Recently, it was discovered that Fresnel-reflection birefringence in combination with single-mode filtering counteracting spin-orbit coupling effects enables a three-order of magnitude improvement of polarization extinction [PRX 11, 021007 (2021)]. Here, we first investigate multiple reflections and analyze beam reshaping, and observe that the single-reflection extinction enhancement is optimal. We then demonstrate this method for cross-polarization extinction enhancement for a resonantly excited semiconductor quantum dot in a birefringent optical micro cavity, and observe a 10x improvement of single-photon contrast.
翻訳日:2023-02-13 15:26:24 公開日:2023-02-10
# 有限均一空間上の量子参照フレーム

Quantum Reference Frames on Finite Homogeneous Spaces ( http://arxiv.org/abs/2302.05354v1 )

ライセンス: Link先を確認
Jan G{\l}owacki, Leon Loveridge and James Waldron(参考訳) 本稿では, 有限同次空間上の共変正作用素値測度 (POVM) を, 従来の研究で研究された主ホモジニアス空間を一般化した, 量子参照フレームの操作動機付き処理について述べる。 我々は、基準可観測が与えられた空間上の正準共変射影値である場合に注目し、これは群上の階数1の共変POVMを生じさせ、コヒーレントな状態の系と見なすことができることを示し、量子参照フレームに対するパースペクティブニュートラルなアプローチにおける最近の研究と接触する。

We present an operationally motivated treatment of quantum reference frames in the setting that the frame is a covariant positive operator valued measure (POVM) on a finite homogeneous space, generalising the principal homogeneous spaces studied in previous work. We focus on the case that the reference observable is the canonical covariant projection valued measure on the given space, and show that this gives rise to a rank-one covariant POVM on the group, which can be seen as a system of coherent states, thereby making contact with recent work in the perspective-neutral approach to quantum reference frames.
翻訳日:2023-02-13 15:26:06 公開日:2023-02-10
# ボソニックジョセフソン接合における量子効果の解法--動的多元構成原子コヒーレント状態のアプローチ

Unraveling of quantum effects in bosonic Josephson junctions: a dynamical multi-configuration atomic coherent states approach ( http://arxiv.org/abs/2302.05349v1 )

ライセンス: Link先を確認
Yulong Qiao and Frank Grossmann(参考訳) 2サイトBose-Hubbard系に対する平均場アプローチは十分に確立されており、人口不均衡と位相差に対する非線形古典的な運動方程式をもたらす。 できる、e。 g. 一つのグラウバー状態または有限系において、単一の原子(su(2))一般化コヒーレント状態 [s. wimberger et al., phys. rev. a 103, 023326 (2021)] による時間依存シュロディンガー方程式の解の表現に基づいている。 平均場を超えた量子効果が容易に発見できることを示し、代わりに、時間依存の SU(2) 基底関数を持つ多重構成アンサッツが変分原理で用いられる。 プラズマ振動の場合、2つの時間依存基底状態を用いることで、数値的に正確な量子解を持つ位相空間力学の質的整合性が得られる。 自発対称性の破れやマクロ的な量子自己トラップのようなより非自明なダイナミクスを正しく説明するためには、より多くの基底状態が必要である。

The mean-field approach to two-site Bose-Hubbard systems is well established and leads to nonlinear classical equations of motion for the population imbalance and the phase difference. It can, e. g., be based on the representation of the solution of the time-dependent Schrodinger equation either by a single Glauber state or, for finite systems, by a single atomic (SU(2)) generalized coherent state [S. Wimberger et al., Phys. Rev. A 103, 023326 (2021)]. We demonstrate that quantum effects beyond mean field are easily uncovered if, instead, a multi-configuration ansatz with a few time-dependent SU(2) basis functions is used in the variational principle. For the case of plasma oscillations, the use of just two time-dependent basis states can already give good qualitative agreement of the phase space dynamics with numerically exact quantum solutions. In order to correctly account for more non-trivial dynamics, like spontaneous symmetry breaking as well as macroscopic quantum self trapping, more basis states are needed.
翻訳日:2023-02-13 15:25:53 公開日:2023-02-10
# 状態のコヒーレント重ね合わせによる光のゲージ不変吸収

Gauge-invariant absorption of light from a coherent superposition of states ( http://arxiv.org/abs/2302.05345v1 )

ライセンス: Link先を確認
Axel Stenquist and Felipe Zapata and Jan Marcus Dahlstr\"om(参考訳) 光の吸収と放出は、極紫外域で孤立したアト秒パルスを受ける状態のコヒーレントな重畳における励起原子について理論的に研究されている。 過渡吸収理論のゲージ不変な定式化は、ヤンゲージ理論のエネルギー作用素を用いて動機付けられる。 結合状態と連続状態の両方を同時に結合する相互作用は、水素原子とネオン原子の時間依存schr\"odinger方程式を解いてシミュレートされる。 重ね合わせ中の状態の角運動量と相対位相に対する強い依存が観察される。 摂動理論は基本吸収過程の解離に使われ、複雑な吸収挙動を解釈するために規則が確立される。 非共鳴遷移はエネルギーと相の非対称性の源であり、一方連続体への共鳴遷移は状態のコヒーレント重ね合わせからの光の吸収に対称的に寄与する。

Absorption and emission of light is studied theoretically for excited atoms in coherent superposition of states subjected to isolated attosecond pulses in the extreme ultraviolet range. A gauge invariant formulation of transient absorption theory is motivated using the energy operator from Yang's gauge theory. The interaction, which simultaneously couples both bound and continuum states, is simulated by solving the time dependent Schr\"odinger equation for hydrogen and neon atoms. A strong dependence on the angular momentum and the relative phase of the states in the superposition is observed. Perturbation theory is used to disentangle the fundamental absorption processes and a rule is established to interpret the complex absorption behaviour. It is found that non-resonant transitions are the source of asymmetry in energy and phase, while resonant transitions to the continuum contribute symmetrically to absorption of light from coherent superpositions of states.
翻訳日:2023-02-13 15:25:30 公開日:2023-02-10
# プラケット-ルース混合モデルの効率的・高精度学習

Efficient and Accurate Learning of Mixtures of Plackett-Luce Models ( http://arxiv.org/abs/2302.05343v1 )

ライセンス: Link先を確認
Duc Nguyen and Anderson Y. Zhang(参考訳) プラケット=ルース(pl)の混合モデルは、最も基本的なランク付けモデルの1つであり、理論上も実用上も活発な研究分野である。 前述したパラメータ推定アルゴリズムのほとんどはemアルゴリズムをインスタンス化し、しばしばランダム初期化を行う。 しかし、そのような初期化スキームは良い初期推定を得られず、アルゴリズムは複数の再起動を必要とし、大きな時間的複雑さをもたらす。 EM手順については、Eステップを効率的に行うことができるが、PL確率関数の組合せの性質のため、Mステップにおけるログ類似度を最大化することは困難である(Gormley and Murphy 2008)。 それゆえ、以前の著者は確率関数を最大化するアルゴリズムを好んでいる(zhao et al. 2018, 2020)。 しかし、最終的な見積もりは、結果として真の最大推定値から逸脱する可能性がある。 本稿では,これらの既知の制限について述べる。 証明可能な精度で初期推定できる初期化アルゴリズムと、真のログ類似関数を効率的に最大化するEMアルゴリズムを提案する。 合成データセットと実データセットの両方の実験では、アルゴリズムは精度とベースラインアルゴリズム、特に多数の項目を持つデータセットとの速度の両面で競合している。

Mixture models of Plackett-Luce (PL) -- one of the most fundamental ranking models -- are an active research area of both theoretical and practical significance. Most previously proposed parameter estimation algorithms instantiate the EM algorithm, often with random initialization. However, such an initialization scheme may not yield a good initial estimate and the algorithms require multiple restarts, incurring a large time complexity. As for the EM procedure, while the E-step can be performed efficiently, maximizing the log-likelihood in the M-step is difficult due to the combinatorial nature of the PL likelihood function (Gormley and Murphy 2008). Therefore, previous authors favor algorithms that maximize surrogate likelihood functions (Zhao et al. 2018, 2020). However, the final estimate may deviate from the true maximum likelihood estimate as a consequence. In this paper, we address these known limitations. We propose an initialization algorithm that can provide a provably accurate initial estimate and an EM algorithm that maximizes the true log-likelihood function efficiently. Experiments on both synthetic and real datasets show that our algorithm is competitive in terms of accuracy and speed to baseline algorithms, especially on datasets with a large number of items.
翻訳日:2023-02-13 15:25:15 公開日:2023-02-10
# 関節表現による複数センサからの強化学習

Reinforcement Learning from Multiple Sensors via Joint Representations ( http://arxiv.org/abs/2302.05342v1 )

ライセンス: Link先を確認
Philipp Becker, Sebastian Markgraf, Fabian Otto, Gerhard Neumann(参考訳) 多くのシナリオでは、複数のセンサモードからの観測が強化学習(RL)に利用可能である。 例えば、多くのエージェントはプロピオセプティブセンサーを介して内部状態を認識できるが、イメージのような高次元の観測から環境の状態を予測する必要がある。 画像ベースのRLでは、パフォーマンスとサンプルの複雑さを改善するために、様々な自己教師付き表現学習アプローチが存在する。 これらのアプローチはイメージ表現を分離して学習する。 しかし、プロプリセプションを含むことによって、表現学習アルゴリズムは関連する側面に集中し、より良い表現を見つけるためのガイドとなる。 そこで本研究では,すべてのセンサ情報を単一の一貫した表現に融合させるために,Recurrent State Space Modelsを提案する。 本研究は,各センサのモダリティに対して最も適切な手法を活用できる,リコンストラクションベースとコントラストアプローチを組み合わせた学習手法を提案する。 例えば、画像のプロピロセプションと対照的な損失に再構成を用いることができる。 本研究では,RLの学習表現にプロプリセプションを活用する利点を,大規模な実験で示す。 さらに,画像表現と固有認識のポストホックな組み合わせと比較して,共同表現の性能が有意に向上することを示す。

In many scenarios, observations from more than one sensor modality are available for reinforcement learning (RL). For example, many agents can perceive their internal state via proprioceptive sensors but must infer the environment's state from high-dimensional observations such as images. For image-based RL, a variety of self-supervised representation learning approaches exist to improve performance and sample complexity. These approaches learn the image representation in isolation. However, including proprioception can help representation learning algorithms to focus on relevant aspects and guide them toward finding better representations. Hence, in this work, we propose using Recurrent State Space Models to fuse all available sensory information into a single consistent representation. We combine reconstruction-based and contrastive approaches for training, which allows using the most appropriate method for each sensor modality. For example, we can use reconstruction for proprioception and a contrastive loss for images. We demonstrate the benefits of utilizing proprioception in learning representations for RL on a large set of experiments. Furthermore, we show that our joint representations significantly improve performance compared to a post hoc combination of image representations and proprioception.
翻訳日:2023-02-13 15:24:56 公開日:2023-02-10
# 誤り訂正符号におけるコードワード・クラス・アサインメントの役割--実証的研究

The Role of Codeword-to-Class Assignments in Error-Correcting Codes: An Empirical Study ( http://arxiv.org/abs/2302.05334v1 )

ライセンス: Link先を確認
Itay Evron, Ophir Onn, Tamar Weiss Orzech, Hai Azeroual, Daniel Soudry(参考訳) 誤り訂正符号(ECC)は、多重クラス分類タスクを複数のバイナリ分類サブプロブレムに還元するために用いられる。 ECCでは、クラスはバイナリマトリックスの行で表され、コードブックのコードワードに対応する。 コードブックは、通常、事前定義されたか問題に依存します。 事前に定義されたコードブックによって、コードワードからクラスへの割り当ては伝統的に見過ごされ、コードワードは任意のクラスに暗黙的に割り当てられる。 本稿は,これらの課題がECCのパフォーマンスにおいて重要な役割を担っていることを示す。 具体的には、類似したコードワードが類似クラスに割り当てられる類似性保存代入について検討する。 既存の文献の論争に対処するため, 類似性保存課題はより容易なサブプロブレムを誘導し, 一般化性能の点で他の課題政策よりも優れていることを確認した。 類似性を保存する代入によって、既定のコードブックは問題依存となり、他の望ましいコードブックのプロパティを変更することはなくなる。 最後に, 極端分類専用コードブックの改良が期待できることを示す。

Error-correcting codes (ECC) are used to reduce multiclass classification tasks to multiple binary classification subproblems. In ECC, classes are represented by the rows of a binary matrix, corresponding to codewords in a codebook. Codebooks are commonly either predefined or problem dependent. Given predefined codebooks, codeword-to-class assignments are traditionally overlooked, and codewords are implicitly assigned to classes arbitrarily. Our paper shows that these assignments play a major role in the performance of ECC. Specifically, we examine similarity-preserving assignments, where similar codewords are assigned to similar classes. Addressing a controversy in existing literature, our extensive experiments confirm that similarity-preserving assignments induce easier subproblems and are superior to other assignment policies in terms of their generalization performance. We find that similarity-preserving assignments make predefined codebooks become problem-dependent, without altering other favorable codebook properties. Finally, we show that our findings can improve predefined codebooks dedicated to extreme classification.
翻訳日:2023-02-13 15:24:13 公開日:2023-02-10
# 知的ロボット犬によるテキストに基づく人間探索とアプローチ

Towards Text-based Human Search and Approach with an Intelligent Robot Dog ( http://arxiv.org/abs/2302.05324v1 )

ライセンス: Link先を確認
Jeongeun Park, Jefferson Silveria, Matthew Pan, and Sungjoon Choi(参考訳) 本稿では、自由形式のテキスト記述に基づく人間の検索とアプローチに焦点を当てたTEXシステム(SOCRATES)に基づく人間接近ロボットのためのSOCraticモデルを提案する。 特に、文章の記述は外観(例えば、黒い髪の白いシャツ)と位置情報(例えば、ロボットを扱う学生)で構成されている。 本稿ではまず,言語領域における大規模事前学習モデルと,テキスト記述に基づいて対象者を探索するダウンストリームタスクを接続するHuman Search Socratic Modelを提案する。 そこで,本研究では,目標音場ロボットの動作を生成するためのハイブリッド学習フレームワークを提案し,実験モジュールと知識蒸留モジュールからなる人物にアプローチする。 仮想移動ロボットを用いたシミュレーションと,参加者とBoston Dynamics Spotロボットによる実世界の実験により,提案した探索モジュールを検証した。 さらに,ロボット社会属性尺度 (robotic social attribute scale,rosas) に基づいて,人間参加型フレームワークの特性を解析した。

In this paper, we propose a SOCratic model for Robots Approaching humans based on TExt System (SOCRATES) focusing on the human search and approach based on free-form textual description; the robot first searches for the target user, then the robot proceeds to approach in a human-friendly manner. In particular, textual descriptions are composed of appearance (e.g., wearing white shirts with black hair) and location clues (e.g., is a student who works with robots). We initially present a Human Search Socratic Model that connects large pre-trained models in the language domain to solve the downstream task, which is searching for the target person based on textual descriptions. Then, we propose a hybrid learning-based framework for generating target-cordial robotic motion to approach a person, consisting of a learning-from-demonstration module and a knowledge distillation module. We validate the proposed searching module via simulation using a virtual mobile robot as well as through real-world experiments involving participants and the Boston Dynamics Spot robot. Furthermore, we analyze the properties of the proposed approaching framework with human participants based on the Robotic Social Attributes Scale (RoSAS)
翻訳日:2023-02-13 15:23:54 公開日:2023-02-10
# unbinned profiled の展開

Unbinned Profiled Unfolding ( http://arxiv.org/abs/2302.05390v1 )

ライセンス: Link先を確認
Jay Chan, Benjamin Nachman(参考訳) 展開は、粒子物理学実験において重要な手順であり、検出器効果を補正し、基礎物理学パラメータの抽出など、下流の多くのタスクに使用できる微分断面積測定を提供する。 伝統的に、展開は対象位相空間を有限個のビンに離散化することで行われ、展開変数の数に制限される。 最近、機械学習で無条件の展開を実行するための提案が数多く出されている。 しかしながら、これらの方法のどれも(ほとんどの展開メソッドのように)同時にニュアンスパラメータを制約することができない。 そこで本研究では,無歯顎差動断面を生じさせ,ニュアサンスパラメータをプロファイルできる新しい機械学習に基づく展開法を提案する。 機械学習損失関数は、検出器レベルでのバイナリ入力に基づいて、完全な可能性関数である。 まず,簡単なガウスの例を用いて本手法を実演し,ヒッグス粒子断面測定のシミュレーションによる影響を示す。

Unfolding is an important procedure in particle physics experiments which corrects for detector effects and provides differential cross section measurements that can be used for a number of downstream tasks, such as extracting fundamental physics parameters. Traditionally, unfolding is done by discretizing the target phase space into a finite number of bins and is limited in the number of unfolded variables. Recently, there have been a number of proposals to perform unbinned unfolding with machine learning. However, none of these methods (like most unfolding methods) allow for simultaneously constraining (profiling) nuisance parameters. We propose a new machine learning-based unfolding method that results in an unbinned differential cross section and can profile nuisance parameters. The machine learning loss function is the full likelihood function, based on binned inputs at detector-level. We first demonstrate the method with simple Gaussian examples and then show the impact on a simulated Higgs boson cross section measurement.
翻訳日:2023-02-13 15:17:36 公開日:2023-02-10
# データスパース領域におけるストリームフローの注意に基づくドメイン適応予測

Attention-based Domain Adaption Forecasting of Streamflow in Data Sparse Regions ( http://arxiv.org/abs/2302.05386v1 )

ライセンス: Link先を確認
Roland Oruche, Fearghal O'Donncha(参考訳) 流量予測は、水資源管理の指導、干ばつと洪水の影響の緩和、気候スマートなインフラと産業の発展に不可欠である。 しかし、多くのグローバルな地域では、証拠に基づく管理戦略を導くためのストリームフローの観測が限られている。 本稿では,データスパース領域に対する注目型領域適応ストリームフロー予測器を提案する。 提案手法は,データリッチソース領域の流体学的特性を利用して,限られた対象領域で24時間リードタイムストリームフロー予測を行う。 具体的には、ドメイン適応技術を活用したディープラーニングフレームワークを用いて、逆法を用いて、ストリームフローの予測と2つのドメイン間の識別を同時に訓練する。 ベースラインクロスドメイン予測モデルに対する実験では、24時間リードタイムストリームフロー予測のパフォーマンスが向上している。

Streamflow forecasts are critical to guide water resource management, mitigate drought and flood effects, and develop climate-smart infrastructure and industries. Many global regions, however, have limited streamflow observations to guide evidence-based management strategies. In this paper, we propose an attention-based domain adaptation streamflow forecaster for data-sparse regions. Our approach leverages the hydrological characteristics of a data-rich source domain to induce effective 24h lead-time streamflow prediction in a limited target domain. Specifically, we employ a deep-learning framework leveraging domain adaptation techniques to simultaneously train streamflow predictions and discern between both domains using an adversarial method. Experiments against baseline cross-domain forecasting models show improved performance for 24h lead-time streamflow forecasting.
翻訳日:2023-02-13 15:17:22 公開日:2023-02-10
# 機械学習によるリー群のスパース表現の発見

Discovering Sparse Representations of Lie Groups with Machine Learning ( http://arxiv.org/abs/2302.05383v1 )

ライセンス: Link先を確認
Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Alexander Roman, Eyup B. Unlu, Sarunas Verner(参考訳) 近年の研究では、保存量を保存する対称性変換を導出し、対応する生成元の代数を得るためにディープラーニングを用いた。 このレターでは、任意のリー代数のスパース表現を導出するためにこの手法を拡張する。 本手法はローレンツ群の生成元の標準的(疎)表現を再現すると同時に, u(n)$ および $su(n)$ のリー群の族を再現することを示す。 このアプローチは完全に一般であり、任意のリー群に対する無限小生成元を見つけるのに使うことができる。

Recent work has used deep learning to derive symmetry transformations, which preserve conserved quantities, and to obtain the corresponding algebras of generators. In this letter, we extend this technique to derive sparse representations of arbitrary Lie algebras. We show that our method reproduces the canonical (sparse) representations of the generators of the Lorentz group, as well as the $U(n)$ and $SU(n)$ families of Lie groups. This approach is completely general and can be used to find the infinitesimal generators for any Lie group.
翻訳日:2023-02-13 15:17:11 公開日:2023-02-10
# 確率的形状の進化に関する関数空間の視点

A function space perspective on stochastic shape evolution ( http://arxiv.org/abs/2302.05382v1 )

ライセンス: Link先を確認
Elizabeth Baker and Thomas Besnier and Stefan Sommer(参考訳) 形状データにおけるランダム性のモデル化、例えば生物学における生物の形状の進化は、形状の確率的モデルを必要とする。 本稿では,ソボレフ空間における形状を関数として記述した新しい確率的形状モデルを提案する。 ノイズの基準フレームとして明示的な正則基底を用いると、モデルはメッシュのパラメータ化とは独立である。 確率モデルを定義し,その性質を探索し,得られた数値的枠組みを用いて確率的形状変化の例を示す。

Modelling randomness in shape data, for example, the evolution of shapes of organisms in biology, requires stochastic models of shapes. This paper presents a new stochastic shape model based on a description of shapes as functions in a Sobolev space. Using an explicit orthonormal basis as a reference frame for the noise, the model is independent of the parameterisation of the mesh. We define the stochastic model, explore its properties, and illustrate examples of stochastic shape evolutions using the resulting numerical framework.
翻訳日:2023-02-13 15:17:00 公開日:2023-02-10
# kullback-leibler divergenceについて

On the Interventional Kullback-Leibler Divergence ( http://arxiv.org/abs/2302.05380v1 )

ライセンス: Link先を確認
Jonas Wildberger, Siyuan Guo, Arnab Bhattacharyya, Bernhard Sch\"olkopf(参考訳) 現代の機械学習アプローチは、与えられたタスクに対して大量のi.d.トレーニングデータが利用できる静的な設定で優れている。 しかし、動的な環境では、インテリジェントエージェントは知識を転送し、ドメイン間で学習したコンポーネントを再利用する必要があります。 これは因果モデルによって可能であり、独立因果機構の観点から現実世界のモジュラリティを反映することを目的としていると論じられている。 しかし、与えられたデータの集合の根底にある真の因果構造は一般には特定できないので、観測レベルと介入レベルの両方でモデルの違い(例えば、地上の真実と推定値)を定量化する手段を持つことが望ましい。 本稿では,モデル間の構造的および分布的差異を基底真理からの介入によって生成される有限集合のマルチ環境分布に基づいて定量化するための介入的カルバック・ライバー(ikl)分岐法を提案する。 一般に、介入分布の有限集合ごとに因果モデル間のすべての差異を定量化できないので、介入対象に対する十分な条件を提案し、モデルが確実に一致または一致しない観察変数のサブセットを特定する。

Modern machine learning approaches excel in static settings where a large amount of i.i.d. training data are available for a given task. In a dynamic environment, though, an intelligent agent needs to be able to transfer knowledge and re-use learned components across domains. It has been argued that this may be possible through causal models, aiming to mirror the modularity of the real world in terms of independent causal mechanisms. However, the true causal structure underlying a given set of data is generally not identifiable, so it is desirable to have means to quantify differences between models (e.g., between the ground truth and an estimate), on both the observational and interventional level. In the present work, we introduce the Interventional Kullback-Leibler (IKL) divergence to quantify both structural and distributional differences between models based on a finite set of multi-environment distributions generated by interventions from the ground truth. Since we generally cannot quantify all differences between causal models for every finite set of interventional distributions, we propose a sufficient condition on the intervention targets to identify subsets of observed variables on which the models provably agree or disagree.
翻訳日:2023-02-13 15:16:52 公開日:2023-02-10
# ソースフリー非教師なし領域適応におけるダブルトランスファーの鍵設計

Key Design Choices for Double-Transfer in Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2302.05379v1 )

ライセンス: Link先を確認
Andrea Maracani, Raffaello Camoriano, Elisa Maiettini, Davide Talon, Lorenzo Rosasco and Lorenzo Natale(参考訳) ファインチューニングとドメイン適応は、ディープラーニングモデルを新しいターゲットタスクに効率的に移行するための効果的な戦略として登場した。 しかし、ターゲットのドメインラベルは多くの現実世界のシナリオではアクセスできない。 これにより、未ラベルのターゲットサンプルのみを使用するUnsupervised Domain Adaptation (UDA) メソッドが開発された。 さらに、効率性とプライバシ要件は、適応段階でソースドメインデータの使用を妨げうる。 Source-Free Unsupervised Domain Adaptation (SF-UDA)として知られるこの挑戦的な設定は、現実世界のアプリケーションの可能性から、研究者や実践者の間で関心を集めている。 本稿では,500モデルと74ドメイン対にわたる大規模実証研究を通じて,SF-UDAの主設計選択の詳細な分析を行う。 正規化アプローチ、事前トレーニング戦略、バックボーンアーキテクチャを最も重要な要素として挙げます。 そこで本研究では,SF-UDAシナリオに対処するためのレシピを提案する。 さらに, SF-UDAは標準ベンチマークやバックボーンアーキテクチャを超越した競争力を持ち, データと計算コストのごく一部でUDAと同等の性能を発揮することを示した。 再現性については, 完全な実験結果と補足材料としてのコードを含める。

Fine-tuning and Domain Adaptation emerged as effective strategies for efficiently transferring deep learning models to new target tasks. However, target domain labels are not accessible in many real-world scenarios. This led to the development of Unsupervised Domain Adaptation (UDA) methods, which only employ unlabeled target samples. Furthermore, efficiency and privacy requirements may also prevent the use of source domain data during the adaptation stage. This challenging setting, known as Source-Free Unsupervised Domain Adaptation (SF-UDA), is gaining interest among researchers and practitioners due to its potential for real-world applications. In this paper, we provide the first in-depth analysis of the main design choices in SF-UDA through a large-scale empirical study across 500 models and 74 domain pairs. We pinpoint the normalization approach, pre-training strategy, and backbone architecture as the most critical factors. Based on our quantitative findings, we propose recipes to best tackle SF-UDA scenarios. Moreover, we show that SF-UDA is competitive also beyond standard benchmarks and backbone architectures, performing on par with UDA at a fraction of the data and computational cost. In the interest of reproducibility, we include the full experimental results and code as supplementary material.
翻訳日:2023-02-13 15:16:30 公開日:2023-02-10
# LCDnet:リアルタイムビデオサーベイランスのための軽量集団密度推定モデル

LCDnet: A Lightweight Crowd Density Estimation Model for Real-time Video Surveillance ( http://arxiv.org/abs/2302.05374v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Ridha Hamila(参考訳) 密度推定を用いた群衆自動カウントは,コンピュータビジョン研究において注目されている。 その結果,近年,畳み込みニューラルネットワーク(CNN)を用いた多数の群集カウントと密度推定モデルが公表されている。 これらのモデルはベンチマークデータセットよりも精度が高い。 しかし、精度を向上させる試みは、しばしばこれらのモデルの複雑さを増す。 限られた計算資源を持つドローンを用いたリアルタイムビデオ監視アプリケーションでは、ディープモデルは高い推論遅延を引き起こす。 本稿では,本稿で提案する。 (i)リアルタイムビデオ監視のための軽量集団密度推定モデル(LCDnet) (II)カリキュラム学習(CL)を用いた学習方法の改善。 LCDnetはCLを用いてトレーニングされ、DroneRGBTとCARPKという2つのベンチマークデータセットで評価される。 結果は既存のモデルと比較される。 評価の結果,LCDnetは推論時間とメモリ要求を著しく低減し,計算資源が限られているエッジデバイス上に展開可能であることがわかった。

Automatic crowd counting using density estimation has gained significant attention in computer vision research. As a result, a large number of crowd counting and density estimation models using convolution neural networks (CNN) have been published in the last few years. These models have achieved good accuracy over benchmark datasets. However, attempts to improve the accuracy often lead to higher complexity in these models. In real-time video surveillance applications using drones with limited computing resources, deep models incur intolerable higher inference delay. In this paper, we propose (i) a Lightweight Crowd Density estimation model (LCDnet) for real-time video surveillance, and (ii) an improved training method using curriculum learning (CL). LCDnet is trained using CL and evaluated over two benchmark datasets i.e., DroneRGBT and CARPK. Results are compared with existing crowd models. Our evaluation shows that the LCDnet achieves a reasonably good accuracy while significantly reducing the inference time and memory requirement and thus can be deployed over edge devices with very limited computing resources.
翻訳日:2023-02-13 15:16:12 公開日:2023-02-10
# モデルベースロバスト強化学習の最小最適化に向けて

Towards Minimax Optimality of Model-based Robust Reinforcement Learning ( http://arxiv.org/abs/2302.05372v1 )

ライセンス: Link先を確認
Pierre Clavier and Erwan Le Pennec and Matthieu Geist(参考訳) 名目カーネルの生成モデルへのアクセスのみを条件として, \emph{robust} discounted markov decision process (rmdps) における$\epsilon$-optimal policy を得るためのサンプル複雑性について検討した。 この問題は、非ロバストの場合において広く研究されており、$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})と推定される経験的 MDP に適用される任意の計画的アプローチは、極小値が最適である$\epsilon$-optimal Policy を提供する。 堅牢なケースの結果は、はるかに少ない。 Sa$(resp $s$-)正方形不確実集合の場合、最もよく知られたサンプル複雑性は$\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid S \mid A \mid}{\epsilon^2})$ (resp)である。 $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$) 特定のアルゴリズムに対して、不確実性集合が総変分(TV)、KL、またはチ二乗発散に基づいている場合。 本稿では,$l_p$-ball (recovering the tv case) で定義される不確実性集合を考察し,生成モデルを用いて推定した経験的rmdpに適用する \emph{any} 計画アルゴリズムのサンプル複雑性について検討する。 一般の場合、$sa$- と $s$-矩形ケース(それぞれ$\mid s \mid$ と $\mid s \mid\mid a \mid$)の両方に対して、$\tilde{\mathcal{o}}(\frac{h^4 \mid s \mid\mid a \mid}{\epsilon^2}) のサンプル複雑性が証明される。 不確実性の大きさが十分小さい場合には、サンプルの複雑さを$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$に改善し、不確実性のサイズが十分小さい場合には、初めて非破壊ケースの低いバウンドを回復する。

We study the sample complexity of obtaining an $\epsilon$-optimal policy in \emph{Robust} discounted Markov Decision Processes (RMDPs), given only access to a generative model of the nominal kernel. This problem is widely studied in the non-robust case, and it is known that any planning approach applied to an empirical MDP estimated with $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})$ samples provides an $\epsilon$-optimal policy, which is minimax optimal. Results in the robust case are much more scarce. For $sa$- (resp $s$-)rectangular uncertainty sets, the best known sample complexity is $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid}{\epsilon^2})$ (resp. $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$), for specific algorithms and when the uncertainty set is based on the total variation (TV), the KL or the Chi-square divergences. In this paper, we consider uncertainty sets defined with an $L_p$-ball (recovering the TV case), and study the sample complexity of \emph{any} planning algorithm (with high accuracy guarantee on the solution) applied to an empirical RMDP estimated using the generative model. In the general case, we prove a sample complexity of $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid\mid A \mid}{\epsilon^2})$ for both the $sa$- and $s$-rectangular cases (improvements of $\mid S \mid$ and $\mid S \mid\mid A \mid$ respectively). When the size of the uncertainty is small enough, we improve the sample complexity to $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$, recovering the lower-bound for the non-robust case for the first time and a robust lower-bound when the size of the uncertainty is small enough.
翻訳日:2023-02-13 15:15:59 公開日:2023-02-10
# 確率帯域凸最適化のための2次法

A Second-Order Method for Stochastic Bandit Convex Optimisation ( http://arxiv.org/abs/2302.05371v1 )

ライセンス: Link先を確認
Tor Lattimore and Andr\'as Gy\"orgy(参考訳) 制約のないゼロ次確率凸バンドに対する単純かつ効率的なアルゴリズムを導入し、その後悔が最大で$(1 + r/d)[d^{1.5} \sqrt{n} + d^3] polylog(n, d, r)$ ここで$n$は地平線、$d$は次元、$r$は損失のミニミセルを含む既知のボールの半径であることが証明する。

We introduce a simple and efficient algorithm for unconstrained zeroth-order stochastic convex bandits and prove its regret is at most $(1 + r/d)[d^{1.5} \sqrt{n} + d^3] polylog(n, d, r)$ where $n$ is the horizon, $d$ the dimension and $r$ is the radius of a known ball containing the minimiser of the loss.
翻訳日:2023-02-13 15:14:55 公開日:2023-02-10
# 還元されたgr\"obner基底の濃度の予測

Predicting the cardinality of a reduced Gr\"obner basis ( http://arxiv.org/abs/2302.05364v1 )

ライセンス: Link先を確認
Shahrzad Jamshidi, Eric Kang, and Sonja Petrovi\'c(参考訳) 我々は,二項イデアルのgr\"obner基底の複雑性の重要な指標を予測するために,ansatzニューラルネットワークモデルを用いる。 この研究は、gr\"obner計算によるニューラルネットワークによる予測が単純なプロセスではない理由を説明している。 ランダムな二項イデアルのための2つの確率モデルを用いて、gr\"obner複雑性において十分な可変性をキャプチャできる大きなデータセットを生成し、利用可能にする。 このデータを用いて、ニューラルネットワークをトレーニングし、Gr\"オブナー基底の濃度と、その要素の最大総次数を予測します。 基数予測問題は、機械学習が取り組んだ古典的な問題とは違っているが、シミュレーションによれば、r^2 = 0.401$のようなパフォーマンス統計を提供するニューラルネットワークや、r^2 = 0.180$の複数の回帰モデルよりも優れている。

We use ansatz neural network models to predict key metrics of complexity for Gr\"obner bases of binomial ideals. This work illustrates why predictions with neural networks from Gr\"obner computations are not a straightforward process. Using two probabilistic models for random binomial ideals, we generate and make available a large data set that is able to capture sufficient variability in Gr\"obner complexity. We use this data to train neural networks and predict the cardinality of a reduced Gr\"obner basis and the maximum total degree of its elements. While the cardinality prediction problem is unlike classical problems tackled by machine learning, our simulations show that neural networks, providing performance statistics such as $r^2 = 0.401$, outperform naive guess or multiple regression models with $r^2 = 0.180$.
翻訳日:2023-02-13 15:14:41 公開日:2023-02-10
# 格子qcdにおけるプレコンディショナーとしてのゲージ等価ニューラルネットワーク

Gauge-equivariant neural networks as preconditioners in lattice QCD ( http://arxiv.org/abs/2302.05419v1 )

ライセンス: Link先を確認
Christoph Lehner and Tilo Wettig(参考訳) ゲージ等価ニューラルネットワークを用いて最先端のマルチグリッドプリコンディショナーを効率的に学習できることを実証する。 モデルでは,同じゲージアンサンブルの異なるゲージ構成に対して最小限の再学習が必要であり,アンサンブルパラメータの穏やかな修正の下では,大幅な効率が保たれることを示す。 また,コミュニケーション回避などの重要なパラダイムは,このフレームワークでは容易に実装できることを実証する。

We demonstrate that a state-of-the art multi-grid preconditioner can be learned efficiently by gauge-equivariant neural networks. We show that the models require minimal re-training on different gauge configurations of the same gauge ensemble and to a large extent remain efficient under modest modifications of ensemble parameters. We also demonstrate that important paradigms such as communication avoidance are straightforward to implement in this framework.
翻訳日:2023-02-13 15:09:25 公開日:2023-02-10
# 非iidfederated bilevel learningにおける線形高速化の実現

Achieving Linear Speedup in Non-IID Federated Bilevel Learning ( http://arxiv.org/abs/2302.05412v1 )

ライセンス: Link先を確認
Minhui Huang, Dewei Zhang and Kaiyi Ji(参考訳) フェデレーションバイレベル最適化は、さまざまな新興機械学習および通信アプリケーションで注目を集めている。 近年、フェデレート双レベル最適化問題を解くため、いくつかのヘッセンベクトルに基づくアルゴリズムが提案されている。 しかし、部分的クライアント参加や収束のための線形スピードアップ(サンプリングされたクライアントの数に対して収束率と複雑性が線形に改善される)のような、非i.i.d.~データセットの存在下でのフェデレーション学習におけるいくつかの重要な特性は、依然としてオープンである。 本稿では,フェデレートハイパーグラディエント推定における新しいクライアントサンプリング手法を用いて,FedMBOという新しいフェデレーションバイレベルアルゴリズムを提案することにより,これらのギャップを埋める。 fedmboは非i.i.d.~データセットに対して$\mathcal{o}\big(\frac{1}{\sqrt{nk}}+\frac{1}{k}+\frac{\sqrt{n}}{k^{3/2}}\big)$という収束率を達成している。 これは、非i.d.–Federated bilevel optimizationに対する最初の理論的線形スピードアップ結果である。 広範な実験により理論結果が検証され,提案手法の有効性が実証された。

Federated bilevel optimization has received increasing attention in various emerging machine learning and communication applications. Recently, several Hessian-vector-based algorithms have been proposed to solve the federated bilevel optimization problem. However, several important properties in federated learning such as the partial client participation and the linear speedup for convergence (i.e., the convergence rate and complexity are improved linearly with respect to the number of sampled clients) in the presence of non-i.i.d.~datasets, still remain open. In this paper, we fill these gaps by proposing a new federated bilevel algorithm named FedMBO with a novel client sampling scheme in the federated hypergradient estimation. We show that FedMBO achieves a convergence rate of $\mathcal{O}\big(\frac{1}{\sqrt{nK}}+\frac{1}{K}+\frac{\sqrt{n}}{K^{3/2}}\big)$ on non-i.i.d.~datasets, where $n$ is the number of participating clients in each round, and $K$ is the total number of iteration. This is the first theoretical linear speedup result for non-i.i.d.~federated bilevel optimization. Extensive experiments validate our theoretical results and demonstrate the effectiveness of our proposed method.
翻訳日:2023-02-13 15:09:17 公開日:2023-02-10
# ランドウ・ツェナースイープによるリドバーグ原子対の最大絡み合い

Maximally entangled Rydberg-atom pairs via Landau-Zener sweeps ( http://arxiv.org/abs/2302.05408v1 )

ライセンス: Link先を確認
Dhiya Varghese, Sebastian W\"uster, Weibin Li, and Rejish Nath(参考訳) 我々は,Landau-Zenerスイープによる最大絡み合ったRydberg原子対の形成を解析した。 個体群は長い時間で安定な値に達するが、相は連続的に進化し、絡み合いエントロピーの周期的な振動を引き起こす。 得られた極大絡み合い状態とベル状態との間の局所ユニタリ同値性は多項式不変量を計算することによって検証される。 最後に,ルビジウム原子のリドベルク状態からの自然放出が相関ダイナミクスに及ぼす影響について検討し,高次リドベルク状態に対して振動ダイナミクスが持続することを示す。 我々の研究は、Landau Zener sweepsを通して、Rydberg原子の配列で、最大に絡み合った状態、量子ゲート、エキゾチックな量子物質を生成する新しい方法を提供するかもしれない。

We analyze the formation of maximally entangled Rydberg atom pairs subjected to Landau-Zener sweeps of the atom-light detuning. Though the populations reach a steady value at longer times, the phases evolve continuously, leading to periodic oscillations in the entanglement entropy. The local unitary equivalence between the obtained maximally entangled states and the Bell states is verified by computing the polynomial invariants. Finally, we study the effect of spontaneous emission from the Rydberg state of rubidium atoms on the correlation dynamics and show that the oscillatory dynamics persists for high-lying Rydberg states. Our study may offer novel ways to generate maximally entangled states, quantum gates and exotic quantum matter in arrays of Rydberg atoms through Landau Zener sweeps.
翻訳日:2023-02-13 15:08:50 公開日:2023-02-10
# $k$-core推定器を用いた相関不均質ランダムグラフのマッチング

Matching Correlated Inhomogeneous Random Graphs using the $k$-core Estimator ( http://arxiv.org/abs/2302.05407v1 )

ライセンス: Link先を確認
Mikl\'os Z. R\'acz and Anirudh Sridhar(参考訳) 汎用的不均質構造を持つ2つの辺相関ランダムグラフ間の潜在頂点対応を推定するタスクについて検討する。 いわゆる \emph{$k$-core estimator} は、少なくとも$k$の最低次数を持つ2つのグラフの大きな共通部分グラフを誘導する頂点対応を出力する。 我々は、$k$-core推定器が潜在頂点対応を正確にあるいは部分的に回復する十分な条件を導出する。 最後に, 相関確率ブロックモデル, 相関Chung-Luグラフ, 相関ランダムな幾何グラフの精度と部分的回復について, 新たな結果を得るための一般的な枠組みを考案する。

We consider the task of estimating the latent vertex correspondence between two edge-correlated random graphs with generic, inhomogeneous structure. We study the so-called \emph{$k$-core estimator}, which outputs a vertex correspondence that induces a large, common subgraph of both graphs which has minimum degree at least $k$. We derive sufficient conditions under which the $k$-core estimator exactly or partially recovers the latent vertex correspondence. Finally, we specialize our general framework to derive new results on exact and partial recovery in correlated stochastic block models, correlated Chung-Lu graphs, and correlated random geometric graphs.
翻訳日:2023-02-13 15:08:34 公開日:2023-02-10
# 文脈コモンセンス推論のためのadversarial transformer language model

Adversarial Transformer Language Models for Contextual Commonsense Inference ( http://arxiv.org/abs/2302.05406v1 )

ライセンス: Link先を確認
Pedro Colon-Hernandez, Henry Lieberman, Yida Xin, Claire Yin, Cynthia Breazeal, Peter Chin(参考訳) コンテクスト化または談話 常識推論(concontextized or discourse aware commonsense inference)は、あるストーリーから特定の文と、あるストーリーから、一貫性のあるコモンセンスアサーション(すなわち事実)を生成するタスクである。 課題のいくつかは、推論された事実のトピックに対する制御性の欠如、訓練中の常識的な知識の欠如、そしておそらく幻覚的または偽の事実である。 本研究では,このタスクにトランスフォーマーモデルを用い,上記の問題に対処する手法を開発した。 我々は「ヒンティング」と呼ばれる新しい手法を導入することで推論を制御する。 ヒントは、ハードプロンプト(特定の単語)とソフトプロンプト(仮想学習可能なテンプレート)の両方を利用する、言語モデルプロンプトの一種である。 これは「何を話すか」を言語モデルに助言する制御信号として機能する。 次に,複数のコモンセンス知識ベースと共同推論を行う手法を確立する。 共通感覚の合同推論は不正確であり、一般性のレベルがより柔軟であるため、注意が必要である。 結果がコンテキストに対して“いまだに合理的”であることを確認したいのです。 この目的のために,3つの知識グラフ(ConceptNet,ATOMIC2020,GLUCOSE)からのアサーションのテキストバージョンを,物語と目標文とを一致させる。 この組み合わせにより、1つのモデルをトレーニングして、複数の知識グラフで共同推論を行うことができます。 共同推論における3つの知識グラフの実験結果を示す。 最後のコントリビューションは、文脈化されたコモンセンスアサーションを生成し、識別器を通じてそれらの妥当性を評価するGANアーキテクチャの探索です。 その結果、ストーリーにおける文脈的コモンセンス推論のための統合システムとなり、複数のコモンセンス知識ベース間の共同推論を利用することができる。

Contextualized or discourse aware commonsense inference is the task of generating coherent commonsense assertions (i.e., facts) from a given story, and a particular sentence from that story. Some problems with the task are: lack of controllability for topics of the inferred facts; lack of commonsense knowledge during training; and, possibly, hallucinated or false facts. In this work, we utilize a transformer model for this task and develop techniques to address the aforementioned problems in the task. We control the inference by introducing a new technique we call "hinting". Hinting is a kind of language model prompting, that utilizes both hard prompts (specific words) and soft prompts (virtual learnable templates). This serves as a control signal to advise the language model "what to talk about". Next, we establish a methodology for performing joint inference with multiple commonsense knowledge bases. Joint inference of commonsense requires care, because it is imprecise and the level of generality is more flexible. You want to be sure that the results "still make sense" for the context. To this end, we align the textual version of assertions from three knowledge graphs (ConceptNet, ATOMIC2020, and GLUCOSE) with a story and a target sentence. This combination allows us to train a single model to perform joint inference with multiple knowledge graphs. We show experimental results for the three knowledge graphs on joint inference. Our final contribution is exploring a GAN architecture that generates the contextualized commonsense assertions and scores them as to their plausibility through a discriminator. The result is an integrated system for contextual commonsense inference in stories, that can controllably generate plausible commonsense assertions, and takes advantage of joint inference between multiple commonsense knowledge bases.
翻訳日:2023-02-13 15:08:11 公開日:2023-02-10
# minimaxインストゥルメンタル・レグレッションと$l_2$コンバージェンス保証

Minimax Instrumental Variable Regression and $L_2$ Convergence Guarantees without Identification or Closedness ( http://arxiv.org/abs/2302.05404v1 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Xiaojie Mao, Whitney Newey, Vasilis Syrgkanis, Masatoshi Uehara(参考訳) 本稿では,機器変数(IV)回帰の非パラメトリック推定について検討する。 近年,変数推定のためのフレキシブルな機械学習手法が数多く開発されている。 しかし、これらの方法には少なくとも1つの制限がある:(1)iv回帰を一意的に特定する制限;(2)正当なメトリクス(例えば、$l_2$ norm)ではなく、擬メトリック(例えば、射影ノルム)の項で推定誤差率を得るだけ;(3)ある条件付き期待演算子を十分に滑らかにする必要があるいわゆる閉包条件を設定する。 本稿では, 一般関数近似を許容しながら, 3つの制限をすべて回避できる最初の手法と解析について述べる。 具体的には、複数の解が存在する場合でも、固定IV解に収束できる新しいペナル化ミニマックス推定器を提案し、ラックス条件下では、推定器に対して強い$L_2$誤差率を導出する。 特に、この保証は広く使われるソース条件と実現可能性仮定のみを必要とするが、いわゆるクローズネス条件は必要ではない。 ソース条件とクローズネス条件は本質的に矛盾しているので、後者を緩和することは、両方の条件を必要とする既存の文献を著しく改善する。 提案手法は制約付き最適化問題としてのiv推定問題の新たな定式化を基盤として,この改善を実現する。

In this paper, we study nonparametric estimation of instrumental variable (IV) regressions. Recently, many flexible machine learning methods have been developed for instrumental variable estimation. However, these methods have at least one of the following limitations: (1) restricting the IV regression to be uniquely identified; (2) only obtaining estimation error rates in terms of pseudometrics (\emph{e.g.,} projected norm) rather than valid metrics (\emph{e.g.,} $L_2$ norm); or (3) imposing the so-called closedness condition that requires a certain conditional expectation operator to be sufficiently smooth. In this paper, we present the first method and analysis that can avoid all three limitations, while still permitting general function approximation. Specifically, we propose a new penalized minimax estimator that can converge to a fixed IV solution even when there are multiple solutions, and we derive a strong $L_2$ error rate for our estimator under lax conditions. Notably, this guarantee only needs a widely-used source condition and realizability assumptions, but not the so-called closedness condition. We argue that the source condition and the closedness condition are inherently conflicting, so relaxing the latter significantly improves upon the existing literature that requires both conditions. Our estimator can achieve this improvement because it builds on a novel formulation of the IV estimation problem as a constrained optimization problem.
翻訳日:2023-02-13 15:07:31 公開日:2023-02-10
# DNArch: バックプロパゲーションによる畳み込みニューラルネットワークの学習

DNArch: Learning Convolutional Neural Architectures by Backpropagation ( http://arxiv.org/abs/2302.05400v1 )

ライセンス: Link先を確認
David W. Romero, Neil Zeghidour(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の重みとアーキテクチャをバックプロパゲーションによって共同で学習する,微分可能なニューラルネットワーク(DNArch)を提案する。 特にDNArchは学習を可能にする (i)各層における畳み込み核の大きさ (ii)各層におけるチャネルの数。 (iii)ダウンサンプリング層の位置と値、 (iv)ネットワークの深さ。 この目的のために、dnarchはニューラルネットワークを連続的な多次元エンティティとして捉え、各次元に沿って学習可能な微分可能なマスクを使用してサイズを制御する。 既存の方法とは異なり、dnarchは予め定義されたニューラルネットワークのセットに限定されるのではなく、カーネルサイズ、幅、深さ、ダウンサンプリングのあらゆる組み合わせでcnnアーキテクチャ全体を検出できる。 経験的にdnarchは、シーケンシャルデータとイメージデータの両方において、いくつかの分類と密集した予測タスクのためのパフォーマンスの高いcnnアーキテクチャを見つける。 ネットワークの複雑さを考える損失項と組み合わせると、dnarchは事前定義された計算予算を尊重する強力なアーキテクチャを見つける。

We present Differentiable Neural Architectures (DNArch), a method that jointly learns the weights and the architecture of Convolutional Neural Networks (CNNs) by backpropagation. In particular, DNArch allows learning (i) the size of convolutional kernels at each layer, (ii) the number of channels at each layer, (iii) the position and values of downsampling layers, and (iv) the depth of the network. To this end, DNArch views neural architectures as continuous multidimensional entities, and uses learnable differentiable masks along each dimension to control their size. Unlike existing methods, DNArch is not limited to a predefined set of possible neural components, but instead it is able to discover entire CNN architectures across all combinations of kernel sizes, widths, depths and downsampling. Empirically, DNArch finds performant CNN architectures for several classification and dense prediction tasks on both sequential and image data. When combined with a loss term that considers the network complexity, DNArch finds powerful architectures that respect a predefined computational budget.
翻訳日:2023-02-13 15:07:01 公開日:2023-02-10
# ポストトレーニング量子化のための実用的混合精度アルゴリズム

A Practical Mixed Precision Algorithm for Post-Training Quantization ( http://arxiv.org/abs/2302.05397v1 )

ライセンス: Link先を確認
Nilesh Prasad Pandey, Markus Nagel, Mart van Baalen, Yin Huang, Chirag Patel, Tijmen Blankevoort(参考訳) ニューラルネットワークの量子化は、ニューラルネットワークのオンデバイスデプロイメントのモデルサイズ、レイテンシ、消費電力を最適化するために頻繁に使用される。 多くの場合、ターゲットのビット幅はネットワーク全体に対して設定され、すべての層は同じビット数に量子化される。 しかし、多くのネットワークでは、いくつかの層は他の層よりも量子化ノイズに対してかなり頑健であり、重要な改善軸が使われていない。 多くのハードウェアソリューションが複数の異なるビット幅設定を提供するため、混合精度量子化は均質量子化よりも優れた性能効率のトレードオフを見つけるための有望なソリューションとして現れてきた。 しかし、既存の混合精度アルゴリズムの多くは、トレーニングデータへのアクセスが必要であり、モデルのエンドツーエンド再トレーニングに依存する多くのハイパーパラメータを持つため、実践者にとって使いづらい。 本研究では,デバイス上での動作に適した各層に適したビット幅を自動的に選択するために,小さなラベル付きキャリブレーションデータセットのみを必要とする簡易な学習後混合精度アルゴリズムを提案する。 このアルゴリズムはハイパーパラメータチューニングを必要とせず,データ変動に頑健であり,実用的なハードウェアデプロイメント制約を考慮に入れれば,実用的利用の候補として優れたものとなる。 提案手法を複数のコンピュータビジョンタスク,自然言語処理タスク,多数の異なるネットワーク上で実験的に検証し,同質なビット幅の等価値よりも精度と効率のトレードオフがよい混合精度ネットワークを実現できることを示す。

Neural network quantization is frequently used to optimize model size, latency and power consumption for on-device deployment of neural networks. In many cases, a target bit-width is set for an entire network, meaning every layer get quantized to the same number of bits. However, for many networks some layers are significantly more robust to quantization noise than others, leaving an important axis of improvement unused. As many hardware solutions provide multiple different bit-width settings, mixed-precision quantization has emerged as a promising solution to find a better performance-efficiency trade-off than homogeneous quantization. However, most existing mixed precision algorithms are rather difficult to use for practitioners as they require access to the training data, have many hyper-parameters to tune or even depend on end-to-end retraining of the entire model. In this work, we present a simple post-training mixed precision algorithm that only requires a small unlabeled calibration dataset to automatically select suitable bit-widths for each layer for desirable on-device performance. Our algorithm requires no hyper-parameter tuning, is robust to data variation and takes into account practical hardware deployment constraints making it a great candidate for practical use. We experimentally validate our proposed method on several computer vision tasks, natural language processing tasks and many different networks, and show that we can find mixed precision networks that provide a better trade-off between accuracy and efficiency than their homogeneous bit-width equivalents.
翻訳日:2023-02-13 15:06:43 公開日:2023-02-10
# GTR-CTRL:変圧器を用いたギター焦点音楽生成のための楽器とジェネリコンディショニング

GTR-CTRL: Instrument and Genre Conditioning for Guitar-Focused Music Generation with Transformers ( http://arxiv.org/abs/2302.05393v1 )

ライセンス: Link先を確認
Pedro Sarmento, Adarsh Kumar, Yu-Hua Chen, CJ Carr, Zack Zukowski, Mathieu Barthet(参考訳) 近年,深層学習技術を用いたシンボリック音楽生成が着実に改善されている。 このトピックに関するほとんどの研究はMIDI表現に焦点を当てているが、複数の楽器をエンコードできるギタータブー(tab)を使用してシンボリック音楽生成にはあまり注目されていない。 タブには、リズムやピッチに加えて、フレット弦楽器の表現技法や指先に関する情報が含まれている。 本研究では,guitar tab music生成のためのdadagpデータセットを用いて,guitarproとトークンフォーマットによる26k曲以上のコーパスを生成する。 本稿では,インスツルメンテーション (inst-ctrl) とジャンル (genre-ctrl) に基づくギタータブ (gtr-ctrl) を生成するために,transformer-xl深層学習モデルを条件付ける手法を提案する。 特別なコントロールトークンは、トレーニングコーパスに各曲の開始時に付加される。 条件付きおよび無条件でモデルの性能を評価する。 Inst-CTRLモデルに対して,所定のインスツルメンテーションプロンプトに対する応答を評価する尺度を提案する。 我々は、下流ジャンル分類のためのBERTモデルを訓練し、ジャンル-CTRLモデルを用いて得られた結果を評価する。 統計的分析は、条件付きモデルと条件なしモデルの間に顕著な違いを証明している。 その結果、GTR-CTRL法は、無条件モデルよりもギター中心のシンボリック・ミュージック・ジェネレーションの柔軟性と制御性が高いことが示唆された。

Recently, symbolic music generation with deep learning techniques has witnessed steady improvements. Most works on this topic focus on MIDI representations, but less attention has been paid to symbolic music generation using guitar tablatures (tabs) which can be used to encode multiple instruments. Tabs include information on expressive techniques and fingerings for fretted string instruments in addition to rhythm and pitch. In this work, we use the DadaGP dataset for guitar tab music generation, a corpus of over 26k songs in GuitarPro and token formats. We introduce methods to condition a Transformer-XL deep learning model to generate guitar tabs (GTR-CTRL) based on desired instrumentation (inst-CTRL) and genre (genre-CTRL). Special control tokens are appended at the beginning of each song in the training corpus. We assess the performance of the model with and without conditioning. We propose instrument presence metrics to assess the inst-CTRL model's response to a given instrumentation prompt. We trained a BERT model for downstream genre classification and used it to assess the results obtained with the genre-CTRL model. Statistical analyses evidence significant differences between the conditioned and unconditioned models. Overall, results indicate that the GTR-CTRL methods provide more flexibility and control for guitar-focused symbolic music generation than an unconditioned model.
翻訳日:2023-02-13 15:06:18 公開日:2023-02-10
# 情報の生成と圧縮によるスパンに基づく名前付きエンティティ認識

Span-based Named Entity Recognition by Generating and Compressing Information ( http://arxiv.org/abs/2302.05392v1 )

ライセンス: Link先を確認
Nhung T.H. Nguyen, Makoto Miwa and Sophia Ananiadou(参考訳) 情報ボトルネック(IB)の原理は様々なNLPアプリケーションで有効であることが証明されている。 しかし、既存の作業では、ターゲットタスクの性能を改善するために生成的または情報圧縮モデルのみを使用していた。 本稿では,2種類のIBモデルを一つのシステムに統合し,名前付きエンティティ認識(NER)を強化することを提案する。 ibモデルの1つのタイプでは、スパン再構成とシノニム生成という2つの教師なし生成成分をスパンベースのnerシステムに組み込む。 スパン再構成は文脈化されたスパン表現がスパン情報を保持することを保証し、同義語生成は異なる文脈においても類似した表現を持つ。 他のタイプのIBモデルでは、システムに情報圧縮を行う教師付きIB層を追加し、結果のスパン表現におけるNERの有用な特徴を保存する。 5つの異なるコーパスの実験は、生成モデルと情報圧縮モデルの両方を共同で訓練することで、ベースラインスパンベースのNERシステムの性能を向上させることができることを示している。 ソースコードはhttps://github.com/nguyennth/joint-ib-modelsで公開しています。

The information bottleneck (IB) principle has been proven effective in various NLP applications. The existing work, however, only used either generative or information compression models to improve the performance of the target task. In this paper, we propose to combine the two types of IB models into one system to enhance Named Entity Recognition (NER). For one type of IB model, we incorporate two unsupervised generative components, span reconstruction and synonym generation, into a span-based NER system. The span reconstruction ensures that the contextualised span representation keeps the span information, while the synonym generation makes synonyms have similar representations even in different contexts. For the other type of IB model, we add a supervised IB layer that performs information compression into the system to preserve useful features for NER in the resulting span representations. Experiments on five different corpora indicate that jointly training both generative and information compression models can enhance the performance of the baseline span-based NER system. Our source code is publicly available at https://github.com/nguyennth/joint-ib-models.
翻訳日:2023-02-13 15:05:53 公開日:2023-02-10
# q-match: キューによるマッチング分布による自己教師付き学習

Q-Match: Self-supervised Learning by Matching Distributions Induced by a Queue ( http://arxiv.org/abs/2302.05444v1 )

ライセンス: Link先を確認
Thomas Mulc and Debidatta Dwibedi(参考訳) 半教師付き学習において,教師と教師の分散マッチングは,ラベルなしデータと少数のラベル付きサンプルを用いたモデルの性能向上に成功している。 本稿では,事前学習中にラベル付きデータにアクセスできない自己教師付きセットアップで,その成功を再現することを目的とする。 提案手法であるqマッチングを導入し,ラベルなしデータセットからのサンプル埋め込みのキューを用いて,ダウンストリームクラスの知識を必要とせずに,生徒-教師分布を誘導できることを示す。 本研究は, 表形式のデータセットに着目し, 下流分類性能の測定において, Q-Matchが従来の自己教師付き学習技術より優れていることを示す。 さらに,提案手法は,ダウンストリームトレーニングに必要なラベルと事前トレーニングに必要なラベルなしデータ量の両方について,効率的なサンプル分析を行い,ラベル付きデータとラベルなしデータの両方のサイズによく適合することを示す。

In semi-supervised learning, student-teacher distribution matching has been successful in improving performance of models using unlabeled data in conjunction with few labeled samples. In this paper, we aim to replicate that success in the self-supervised setup where we do not have access to any labeled data during pre-training. We introduce our algorithm, Q-Match, and show it is possible to induce the student-teacher distributions without any knowledge of downstream classes by using a queue of embeddings of samples from the unlabeled dataset. We focus our study on tabular datasets and show that Q-Match outperforms previous self-supervised learning techniques when measuring downstream classification performance. Furthermore, we show that our method is sample efficient--in terms of both the labels required for downstream training and the amount of unlabeled data required for pre-training--and scales well to the sizes of both the labeled and unlabeled data.
翻訳日:2023-02-13 14:59:16 公開日:2023-02-10
# ビジョントランスを22億パラメータに拡張する

Scaling Vision Transformers to 22 Billion Parameters ( http://arxiv.org/abs/2302.05442v1 )

ライセンス: Link先を確認
Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Steiner, Mathilde Caron, Robert Geirhos, Ibrahim Alabdulmohsin, Rodolphe Jenatton, Lucas Beyer, Michael Tschannen, Anurag Arnab, Xiao Wang, Carlos Riquelme, Matthias Minderer, Joan Puigcerver, Utku Evci, Manoj Kumar, Sjoerd van Steenkiste, Gamaleldin F. Elsayed, Aravindh Mahendran, Fisher Yu, Avital Oliver, Fantine Huot, Jasmijn Bastings, Mark Patrick Collier, Alexey Gritsenko, Vighnesh Birodkar, Cristina Vasconcelos, Yi Tay, Thomas Mensink, Alexander Kolesnikov, Filip Paveti\'c, Dustin Tran, Thomas Kipf, Mario Lu\v{c}i\'c, Xiaohua Zhai, Daniel Keysers, Jeremiah Harmsen, Neil Houlsby(参考訳) Transformerのスケーリングは、言語モデルの画期的な機能を生み出した。 現在、最大の大規模言語モデル(LLM)は100B以上のパラメータを含む。 Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、これらのアーキテクチャは未だほぼ同じ程度に拡張されておらず、最大密度のViTは4Bパラメータを含む(Chen et al., 2022)。 本研究では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案し,その結果のモデルについて多種多様な実験を行った。 下流タスク(しばしば凍結した特徴に対する軽量線形モデルで評価される)で評価すると、ViT-22Bはスケールによる性能向上を示す。 さらに、フェアネスとパフォーマンスのトレードオフの改善、形状/テクスチャバイアスによる人間の視覚知覚への最先端のアライメント、ロバストネスの改善など、スケールの他の興味深いメリットも観察する。 ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。

The scaling of Transformers has driven breakthrough capabilities for language models. At present, the largest large language models (LLMs) contain upwards of 100B parameters. Vision Transformers (ViT) have introduced the same architecture to image and video modelling, but these have not yet been successfully scaled to nearly the same degree; the largest dense ViT contains 4B parameters (Chen et al., 2022). We present a recipe for highly efficient and stable training of a 22B-parameter ViT (ViT-22B) and perform a wide variety of experiments on the resulting model. When evaluated on downstream tasks (often with a lightweight linear model on frozen features), ViT-22B demonstrates increasing performance with scale. We further observe other interesting benefits of scale, including an improved tradeoff between fairness and performance, state-of-the-art alignment to human visual perception in terms of shape/texture bias, and improved robustness. ViT-22B demonstrates the potential for "LLM-like" scaling in vision, and provides key steps towards getting there.
翻訳日:2023-02-13 14:58:58 公開日:2023-02-10
# Project and Probe: 直交的特徴補間によるサンプル効率の良いドメイン適応

Project and Probe: Sample-Efficient Domain Adaptation by Interpolating Orthogonal Features ( http://arxiv.org/abs/2302.05441v1 )

ライセンス: Link先を確認
Annie S. Chen, Yoonho Lee, Amrith Setlur, Sergey Levine, Chelsea Finn(参考訳) 従来のロバスト性へのアプローチは、因果的特徴に基づいてモデルを学習しようとする。 しかし、最大で堅牢な特徴や因果的な特徴を特定することは、いくつかのシナリオでは難しく、また別のシナリオでは、非因果的な「ショートカット」機能の方が実際より予測力が高いかもしれない。 多様な特徴の集合を学習し、これらの特徴を小さなターゲットデータセットで補間することにより、目標分布に適応する軽量でサンプル効率のアプローチを提案する。 当社のアプローチであるProject and Probe(Pro$^2$)は、まず、ソースデータセット内のラベルを予測しながら、トレーニング済みの埋め込みを直交方向へマッピングする線形射影を学習する。 このステップの目標は、さまざまな予測機能を学ぶことにある。 Pro$^2$は、小さなターゲットデータセットを使用して、これらの投影された機能の上に線形分類器を学ぶ。 理論的には、pro$^2$は情報理論的な意味で分類に最適な投影行列を学習し、有利なバイアス分散トレードオフによりより良い一般化をもたらす。 分散シフトを複数設定した4つのデータセットを実験した結果、pro$^2$は、標準線形プローブのような従来の方法と比較して、ターゲットデータに制限のある場合に5~15%性能が向上することが示された。

Conventional approaches to robustness try to learn a model based on causal features. However, identifying maximally robust or causal features may be difficult in some scenarios, and in others, non-causal "shortcut" features may actually be more predictive. We propose a lightweight, sample-efficient approach that learns a diverse set of features and adapts to a target distribution by interpolating these features with a small target dataset. Our approach, Project and Probe (Pro$^2$), first learns a linear projection that maps a pre-trained embedding onto orthogonal directions while being predictive of labels in the source dataset. The goal of this step is to learn a variety of predictive features, so that at least some of them remain useful after distribution shift. Pro$^2$ then learns a linear classifier on top of these projected features using a small target dataset. We theoretically show that Pro$^2$ learns a projection matrix that is optimal for classification in an information-theoretic sense, resulting in better generalization due to a favorable bias-variance tradeoff. Our experiments on four datasets, with multiple distribution shift settings for each, show that Pro$^2$ improves performance by 5-15% when given limited target data compared to prior methods such as standard linear probing.
翻訳日:2023-02-13 14:58:39 公開日:2023-02-10
# トップダウンフィードバックを用いたフォワード学習:実証的・解析的評価

Forward Learning with Top-Down Feedback: Empirical and Analytical Characterization ( http://arxiv.org/abs/2302.05440v1 )

ライセンス: Link先を確認
Ravi Francesco Srinivasan, Francesca Mignacco, Martino Sorbaro, Maria Refinetti, Avi Cooper, Gabriel Kreiman, Giorgia Dellaferrera(参考訳) 後進パスを避けながらニューラルネットワークを訓練する「前方専用」アルゴリズムは、最近、生物学的に非現実的なバックプロパゲーションの問題を解決する方法として注目されている。 本稿では、まず、フォワード-フォワードとPEPITAの2つのアルゴリズムの類似性について論じ、PEPITAがトップダウンのフィードバック接続を持つフォワード-フォワードと等価であることを示す。 次に、pepitaに着目して、そのダイナミクスの分析的理解を提供し、パフォーマンスとバックプロパゲーションのギャップを減らすことを含む、"フォワードのみ"ルールに関連する説得力のある課題に取り組む。 本稿ではPEPITAの力学に関する理論的解析を提案する。 特に,pepitaは"adaptive-feedback-alignment"アルゴリズムで近似しており,プロトタイプの高次元環境での学習時の性能を解析的に追跡する。 最後に、トップダウンフィードバックを用いた「前方のみ」アルゴリズムに重みミラーアルゴリズムを適用し、PEPITAの精度と収束率にどのように影響するかを示す。

"Forward-only" algorithms, which train neural networks while avoiding a backward pass, have recently gained attention as a way of solving the biologically unrealistic aspects of backpropagation. Here, we first discuss the similarities between two "forward-only" algorithms, the Forward-Forward and PEPITA frameworks, and demonstrate that PEPITA is equivalent to a Forward-Forward with top-down feedback connections. Then, we focus on PEPITA to address compelling challenges related to the "forward-only" rules, which include providing an analytical understanding of their dynamics and reducing the gap between their performance and that of backpropagation. We propose a theoretical analysis of the dynamics of PEPITA. In particular, we show that PEPITA is well-approximated by an "adaptive-feedback-alignment" algorithm and we analytically track its performance during learning in a prototype high-dimensional setting. Finally, we develop a strategy to apply the weight mirroring algorithm on "forward-only" algorithms with top-down feedback and we show how it impacts PEPITA's accuracy and convergence rate.
翻訳日:2023-02-13 14:58:16 公開日:2023-02-10
# 形状の暗黙的神経表現に関する深層学習

Deep Learning on Implicit Neural Representations of Shapes ( http://arxiv.org/abs/2302.05438v1 )

ライセンス: Link先を確認
Luca De Luigi, Adriano Cardace, Riccardo Spezialetti, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) Inlicit Neural Representations(INR)は、画像、ビデオ、オーディオ、三次元形状など、さまざまな信号を継続的にエンコードする強力なツールとして、ここ数年で登場した。 3次元形状に適用すると、INRはこれまでに使われている一般的な離散表現の断片化と欠点を克服することができる。 しかし、インサーがニューラルネットワークで構成されていることを考慮すると、下流のタスクを解決することを目的としたディープラーニングパイプラインにそれらを供給することができるかどうかと方法が明確ではない。 本稿では,入力INRに対して単一の推論パスでコンパクトな潜在表現を計算可能なフレームワークであるinr2vecを提案する。 Inr2vecは入力INRで表される3次元形状を効果的に埋め込み、生成した埋め込みをディープラーニングパイプラインに供給して、INRのみを処理して複数のタスクを解く方法を示す。

Implicit Neural Representations (INRs) have emerged in the last few years as a powerful tool to encode continuously a variety of different signals like images, videos, audio and 3D shapes. When applied to 3D shapes, INRs allow to overcome the fragmentation and shortcomings of the popular discrete representations used so far. Yet, considering that INRs consist in neural networks, it is not clear whether and how it may be possible to feed them into deep learning pipelines aimed at solving a downstream task. In this paper, we put forward this research problem and propose inr2vec, a framework that can compute a compact latent representation for an input INR in a single inference pass. We verify that inr2vec can embed effectively the 3D shapes represented by the input INRs and show how the produced embeddings can be fed into deep learning pipelines to solve several tasks by processing exclusively INRs.
翻訳日:2023-02-13 14:57:54 公開日:2023-02-10
# 選択的畳み込みブロックを用いた塩・ペッパーノイズ除去のための深層畳み込みニューラルネットワーク

A deep convolutional neural network for salt-and-pepper noise removal using selective convolutional blocks ( http://arxiv.org/abs/2302.05435v1 )

ライセンス: Link先を確認
Ahmad Ali Rafiee, Mahmoud Farhang(参考訳) 近年、画像の分別問題を解くために、深層学習アプローチ、特に畳み込みニューラルネットワーク(cnns)を適用することは、その優れた性能のために前例のない進歩を遂げている。 しかし、CNNは主にガウスノイズに依存しており、SAP(Salt-and-Pepper)ノイズ低減のためにCNNを悪用する顕著な欠陥がある。 本稿では,グレースケールおよびカラー画像におけるSAPノイズを抑制するための深層CNNモデル,すなわちSeConvNetを提案する。 この目的を達成するために、新しい選択畳み込みブロック(SeConv)を導入する。 SeConvNetは、様々な共通のデータセットに関する広範な実験を用いて、最先端のSAP復調手法と比較される。 その結果,提案したSeConvNetモデルは,SAPノイズによる画像の劣化を効果的に回復し,特に高密度・高密度で,定量的基準と視覚効果の両方で,その画像の全てを上回ります。

In recent years, there has been an unprecedented upsurge in applying deep learning approaches, specifically convolutional neural networks (CNNs), to solve image denoising problems, owing to their superior performance. However, CNNs mostly rely on Gaussian noise, and there is a conspicuous lack of exploiting CNNs for salt-and-pepper (SAP) noise reduction. In this paper, we proposed a deep CNN model, namely SeConvNet, to suppress SAP noise in gray-scale and color images. To meet this objective, we introduce a new selective convolutional (SeConv) block. SeConvNet is compared to state-of-the-art SAP denoising methods using extensive experiments on various common datasets. The results illustrate that the proposed SeConvNet model effectively restores images corrupted by SAP noise and surpasses all its counterparts at both quantitative criteria and visual effects, especially at high and very high noise densities.
翻訳日:2023-02-13 14:57:39 公開日:2023-02-10
# 自動機械学習における統一関数ハッシュ

Unified Functional Hashing in Automatic Machine Learning ( http://arxiv.org/abs/2302.05433v1 )

ライセンス: Link先を確認
Ryan Gillard, Stephen Jonany, Yingjie Miao, Michael Munn, Connal de Souza, Jonathan Dungay, Chen Liang, David R. So, Quoc V. Le, and Esteban Real(参考訳) 最近、AutoML(Automatic Machine Learning)の分野は、ニューラルイメージ分類器のような最先端の機械学習ソリューションの発見など、印象的な結果を得た。 これはしばしば、大きな空間から複数の候補解をサンプリングし、長い訓練プロセスを通じて各候補の品質を評価する進化的探索法を適用することによって行われる。 その結果、検索は遅くなる傾向にある。 本稿では,高速に統一された関数ハッシュを用いることで,特に機能等価キャッシング技術を用いて大きな効率向上が得られることを示す。 中心となる考え方は、探索手法が等価な候補を生成するときのハッシュによる検出であり、これは非常に頻繁に発生するため、コストのかかる再評価を避けることができる。 我々のハッシュは、それらが異なる表現や符号化されたとしても同等の候補を識別し、同じアルゴリズムが任意の表現(例えば計算グラフ、命令コード、ラムダ関数)をハッシュできるという点で「統一」されている。 証拠として、ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインに対する劇的な改善を示す。 最後に,ハッシュ衝突,評価雑音,探索分布の影響を経験的解析により検討する。 いずれにせよ、この論文がAutoMLのハッシュテクニックのガイドになることを期待している。

The field of Automatic Machine Learning (AutoML) has recently attained impressive results, including the discovery of state-of-the-art machine learning solutions, such as neural image classifiers. This is often done by applying an evolutionary search method, which samples multiple candidate solutions from a large space and evaluates the quality of each candidate through a long training process. As a result, the search tends to be slow. In this paper, we show that large efficiency gains can be obtained by employing a fast unified functional hash, especially through the functional equivalence caching technique, which we also present. The central idea is to detect by hashing when the search method produces equivalent candidates, which occurs very frequently, and this way avoid their costly re-evaluation. Our hash is "functional" in that it identifies equivalent candidates even if they were represented or coded differently, and it is "unified" in that the same algorithm can hash arbitrary representations; e.g. compute graphs, imperative code, or lambda functions. As evidence, we show dramatic improvements on multiple AutoML domains, including neural architecture search and algorithm discovery. Finally, we consider the effect of hash collisions, evaluation noise, and search distribution through empirical analysis. Altogether, we hope this paper may serve as a guide to hashing techniques in AutoML.
翻訳日:2023-02-13 14:57:20 公開日:2023-02-10
# ディス類似係数におけるバイアスの処理:ホワイトマター病変セグメンテーションのためのnDSCの導入

Tackling Bias in the Dice Similarity Coefficient: Introducing nDSC for White Matter Lesion Segmentation ( http://arxiv.org/abs/2302.05432v1 )

ライセンス: Link先を確認
Vatsal Raina, Nataliia Molchanova, Mara Graziani, Andrey Malinin, Henning Muller, Meritxell Bach Cuadra, Mark Gales(参考訳) 医用画像の自動セグメンテーション技術の開発には, 評価基準を用いて, 評価手法を適切に判断し, ランク付けする必要がある。 Dice similarity Coefficient (DSC) は、予測されたセグメンテーションと接地トラスマスクとの合意を比較するための一般的な選択である。 しかし, DSC測定値は, ゼロトラストにおける正のクラスの発生率に偏りがあることが示されており, その他の指標と組み合わせて考える必要がある。 本研究は,最近提案されている二分セグメンテーションタスクの正規化dice類似度係数(ndsc)の詳細な解析を,このバイアスに対処するために固定リコールレートで精度をスケールするdscの適応として記述する。 多発性硬化症患者のMRI画像における白質病変のセグメンテーションを事例として,nDSCの有用性を実証的に評価する。 59例の被験者を対象とし, 広範囲の病変負荷を伴う2種類のモデルを用いて正常化DSCを検証した。 標準ランク相関係数を用いて測定した標準ホワイトマター病変セグメンテーションベンチマークにおいて,nDSCはDSCよりもバイアスが少ないことがわかった。 nDSCの実装は、https://github.com/NataliiaMolch/nDSCで公開されている。

The development of automatic segmentation techniques for medical imaging tasks requires assessment metrics to fairly judge and rank such approaches on benchmarks. The Dice Similarity Coefficient (DSC) is a popular choice for comparing the agreement between the predicted segmentation against a ground-truth mask. However, the DSC metric has been shown to be biased to the occurrence rate of the positive class in the ground-truth, and hence should be considered in combination with other metrics. This work describes a detailed analysis of the recently proposed normalised Dice Similarity Coefficient (nDSC) for binary segmentation tasks as an adaptation of DSC which scales the precision at a fixed recall rate to tackle this bias. White matter lesion segmentation on magnetic resonance images of multiple sclerosis patients is selected as a case study task to empirically assess the suitability of nDSC. We validate the normalised DSC using two different models across 59 subject scans with a wide range of lesion loads. It is found that the nDSC is less biased than DSC with lesion load on standard white matter lesion segmentation benchmarks measured using standard rank correlation coefficients. An implementation of nDSC is made available at: https://github.com/NataliiaMolch/nDSC .
翻訳日:2023-02-13 14:56:59 公開日:2023-02-10
# Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making

Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making ( http://arxiv.org/abs/2302.05430v1 )

ライセンス: Link先を確認
Adam Block, Alexander Rakhlin, and Max Simchowitz(参考訳) スムースなオンライン学習は、古典的な学習から逆の学習へと移行するときに生じる統計的および計算的複雑さのかなりの損失を軽減するために人気のあるフレームワークとして登場した。 残念なことに、いくつかの空間において、効率的なアルゴリズムは、学習者が空間上の最適化オラクルにアクセスしたとしても、ミニマックス最適であるよりも指数関数的に悪い後悔を被っていることが示されている。 指数関数的依存を緩和するため、本研究では、複雑性の新しい概念である一般化括弧数を導入し、空間の大きさに対する敵の制約を結婚させ、後続のリーダーのインスタンス化が、oracleが平均的な後悔に対して最適にスケーリングする最適化の呼び出し数で低い後悔を得ることができることを示す。 そして、オンラインの予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化し、計量学やロボット工学のような分野に多くの応用がある。

Smoothed online learning has emerged as a popular framework to mitigate the substantial loss in statistical and computational complexity that arises when one moves from classical to adversarial learning. Unfortunately, for some spaces, it has been shown that efficient algorithms suffer an exponentially worse regret than that which is minimax optimal, even when the learner has access to an optimization oracle over the space. To mitigate that exponential dependence, this work introduces a new notion of complexity, the generalized bracketing numbers, which marries constraints on the adversary to the size of the space, and shows that an instantiation of Follow-the-Perturbed-Leader can attain low regret with the number of calls to the optimization oracle scaling optimally with respect to average regret. We then instantiate our bounds in several problems of interest, including online prediction and planning of piecewise continuous functions, which has many applications in fields as diverse as econometrics and robotics.
翻訳日:2023-02-13 14:56:36 公開日:2023-02-10
# 層注意によるクロスレイヤレトロスペクティブ検索

Cross-Layer Retrospective Retrieving via Layer Attention ( http://arxiv.org/abs/2302.03985v3 )

ライセンス: Link先を確認
Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li(参考訳) 層間相互作用の強化はディープニューラルネットワークの表現力を高め、自己注意はクエリアクティベートされた情報を取得することによって相互依存の学習に長けている、という証拠がますます増えている。 そこで我々は,マルチヘッドリカレント層アテンション (mrla) と呼ばれる層間アテンション機構を考案し,この機構により,従来のすべてのレイヤに現在のレイヤのクエリ表現を送信し,さまざまなレベルのレセプティブフィールドからクエリ関連情報を取得する。 また,2次計算コストを削減するため,MRLAの軽量バージョンも提案されている。 提案されたレイヤアテンション機構は、cnnや視覚トランスフォーマーなど、最先端のビジョンネットワークの表現力を増強することができる。 その効果は画像分類、オブジェクト検出、インスタンス分割タスクにおいて広く評価されており、改善は一貫して観察できる。 例えば、MRLAはResNet-50で1.6%のTop-1精度を向上でき、0.16Mパラメータと0.07B FLOPしか導入できない。 驚くべきことに、密度の高い予測タスクにおいて、パフォーマンスを3.4%のボックスAPとマスクAPの大きなマージンで向上させることができる。 私たちのコードはhttps://github.com/joyfang1106/MRLAで利用可能です。

More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.
翻訳日:2023-02-13 12:14:33 公開日:2023-02-10
# 正方形および三角形格子上の近藤格子モデルのドニハ位相図

Doniach phase diagram for Kondo lattice model on the square and triangular lattices ( http://arxiv.org/abs/2302.04660v2 )

ライセンス: Link先を確認
Ruixiang Zhou, Xuefeng Zhang, and Gang Li(参考訳) 幾何学的フラストレーションは反強磁性(AFM)コンド格子モデル(KLM)に新たな競合エネルギースケールを加える。 本研究では,同じ理論枠組みにおける正方格子および三角形格子上のドニハ位相図を体系的に研究し,その2つの格子上での予期せぬ応答を明らかにする。 幾何学的フラストレーションによって生じるポテンシャルエネルギーは、半充填三角形格子上の長距離反強磁性(AFM)秩序を完全に抑制するRuderman-Kittel-Kasuya-Yosida (RKKY)結合に匹敵する。 一方、正方格子上では、長距離AFM順序はRKKYと近藤結合の従来の競合をうまく確立し、構成する。 三角形格子上の幾何学的フラストレーションは、2つの異なる磁気秩序が予期せず現れる穴をあけると部分的に解放される。 2つの順序は相互作用するフェルミ曲面の位相と密接に関連している。 2つの格子上のKLMの包括的比較は、幾何学的フラストレーション、RKKY、近藤結合の低次元システムにおける重要な競合だけでなく、関連する材料における新しい位相の発見にも光を当てる。

Geometric frustration adds a new competing energy scale to the antiferromagnetic (AFM) Kondo lattice model (KLM). In this work, we systematically study the doniach phase diagram on the square and triangular lattices in the same theoretical framework and reveal unexpected responses of it on the two lattices. The potential energy created by the geometric frustration is comparable to the Ruderman-Kittel-Kasuya-Yosida (RKKY) coupling, which completely suppresses the long-range antiferromagnetic (AFM) order on the half-filled triangular lattice. While, on the square lattice, the long-range AFM order successfully establishes and constitutes the conventional competition between the RKKY and Kondo couplings. The geometrical frustration on the triangular lattice is partially released when doped with holes, in which two different magnetic orders emerge unexpectedly. The two orders closely relate to the topology of the interacting Fermi surface. Our comprehensive comparison of the KLM on the two lattices not only reveals a significant competition of geometric frustration, RKKY, and Kondo couplings on low-dimensional systems but also sheds light on experimentally finding new phases in related materials.
翻訳日:2023-02-13 12:05:37 公開日:2023-02-10
# Node-to-Nebourhoodアライメントによる自己教師付きノード表現学習

Self-Supervised Node Representation Learning via Node-to-Neighbourhood Alignment ( http://arxiv.org/abs/2302.04626v2 )

ライセンス: Link先を確認
Wei Dong, Dawei Yan, and Peng Wang(参考訳) 自己教師付きノード表現学習は、教師付きノードと競合する未ラベルグラフからノード表現を学ぶことを目的としている。 情報ノード表現を学習する鍵は、グラフ構造からコンテキスト情報を効果的に取得する方法にある。 本研究では,ノードとその周辺領域の隠蔽表現を整列させることにより,簡便な自己教師付きノード表現学習を提案する。 我々の最初のアイデアは、それらの表現間の相互情報を直接的に最大化することで、そのようなノード間アライメントを実現する。 提案手法は,ノード間の構造的依存関係を考慮し,オフラインの正の選択を可能にすることにより,正のサンプリングを行うため,サーロゲートコントラスト損失とトポロジー認識正サンプリング(taps)戦略によって最適化されている。 コントラスト学習の過剰なメモリオーバーヘッドを考慮すると、グラフ信号デコレーション(GSD)制約が表現の崩壊や過度なスムース化を避けるために、負のフリーソリューションを提案する。 GSD制約は既存の制約の一部を統一し、表現の崩壊と戦うために新しい実装を導出するために使用できる。 本手法を単純なmlpベースのノード表現エンコーダ上に適用することにより,小規模から大規模までのグラフ構造データセット上で有望なノード分類性能を実現するノード表現を学習する。

Self-supervised node representation learning aims to learn node representations from unlabelled graphs that rival the supervised counterparts. The key towards learning informative node representations lies in how to effectively gain contextual information from the graph structure. In this work, we present simple-yet-effective self-supervised node representation learning via aligning the hidden representations of nodes and their neighbourhood. Our first idea achieves such node-to-neighbourhood alignment by directly maximizing the mutual information between their representations, which, we prove theoretically, plays the role of graph smoothing. Our framework is optimized via a surrogate contrastive loss and a Topology-Aware Positive Sampling (TAPS) strategy is proposed to sample positives by considering the structural dependencies between nodes, which enables offline positive selection. Considering the excessive memory overheads of contrastive learning, we further propose a negative-free solution, where the main contribution is a Graph Signal Decorrelation (GSD) constraint to avoid representation collapse and over-smoothing. The GSD constraint unifies some of the existing constraints and can be used to derive new implementations to combat representation collapse. By applying our methods on top of simple MLP-based node representation encoders, we learn node representations that achieve promising node classification performance on a set of graph-structured datasets from small- to large-scale.
翻訳日:2023-02-13 12:05:12 公開日:2023-02-10
# 量子ワングタイリングの非周期性

Aperiodicity in Quantum Wang Tilings ( http://arxiv.org/abs/2302.04503v2 )

ライセンス: Link先を確認
Titouan Carette, Etienne Moutot(参考訳) タングタイル形式をテンソルで再構成することにより、確率的および量子的設定に対する自然な一般化を提案する。 この新しい枠組みでは、タイリングの概念と周期性を直接拡張する手法を導入する。 一次元の場合、零行列のトレース特性にリンクすることで一般化ドミノ問題の決定可能性を取り戻す。 二次元の場合、弱周期性および強周期性の拡張を提供し、これらの一般化された概念の同値性を示し、古典的な場合においてよく知られた同値性を拡張する。 また、量子的タイル集合は非周期的であるが、その基礎となる古典的タイル集合はそうではない。

By reformulating the Wang tiles formalism with tensors, we propose a natural generalization to the probabilistic and quantum setting. In this new framework, we introduce notions of tilings and periodicity directly extending their classical counterparts. In the one dimensional case, we recover the decidability of the generalized domino problem by linking it to the trace characterization of nilpotent matrices. In the two-dimensional case, we provide extension of weak and strong aperiodicity respectively and show the equivalence of those generalized notions, extending the well known equivalence in the classical case. We also exhibit a quantum tile set being aperiodic while its underlying classical tile set is not, proving that quantum interference can suppress periodic patterns.
翻訳日:2023-02-13 12:04:45 公開日:2023-02-10
# ホームレスの修復 - データセットとキーポイント

Rehabilitating Homeless: Dataset and Key Insights ( http://arxiv.org/abs/2302.04455v2 )

ライセンス: Link先を確認
Anna Bykova, Nikolay Filippov, Ivan P. Yamshchikov(参考訳) 本稿では,ホームレス者のデータ駆動リハビリテーションに関する知見とともに,ホームレスの匿名化データセットを提案する。 データセットは、20年間ホームレスのリハビリテーションに取り組んでいる大手非営利団体が収集した。 これは、リハビリを求める何千人ものホームレスの人々の豊富な情報を含む最初のデータセットです。 ホームレスのリハビリテーションをより効果的かつ成功させる上で,データ分析がいかに役立つかを示す。 そこで,本稿では,データサイエンスのコミュニティに対して,ホームレスの問題を警告する。

This paper presents a large anonymized dataset of homelessness alongside insights into the data-driven rehabilitation of homeless people. The dataset was gathered by a large nonprofit organization working on rehabilitating the homeless for twenty years. This is the first dataset that we know of that contains rich information on thousands of homeless individuals seeking rehabilitation. We show how data analysis can help to make the rehabilitation of homeless people more effective and successful. Thus, we hope this paper alerts the data science community to the problem of homelessness.
翻訳日:2023-02-13 12:04:33 公開日:2023-02-10
# q-diffusion:拡散モデルの定量化

Q-Diffusion: Quantizing Diffusion Models ( http://arxiv.org/abs/2302.04304v2 )

ライセンス: Link先を確認
Xiuyu Li, Long Lian, Yijiang Liu, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer(参考訳) 拡散モデルは多様で高忠実な画像を合成することに成功した。 しかしながら、サンプリング速度とメモリ制約は、計算集約型ニューラルネットワークを用いた反復ノイズ推定の必要性から、これらのモデルの生成プロセスが遅くなるため、拡散モデルの実践的な採用にとって大きな障壁である。 本稿では,学習後量子化(PTQ)によって生成過程を高速化するため,ノイズ推定ネットワークを圧縮することでこの問題に対処する。 既存のPTQ手法では,複数の時間ステップにおける拡散モデルにおけるノイズ推定ネットワークの出力分布の変化を効果的に処理することはできないが,異なる時間ステップからサンプリングしたデータを用いたデータキャリブレーション方式を用いて,拡散モデルに特有のマルチステップ構造を扱うように特別に設計されたPTQ法を定式化することができる。 実験結果から,提案手法は実精度拡散モデルを直接8ビットまたは4ビットモデルに量子化し,FID変化を最大1.88で達成できることがわかった。 また,本手法はテキスト誘導画像生成にも適用可能であり,図5や図9に示すように,4ビットの重みで安定した拡散を行うことができる。

Diffusion models have achieved great success in synthesizing diverse and high-fidelity images. However, sampling speed and memory constraints remain a major barrier to the practical adoption of diffusion models, since the generation process for these models can be slow due to the need for iterative noise estimation using compute-intensive neural networks. We propose to tackle this problem by compressing the noise estimation network to accelerate the generation process through post-training quantization (PTQ). While existing PTQ approaches have not been able to effectively deal with the changing output distributions of noise estimation networks in diffusion models over multiple time steps, we are able to formulate a PTQ method that is specifically designed to handle the unique multi-timestep structure of diffusion models with a data calibration scheme using data sampled from different time steps. Experimental results show that our proposed method is able to directly quantize full-precision diffusion models into 8-bit or 4-bit models while maintaining comparable performance in a training-free manner, achieving a FID change of at most 1.88. Our approach can also be applied to text-guided image generation, and for the first time we can run stable diffusion in 4-bit weights without losing much perceptual quality, as shown in Figure 5 and Figure 9.
翻訳日:2023-02-13 12:04:25 公開日:2023-02-10
# 説明権と忘れられる権利とのギャップを橋渡しする

Towards Bridging the Gaps between the Right to Explanation and the Right to be Forgotten ( http://arxiv.org/abs/2302.04288v2 )

ライセンス: Link先を確認
Satyapriya Krishna, Jiaqi Ma, Himabindu Lakkaraju(参考訳) 説明の権利と忘れられる権利は、現実世界のアプリケーションでアルゴリズムによる意思決定とデータ使用を規制するための2つの重要な原則である。 説明の権利は、個人がアルゴリズムによる決定に対して実行可能な説明を要求できるようにするが、忘れられる権利は、組織のすべてのデータベースやモデルからデータを削除するように要求する権利を与える。 直感的には、忘れられる権利を強制するとモデルのアップデートが引き起こされ、それまで提供されていた説明が無効になり、説明の権利に違反する可能性がある。 本研究では,前述した2つの規制原則間の干渉によって生じる技術的影響を調査し,両者の緊張を解消する最初のアルゴリズムフレームワークを提案する。 この目的のために,データ削除要求によるトレーニングデータインスタンスの削除により,モデル更新にロバストな説明を生成するための新しい最適化問題を定式化する。 この最適化問題の組合せ複雑性を扱うための効率的な近似アルゴリズムを導出する。 本稿では, 線形モデルや非線形モデルの特定のクラスにおいて, 限界コストを伴う最悪のデータ削除要求に対して, 確実に堅牢な説明を生成することを理論的に実証する。 実世界のデータセットを用いた大規模な実験は,提案フレームワークの有効性を示す。

The Right to Explanation and the Right to be Forgotten are two important principles outlined to regulate algorithmic decision making and data usage in real-world applications. While the right to explanation allows individuals to request an actionable explanation for an algorithmic decision, the right to be forgotten grants them the right to ask for their data to be deleted from all the databases and models of an organization. Intuitively, enforcing the right to be forgotten may trigger model updates which in turn invalidate previously provided explanations, thus violating the right to explanation. In this work, we investigate the technical implications arising due to the interference between the two aforementioned regulatory principles, and propose the first algorithmic framework to resolve the tension between them. To this end, we formulate a novel optimization problem to generate explanations that are robust to model updates due to the removal of training data instances by data deletion requests. We then derive an efficient approximation algorithm to handle the combinatorial complexity of this optimization problem. We theoretically demonstrate that our method generates explanations that are provably robust to worst-case data deletion requests with bounded costs in case of linear models and certain classes of non-linear models. Extensive experimentation with real-world datasets demonstrates the efficacy of the proposed framework.
翻訳日:2023-02-13 12:04:02 公開日:2023-02-10
# PFGM++:物理にインスパイアされた生成モデルの可能性を解き放つ

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models ( http://arxiv.org/abs/2302.04265v2 )

ライセンス: Link先を確認
Yilun Xu, Ziming Liu, Yonglong Tian, Shangyuan Tong, Max Tegmark, Tommi Jaakkola(参考訳) 本稿では,拡散モデルとポアソンフロー生成モデル(pfgm)を統合した新しい物理モデルpfgm++を紹介する。 これらのモデルは、$n{+}d$ 次元空間に経路を埋め込みながら、$d$ 付加変数の単純なスカラーノルムで進行を制御することで、$n$ 次元データの生成軌道を実現する。 新しいモデルは、$d{=}1$のときはpfgmに、$d{\to}\infty$の時は拡散モデルに縮小される。 $D$を選択する柔軟性は、データと追加の変数ノルムとのより密結合をもたらすため、剛性に対して堅牢性をトレードオフすることができる。 我々は、PFGMで使用される大きなバッチフィールドターゲットのバイアスを省き、拡散モデルと同様のバイアスのない摂動に基づく目的を提供する。 D$の異なる選択を探索するために、よく調整されたハイパーパラメータを拡散モデル(D{\to} \infty$)から任意の有限$D$値に転送する直接アライメント法を提供する。 実験によれば、有限$d$を持つモデルは、cifar-10/ffhq 6.4{\times}64$データセット上の以前の最先端の拡散モデルよりも優れており、$d{=}2048/128$の場合、fidスコアは1.91/2.43$である。 クラス条件設定では、$D{=}2048$ は CIFAR-10 上で1.74$ の最先端 FID を得る。 さらに,$d$の小さいモデルでは,モデリングエラーに対するロバスト性が向上することを示す。 コードはhttps://github.com/Newbeeer/pfgmppで入手できる。

We introduce a new family of physics-inspired generative models termed PFGM++ that unifies diffusion models and Poisson Flow Generative Models (PFGM). These models realize generative trajectories for $N$ dimensional data by embedding paths in $N{+}D$ dimensional space while still controlling the progression with a simple scalar norm of the $D$ additional variables. The new models reduce to PFGM when $D{=}1$ and to diffusion models when $D{\to}\infty$. The flexibility of choosing $D$ allows us to trade off robustness against rigidity as increasing $D$ results in more concentrated coupling between the data and the additional variable norms. We dispense with the biased large batch field targets used in PFGM and instead provide an unbiased perturbation-based objective similar to diffusion models. To explore different choices of $D$, we provide a direct alignment method for transferring well-tuned hyperparameters from diffusion models ($D{\to} \infty$) to any finite $D$ values. Our experiments show that models with finite $D$ can be superior to previous state-of-the-art diffusion models on CIFAR-10/FFHQ $64{\times}64$ datasets, with FID scores of $1.91/2.43$ when $D{=}2048/128$. In class-conditional setting, $D{=}2048$ yields current state-of-the-art FID of $1.74$ on CIFAR-10. In addition, we demonstrate that models with smaller $D$ exhibit improved robustness against modeling errors. Code is available at https://github.com/Newbeeer/pfgmpp
翻訳日:2023-02-13 12:03:40 公開日:2023-02-10
# 機械学習研究の推論可能性に向けて

Towards Inferential Reproducibility of Machine Learning Research ( http://arxiv.org/abs/2302.04054v2 )

ライセンス: Link先を確認
Michael Hagmann and Stefan Riezler(参考訳) 機械学習評価の信頼性 -- 再現されたモデルトレーニング実行における観察された評価スコアの一貫性 -- は、測定ノイズと見なされる複数の非決定性源に影響される。 研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルで固有の非決定性を無視し、アルゴリズム的ノイズ要因とデータ特性の間の重要な相互作用効果を無視している。 これはそのような実験から引き出すことができる結論の範囲を制限する。 ノイズを除去する代わりに、学習モデルの特定のインスタンスを超えて推論を引き出すことを目的とした、機械学習評価の重要度と信頼性の分析に、データ特性との相互作用を含む複数のばらつき源を組み込むことを提案する。 本稿では,線形混合効果モデル (LMEM) を用いて評価スコアを解析し,一般確率比テスト (GLRT) を用いて統計的推論を行う方法を示す。 これにより、メタパラメータの変動のような任意のノイズ源を統計的に有意なテストに組み込むことができ、データ特性に基づく性能差を評価することができる。 さらに、分散成分分析(VCA)により、ノイズ源の総合的な分散への寄与の分析と、全分散に対する実質的な比による信頼性係数の計算が可能となる。

Reliability of machine learning evaluation -- the consistency of observed evaluation scores across replicated model training runs -- is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.
翻訳日:2023-02-13 12:03:09 公開日:2023-02-10
# CrossCodeBench: ソースコードモデルのクロスタスク一般化のベンチマーク

CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models ( http://arxiv.org/abs/2302.04030v2 )

ライセンス: Link先を確認
Changan Niu, Chuanyi Li, Vincent Ng, Bin Luo(参考訳) 大規模ソースコードデータに事前トレーニングされたモデルが認識可能な一般化能力を得ることができるという最近の進歩にもかかわらず、微調整にはターゲットタスク上の大きな量のデータが必要である。 また、モデル一般化の有効性は、限られたリソースや利用できないリソースを対象とするタスクに有害な微調整データのサイズと品質に大きく影響される。 したがって、クロスタスクの一般化は、これまで見たことのないタスクに対するモデルの一般化を改善することを目的としており、強力な研究と応用価値である。 本稿では,既存の216のコード関連タスクを含む大規模ベンチマークを提案する。 そして,タスクの詳細な情報と解答ガイドを含むタスク記述や指示などのメタ情報を用いて,各タスクにアノテートを行う。 これはまた、モデルの様々なクロスタスク一般化能力を評価するために、 ``training/evaluation'タスク分割を簡単に作成するのに役立ちます。 そこで本研究では,タスク命令からの少数ショット学習や学習といったコンテキスト内学習手法により,モデルのクロスタスク一般化が大幅に向上できることを実証するために,予備実験を行った。 データセットとベンチマークの収集が,タスク間の一般化に限らず,今後の作業を促進することを期待しています。

Despite the recent advances showing that a model pre-trained on large-scale source code data is able to gain appreciable generalization capability, it still requires a sizeable amount of data on the target task for fine-tuning. And the effectiveness of the model generalization is largely affected by the size and quality of the fine-tuning data, which is detrimental for target tasks with limited or unavailable resources. Therefore, cross-task generalization, with the goal of improving the generalization of the model to unseen tasks that have not been seen before, is of strong research and application value. In this paper, we propose a large-scale benchmark that includes 216 existing code-related tasks. Then, we annotate each task with the corresponding meta information such as task description and instruction, which contains detailed information about the task and a solution guide. This also helps us to easily create a wide variety of ``training/evaluation'' task splits to evaluate the various cross-task generalization capabilities of the model. Then we perform some preliminary experiments to demonstrate that the cross-task generalization of models can be largely improved by in-context learning methods such as few-shot learning and learning from task instructions, which shows the promising prospects of conducting cross-task learning research on our benchmark. We hope that the collection of the datasets and our benchmark will facilitate future work that is not limited to cross-task generalization.
翻訳日:2023-02-13 12:02:49 公開日:2023-02-10
# 最悪の更新時間保証を備えた完全動的近似決定木

Fully-Dynamic Approximate Decision Trees With Worst-Case Update Time Guarantees ( http://arxiv.org/abs/2302.03994v2 )

ライセンス: Link先を確認
Marco Bressan and Mauro Sozio(参考訳) ラベル付き例の挿入と削除の任意のシーケンス上で近似決定木を維持する最初のアルゴリズムを与え,更新要求毎の最悪のケースの実行時間に対して強い保証を与える。 例えば、すべての頂点がginiゲインを持つ決定木を最適値の付加値$\alpha$で維持する方法を示す。$o\big(\frac{d\,(\log n)^4}{\alpha^3}\big)$ 更新ごとに基本操作を実行し、$d$ は特徴数、$n$ はアクティブセットの最大サイズ(更新要求のネット結果)である。 我々は、情報ゲインと分散ゲインに同様の境界を与える。 実際、これらの境界はすべてより一般的な結果の系であり、決定規則の項で述べられている - ラベル付き例のセット$S$を与えられた関数は、$S$を分割するかラベルを予測するかを決定する。 決定規則は、例やラベル領域に関係なく、欲張りな決定木アルゴリズムの統一的なビューを与え、また、id3やc4.5で使われるような自然決定木に対して、上記のゲイン近似の保証を意味する$\epsilon$-approximate 決定木という一般的な概念に繋がる。 私たちの研究の核心は決定論的アルゴリズムを提供し、任意の決定規則と$\epsilon > 0$が与えられた場合、$O\! \left(\frac{d\, f(n)}{n} \operatorname{poly}\frac{h}{\epsilon}\right)$ operations per update ここで$f(n)$は$n$の例のセットに対するルールの評価の複雑さであり、$h$は維持ツリーの最大高さである。

We give the first algorithm that maintains an approximate decision tree over an arbitrary sequence of insertions and deletions of labeled examples, with strong guarantees on the worst-case running time per update request. For instance, we show how to maintain a decision tree where every vertex has Gini gain within an additive $\alpha$ of the optimum by performing $O\Big(\frac{d\,(\log n)^4}{\alpha^3}\Big)$ elementary operations per update, where $d$ is the number of features and $n$ the maximum size of the active set (the net result of the update requests). We give similar bounds for the information gain and the variance gain. In fact, all these bounds are corollaries of a more general result, stated in terms of decision rules -- functions that, given a set $S$ of labeled examples, decide whether to split $S$ or predict a label. Decision rules give a unified view of greedy decision tree algorithms regardless of the example and label domains, and lead to a general notion of $\epsilon$-approximate decision trees that, for natural decision rules such as those used by ID3 or C4.5, implies the gain approximation guarantees above. The heart of our work provides a deterministic algorithm that, given any decision rule and any $\epsilon > 0$, maintains an $\epsilon$-approximate tree using $O\!\left(\frac{d\, f(n)}{n} \operatorname{poly}\frac{h}{\epsilon}\right)$ operations per update, where $f(n)$ is the complexity of evaluating the rule over a set of $n$ examples and $h$ is the maximum height of the maintained tree.
翻訳日:2023-02-13 12:02:28 公開日:2023-02-10