このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220825となっている論文です。

PDF登録状況(公開日: 20220825)

TitleAuthorsAbstract論文公表日・翻訳日
# 地球系モデルからの降水場改善のための物理的制約付き生成逆数ネットワーク

Physically Constrained Generative Adversarial Networks for Improving Precipitation Fields from Earth System Models ( http://arxiv.org/abs/2209.07568v1 )

ライセンス: Link先を確認
Philipp Hess, Markus Dr\"uke, Stefan Petri, Felix M. Strnad, and Niklas Boers(参考訳) 降水は様々なスケールにわたる複雑なプロセスによるものであり、地球系モデル(ESM)の正確なシミュレーションは困難である。 既存のポストプロセッシング手法はESMシミュレーションを局所的に改善するが、モデル化された空間パターンの誤りを修正することはできない。 本稿では,局所分布と空間構造を同時に改善するための,物理的制約付き生成逆ネットワーク(gans)に基づく枠組みを提案する。 本稿では,計算効率の良いEMM CM2Mc-LPJmLを提案する。 本手法は局地分布の補正において既存の手法よりも優れており,特に日降水量の断続性に関して空間パターンが強く改善されている。 特に、ESMの共通問題である二重ピークの熱帯収束ゾーンが除去される。 地球規模の降水量を維持するための物理的な制約を課すと、GANは訓練中に見つからない将来の気候シナリオに一般化することができる。 特徴として、GANはESMが強いバイアスを示す領域を特定する。 本手法はESM変数の修正のための一般的なフレームワークを構成し,計算コストのごく一部で現実的なシミュレーションを可能にする。

Precipitation results from complex processes across many scales, making its accurate simulation in Earth system models (ESMs) challenging. Existing post-processing methods can improve ESM simulations locally, but cannot correct errors in modelled spatial patterns. Here we propose a framework based on physically constrained generative adversarial networks (GANs) to improve local distributions and spatial structure simultaneously. We apply our approach to the computationally efficient ESM CM2Mc-LPJmL. Our method outperforms existing ones in correcting local distributions, and leads to strongly improved spatial patterns especially regarding the intermittency of daily precipitation. Notably, a double-peaked Intertropical Convergence Zone, a common problem in ESMs, is removed. Enforcing a physical constraint to preserve global precipitation sums, the GAN can generalize to future climate scenarios unseen during training. Feature attribution shows that the GAN identifies regions where the ESM exhibits strong biases. Our method constitutes a general framework for correcting ESM variables and enables realistic simulations at a fraction of the computational costs.
翻訳日:2022-09-25 17:57:05 公開日:2022-08-25
# リンク予測のための明示的低ランク行列分解としてのニューラルグラフ埋め込み

Neural graph embeddings as explicit low-rank matrix factorization for link prediction ( http://arxiv.org/abs/2011.09907v3 )

ライセンス: Link先を確認
Asan Agibetov(参考訳) 良質なニューラルネットワークの埋め込み学習は、シミュレーションされたランダムウォークにおける共起ノードのポイントワイド相互情報(PMI)を最小化することによって、長年にわたって達成されてきた。 この設計選択は、社会的、共引用、生物学的ネットワークにおける新しいリンクの形成を予測するために、非常に成功した単語埋め込みアルゴリズムであるword2vecの直接的応用によって、広く普及してきた。 しかし、グラフ埋め込み方式のこのようなスキューモーフィックな設計は、低PMIのノード対から来る情報の切り離しを必要とする。 この問題を回避するため,このようなノード間の情報を組み込んだ低ランク因数分解埋め込みを学習し,ベースライン手法のリンク予測性能を1.2%から24.2%に改善できることを示す。 結果と観察に基づいて,行列分解に基づく次のグラフ埋め込みアルゴリズムの設計を改善するためのさらなるステップについて概説する。

Learning good quality neural graph embeddings has long been achieved by minimizing the point-wise mutual information (PMI) for co-occurring nodes in simulated random walks. This design choice has been mostly popularized by the direct application of the highly-successful word embedding algorithm word2vec to predicting the formation of new links in social, co-citation, and biological networks. However, such a skeuomorphic design of graph embedding methods entails a truncation of information coming from pairs of nodes with low PMI. To circumvent this issue, we propose an improved approach to learning low-rank factorization embeddings that incorporate information from such unlikely pairs of nodes and show that it can improve the link prediction performance of baseline methods from 1.2% to 24.2%. Based on our results and observations we outline further steps that could improve the design of next graph embedding algorithms that are based on matrix factorization.
翻訳日:2022-09-25 00:06:18 公開日:2022-08-25
# アルコール摂取はADとLATEを区別する:2つの大規模データセットからのライフスタイル

Alcohol Intake Differentiates AD and LATE: A Telltale Lifestyle from Two Large-Scale Datasets ( http://arxiv.org/abs/2209.05438v1 )

ライセンス: Link先を確認
Xinxing Wu and Chong Peng and Peter T. Nelson and Qiang Cheng(参考訳) 進行性脳疾患としてのアルツハイマー病(ad)は認知、記憶、行動に影響を及ぼす。 同様に、TDP-43脳症(LATE)はADの臨床症状を模倣する神経変性疾患である。 現在、LATEとADを区別するリスク要因はほとんど不明である。 特徴選択に基づくアルゴリズム手法を総合的に活用し,後期および/またはadの被験者を著しく不均衡なデータに対する制御から区別する重要な要因を同定した。 rosmapとnaccの2つのデータセットを分析し,アルコール摂取が生活習慣と環境要因であり,その関連は異なっていた。 特に,APOE e4キャリアからなる特定のサブ集団を同定した。 このサブポピュレーションでは, 軽度アルコール摂取はADとLATEの両方に対する防御因子であったが, ADに対する防御効果はLATEよりも強いことがわかった。 アルゴリズムのコードはhttps://github.com/xinxingwu-uk/pfv.comで利用可能です。

Alzheimer's disease (AD), as a progressive brain disease, affects cognition, memory, and behavior. Similarly, limbic-predominant age-related TDP-43 encephalopathy (LATE) is a recently defined common neurodegenerative disease that mimics the clinical symptoms of AD. At present, the risk factors implicated in LATE and those distinguishing LATE from AD are largely unknown. We leveraged an integrated feature selection-based algorithmic approach, to identify important factors differentiating subjects with LATE and/or AD from Control on significantly imbalanced data. We analyzed two datasets ROSMAP and NACC and discovered that alcohol consumption was a top lifestyle and environmental factor linked with LATE and AD and their associations were differential. In particular, we identified a specific subpopulation consisting of APOE e4 carriers. We found that, for this subpopulation, light-to-moderate alcohol intake was a protective factor against both AD and LATE, but its protective role against AD appeared stronger than LATE. The codes for our algorithms are available at https://github.com/xinxingwu-uk/PFV.
翻訳日:2022-09-18 17:00:54 公開日:2022-08-25
# ptb-xlデータセットに基づくtensorflow liteモデルを用いたraspberry piのディープラーニングによるecg分類

Deep Learning-based ECG Classification on Raspberry PI using a Tensorflow Lite Model based on PTB-XL Dataset ( http://arxiv.org/abs/2209.00989v1 )

ライセンス: Link先を確認
Kushagra Sharma and Rasit Eskicioglu(参考訳) 新型コロナウイルス(COVID-19)のパンデミック以降、IoTデバイスの需要が急増しているため、医療分野でのIoTデバイスの数は急上昇すると予想されている。 ディープラーニングとIoTデバイスは、身体のバイタルを監視し、臨床および非臨床的な設定で異常検出を自動化するために使用されている。 現在の技術のほとんどは、リソース制約のあるIoTデバイスや組み込みシステムでは効率が良くないリモートサーバに生データを送信する必要がある。 さらに、大規模な公開データベースが欠如しているため、ecg分類のための機械学習モデルを開発することは困難である。 この課題を克服するために、TB-XLデータセットが使用されている。 本研究では,Raspberry Pi上にデプロイ可能な機械学習モデルを開発した。 本稿では2つの分類クラスでTensorFlowモデルの評価を行う。 また、対応するTensorFlow Lite FlatBuffersの評価を行い、許容精度を維持しながら、最小限のランタイム要件を示す。

The number of IoT devices in healthcare is expected to rise sharply due to increased demand since the COVID-19 pandemic. Deep learning and IoT devices are being employed to monitor body vitals and automate anomaly detection in clinical and non-clinical settings. Most of the current technology requires the transmission of raw data to a remote server, which is not efficient for resource-constrained IoT devices and embedded systems. Additionally, it is challenging to develop a machine learning model for ECG classification due to the lack of an extensive open public database. To an extent, to overcome this challenge PTB-XL dataset has been used. In this work, we have developed machine learning models to be deployed on Raspberry Pi. We present an evaluation of our TensorFlow Model with two classification classes. We also present the evaluation of the corresponding TensorFlow Lite FlatBuffers to demonstrate their minimal run-time requirements while maintaining acceptable accuracy.
翻訳日:2022-09-11 13:14:03 公開日:2022-08-25
# 視覚障害者に対する紙幣認識(エチオピア紙幣の場合)

Banknote Recognition for Visually Impaired People (Case of Ethiopian note) ( http://arxiv.org/abs/2209.03236v1 )

ライセンス: Link先を確認
Nuredin Ali Abdelkadir(参考訳) 通貨は至る所でビジネスに利用されている。 ほとんどの発展途上国、特にアフリカの国々では、有形紙幣は日常的な金融取引で主に使われている。 これらの国の1つであるエチオピアは、世界最高視力(1.6%)と低視力(3.7%)の1つであると考えられている。 視覚障害者は約400万人で、170万人が視力喪失に陥っている。 これらの人々は、バス停やショッピングセンターにいるとき、あるいはお金の物理的交換を必要とする場所にいるとき、多くの課題に直面します。 本稿では,AI/MLアプリケーションを用いてこの問題に対する解決策を提供する。 我々は、データセットで98.9%の分類精度を達成したモデルで、AndroidとIOS互換のモバイルアプリを開発した。 このアプリケーションには、エチオピアの作業言語であるamharicでスキャンされた通貨の種類を示す音声統合機能がある。 アプリケーションはユーザが簡単にアクセスできるように開発されている。 エチオピアの視覚障害者の負担を軽減するために建設された。

Currency is used almost everywhere to facilitate business. In most developing countries, especially the ones in Africa, tangible notes are predominantly used in everyday financial transactions. One of these countries, Ethiopia, is believed to have one of the world highest rates of blindness (1.6%) and low vision (3.7%). There are around 4 million visually impaired people; With 1.7 million people being in complete vision loss. Those people face a number of challenges when they are in a bus station, in shopping centers, or anywhere which requires the physical exchange of money. In this paper, we try to provide a solution to this issue using AI/ML applications. We developed an Android and IOS compatible mobile application with a model that achieved 98.9% classification accuracy on our dataset. The application has a voice integrated feature that tells the type of the scanned currency in Amharic, the working language of Ethiopia. The application is developed to be easily accessible by its users. It is build to reduce the burden of visually impaired people in Ethiopia.
翻訳日:2022-09-11 13:07:38 公開日:2022-08-25
# 準可逆法による畳み込みニューラルネットワークのオプション予測への応用

Application of Convolutional Neural Networks with Quasi-Reversibility Method Results for Option Forecasting ( http://arxiv.org/abs/2208.14385v1 )

ライセンス: Link先を確認
Zheng Cao, Wenyu Du and Kirill V. Golubnichiy(参考訳) 本稿では,株価の予測に数学的ファイナンスと機械学習(ML)を適用する新しい手法を提案する。 論文Quasi-Reversibility Method and Neural Network Machine Learning to Solution of Black-Scholes Equations (AMS Contemporary Mathematics Journalに掲載)の結果に続き、92,846社のデータを分析するために、黒-Scholes方程式の新しい経験的数学的モデルを作成し評価する。 準可逆法 (QRM) を用いて, ある日, 将来のオプション価格を予測し, 逆問題として時間内に予測されるブラック・スコールズ方程式を解く。 各企業には、ストックやオプションの日替わり価格、ボラティリティ、最小化など、13の要素があります。 市場が複雑すぎて完璧なモデルが存在しないため、最良の予測を行うためにアルゴリズムのトレーニングにmlを適用する。 研究の現在の段階は、QRMと畳み込みニューラルネットワーク(CNN)を組み合わせることで、多数のデータポイントを同時に学習する。 我々は,サンプル市場データに対する検証とテストにより,新しい結果を生成するためにCNNを実装した。 cnnの適用方法をテストし、cnnモデルを以前のモデルと比較して、高い利益率を達成することができるかどうかを確認します。

This paper presents a novel way to apply mathematical finance and machine learning (ML) to forecast stock options prices. Following results from the paper Quasi-Reversibility Method and Neural Network Machine Learning to Solution of Black-Scholes Equations (appeared on the AMS Contemporary Mathematics journal), we create and evaluate new empirical mathematical models for the Black-Scholes equation to analyze data for 92,846 companies. We solve the Black-Scholes (BS) equation forwards in time as an ill-posed inverse problem, using the Quasi-Reversibility Method (QRM), to predict option price for the future one day. For each company, we have 13 elements including stock and option daily prices, volatility, minimizer, etc. Because the market is so complicated that there exists no perfect model, we apply ML to train algorithms to make the best prediction. The current stage of research combines QRM with Convolutional Neural Networks (CNN), which learn information across a large number of data points simultaneously. We implement CNN to generate new results by validating and testing on sample market data. We test different ways of applying CNN and compare our CNN models with previous models to see if achieving a higher profit rate is possible.
翻訳日:2022-09-04 02:02:35 公開日:2022-08-25
# インクリメンタルな入札と帰属

Incrementality Bidding and Attribution ( http://arxiv.org/abs/2208.12809v1 )

ライセンス: Link先を確認
Randall Lewis and Jeffrey Wong(参考訳) 潜在的な顧客に対して広告を表示することによる因果効果は、一般的に「増益性」と呼ばれ、広告効果の根本的な問題である。 デジタル広告では、3つのパズルピースが広告のインクリメンタルさを厳格に定量化するために中心となる。 機械学習と因果的計量学の基礎を基礎として、これら3つの概念を、広告の因果効果のランダム化、トレーニング、クロス検証、スコアリング、変換帰属にまたがる入札と帰属の両方の計算可能なモデルに統一する手法を提案する。 このアプローチの実装は、広告投資のリターンに大きな改善をもたらす可能性が高い。

The causal effect of showing an ad to a potential customer versus not, commonly referred to as "incrementality", is the fundamental question of advertising effectiveness. In digital advertising three major puzzle pieces are central to rigorously quantifying advertising incrementality: ad buying/bidding/pricing, attribution, and experimentation. Building on the foundations of machine learning and causal econometrics, we propose a methodology that unifies these three concepts into a computationally viable model of both bidding and attribution which spans the randomization, training, cross validation, scoring, and conversion attribution of advertising's causal effects. Implementation of this approach is likely to secure a significant improvement in the return on investment of advertising.
翻訳日:2022-08-30 14:17:10 公開日:2022-08-25
# 衛星画像復調用Riesz-Quincunx-UNet変分自動エンコーダ

Riesz-Quincunx-UNet Variational Auto-Encoder for Satellite Image Denoising ( http://arxiv.org/abs/2208.12810v1 )

ライセンス: Link先を確認
Duy H. Thai and Xiqi Fei and Minh Tri Le and Andreas Z\"ufle and Konrad Wessels(参考訳) u-netアーキテクチャなどのマルチレゾリューションディープラーニングアプローチは、イメージの分類とセグメンテーションにおいて高いパフォーマンスを達成している。 しかし、これらの手法は遅延画像表現を提供しておらず、画像データの分解、分解、再構成には使用できない。 U-Netや他の畳み込みニューラルネットワーク(CNN)アーキテクチャは一般的に、プールを使用して受容領域を拡大し、通常は不可逆的な情報損失をもたらす。 本研究では、Riesz-Quincunx(RQ)ウェーブレット変換を合成する。 1)Rieszウェーブレット変換と高次変換 2)U-netアーキテクチャ内の直交のQuinncunxウェーブレット(どちらも医療画像のぼやけを低減するために使用されている)は,衛星画像とその時系列のノイズを低減する。 変換された特徴空間では、特徴のランダムな摂動が画像にどう影響するかを理解し、さらにノイズを減らすための変分的アプローチを提案する。 両手法を組み合わせて,衛星画像のノイズ低減に使用される画像および時系列分解のためのハイブリッドRQUNet-VAE方式を提案する。 提案したRQUNet-VAEは,他の最先端手法と比較して,衛星画像のノイズ低減に有効であることを示す定性的,定量的な実験結果を示す。 また,本手法をマルチバンド衛星画像に適用し,画像のデノイズ化,画像の拡散と画像分割による時系列分解を行う。

Multiresolution deep learning approaches, such as the U-Net architecture, have achieved high performance in classifying and segmenting images. However, these approaches do not provide a latent image representation and cannot be used to decompose, denoise, and reconstruct image data. The U-Net and other convolutional neural network (CNNs) architectures commonly use pooling to enlarge the receptive field, which usually results in irreversible information loss. This study proposes to include a Riesz-Quincunx (RQ) wavelet transform, which combines 1) higher-order Riesz wavelet transform and 2) orthogonal Quincunx wavelets (which have both been used to reduce blur in medical images) inside the U-net architecture, to reduce noise in satellite images and their time-series. In the transformed feature space, we propose a variational approach to understand how random perturbations of the features affect the image to further reduce noise. Combining both approaches, we introduce a hybrid RQUNet-VAE scheme for image and time series decomposition used to reduce noise in satellite imagery. We present qualitative and quantitative experimental results that demonstrate that our proposed RQUNet-VAE was more effective at reducing noise in satellite imagery compared to other state-of-the-art methods. We also apply our scheme to several applications for multi-band satellite images, including: image denoising, image and time-series decomposition by diffusion and image segmentation.
翻訳日:2022-08-30 13:35:47 公開日:2022-08-25
# 局所自己正規化による雑音ラベルのフェデレート学習に向けて

Towards Federated Learning against Noisy Labels via Local Self-Regularization ( http://arxiv.org/abs/2208.12807v1 )

ライセンス: Link先を確認
Xuefeng Jiang, Sheng Sun, Yuwei Wang, and Min Liu(参考訳) フェデレーテッド・ラーニング(FL)は、ラベル付きデータをプライバシを保存する方法で、大規模な分散デバイスから共同知識を学ぶことを目的としている。 しかし、高品質なラベル付きデータは高価な人間の知性と努力を必要とするため、不正なラベル付きデータ(ノイズラベルと呼ばれる)は現実にはユビキタスであり、パフォーマンスの劣化を必然的に引き起こす。 ノイズラベルを直接扱うために多くの方法が提案されているが、これらの方法は過剰な計算オーバーヘッドを必要とするか、flのプライバシ保護原則に違反する。 この目的のために,データプライバシを保証しつつ,ノイズラベルによる性能低下を緩和する目的で,flにおけるこの問題に焦点をあてる。 具体的には,ノイズラベルの記憶を暗黙的に阻害し,自己蒸留によるオリジナルインスタンスと拡張インスタンスのモデルの出力差を明示的に狭めることにより,局所学習プロセスを効果的に規則化する局所自己正規化法を提案する。 実験により, 提案手法は, 3つのベンチマークデータセット上で, 各種ノイズレベルのノイズラベルに対して顕著な耐性が得られることを示した。 さらに,本手法を既存の最先端技術と統合し,実世界のデータセットであるCloting1M上での優れた性能を実現する。 コードはhttps://github.com/sprinter1999/fedlsrで入手できる。

Federated learning (FL) aims to learn joint knowledge from a large scale of decentralized devices with labeled data in a privacy-preserving manner. However, since high-quality labeled data require expensive human intelligence and efforts, data with incorrect labels (called noisy labels) are ubiquitous in reality, which inevitably cause performance degradation. Although a lot of methods are proposed to directly deal with noisy labels, these methods either require excessive computation overhead or violate the privacy protection principle of FL. To this end, we focus on this issue in FL with the purpose of alleviating performance degradation yielded by noisy labels meanwhile guaranteeing data privacy. Specifically, we propose a Local Self-Regularization method, which effectively regularizes the local training process via implicitly hindering the model from memorizing noisy labels and explicitly narrowing the model output discrepancy between original and augmented instances using self distillation. Experimental results demonstrate that our proposed method can achieve notable resistance against noisy labels in various noise levels on three benchmark datasets. In addition, we integrate our method with existing state-of-the-arts and achieve superior performance on the real-world dataset Clothing1M. The code is available at https://github.com/Sprinter1999/FedLSR.
翻訳日:2022-08-30 13:20:33 公開日:2022-08-25
# prime: untimed genome-wide gene expression across multiple brain regionにおける概日リズムのパターンとadとの関連性

PRIME: Uncovering Circadian Oscillation Patterns and Associations with AD in Untimed Genome-wide Gene Expression across Multiple Brain Regions ( http://arxiv.org/abs/2208.12811v1 )

ライセンス: Link先を確認
Xinxing Wu and Chong Peng and Gregory Jicha and Donna Wilcock and Qiang Cheng(参考訳) 概日リズムの破壊はアルツハイマー病(AD)患者の中心症状である。 ヒト脳における遺伝子発現の概日リズムの完全な調整と、ADと固有の関連性はほとんど不明である。 本稿では,複数のデータセットにまたがる非時間高次元遺伝子発現データにおいて,リズム振動パターンを検出し解析するための包括的アプローチPRIMEを提案する。 PRIMEの実用性を実証するため,まず,マウス肝臓の時系列表現データセットを用いて,種間および組織間検証を行った。 そこで本研究は,ヒト脳制御領域19領域およびAD患者の不時性ゲノムワイド遺伝子発現における発振パターンの研究に応用した。 以上の結果から,15対の脳制御領域における同期発振パターンは明らかであり,これらの発振パターンはADでは消失または消失した。 PRIMEはサンプルのタイムスタンプを必要とせずに概日リズムパターンを発見することに注意する必要がある。 PRIMEのコードは、この論文の数字を再現するコードとともに、https://github.com/xinxingwu-uk/PRIMEで入手できる。

The disruption of circadian rhythm is a cardinal symptom for Alzheimer's disease (AD) patients. The full circadian rhythm orchestration of gene expression in the human brain and its inherent associations with AD remain largely unknown. We present a novel comprehensive approach, PRIME, to detect and analyze rhythmic oscillation patterns in untimed high-dimensional gene expression data across multiple datasets. To demonstrate the utility of PRIME, firstly, we validate it by a time course expression dataset from mouse liver as a cross-species and cross-organ validation. Then, we apply it to study oscillation patterns in untimed genome-wide gene expression from 19 human brain regions of controls and AD patients. Our findings reveal clear, synchronized oscillation patterns in 15 pairs of brain regions of control, while these oscillation patterns either disappear or dim for AD. It is worth noting that PRIME discovers the circadian rhythmic patterns without requiring the sample's timestamps. The codes for PRIME, along with codes to reproduce the figures in this paper, are available at https://github.com/xinxingwu-uk/PRIME.
翻訳日:2022-08-30 13:20:10 公開日:2022-08-25
# 高速マルチビュークラスタリングのための適応重み付き積分空間

Adaptively-weighted Integral Space for Fast Multiview Clustering ( http://arxiv.org/abs/2208.12808v1 )

ライセンス: Link先を確認
Man-Sheng Chen, Tuo Liu, Chang-Dong Wang, Dong Huang, Jian-Huang Lai(参考訳) マルチビュークラスタリングは、クラスタリング性能を改善するために、マルチソース情報を活用するために広く研究されている。 一般に、既存の著作物の多くは、n * n のアフィニティグラフを類似度/距離のメトリクス(例えばユークリッド距離)または学習された表現で計算し、ビューをまたいでペアワイズ相関を探索する。 しかし残念ながら、二次的あるいはキュービックな複雑さがしばしば必要であり、大規模なデータセットのクラスタリングが困難になる。 近年、k-meansを用いてビューワイドアンカー表現を選択したり、あるいは元の観測で直接行列係数化することで、複数のビューでデータ分布をキャプチャする試みが行われている。 重要な成功にもかかわらず、個々のビューがクラスタ構造を回復するのに十分であるという仮定を暗黙的に保持する、ビュー不足の問題を考える人は少ない。 さらに、複数の不十分なビューから、潜在積分空間と共有クラスタ構造を同時に発見することはできない。 そこで本研究では,ほぼ線形な複雑性を持つ高速マルチビュークラスタリング(aimc)のための適応的重み付け積分空間を提案する。 特に、ビュー生成モデルは、様々な適応的な貢献によって潜在積分空間からビュー観察を再構築するように設計されている。 一方、直交制約とクラスタ分割を持つセントロイド表現は、潜在積分空間を近似するためにシームレスに構築される。 最適化問題を解くために、サンプルサイズに線形時間複雑性があることが証明された代替の最小化アルゴリズムを開発した。 複数の実世界のデータセットで行った広範囲な実験により、提案されたaimc法が最先端法よりも優れていることが確認された。

Multiview clustering has been extensively studied to take advantage of multi-source information to improve the clustering performance. In general, most of the existing works typically compute an n * n affinity graph by some similarity/distance metrics (e.g. the Euclidean distance) or learned representations, and explore the pairwise correlations across views. But unfortunately, a quadratic or even cubic complexity is often needed, bringing about difficulty in clustering largescale datasets. Some efforts have been made recently to capture data distribution in multiple views by selecting view-wise anchor representations with k-means, or by direct matrix factorization on the original observations. Despite the significant success, few of them have considered the view-insufficiency issue, implicitly holding the assumption that each individual view is sufficient to recover the cluster structure. Moreover, the latent integral space as well as the shared cluster structure from multiple insufficient views is not able to be simultaneously discovered. In view of this, we propose an Adaptively-weighted Integral Space for Fast Multiview Clustering (AIMC) with nearly linear complexity. Specifically, view generation models are designed to reconstruct the view observations from the latent integral space with diverse adaptive contributions. Meanwhile, a centroid representation with orthogonality constraint and cluster partition are seamlessly constructed to approximate the latent integral space. An alternate minimizing algorithm is developed to solve the optimization problem, which is proved to have linear time complexity w.r.t. the sample size. Extensive experiments conducted on several realworld datasets confirm the superiority of the proposed AIMC method compared with the state-of-the-art methods.
翻訳日:2022-08-30 13:00:55 公開日:2022-08-25
# 反復インバージョンによる分割期待伝播手法による画像再構成

Image Reconstruction by Splitting Expectation Propagation Techniques from Iterative Inversion ( http://arxiv.org/abs/2208.12340v1 )

ライセンス: Link先を確認
Robert G. Aykroyd and Kehinde Olobatuyi(参考訳) MRI や低線量CT (Low dose Computed Tomography) などのダウンサンプリングおよびノイズ測定による画像再構成は、数学的に不適切な逆問題である。 本稿では,EP技術に基づく簡易な再構築手法を提案する。 我々は,モンテカルロ法(MC)とマルコフ・チェイン・モンテカルロ法(MCMC)をEP法に組み込んだ。 画像再構成のための複素ベイズモデルに対するアプローチを示す。 本手法はガンマカメラによる画像に応用される。 EPMC法,EP-MCMC法,EP-ADMM法とMCMC法との比較を行った。 メトリクスは、画像の再構成、速度、パラメータの推定をより良くします。 実データおよびシミュレーションデータを用いたガンマイメージング実験により,提案手法はMCMCよりも計算コストが低く,比較的良好な画像再構成が得られた。

Reconstructing images from downsampled and noisy measurements, such as MRI and low dose Computed Tomography (CT), is a mathematically ill-posed inverse problem. We propose an easy-to-use reconstruction method based on Expectation Propagation (EP) techniques. We incorporate the Monte Carlo (MC) method, Markov Chain Monte Carlo (MCMC), and Alternating Direction Method of Multiplier (ADMM) algorithm into EP method to address the intractability issue encountered in EP. We demonstrate the approach on complex Bayesian models for image reconstruction. Our technique is applied to images from Gamma-camera scans. We compare EPMC, EP-MCMC, EP-ADMM methods with MCMC only. The metrics are the better image reconstruction, speed, and parameters estimation. Experiments with Gamma-camera imaging in real and simulated data show that our proposed method is convincingly less computationally expensive than MCMC and produces relatively a better image reconstruction.
翻訳日:2022-08-29 13:35:40 公開日:2022-08-25
# ネットワークマイクログリッドのニューロダイナミック状態推定

Neuro-Dynamic State Estimation for Networked Microgrids ( http://arxiv.org/abs/2208.12288v1 )

ライセンス: Link先を確認
Fei Feng, Yifan Zhou, Peng Zhang(参考訳) 我々は未知のサブシステム下でのネットワークマイクログリッド(NM)の学習に基づく動的状態推定(DSE)アルゴリズムNeuro-DSEを考案した。 私たちの貢献には 1) NMs DSEのデータ駆動型ニューロDSEアルゴリズムで, ニューラル・オーディショナル・ディファレンシャル・方程式(ODE-Net)をカルマンフィルタに組み込む。 2 自動フィルタリング、拡張及び補正の枠組みを確立することにより、限られた騒音測定の下でデータ駆動型DSEを可能にする自己精製型ニューロDSEアルゴリズム(Neuro-DSE+) 3)neuro-kalmannet-dseアルゴリズムは、neuro-dseとさらに統合して、neuro-dseとneuro-dseの両方のモデルミスマッチを緩和する。 4) NMs状態と未知パラメータ(慣性等)を共同で推定するための拡張型ニューロDSE。 広範囲にわたるケーススタディでは、異なるノイズレベル、制御モード、電源、観測可能性、モデル知識の下で、ニューロDSEとその変異体の有効性が示されている。

We devise neuro-dynamic state estimation (Neuro-DSE), a learning-based dynamic state estimation (DSE) algorithm for networked microgrids (NMs) under unknown subsystems. Our contributions include: 1) a data-driven Neuro-DSE algorithm for NMs DSE with partially unidentified dynamic models, which incorporates the neural-ordinary-differential-equations (ODE-Net) into Kalman filters; 2) a self-refining Neuro-DSE algorithm (Neuro-DSE+) which enables data-driven DSE under limited and noisy measurements by establishing an automatic filtering, augmenting and correcting framework; 3) a Neuro-KalmanNet-DSE algorithm which further integrates KalmanNet with Neuro-DSE to relieve the model mismatch of both neural- and physics-based dynamic models; and 4) an augmented Neuro-DSE for joint estimation of NMs states and unknown parameters (e.g., inertia). Extensive case studies demonstrate the efficacy of Neuro-DSE and its variants under different noise levels, control modes, power sources, observabilities and model knowledge, respectively.
翻訳日:2022-08-29 13:35:06 公開日:2022-08-25
# 全スライド画像登録のための2ステップアプローチ

A Two Step Approach for Whole Slide Image Registration ( http://arxiv.org/abs/2208.12635v1 )

ライセンス: Link先を確認
Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa(参考訳) マルチステイン全スライダー画像登録(wsi)は、研究の活発な分野である。 しかし、現在のWSI登録手法が現実世界のデータセットでどのように機能するかは不明だ。 乳房組織自動登録(ACROBAT)の課題は、日常的な診断から生まれた新しいデータセットを用いて、現在のWSI登録手法の性能を検証することである。 本稿では,ACROBATチャレンジに対する解決策を提案する。 剛体および非剛体変換を含む2段階の手法を用いる。 実験の結果,90パーセンタイルの中央値は検証データセットの1250umであることが判明した。

Multi-stain whole-slide-image (WSI) registration is an active field of research. It is unclear, however, how the current WSI registration methods would perform on a real-world data set. AutomatiC Registration Of Breast cAncer Tissue (ACROBAT) challenge is held to verify the performance of the current WSI registration methods by using a new dataset that originates from routine diagnostics to assess real-world applicability. In this report, we present our solution for the ACROBAT challenge. We employ a two-step approach including rigid and non-rigid transforms. The experimental results show that the median 90th percentile is 1,250 um for the validation dataset.
翻訳日:2022-08-29 13:31:30 公開日:2022-08-25
# 時空間表現学習による音源セルフォン認識の促進

Spatio-Temporal Representation Learning Enhanced Source Cell-phone Recognition from Speech Recordings ( http://arxiv.org/abs/2208.12753v1 )

ライセンス: Link先を確認
Chunyan Zeng, Shixiong Feng, Zhifeng Wang, Xiangkui Wan, Yunfan Chen, Nan Zhao(参考訳) 既存のセルフォン認識方法は、ソース装置の長期的特徴性が欠如しており、その結果、ソースセルフォン関連特徴が不正確な表現となり、認識精度が不十分となる。 本稿では,時空間表現学習に基づく音源の認識手法を提案する。これは,連続ガウス平均行列特徴の抽出と時空間表現学習に基づく認識モデルの構築という2つの主要な部分を含む。 特徴抽出部では、音源信号の時系列表現の分析に基づいて、ガウス混合モデルの感度をデータ分布に利用して、長期的および短期的な表現能力を有する連続ガウス平均行列を抽出する。 モデル構築部では、時空間情報を完全に特徴付ける構造付き時空間表現学習ネットワークC3D-BiLSTMを設計し、3次元畳み込みネットワークと双方向の長期記憶ネットワークを組み合わせて短期スペクトル情報と長期変動情報表現学習を行い、音源信号の時空間特徴情報を融合して携帯電話の正確な認識を実現する。 CCNU\_Mobileデータセットに基づく45台の携帯電話のクローズドセット認識の平均精度は99.03%、サンプルサイズの小さな実験では98.18%、認識性能は既存の最先端手法よりも優れている。 本手法は,多クラス携帯電話の認識において優れた認識性能を示すことを示す。

The existing source cell-phone recognition method lacks the long-term feature characterization of the source device, resulting in inaccurate representation of the source cell-phone related features which leads to insufficient recognition accuracy. In this paper, we propose a source cell-phone recognition method based on spatio-temporal representation learning, which includes two main parts: extraction of sequential Gaussian mean matrix features and construction of a recognition model based on spatio-temporal representation learning. In the feature extraction part, based on the analysis of time-series representation of recording source signals, we extract sequential Gaussian mean matrix with long-term and short-term representation ability by using the sensitivity of Gaussian mixture model to data distribution. In the model construction part, we design a structured spatio-temporal representation learning network C3D-BiLSTM to fully characterize the spatio-temporal information, combine 3D convolutional network and bidirectional long short-term memory network for short-term spectral information and long-time fluctuation information representation learning, and achieve accurate recognition of cell-phones by fusing spatio-temporal feature information of recording source signals. The method achieves an average accuracy of 99.03% for the closed-set recognition of 45 cell-phones under the CCNU\_Mobile dataset, and 98.18% in small sample size experiments, with recognition performance better than the existing state-of-the-art methods. The experimental results show that the method exhibits excellent recognition performance in multi-class cell-phones recognition.
翻訳日:2022-08-29 13:29:51 公開日:2022-08-25
# dpauc: フェデレーション学習における微分プライベートauc計算

DPAUC: Differentially Private AUC Computation in Federated Learning ( http://arxiv.org/abs/2208.12294v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Junyuan Xie and Di Wu and Chong Wang(参考訳) フェデレートラーニング(FL)は、最近、複数の参加者による機械学習モデルを共同でトレーニングするプライバシー強化ツールとして注目されている。 flに関する以前の研究は、モデルトレーニング中にラベルプライバシを保護する方法について主に研究されてきた。 しかし、FLにおけるモデル評価は、プライベートラベル情報の漏洩につながる可能性がある。 本研究では,FL のラベル差分プライバシー (DP) を用いた場合,広く使用されている AUC (Area under the curve) メトリックを正確に計算できる評価アルゴリズムを提案する。 大規模な実験により,本アルゴリズムは基礎的真理と比較して精度の高いAUCを計算可能であることを示す。

Federated learning (FL) has gained significant attention recently as a privacy-enhancing tool to jointly train a machine learning model by multiple participants. The prior work on FL has mostly studied how to protect label privacy during model training. However, model evaluation in FL might also lead to potential leakage of private label information. In this work, we propose an evaluation algorithm that can accurately compute the widely used AUC (area under the curve) metric when using the label differential privacy (DP) in FL. Through extensive experiments, we show our algorithms can compute accurate AUCs compared to the ground truth.
翻訳日:2022-08-29 13:29:12 公開日:2022-08-25
# SNAP: 中毒による個人資産の効率的な抽出

SNAP: Efficient Extraction of Private Properties with Poisoning ( http://arxiv.org/abs/2208.12348v1 )

ライセンス: Link先を確認
Harsh Chaudhari, John Abascal, Alina Oprea, Matthew Jagielski, Florian Tram\`er, Jonathan Ullman(参考訳) プロパティ推論攻撃により、敵は機械学習モデルからトレーニングデータセットのグローバルプロパティを抽出できる。 このような攻撃は、データセットを共有して機械学習モデルをトレーニングするデータ所有者に、プライバシに影響を及ぼす。 ディープニューラルネットワークに対するプロパティ推論攻撃に対する既存のアプローチはいくつか提案されているが、それらはすべて攻撃者が大量のシャドーモデルをトレーニングすることに依存している。 本稿では,攻撃者がトレーニングデータセットのサブセットに毒を塗布し,訓練対象モデルに問い合わせるプロパティ推論攻撃の設定について考察する。 筆者らは, 毒性下でのモデル信頼度を理論的に解析し, 攻撃成功率が高く, マカルージファールらによる有害性推論攻撃よりも低量の毒性を必要とするSNAPを設計した。 例えば、国勢調査データセットでは、SNAPはMahloujifarらよりも34%高い成功率を達成し、56.5倍高速である。 また、トレーニング中に特定のプロパティが存在するかどうかを判断するために攻撃を拡張し、興味のあるプロパティの正確な割合を効率的に見積もる。 4つのデータセットから異なる割合のいくつかの特性に対する攻撃を評価し,SNAPの汎用性と有効性を示す。

Property inference attacks allow an adversary to extract global properties of the training dataset from a machine learning model. Such attacks have privacy implications for data owners who share their datasets to train machine learning models. Several existing approaches for property inference attacks against deep neural networks have been proposed, but they all rely on the attacker training a large number of shadow models, which induces large computational overhead. In this paper, we consider the setting of property inference attacks in which the attacker can poison a subset of the training dataset and query the trained target model. Motivated by our theoretical analysis of model confidences under poisoning, we design an efficient property inference attack, SNAP, which obtains higher attack success and requires lower amounts of poisoning than the state-of-the-art poisoning-based property inference attack by Mahloujifar et al. For example, on the Census dataset, SNAP achieves 34% higher success rate than Mahloujifar et al. while being 56.5x faster. We also extend our attack to determine if a certain property is present at all in training, and estimate the exact proportion of a property of interest efficiently. We evaluate our attack on several properties of varying proportions from four datasets, and demonstrate SNAP's generality and effectiveness.
翻訳日:2022-08-29 13:29:00 公開日:2022-08-25
# Bokeh-Loss GAN: 現実的なエッジ対応Bokehのためのマルチステージ逆トレーニング

Bokeh-Loss GAN: Multi-Stage Adversarial Training for Realistic Edge-Aware Bokeh ( http://arxiv.org/abs/2208.12343v1 )

ライセンス: Link先を確認
Brian Lee, Fei Lei, Huaijin Chen, and Alexis Baudron(参考訳) 本稿では,単眼ボケ合成の課題に取り組み,単眼ボケ合成において,一つの全焦点像から浅い被写界深度を描画することを試みる。 DSLRカメラとは異なり、この効果は移動体開口の物理的制約のため、モバイルカメラで直接キャプチャすることはできない。 そこで本研究では,単一の画像入力から現実的な単眼ボケを描画できるネットワークベースアプローチを提案する。 そこで本研究では,予測した単眼深度マップに基づくエッジアウェアボケロスを3つ導入し,背景をぼやけながら前景エッジを研ぎ取る。 このモデルを逆損失を用いて微調整し、現実的なボケ効果を生成する。 実験の結果, 複雑なシーンを処理しながら, 鋭いエッジで自然ボケ効果を生み出すことができることがわかった。

In this paper, we tackle the problem of monocular bokeh synthesis, where we attempt to render a shallow depth of field image from a single all-in-focus image. Unlike in DSLR cameras, this effect can not be captured directly in mobile cameras due to the physical constraints of the mobile aperture. We thus propose a network-based approach that is capable of rendering realistic monocular bokeh from single image inputs. To do this, we introduce three new edge-aware Bokeh Losses based on a predicted monocular depth map, that sharpens the foreground edges while blurring the background. This model is then finetuned using an adversarial loss to generate a realistic Bokeh effect. Experimental results show that our approach is capable of generating a pleasing, natural Bokeh effect with sharp edges while handling complicated scenes.
翻訳日:2022-08-29 13:25:49 公開日:2022-08-25
# 原子様局所像を用いた大規模3次元画像量におけるヒト遺伝学と神経解剖学の研究

Using Atom-Like Local Image Features to Study Human Genetics and Neuroanatomy in Large Sets of 3D Medical Image Volumes ( http://arxiv.org/abs/2208.12361v1 )

ライセンス: Link先を確認
Laurent Chauvin(参考訳) この論文の貢献は、2次元画像空間におけるSIFTアルゴリズムに従って、3次元画像空間で抽出された原子のような特徴から大量の画像を分析するために開発された技術に由来する。 電荷に類似した二元的特徴符号と3次元空間における対称的特徴配向状態の離散的集合を含む新しい特徴特性が導入された。 これらの新しい性質は、量子力学における粒子とその反粒子間の電荷共役とパリティ(cp)変換に類似する符号反転とパリティ(sp)変換を含むように特徴不変性を拡張するために利用され、これにより、形状対称性による撮像モードと軸反射の局所的な強度のコントラスト反転を計算できる。 位置, スケール, 方向, 符号, 外観など, 異なる画像から抽出された特徴の対の類似性を定量化するために, 新たな指数カーネルを提案する。 ソフトジャカード (Soft Jaccard) と題された新しい尺度は、カーネルが一対の特徴要素間の非二項同値性やソフト同値性を確立する場合、その重なり合いや交叉対に基づいて、一対の特徴集合の類似性を定量化するものである。 ソフトジャカードは、同一個人または家族から抽出された特徴セットのペアを高い精度で識別するために使用され、単純な距離閾値によって、主要な公開神経画像データセットにおいて、これまで未知の個人および家族のラベル付けエラーが驚くほど発見される。 シフトコヒーレント点ドリフト(sift coherent point drift, sift-cpd)と呼ばれる2つの特徴集合を、固定された特徴集合と変換集合の間のソフトジャッカーを最大化する変換を同定し、登録または空間的に整列する新しいアルゴリズムを提案する。 SIFT-CPDは,特徴位置情報のみに基づく元のCPDアルゴリズムよりも高速かつ高精度な登録を実現する。

The contributions of this thesis stem from technology developed to analyse large sets of volumetric images in terms of atom-like features extracted in 3D image space, following SIFT algorithm in 2D image space. New feature properties are introduced including a binary feature sign, analogous to an electrical charge, and a discrete set of symmetric feature orientation states in 3D space. These new properties are leveraged to extend feature invariance to include the sign inversion and parity (SP) transform, analogous to the charge conjugation and parity (CP) transform between a particle and its antiparticle in quantum mechanics, thereby accounting for local intensity contrast inversion between imaging modalities and axis reflections due to shape symmetry. A novel exponential kernel is proposed to quantify the similarity of a pair of features extracted in different images from their properties including location, scale, orientation, sign and appearance. A novel measure entitled the soft Jaccard is proposed to quantify the similarity of a pair of feature sets based on their overlap or intersection-over-union, where a kernel establishes non-binary or soft equivalence between a pair of feature elements. The soft Jaccard may be used to identify pairs of feature sets extracted from the same individuals or families with high accuracy, and a simple distance threshold led to the surprising discovery of previously unknown individual and family labeling errors in major public neuroimage datasets. A new algorithm is proposed to register or spatially align a pair of feature sets, entitled SIFT Coherent Point Drift (SIFT-CPD), by identifying a transform that maximizes the soft Jaccard between a fixed feature set and a transformed set. SIFT-CPD achieves faster and more accurate registration than the original CPD algorithm based on feature location information alone, in a variety of challenging.
翻訳日:2022-08-29 13:25:33 公開日:2022-08-25
# Recommenderアライメント問題のモデル化

Modelling the Recommender Alignment Problem ( http://arxiv.org/abs/2208.12299v1 )

ライセンス: Link先を確認
Francisco Carvalho(参考訳) Recommender System (RS)は、オンラインの人間体験を仲介する。 ほとんどのrsは、広告クリックやユーザーのエンゲージメントなど、最も興味のあるユーザーと完全に一致していないが、測定が容易なメトリクスを最適化する。 この結果、政治的分極、中毒、フェイクニュースといった、対策の難しい副作用が生まれました。 rsデザインは、レコメンデーションをユーザー、システムデザイナー、社会全体の目標に合わせるという、レコメンデーションアライメントの問題に直面している。 しかし、どのようにして潜在的なソリューションをテストし、比較してrsを調整するのか? 大規模な運用では、テストにコストとリスクが伴います。 今後の課題を導くために,抽象的モデリングフレームワークを合成した。 それを説明するために、我々は「ユーザ保持を報酬関数として使う結果をどのように評価できるか?」と質問するおもちゃの実験を構築した。 この質問に答えるために、おもちゃの環境でグラフのダイナミクスを制御することで報奨機能を最適化するレコメンダポリシーを学習する。 トレーニングされたレコメンダが環境に与える影響に基づいて、エンゲージメントの最大化は一般的に、アラインされたレコメンダよりも悪い結果をもたらすが、必ずしもそうではないと結論づける。 学習後、rs間の競合をrsアライメントの潜在的な解決策として検討する。 一般的には、推奨やエンゲージメントの最大化の欠如よりも、私たちのおもちゃ社会をより良いものにしています。 本研究では,様々な点を表面的に触れて,レコメンダシステムに対する報酬関数のエンドツーエンド研究の実施方法を明らかにすることを目的としている。 レコメンダアライメントは、差し迫った重要な問題である。 試行錯誤されたソリューションは、間違いなく大きな影響を与えます。 本稿では,社会への影響について,ソリューションの評価と比較を行う手法の開発に向けて,第一歩を踏み出します。

Recommender systems (RS) mediate human experience online. Most RS act to optimize metrics that are imperfectly aligned with the best-interest of users but are easy to measure, like ad-clicks and user engagement. This has resulted in a host of hard-to-measure side-effects: political polarization, addiction, fake news. RS design faces a recommender alignment problem: that of aligning recommendations with the goals of users, system designers, and society as a whole. But how do we test and compare potential solutions to align RS? Their massive scale makes them costly and risky to test in deployment. We synthesized a simple abstract modelling framework to guide future work. To illustrate it, we construct a toy experiment where we ask: "How can we evaluate the consequences of using user retention as a reward function?" To answer the question, we learn recommender policies that optimize reward functions by controlling graph dynamics on a toy environment. Based on the effects that trained recommenders have on their environment, we conclude that engagement maximizers generally lead to worse outcomes than aligned recommenders but not always. After learning, we examine competition between RS as a potential solution to RS alignment. We find that it generally makes our toy-society better-off than it would be under the absence of recommendation or engagement maximizers. In this work, we aimed for a broad scope, touching superficially on many different points to shed light on how an end-to-end study of reward functions for recommender systems might be done. Recommender alignment is a pressing and important problem. Attempted solutions are sure to have far-reaching impacts. Here, we take a first step in developing methods to evaluating and comparing solutions with respect to their impacts on society.
翻訳日:2022-08-29 13:17:52 公開日:2022-08-25
# 強化学習を用いた無人航空機の自律走行:システムレビュー

Autonomous Unmanned Aerial Vehicle Navigation using Reinforcement Learning: A Systematic Review ( http://arxiv.org/abs/2208.12328v1 )

ライセンス: Link先を確認
Fadi AlMahamid and Katarina Grolinger(参考訳) ドローンとして知られる無人航空機(uav)の使用は、荷物の配送、交通監視、捜索救助活動、軍事戦闘など様々な用途で需要が高まっている。 これらのアプリケーションすべてにおいて、UAVは、ヒューマンインタラクションなしで環境を自律的にナビゲートし、特定のタスクを実行し、障害を避けるために使用される。 自律型uavナビゲーションは通常、強化学習(rl)を使用して行われ、エージェントは障害物を避けながら環境をナビゲートするドメインの専門家として振る舞う。 ナビゲーション環境の理解とアルゴリズムの限界は、ナビゲーション問題を解決するのに適切なrlアルゴリズムを選択する上で重要な役割を果たす。 そこで本研究ではまずUAVナビゲーションタスクを特定し,ナビゲーションフレームワークとシミュレーションソフトウェアについて議論する。 次に、異なるuavナビゲーション問題における環境、アルゴリズム特性、能力、アプリケーションに基づいてrlアルゴリズムを分類し、議論し、実践者や研究者がそれらのuavナビゲーションユースケースに適したrlアルゴリズムを選択するのに役立つ。 さらに、識別されたギャップと機会がUAVナビゲーション研究を促進する。

There is an increasing demand for using Unmanned Aerial Vehicle (UAV), known as drones, in different applications such as packages delivery, traffic monitoring, search and rescue operations, and military combat engagements. In all of these applications, the UAV is used to navigate the environment autonomously - without human interaction, perform specific tasks and avoid obstacles. Autonomous UAV navigation is commonly accomplished using Reinforcement Learning (RL), where agents act as experts in a domain to navigate the environment while avoiding obstacles. Understanding the navigation environment and algorithmic limitations plays an essential role in choosing the appropriate RL algorithm to solve the navigation problem effectively. Consequently, this study first identifies the main UAV navigation tasks and discusses navigation frameworks and simulation software. Next, RL algorithms are classified and discussed based on the environment, algorithm characteristics, abilities, and applications in different UAV navigation problems, which will help the practitioners and researchers select the appropriate RL algorithms for their UAV navigation use cases. Moreover, identified gaps and opportunities will drive UAV navigation research.
翻訳日:2022-08-29 13:17:23 公開日:2022-08-25
# Lib-SibGMU-レコメンダシステムのための大学図書館循環データセット

Lib-SibGMU -- A University Library Circulation Dataset for Recommender Systems Developmen ( http://arxiv.org/abs/2208.12356v1 )

ライセンス: Link先を確認
Eduard Zubchuk, Mikhail Arhipkin, Dmitry Menshikov, Aleksandr Karaush, Nikolay Mikhaylovskiy(参考訳) CC BY 4.0ライセンスのLib-SibGMUを、幅広い研究コミュニティのためにオープンソースにし、このデータセット上で推奨システムのための主要なアルゴリズムをベンチマークします。 借本履歴をベクトルに変換するベクタライザと、別々に訓練した地区ベースのレコメンデータで構成されるレコメンダアーキテクチャでは、高速テキストモデルをベクタライザとして使用すると競合する結果が得られることを示す。

We opensource under CC BY 4.0 license Lib-SibGMU - a university library circulation dataset - for a wide research community, and benchmark major algorithms for recommender systems on this dataset. For a recommender architecture that consists of a vectorizer that turns the history of the books borrowed into a vector, and a neighborhood-based recommender, trained separately, we show that using the fastText model as a vectorizer delivers competitive results.
翻訳日:2022-08-29 13:17:05 公開日:2022-08-25
# サービス監視データのための適応学習

Adaptive Learning for Service Monitoring Data ( http://arxiv.org/abs/2208.12281v1 )

ライセンス: Link先を確認
Farzana Anowar, Samira Sadaoui, Hardik Dalal(参考訳) サービス監視アプリケーションは、可用性を監視するために継続的にデータを生成する。 したがって、入力データをリアルタイムかつ正確に分類することが重要である。 そこで本研究では,Learn++を用いた適応型分類手法を開発した。 このアプローチは、監視モデルを新しいデータで逐次予測し、更新し、徐々に過去の知識を忘れ、突然のコンセプトドリフトを特定する。 産業アプリケーションから得られた連続したデータチャンクを用いて予測器の性能を漸進的に評価する。

Service monitoring applications continuously produce data to monitor their availability. Hence, it is critical to classify incoming data in real-time and accurately. For this purpose, our study develops an adaptive classification approach using Learn++ that can handle evolving data distributions. This approach sequentially predicts and updates the monitoring model with new data, gradually forgets past knowledge and identifies sudden concept drift. We employ consecutive data chunks obtained from an industrial application to evaluate the performance of the predictors incrementally.
翻訳日:2022-08-29 13:12:53 公開日:2022-08-25
# OOD-Probe: ドメイン外一般化の神経解釈

OOD-Probe: A Neural Interpretation of Out-of-Domain Generalization ( http://arxiv.org/abs/2208.12352v1 )

ライセンス: Link先を確認
Zining Zhu, Soroosh Shahtalebi, Frank Rudzicz(参考訳) ドメイン外(OOD)を一般化する能力は、ディープニューラルネットワーク開発の重要な目標であり、研究者は様々な基礎から多くの高性能なOOD一般化手法を提案している。 多くのOODアルゴリズムは様々なシナリオでよく機能するが、これらのシステムは 'black-boxes'' として評価される。 そこで本研究では,中間表現から起点ドメインを予測する探索モジュールを用いて,OODシステムをより粒度で評価するフレキシブルフレームワークを提案する。 表現は常にドメインに関する情報をエンコードしている。 層単位での符号化パターンは、さまざまなOODアルゴリズムで大きく安定しているが、データセットによって異なる。 例えば、ローテーションに関する情報(RotatedMNIST)は下層が最も多く、スタイルに関する情報(VLCSやPACS)は中層が最も多く見える。 さらに、高い探索結果は領域一般化性能と相関し、OOD一般化システムの開発におけるさらなる方向性をもたらす。

The ability to generalize out-of-domain (OOD) is an important goal for deep neural network development, and researchers have proposed many high-performing OOD generalization methods from various foundations. While many OOD algorithms perform well in various scenarios, these systems are evaluated as ``black-boxes''. Instead, we propose a flexible framework that evaluates OOD systems with finer granularity using a probing module that predicts the originating domain from intermediate representations. We find that representations always encode some information about the domain. While the layerwise encoding patterns remain largely stable across different OOD algorithms, they vary across the datasets. For example, the information about rotation (on RotatedMNIST) is the most visible on the lower layers, while the information about style (on VLCS and PACS) is the most visible on the middle layers. In addition, the high probing results correlate to the domain generalization performances, leading to further directions in developing OOD generalization systems.
翻訳日:2022-08-29 13:12:46 公開日:2022-08-25
# レンズとカメラの校正のための深部知覚計測

A Deep Perceptual Measure for Lens and Camera Calibration ( http://arxiv.org/abs/2208.12300v1 )

ライセンス: Link先を確認
Yannick Hold-Geoffroy, Dominique Pich\'e-Meunier, Kalyan Sunkavalli, Jean-Charles Bazin, Fran\c{c}ois Rameau and Jean-Fran\c{c}ois Lalonde(参考訳) デジタルアートからarやvr体験に至るまで、エンタテインメントでは画像編集や合成が普及している。 美しい複合材料を作るためには、カメラを幾何学的に調整する必要がある。 従来のマルチイメージキャリブレーション法の代わりに、深部畳み込みニューラルネットワークを用いて、単一画像から直接ピッチ、ロール、視野、レンズ歪みなどのカメラキャリブレーションパラメータを推定することを提案する。 我々は,大規模なパノラマデータセットから自動的に生成されたサンプルを用いて,このネットワークをトレーニングする。 しかし、このような標準エラーメトリクスの最小化は、多くのアプリケーションにとって最適ではないかもしれない。 本研究では,幾何学的カメラキャリブレーションにおける不正確性に対する人間感度について検討する。 そこで我々は, カメラキャリブレーションパラメータを補正した3次元物体のリアリズムの判断を参加者に依頼する大規模人間の知覚調査を行った。 本研究では,カメラキャリブレーションのための新しい知覚尺度を開発し,この新しい知覚尺度と標準測定値の両方に基づいて,従来の単一画像に基づくキャリブレーション手法よりも深いキャリブレーションネットワークが優れていることを示す。 最後に,仮想物体挿入,画像検索,合成など,いくつかのアプリケーションにおける校正ネットワークの利用を実証する。 私たちのアプローチのデモはhttps://lvsn.github.io/deepcalib で公開されています。

Image editing and compositing have become ubiquitous in entertainment, from digital art to AR and VR experiences. To produce beautiful composites, the camera needs to be geometrically calibrated, which can be tedious and requires a physical calibration target. In place of the traditional multi-images calibration process, we propose to infer the camera calibration parameters such as pitch, roll, field of view, and lens distortion directly from a single image using a deep convolutional neural network. We train this network using automatically generated samples from a large-scale panorama dataset, yielding competitive accuracy in terms of standard l2 error. However, we argue that minimizing such standard error metrics might not be optimal for many applications. In this work, we investigate human sensitivity to inaccuracies in geometric camera calibration. To this end, we conduct a large-scale human perception study where we ask participants to judge the realism of 3D objects composited with correct and biased camera calibration parameters. Based on this study, we develop a new perceptual measure for camera calibration and demonstrate that our deep calibration network outperforms previous single-image based calibration methods both on standard metrics as well as on this novel perceptual measure. Finally, we demonstrate the use of our calibration network for several applications, including virtual object insertion, image retrieval, and compositing. A demonstration of our approach is available at https://lvsn.github.io/deepcalib .
翻訳日:2022-08-29 13:02:34 公開日:2022-08-25
# ドローンの超解像を目指すDSR

DSR: Towards Drone Image Super-Resolution ( http://arxiv.org/abs/2208.12327v1 )

ライセンス: Link先を確認
Xiaoyu Lin, Baran Ozaydin, Vidit Vidit, Majed El Helou and Sabine S\"usstrunk(参考訳) 近年の著しい進歩にもかかわらず、単一画像による超解像法がいくつかの制限を伴って開発されている。 具体的には、特定の分解(合成または実)を伴う固定されたコンテンツドメインで訓練される。 彼らが学んだ優先順位は、トレーニング構成を過大にしがちである。 そのため、ドローントップビューデータや高度を越えた新しいドメインへの一般化は、現在不明である。 それでも、適切な画像解像度でドローンをペアリングすることは大きな価値がある。 これにより、高画質を維持しながら、より広い視野を飛行することができる。 これらの質問に答えて、ドローン画像のスーパーレゾリューションへの道を開くために、このアプリケーションについて、特にシングルイメージケースに焦点を当てて検討する。 我々は,低解像度と高画質で撮影されたシーンを,高度の広い範囲で撮影する,新しいドローン画像データセットを提案する。 その結果,最先端のネットワークでは,この異なるドメインのパフォーマンスが大幅に低下していることが判明した。 さらに,単純な微調整とネットワークのアーキテクチャへの高度認識の導入により,復元性能が向上することを示す。

Despite achieving remarkable progress in recent years, single-image super-resolution methods are developed with several limitations. Specifically, they are trained on fixed content domains with certain degradations (whether synthetic or real). The priors they learn are prone to overfitting the training configuration. Therefore, the generalization to novel domains such as drone top view data, and across altitudes, is currently unknown. Nonetheless, pairing drones with proper image super-resolution is of great value. It would enable drones to fly higher covering larger fields of view, while maintaining a high image quality. To answer these questions and pave the way towards drone image super-resolution, we explore this application with particular focus on the single-image case. We propose a novel drone image dataset, with scenes captured at low and high resolutions, and across a span of altitudes. Our results show that off-the-shelf state-of-the-art networks witness a significant drop in performance on this different domain. We additionally show that simple fine-tuning, and incorporating altitude awareness into the network's architecture, both improve the reconstruction performance.
翻訳日:2022-08-29 13:02:09 公開日:2022-08-25
# 2位 ug2+ challenge 2022 -- d$^{3}$net による画像からの大気乱流の緩和

2nd Place Solutions for UG2+ Challenge 2022 -- D$^{3}$Net for Mitigating Atmospheric Turbulence from Images ( http://arxiv.org/abs/2208.12332v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Ik Hyun Lee, Jiseok Yoon(参考訳) 本稿では, CVPR 2022における大気乱流緩和のためのD$^{3}$Netについて, CVPR 2022におけるD$UG2^{+}$ Challengeについて紹介する。 画像強調のためのテキスト認識性能と熱気球画像を改善するためのテキスト画像の試験と検証の結果から,提案手法は最先端の性能を達成していると言える。 さらに,提案手法について,一般に公開されているデノベーション,デブロアリング,フレーム平均化手法と視覚的比較を行った。 提案手法は, テストフェーズにおいて, 上記の課題の最終リーダーボードにそれぞれ2位にランクインした。

This technical report briefly introduces to the D$^{3}$Net proposed by our team "TUK-IKLAB" for Atmospheric Turbulence Mitigation in $UG2^{+}$ Challenge at CVPR 2022. In the light of test and validation results on textual images to improve text recognition performance and hot-air balloon images for image enhancement, we can say that the proposed method achieves state-of-the-art performance. Furthermore, we also provide a visual comparison with publicly available denoising, deblurring, and frame averaging methods with respect to the proposed work. The proposed method ranked 2nd on the final leader-board of the aforementioned challenge in the testing phase, respectively.
翻訳日:2022-08-29 12:49:22 公開日:2022-08-25
# 教師付き学習による詳細化レベルの自動テストと検証

Automatic Testing and Validation of Level of Detail Reductions Through Supervised Learning ( http://arxiv.org/abs/2208.12674v1 )

ライセンス: Link先を確認
Matilda Tamm, Olivia Shamon, Hector Anadon Leon, Konrad Tollmar, Linus Gissl\'en(参考訳) 現代のビデオゲームのサイズと規模は急速に拡大しており、リッチで興味深い環境を作るためには、大量のコンテンツが必要である。 その結果、多くの場合、数千の詳細な3dアセットが1つのシーンを作成するために使用される。 各アセットのポリゴンメッシュは数百万のポリゴンを含むことができるため、フレームごとに描画されるポリゴンの数は数十億を超える可能性がある。 したがって、計算資源は、シーンで表示できる詳細オブジェクトの数を制限することが多い。 この制限を押して性能を最適化するために、可能であれば資産のポリゴン数を削減できる。 基本的には、撮影カメラから遠く離れた物体は、画面サイズが比較的小さいため、知覚された品質に影響を与えずにポリゴン数を減らすことができる。 レベル・オブ・ディテール(lod)は、3dモデル表現の複雑さレベルを指す。 複雑さを取り除くプロセスは、しばしばlodリダクションと呼ばれ、アルゴリズムやアーティストの手によって自動的に行われる。 しかし、このプロセスは、異なるLODが異なる場合や、LOD還元遷移がシームレスでない場合、視覚品質の低下につながる可能性がある。 現在、これらの結果の検証は主に、専門家が視覚的に結果を調べるために手動で行われる。 しかし、このプロセスは遅くてムダで、エラーを起こしやすい。 本稿では,深層畳み込みネットワークを用いて,このプロセスを自動化する手法を提案する。 本手法がLOD削減試験および検証プロセスの自動化に有効である可能性が示唆された。

Modern video games are rapidly growing in size and scale, and to create rich and interesting environments, a large amount of content is needed. As a consequence, often several thousands of detailed 3D assets are used to create a single scene. As each asset's polygon mesh can contain millions of polygons, the number of polygons that need to be drawn every frame may exceed several billions. Therefore, the computational resources often limit how many detailed objects that can be displayed in a scene. To push this limit and to optimize performance one can reduce the polygon count of the assets when possible. Basically, the idea is that an object at farther distance from the capturing camera, consequently with relatively smaller screen size, its polygon count may be reduced without affecting the perceived quality. Level of Detail (LOD) refers to the complexity level of a 3D model representation. The process of removing complexity is often called LOD reduction and can be done automatically with an algorithm or by hand by artists. However, this process may lead to deterioration of the visual quality if the different LODs differ significantly, or if LOD reduction transition is not seamless. Today the validation of these results is mainly done manually requiring an expert to visually inspect the results. However, this process is slow, mundane, and therefore prone to error. Herein we propose a method to automate this process based on the use of deep convolutional networks. We report promising results and envision that this method can be used to automate the process of LOD reduction testing and validation.
翻訳日:2022-08-29 12:48:42 公開日:2022-08-25
# ビデオストリームのオンデバイス学習による弱教師付き時間行動定位の実現

Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream ( http://arxiv.org/abs/2208.12673v1 )

ライセンス: Link先を確認
Yue Tang, Yawen Wu, Peipei Zhou, and Jingtong Hu(参考訳) ビデオ中のアクションの検出はデバイス上のアプリケーションに広く適用されている。 実際のオンデバイスビデオは、アクションとバックグラウンドの両方で常にトリミングされる。 モデルがアクションのクラスを認識し、アクションが発生する時間的位置を局所化するのが望ましい。 このようなタスクは、時間的アクションロケーション(TAL)と呼ばれ、複数の未トリミングビデオが収集されラベル付けされるクラウド上で常にトレーニングされる。 talモデルでは,ユーザのプライバシを保護しつつ,行動検出精度を直接向上できる新たなデータから,連続的かつ局所的に学習することが望ましい。 しかし,時間的制約を伴う膨大なビデオサンプルが必要となるため,talモデルのトレーニングは自明ではない。 しかし、動画フレームをフレーム単位でアノテートするのは、非常に時間と費用がかかる。 弱教師付きtal(w-tal)はビデオレベルラベルのみを用いた未トリミングビデオから学習するために提案されているが、デバイス上での学習シナリオにも適していない。 実際のオンデバイス学習アプリケーションでは、データはストリーミングで収集される。 このような長いビデオストリームを複数のビデオセグメントに分割するには、多くの人的労力が必要です。 そこで我々は,W-TALモデルで長時間のストリーミングビデオから学習できるように,新しい環境に適応できる効率的なビデオ学習手法を提案する。 まず,ビデオストリームを複数のセグメントに変換するために,コントラストスコアに基づくセグメントマージ手法を用いた自己適応型ビデオ分割手法を提案する。 次に,TALタスクの異なるサンプリング戦略を探索し,ラベルを可能な限り少なく要求する。 私たちの知る限りでは、私たちはデバイス上で長いビデオストリームから直接学習する最初の試みです。

Detecting actions in videos have been widely applied in on-device applications. Practical on-device videos are always untrimmed with both action and background. It is desirable for a model to both recognize the class of action and localize the temporal position where the action happens. Such a task is called temporal action location (TAL), which is always trained on the cloud where multiple untrimmed videos are collected and labeled. It is desirable for a TAL model to continuously and locally learn from new data, which can directly improve the action detection precision while protecting customers' privacy. However, it is non-trivial to train a TAL model, since tremendous video samples with temporal annotations are required. However, annotating videos frame by frame is exorbitantly time-consuming and expensive. Although weakly-supervised TAL (W-TAL) has been proposed to learn from untrimmed videos with only video-level labels, such an approach is also not suitable for on-device learning scenarios. In practical on-device learning applications, data are collected in streaming. Dividing such a long video stream into multiple video segments requires lots of human effort, which hinders the exploration of applying the TAL tasks to realistic on-device learning applications. To enable W-TAL models to learn from a long, untrimmed streaming video, we propose an efficient video learning approach that can directly adapt to new environments. We first propose a self-adaptive video dividing approach with a contrast score-based segment merging approach to convert the video stream into multiple segments. Then, we explore different sampling strategies on the TAL tasks to request as few labels as possible. To the best of our knowledge, we are the first attempt to directly learn from the on-device, long video stream.
翻訳日:2022-08-29 12:45:55 公開日:2022-08-25
# 近周期パターンに対する連続的暗黙表現の学習

Learning Continuous Implicit Representation for Near-Periodic Patterns ( http://arxiv.org/abs/2208.12278v1 )

ライセンス: Link先を確認
Bowei Chen, Tiancheng Zhi, Martial Hebert, Srinivasa G. Narasimhan(参考訳) 近周期パターン(near- periodic pattern, npp)は、人為的なシーンにおいて普遍的に存在し、照明、欠陥、デザイン要素による外観の違いを伴うタイルモチーフで構成されている。 優れたNPP表現は、画像補完、セグメンテーション、幾何学的再マッピングを含む多くのアプリケーションに有用である。 しかし、NPPの表現は、局所的なバリエーション(外観の違い)を維持しながら、グローバルな一貫性(モチーフによるレイアウト)を維持する必要があるため、難しい。 大規模なデータセットや単一イメージの最適化を用いて、一般的な場面で訓練された手法は、これらの制約を満たすのに苦労する。 これらの課題に対処するために、単一画像最適化を用いた座標ベースMLPを用いてニューラル暗黙表現を学習する。 我々は、グローバルな一貫性と局所的な変動の両方を扱うために、入力特徴整合モジュールと周期性誘導パッチ損失を設計する。 さらにロバスト性を向上させるために,パイプライン内の複数の候補周期を探索・利用するための周期性提案モジュールを提案する。 建物ファサード, フリーズ, 壁紙, グラウンド, モンドリアンパターンを, 複数平面のシーンで500枚以上の画像で表現し, 提案手法の有効性を実証した。

Near-Periodic Patterns (NPP) are ubiquitous in man-made scenes and are composed of tiled motifs with appearance differences caused by lighting, defects, or design elements. A good NPP representation is useful for many applications including image completion, segmentation, and geometric remapping. But representing NPP is challenging because it needs to maintain global consistency (tiled motifs layout) while preserving local variations (appearance differences). Methods trained on general scenes using a large dataset or single-image optimization struggle to satisfy these constraints, while methods that explicitly model periodicity are not robust to periodicity detection errors. To address these challenges, we learn a neural implicit representation using a coordinate-based MLP with single image optimization. We design an input feature warping module and a periodicity-guided patch loss to handle both global consistency and local variations. To further improve the robustness, we introduce a periodicity proposal module to search and use multiple candidate periodicities in our pipeline. We demonstrate the effectiveness of our method on more than 500 images of building facades, friezes, wallpapers, ground, and Mondrian patterns on single and multi-planar scenes.
翻訳日:2022-08-29 12:45:08 公開日:2022-08-25
# 非侵襲的脳記録からの音声の復号

Decoding speech from non-invasive brain recordings ( http://arxiv.org/abs/2208.12266v1 )

ライセンス: Link先を確認
Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori Kabeli, Jean-R\'emi King(参考訳) 脳の活動から言語を解読することは、医療と神経科学の両方において待望の目標である。 基本的な言語タスクに対する侵入的な脳反応を訓練した被験者固有のパイプラインは、解釈可能な特徴(例えば、文字、単語、分光図)を効率的にデコードし始める。 しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。 本稿では,自然言語の自己教師型表現を予測するために,個人の大きなコホートをまたいだコントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。 自然発話を聴きながら脳磁図(m/eeg)で記録した169名のボランティアを対象に,4つの公開データセットを用いて評価を行った。 その結果、meg信号の3sから、対応する音声セグメントが1,594個の異なるセグメント(44%のtop-1精度)のうち最大72.5%の精度で、脳波記録の2,604個のセグメントのうち最大19.1%の精度で識別できることが分かった。 モデル比較とアブレーション分析は、これらのパフォーマンスが、我々の設計選択、すなわち、使用によって直接的に利益を得ることを示している。 (i)反対の目的,反対の目的. (ii)スピーチの事前学習表現、及び (iii)複数の参加者間で同時に訓練された共通畳み込みアーキテクチャ。 これらの結果は、脳活動の非侵襲的記録から自然言語処理をリアルタイムでデコードするための有望な経路を示している。

Decoding language from brain activity is a long-awaited goal in both healthcare and neuroscience. Major milestones have recently been reached thanks to intracranial devices: subject-specific pipelines trained on invasive brain responses to basic language tasks now start to efficiently decode interpretable features (e.g. letters, words, spectrograms). However, scaling this approach to natural speech and non-invasive brain recordings remains a major challenge. Here, we propose a single end-to-end architecture trained with contrastive learning across a large cohort of individuals to predict self-supervised representations of natural speech. We evaluate our model on four public datasets, encompassing 169 volunteers recorded with magneto- or electro-encephalography (M/EEG), while they listened to natural speech. The results show that our model can identify, from 3s of MEG signals, the corresponding speech segment with up to 72.5% top-10 accuracy out of 1,594 distinct segments (and 44% top-1 accuracy), and up to 19.1% out of 2,604 segments for EEG recordings -- hence allowing the decoding of phrases absent from the training set. Model comparison and ablation analyses show that these performances directly benefit from our original design choices, namely the use of (i) a contrastive objective, (ii) pretrained representations of speech and (iii) a common convolutional architecture simultaneously trained across several participants. Together, these results delineate a promising path to decode natural language processing in real time from non-invasive recordings of brain activity.
翻訳日:2022-08-29 12:44:17 公開日:2022-08-25
# コミュニケーションコストの削減とプライバシ保護:フェデレーション学習におけるプロンプトチューニング手法

Reduce Communication Costs and Preserve Privacy: Prompt Tuning Method in Federated Learning ( http://arxiv.org/abs/2208.12268v1 )

ライセンス: Link先を確認
Haodong Zhao, Wei Du, Fangqi Li, Peixuan Li, Gongshen Liu(参考訳) フェデレートラーニング(FL)は、モデル更新を集約することで、プライバシ保護方法で分散データのグローバルモデルトレーニングを可能にする。 しかし、多数のパラメータを持つ事前学習言語モデル(PLM)を利用する多くの自然言語処理(NLP)タスクでは、FLに関連する通信コストがかなり高い。 近年,plmを変更せずにソフトプロンプトをチューニングするプロンプトチューニングが,新しい学習パラダイムとして優れたパフォーマンスを達成している。 そこで我々は,この2つの手法を組み合わせて,FL下でのプロンプトチューニングの効果を探究する。 本稿では, flを用いたモデル分割学習方式のモデル分割学習において, 高速チューニングを行う最初の研究として「fedprompt」を提案し, 分割学習によって通信コストが大幅に低減し, パラメータの0.01%に留まり, iidおよび非iidデータ分布の精度が低下することを証明する。 これにより,FL手法の効率性が向上すると同時に,データプライバシの保護も容易になる。さらにPLMのように,プロンプトはパブリックプラットフォームと個人ユーザ間でアップロード,ダウンロードされるため,FLシナリオのソフトプロンプトのみを使用して,バックドアの脅威がまだ存在するかどうかを判断する。 我々はさらにFedPromptでデータ中毒によるバックドア攻撃を行う。 実験の結果,通常のバックドア攻撃は,FedPromptの堅牢性を証明し,FLにおけるプロンプトの適用を促進し,セキュリティ上の脅威に対する認識を高めることが期待できる。

Federated learning (FL) has enabled global model training on decentralized data in a privacy-preserving way by aggregating model updates. However, for many natural language processing (NLP) tasks that utilize pre-trained language models (PLMs) with large numbers of parameters, there are considerable communication costs associated with FL. Recently, prompt tuning, which tunes some soft prompts without modifying PLMs, has achieved excellent performance as a new learning paradigm. Therefore we want to combine the two methods and explore the effect of prompt tuning under FL. In this paper, we propose "FedPrompt" as the first work study prompt tuning in a model split learning way using FL, and prove that split learning greatly reduces the communication cost, only 0.01% of the PLMs' parameters, with little decrease on accuracy both on IID and Non-IID data distribution. This improves the efficiency of FL method while also protecting the data privacy in prompt tuning.In addition, like PLMs, prompts are uploaded and downloaded between public platforms and personal users, so we try to figure out whether there is still a backdoor threat using only soft prompt in FL scenarios. We further conduct backdoor attacks by data poisoning on FedPrompt. Our experiments show that normal backdoor attack can not achieve a high attack success rate, proving the robustness of FedPrompt.We hope this work can promote the application of prompt in FL and raise the awareness of the possible security threats.
翻訳日:2022-08-29 12:43:48 公開日:2022-08-25
# ポリシー最適化のための分散削減に基づく経験リプレイ

Variance Reduction based Experience Replay for Policy Optimization ( http://arxiv.org/abs/2208.12341v1 )

ライセンス: Link先を確認
Hua Zheng, Wei Xie, M. Ben Feng(参考訳) 多くの要因が出力軌跡に動的に影響を及ぼす複雑な確率的システムの強化学習には、過去のイテレーションで収集した履歴サンプルの情報を有効に活用し、政策最適化を加速することが望ましい。 古典的な体験リプレイは、エージェントが歴史的な観察を再利用することで記憶することができる。 しかしながら、全ての観測を扱う統一的な再利用戦略は、異なるサンプルの相対的重要性を等しく見落としている。 この制限を克服するために、最も関連するサンプルを選択的に再利用し、ポリシー勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。 この選択的メカニズムは、現在のターゲット分布によって生成される可能性が高い過去のサンプルに適応的に重みを付けることができる。 本研究は,vrerが最適政策の学習を加速し,最新の政策最適化手法の性能を向上させることを示す。

For reinforcement learning on complex stochastic systems where many factors dynamically impact the output trajectories, it is desirable to effectively leverage the information from historical samples collected in previous iterations to accelerate policy optimization. Classical experience replay allows agents to remember by reusing historical observations. However, the uniform reuse strategy that treats all observations equally overlooks the relative importance of different samples. To overcome this limitation, we propose a general variance reduction based experience replay (VRER) framework that can selectively reuse the most relevant samples to improve policy gradient estimation. This selective mechanism can adaptively put more weight on past samples that are more likely to be generated by the current target distribution. Our theoretical and empirical studies show that the proposed VRER can accelerate the learning of optimal policy and enhance the performance of state-of-the-art policy optimization approaches.
翻訳日:2022-08-29 12:38:08 公開日:2022-08-25
# 画像強調は植物疾患認識における数発の分類性能を改善する

Image augmentation improves few-shot classification performance in plant disease recognition ( http://arxiv.org/abs/2208.12613v1 )

ライセンス: Link先を確認
Frank Xiao(参考訳) 2050年までに世界の人口は100億近くになると予測されているため、作物の被害を最小限に抑え、食料の安全性を保証することは決して重要ではない。 作物の病気を迅速かつ効率的に識別するソリューションとして機械学習が提案されている。 畳み込みニューラルネットワークは通常、オンデマンドで利用できない注釈付きデータの大規模なデータセットを必要とする。 このデータの収集は、各葉を手動で摘み、画像化し、注釈付けする、長く厳しいプロセスである。 トランスファー・ラーニングと併用した場合の各種データ拡張手法の有効性を検討することにより,植物画像データ不足の問題に取り組む。 様々なデータ拡張手法がresnetの性能に与える影響を個別および組み合わせて評価する。 本稿では,多くの試行を通じて精度を一貫して向上させる,一連の異なる拡張手法を提案する。 合計シード画像が10枚しかないので、私の拡張フレームワークがモデルの精度を25\%以上向上できることを実証します。

With the world population projected to near 10 billion by 2050, minimizing crop damage and guaranteeing food security has never been more important. Machine learning has been proposed as a solution to quickly and efficiently identify diseases in crops. Convolutional Neural Networks typically require large datasets of annotated data which are not available on demand. Collecting this data is a long and arduous process which involves manually picking, imaging, and annotating each individual leaf. I tackle the problem of plant image data scarcity by exploring the efficacy of various data augmentation techniques when used in conjunction with transfer learning. I evaluate the impact of various data augmentation techniques both individually and combined on the performance of a ResNet. I propose an augmentation scheme utilizing a sequence of different augmentations which consistently improves accuracy through many trials. Using only 10 total seed images, I demonstrate that my augmentation framework can increase model accuracy by upwards of 25\%.
翻訳日:2022-08-29 12:36:19 公開日:2022-08-25
# ニューラルネットワークモデルのためのコンパクト事前学習手法

A Compact Pretraining Approach for Neural Language Models ( http://arxiv.org/abs/2208.12367v1 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, Nazgol Tavabi, Ata Kiapour(参考訳) 大規模ニューラルネットワークモデル(NLM)のドメイン適応は、事前学習フェーズにおいて大量の非構造化データと結合される。 しかし,本研究では,事前学習したNLMが,ドメイン内のキー情報に注目するデータのコンパクトなサブセットから,ドメイン内の情報をより効率的に,より高速に学習できることを示す。 抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクト部分集合を構築する。 特に、抽象的な要約を生成するためにBARTに依存しており、KeyBERTはこれらの要約(または元の非構造化テキスト)からキーワードを抽出する。 3つのデータセットと2つの異なるNLMを組み合わせた6つの異なる設定でアプローチを評価した。 以上の結果から,nlm上でトレーニングされたタスク固有分類器は,従来の事前学習法,すなわちデータ全体に対するランダムマスキング法,および事前学習を行わない手法よりも優れていた。 さらに,我々の戦略は,バニラ前訓練の5倍の事前訓練時間を短縮することを示した。 私たちの実験のコードはhttps://github.com/shahriargolchin/compact-pretrainingで公開されています。

Domain adaptation for large neural language models (NLMs) is coupled with massive amounts of unstructured data in the pretraining phase. In this study, however, we show that pretrained NLMs learn in-domain information more effectively and faster from a compact subset of the data that focuses on the key information in the domain. We construct these compact subsets from the unstructured data using a combination of abstractive summaries and extractive keywords. In particular, we rely on BART to generate abstractive summaries, and KeyBERT to extract keywords from these summaries (or the original unstructured text directly). We evaluate our approach using six different settings: three datasets combined with two distinct NLMs. Our results reveal that the task-specific classifiers trained on top of NLMs pretrained using our method outperform methods based on traditional pretraining, i.e., random masking on the entire data, as well as methods without pretraining. Further, we show that our strategy reduces pretraining time by up to five times compared to vanilla pretraining. The code for all of our experiments is publicly available at https://github.com/shahriargolchin/compact-pretraining.
翻訳日:2022-08-29 12:31:55 公開日:2022-08-25
# 強化学習のための教師なし表現の軽量探索

Light-weight probing of unsupervised representations for Reinforcement Learning ( http://arxiv.org/abs/2208.12345v1 )

ライセンス: Link先を確認
Wancong Zhang, Anthony GX-Chen, Vlad Sobal, Yann LeCun, Nicolas Carion(参考訳) 教師なしの視覚表現学習は、ラベルなし軌跡の大きなコーパスを利用して有用な視覚表現を形成する機会を与え、強化学習(RL)アルゴリズムの訓練に役立てることができる。 しかし、そのような表現の適合性を評価するには、計算集約的でばらつきの高いRLアルゴリズムを訓練する必要がある。 この問題を軽減するため,教師なしRL表現の評価プロトコルを設計し,分散度を低くし,計算コストを最大600倍まで削減する。 視覚コミュニティに触発されて,与えられた状態における報酬の予測と,与えられた状態における専門家の行動の予測という2つの線形探索タスクを提案する。 これらの2つのタスクは一般に多くのRLドメインに適用でき、厳密な実験を通して、Atari100kベンチマークの下流制御性能と強く相関していることを示す。 これにより、設定毎にRL評価を実行することなく、事前学習アルゴリズムの空間を探索するより良い方法が提供される。 このフレームワークを活用することで、RLの既存の自己教師あり学習(SSL)レシピをさらに改善し、フォワードモデルの重要性、視覚バックボーンのサイズ、教師なし目的の正確な定式化を強調します。

Unsupervised visual representation learning offers the opportunity to leverage large corpora of unlabeled trajectories to form useful visual representations, which can benefit the training of reinforcement learning (RL) algorithms. However, evaluating the fitness of such representations requires training RL algorithms which is computationally intensive and has high variance outcomes. To alleviate this issue, we design an evaluation protocol for unsupervised RL representations with lower variance and up to 600x lower computational cost. Inspired by the vision community, we propose two linear probing tasks: predicting the reward observed in a given state, and predicting the action of an expert in a given state. These two tasks are generally applicable to many RL domains, and we show through rigorous experimentation that they correlate strongly with the actual downstream control performance on the Atari100k Benchmark. This provides a better method for exploring the space of pretraining algorithms without the need of running RL evaluations for every setting. Leveraging this framework, we further improve existing self-supervised learning (SSL) recipes for RL, highlighting the importance of the forward model, the size of the visual backbone, and the precise formulation of the unsupervised objective.
翻訳日:2022-08-29 12:31:21 公開日:2022-08-25
# タスク計画のためのマルチメディア生成スクリプト学習

Multimedia Generative Script Learning for Task Planning ( http://arxiv.org/abs/2208.12306v1 )

ライセンス: Link先を確認
Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia Hockenmaier, Girish Chowdhary, Heng Ji(参考訳) 目標指向生成スクリプト学習は,ロボットが日常生活のステレオタイプ的活動を行うのを支援する上で不可欠な課題である目標に基づいて,その後のステップを生成することを目的としている。 本課題は, 歴史的状態が人への言語指導によって捉えられただけでなく, 付随画像による付加情報によって拡張された場合にも改善できることを示す。 そこで本稿では,テキストと視覚の両モードの履歴状態をトラッキングし,さらに2,338のタスクと31,496のステップを含む最初のベンチマークを記述的画像で提示する,マルチメディア生成スクリプト学習を提案する。 視覚状態の追跡が可能で、見えないタスクに対して帰納的であり、個々のステップで多様であるスクリプトを生成することを目指している。 本稿では,マルチメディア選択型エンコーダを用いて視覚状態変化を符号化し,検索拡張デコーダを用いて先行観測されたタスクから知識を伝達し,多様性指向のコントラスト学習目標を最適化することにより,各ステップで異なる情報を示すことを提案する。 生成品質と帰納的品質の両方を評価するためにメトリクスを定義します。 実験の結果,本手法は強いベースラインを著しく上回ることがわかった。

Goal-oriented generative script learning aims to generate subsequent steps based on a goal, which is an essential task to assist robots in performing stereotypical activities of daily life. We show that the performance of this task can be improved if historical states are not just captured by the linguistic instructions given to people, but are augmented with the additional information provided by accompanying images. Therefore, we propose a new task, Multimedia Generative Script Learning, to generate subsequent steps by tracking historical states in both text and vision modalities, as well as presenting the first benchmark containing 2,338 tasks and 31,496 steps with descriptive images. We aim to generate scripts that are visual-state trackable, inductive for unseen tasks, and diverse in their individual steps. We propose to encode visual state changes through a multimedia selective encoder, transferring knowledge from previously observed tasks using a retrieval-augmented decoder, and presenting the distinct information at each step by optimizing a diversity-oriented contrastive learning objective. We define metrics to evaluate both generation quality and inductive quality. Experiment results demonstrate that our approach significantly outperforms strong baselines.
翻訳日:2022-08-29 12:26:45 公開日:2022-08-25
# arrid: annベースのロバストおよび統合設計のためのロータダイナミクス

ARRID: ANN-based Rotordynamics for Robust and Integrated Design ( http://arxiv.org/abs/2208.12640v1 )

ライセンス: Link先を確認
Soheyl Massoudi, J\"urg Schiffmann(参考訳) 本研究の目的は、ロジスティックかつ統合設計の文脈でロータ力学を高速に評価するためのANNベースのソフトウェアを導入することである。 これは、bokeh webアプリケーションで実行される人工ニューラルネットワークのアンサンブルで構成されたサーロゲートモデルに基づいている。 代理モデルの使用により、現在のモデルと比較して3桁の計算が高速化された。 ARRIDは、製造逸脱の影響を含む高速な性能情報を提供する。 そのため、設計プロセスの早い段階で設計者が最適な設計選択を行うのに役立つ。 設計者は設計のパラメータと動作条件を操作でき、数秒で性能情報を得ることができる。

The purpose of this study is to introduce ANN-based software for the fast evaluation of rotordynamics in the context of robust and integrated design. It is based on a surrogate model made of ensembles of artificial neural networks running in a Bokeh web application. The use of a surrogate model has sped up the computation by three orders of magnitude compared to the current models. ARRID offers fast performance information, including the effect of manufacturing deviations. As such, it helps the designer to make optimal design choices early in the design process. The designer can manipulate the parameters of the design and the operating conditions to obtain performance information in a matter of seconds.
翻訳日:2022-08-29 12:25:04 公開日:2022-08-25
# タスク非依存データ評価の基礎

Fundamentals of Task-Agnostic Data Valuation ( http://arxiv.org/abs/2208.12354v1 )

ライセンス: Link先を確認
Mohammad Mohammadi Amiri, Frederic Berdoz, Ramesh Raskar(参考訳) データ検索/購入者のためのデータ所有者/販売者のデータを評価する。 データ評価は、検証セットにおけるテストの精度など、実際に存在しないような特定のユーティリティメトリックを仮定する特定のタスクに対して実行されることが多い。 本研究では,検証の必要なく,タスクに依存しないデータ評価に焦点を当てる。 データバイヤーは限られた量のデータ(公開可能)にアクセスでき、データ販売者からより多くのデータサンプルを求める。 本稿では,購入者が利用可能なベースラインデータに関して,販売者におけるデータの統計特性の違いを推定するものとして,問題を定式化する。 購入者に対する販売者のデータの多様性と妥当性を計測し、第2の瞬間を通じてこれらの統計的な差異を把握し、生データを要求せずに販売者への問い合わせを通じてこれらの尺度を推定する。 提案手法を用いて, 販売者が購入者の生データに盲目であり, 多様性と関連性のトレードオフの望ましい結果を得るために, 問い合わせに対する応答を作成する知識を持たないクエリの設計を行い, 提案手法が購入者のデータの多様性と妥当性を捉えた実表と画像データセットの広範な実験を通して示す。

We study valuing the data of a data owner/seller for a data seeker/buyer. Data valuation is often carried out for a specific task assuming a particular utility metric, such as test accuracy on a validation set, that may not exist in practice. In this work, we focus on task-agnostic data valuation without any validation requirements. The data buyer has access to a limited amount of data (which could be publicly available) and seeks more data samples from a data seller. We formulate the problem as estimating the differences in the statistical properties of the data at the seller with respect to the baseline data available at the buyer. We capture these statistical differences through second moment by measuring diversity and relevance of the seller's data for the buyer; we estimate these measures through queries to the seller without requesting raw data. We design the queries with the proposed approach so that the seller is blind to the buyer's raw data and has no knowledge to fabricate responses to queries to obtain a desired outcome of the diversity and relevance trade-off.We will show through extensive experiments on real tabular and image datasets that the proposed estimates capture the diversity and relevance of the seller's data for the buyer.
翻訳日:2022-08-29 12:24:56 公開日:2022-08-25
# 精度行列の信頼区間と共分散行列の固有分解について

On confidence intervals for precision matrices and the eigendecomposition of covariance matrices ( http://arxiv.org/abs/2208.11977v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Aleksei Tiulpin, Wacha Bounliphone and Matthew B. Blaschko(参考訳) 行列の固有デコンポジション(英: eigendecomposition)は、行列分解に基づく確率モデル(例えば主成分分析や話題モデル)の中心的な手順である。 有限サンプル推定に基づく分解の不確かさの定量化は、そのようなモデルを用いる際の不確かさの推論に不可欠である。 本稿では,固定次元の共分散行列の固有ベクトルの個々のエントリに対する信頼性境界の計算に挑戦する。 さらに、逆共分散行列(いわゆる精度行列)の成分を束縛する手法を導出する。 この方法の背後にある仮定は最小であり、共分散行列が存在することを必要とし、その経験的推定式は真の共分散に収束する。 我々は、経験的共分散行列の$L_2$摂動を束縛するためにU統計理論を利用する。 この結果から、ワイルの定理と固有値固有ベクトル恒等式を用いて固有ベクトルの有界を求め、行列逆摂動境界を用いて精度行列のエントリに対する信頼区間を導出する。 これらの結果の応用として,精度行列の非ゼロ値のテストを可能にする新しい統計テストを示す。 我々はこの実験をフィッシャー-zテストと部分相関関係を比較し,提案する統計テストの健全性と拡張性を示すとともに,医療・物理学領域からの実世界データに適用する。

The eigendecomposition of a matrix is the central procedure in probabilistic models based on matrix factorization, for instance principal component analysis and topic models. Quantifying the uncertainty of such a decomposition based on a finite sample estimate is essential to reasoning under uncertainty when employing such models. This paper tackles the challenge of computing confidence bounds on the individual entries of eigenvectors of a covariance matrix of fixed dimension. Moreover, we derive a method to bound the entries of the inverse covariance matrix, the so-called precision matrix. The assumptions behind our method are minimal and require that the covariance matrix exists, and its empirical estimator converges to the true covariance. We make use of the theory of U-statistics to bound the $L_2$ perturbation of the empirical covariance matrix. From this result, we obtain bounds on the eigenvectors using Weyl's theorem and the eigenvalue-eigenvector identity and we derive confidence intervals on the entries of the precision matrix using matrix inversion perturbation bounds. As an application of these results, we demonstrate a new statistical test, which allows us to test for non-zero values of the precision matrix. We compare this test to the well-known Fisher-z test for partial correlations, and demonstrate the soundness and scalability of the proposed statistical test, as well as its application to real-world data from medical and physics domains.
翻訳日:2022-08-26 14:09:22 公開日:2022-08-25
# 部分マトリックスコンプリート

Partial Matrix Completion ( http://arxiv.org/abs/2208.12063v1 )

ライセンス: Link先を確認
Varun Kanade, Elad Hazan, Adam Tauman Kalai(参考訳) 行列完成問題では、明快な(おそらくうるさい)エントリの集合に基づいて、低ランク行列を再構築したいと考える。 以前の研究は、成分上の分布が一様でない場合において非常に不正確な行列全体の完備化を考える。 部分行列完全化の問題を定式化し、エントリの大規模なサブセットを完備すること、あるいはマトリックス全体を完備すること、あるいはエントリの正確なサブセットを指定することである。 興味深いことに、分布が未知で任意に複雑であっても、効率的なアルゴリズムは以下のことを保証できる。 (a)完成した全ての項目の精度、及び (b)高いカバレッジ、つまり、観測の分布の少なくとも多くのマトリックスをカバーしていることを意味する。

In the matrix completion problem, one wishes to reconstruct a low-rank matrix based on a revealed set of (possibly noisy) entries. Prior work considers completing the entire matrix, which may be highly inaccurate in the common case where the distribution over entries is non-uniform. We formalize the problem of Partial Matrix Completion where the goal is to complete a large subset of the entries, or equivalently to complete the entire matrix and specify an accurate subset of the entries. Interestingly, even though the distribution is unknown and arbitrarily complex, our efficient algorithm is able to guarantee: (a) high accuracy over all completed entries, and (b) high coverage, meaning that it covers at least as much of the matrix as the distribution of observations.
翻訳日:2022-08-26 14:08:58 公開日:2022-08-25
# CAS4DL: ディープラーニングによる関数近似のためのChristoffel Adaptive Smpling

CAS4DL: Christoffel Adaptive Sampling for function approximation via Deep Learning ( http://arxiv.org/abs/2208.12190v1 )

ライセンス: Link先を確認
Ben Adcock, Juan M. Cardenas and Nick Dexter(参考訳) サンプル点から滑らかな多変量関数を近似する問題は、科学と工学のための計算の不確実性量子化(UQ)など、科学計算における多くの応用において発生する。 これらの応用において、対象関数はパラメータ化部分微分方程式(PDE)の所望の量の興味を表すことができる。 PDEを解くことで各サンプルが計算されるような、そのような問題を解決するコストが大きいため、サンプル効率はこれらのアプリケーションにおいて鍵となる。 近年、データからこれらの関数を学習するためにDeep Neural Networks(DNN)とDeep Learning(DL)の使用に注目が集まっている。 本研究では,多変量関数近似のためのdlのサンプル効率を向上させるための適応サンプリング戦略cas4dl(christoffel adaptive sampling for deep learning)を提案する。 提案手法は,dnnの2層から最後の層を,その層上のノードによって定義された関数の辞書として解釈することに基づいている。 この観点から,最近提案された線形近似スキームに対する適応的サンプリングスキームに動機づけられた適応的サンプリング戦略を定め,この辞書にまたがる部分空間のクリストッフェル関数に対して標本をランダムに描画する。 我々はCAS4DLと標準モンテカルロサンプリングを比較した数値実験を行った。 以上の結果から,cas4dlは,特にスムースアクティベーション関数の場合において,所定の精度を達成するために必要なサンプル数を大幅に削減でき,mcと比較して安定性が向上することが示された。 これらの結果は、科学計算応用へのDLの完全適応に向けた有望なステップである。

The problem of approximating smooth, multivariate functions from sample points arises in many applications in scientific computing, e.g., in computational Uncertainty Quantification (UQ) for science and engineering. In these applications, the target function may represent a desired quantity of interest of a parameterized Partial Differential Equation (PDE). Due to the large cost of solving such problems, where each sample is computed by solving a PDE, sample efficiency is a key concerning these applications. Recently, there has been increasing focus on the use of Deep Neural Networks (DNN) and Deep Learning (DL) for learning such functions from data. In this work, we propose an adaptive sampling strategy, CAS4DL (Christoffel Adaptive Sampling for Deep Learning) to increase the sample efficiency of DL for multivariate function approximation. Our novel approach is based on interpreting the second to last layer of a DNN as a dictionary of functions defined by the nodes on that layer. With this viewpoint, we then define an adaptive sampling strategy motivated by adaptive sampling schemes recently proposed for linear approximation schemes, wherein samples are drawn randomly with respect to the Christoffel function of the subspace spanned by this dictionary. We present numerical experiments comparing CAS4DL with standard Monte Carlo (MC) sampling. Our results demonstrate that CAS4DL often yields substantial savings in the number of samples required to achieve a given accuracy, particularly in the case of smooth activation functions, and it shows a better stability in comparison to MC. These results therefore are a promising step towards fully adapting DL towards scientific computing applications.
翻訳日:2022-08-26 14:08:45 公開日:2022-08-25
# ソフトウェアテストタスクのための強化学習フレームワークの比較

A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks ( http://arxiv.org/abs/2208.12136v1 )

ライセンス: Link先を確認
Paulina Stevia Nouwou Mindom and Amin Nikanjam and Foutse Khomh(参考訳) ソフトウェアテスト活動は、ソフトウェア製品の潜在的な欠陥を見つけ、製品が期待される要件を満たしていることを保証することを目的としている。 アプローチされたいくつかのソフトウェアテストは自動化が欠如しているか、部分的に自動化されているため、テスト時間とソフトウェアテスト全体のコストが増加する。 近年,Reinforcement Learning (RL) はゲームテストや回帰テスト,テストケースの優先順位付けといった複雑なテストタスクに成功し,プロセスの自動化と継続的適応を実現している。 実践者はRLアルゴリズムをスクラッチから実装するか、あるいはRLフレームワークを使用することでRLを使用することができる。 開発者はこれらのフレームワークを使って、ソフトウェアテストを含むさまざまな領域の問題を解決する。 しかし、我々の知る限り、RLフレームワークにおける事前実装アルゴリズムの有効性と性能を実証的に評価する研究は存在しない。 本稿では,継続的インテグレーション(CI)とゲームテストという2つの重要なソフトウェアテストタスクにおいて,慎重に選択されたRLアルゴリズムの適用を実証的に検討する。 ゲームテストタスクでは,単純なゲームで実験を行い,rlアルゴリズムを用いてゲームを調査してバグを検出する。 その結果、Tensorforceのような選択されたRLフレームワークは、最近の文献のアプローチよりも優れていることがわかった。 テストケースを優先するために、さまざまなフレームワークのRLアルゴリズムを使用してテストケースをランク付けするCI環境で実験を行います。 以上の結果から,事前実装アルゴリズムの性能差は極めて大きいことを示し,さらなる調査の動機となった。 さらに、RLアルゴリズムの意図した性能を保証するため、RLフレームワークの選択を検討している研究者には、いくつかのベンチマーク問題に対する実証的な評価が推奨されている。

Software testing activities aim to find the possible defects of a software product and ensure that the product meets its expected requirements. Some software testing approached are lacking automation or are partly automated which increases the testing time and overall software testing costs. Recently, Reinforcement Learning (RL) has been successfully employed in complex testing tasks such as game testing, regression testing, and test case prioritization to automate the process and provide continuous adaptation. Practitioners can employ RL by implementing from scratch an RL algorithm or use an RL framework. Developers have widely used these frameworks to solve problems in various domains including software testing. However, to the best of our knowledge, there is no study that empirically evaluates the effectiveness and performance of pre-implemented algorithms in RL frameworks. In this paper, we empirically investigate the applications of carefully selected RL algorithms on two important software testing tasks: test case prioritization in the context of Continuous Integration (CI) and game testing. For the game testing task, we conduct experiments on a simple game and use RL algorithms to explore the game to detect bugs. Results show that some of the selected RL frameworks such as Tensorforce outperform recent approaches in the literature. To prioritize test cases, we run experiments on a CI environment where RL algorithms from different frameworks are used to rank the test cases. Our results show that the performance difference between pre-implemented algorithms in some cases is considerable, motivating further investigation. Moreover, empirical evaluations on some benchmark problems are recommended for researchers looking to select RL frameworks, to make sure that RL algorithms perform as intended.
翻訳日:2022-08-26 14:07:13 公開日:2022-08-25
# 球状ワッサーシュタイン-フィッシャー-ラオ計量に基づく測地学の深層学習フレームワークとその加重サンプル生成への応用

A deep learning framework for geodesics under spherical Wasserstein-Fisher-Rao metric and its application for weighted sample generation ( http://arxiv.org/abs/2208.12145v1 )

ライセンス: Link先を確認
Yang Jing, Jiaheng Chen, Lei Li, Jianfeng Lu(参考訳) wasserstein-fisher-rao距離(wasserstein-fisher-rao distance、wfr)は、2つのラドン測度の差を測定するための指標である。 球状WFR距離(英: Spherical WFR distance)は、WFRを備えたラドン測度の空間を、球状WFRを持つ確率測度の空間上の計量円錐と見なせるように、確率測度のWFR距離の投影版である。 ワッサーシュタイン距離と比較して、球状WFRの下での測地学の理解は明確ではなく、現在も研究の焦点となっている。 本稿では,球面wfr計量の下で測地線を計算するための深層学習フレームワークを開発し,重みづけられたサンプルを生成するために学習測地線を適用できる。 本手法は, 球面WFRのベナモ・ブレニエ型動的定式化に基づく。 重量変化に伴う境界制約を強制することの難しさを克服するために、逆写像に基づくクルバック・リーブラ(KL)発散項をコスト関数に導入する。 さらに, 粒子速度を用いた新しい正則化項を, 動的公式のポテンシャルに対するハミルトン・ヤコビ方程式の代用として導入した。 サンプル生成に使用する場合,本フレームワークは,従来のフローモデルを用いたサンプル生成と比較して,特にベイズ推定における重み付きサンプルの応用に有用である。

Wasserstein-Fisher-Rao (WFR) distance is a family of metrics to gauge the discrepancy of two Radon measures, which takes into account both transportation and weight change. Spherical WFR distance is a projected version of WFR distance for probability measures so that the space of Radon measures equipped with WFR can be viewed as metric cone over the space of probability measures with spherical WFR. Compared to the case for Wasserstein distance, the understanding of geodesics under the spherical WFR is less clear and still an ongoing research focus. In this paper, we develop a deep learning framework to compute the geodesics under the spherical WFR metric, and the learned geodesics can be adopted to generate weighted samples. Our approach is based on a Benamou-Brenier type dynamic formulation for spherical WFR. To overcome the difficulty in enforcing the boundary constraint brought by the weight change, a Kullback-Leibler (KL) divergence term based on the inverse map is introduced into the cost function. Moreover, a new regularization term using the particle velocity is introduced as a substitute for the Hamilton-Jacobi equation for the potential in dynamic formula. When used for sample generation, our framework can be beneficial for applications with given weighted samples, especially in the Bayesian inference, compared to sample generation with previous flow models.
翻訳日:2022-08-26 14:06:47 公開日:2022-08-25
# 大動脈3次元圧と速度流場の高速取得のためのディープニューラルネットワーク

Deep neural networks for fast acquisition of aortic 3D pressure and velocity flow fields ( http://arxiv.org/abs/2208.12156v1 )

ライセンス: Link先を確認
Endrit Pajaziti, Javier Montalt-Tordera, Claudio Capelli, Raphael Sivera, Emilie Sauvage, Silvia Schievano, Vivek Muthurangu(参考訳) 計算流体力学(CFD)は、血管血行動態をシミュレートし、潜在的治療オプションを分析するために用いられる。 CFDは患者の予後を改善するのに有用であることが示されている。 しかし, 定期臨床用CFDの実装はまだ実現されていない。 cfdの障壁には、高い計算資源、シミュレーションのセットアップ設計に必要な専門的な経験、長い処理時間が含まれる。 本研究の目的は、機械学習(ML)を用いて、従来の大動脈CFDを自動回帰モデルと高速回帰モデルで再現することである。 合成生成した3D大動脈形状を用いて,3,000CFDシミュレーションを行った。 これらの被験者は、実際の患者固有の大動脈(n=67)の上に構築された統計的形状モデル(ssm)から得られた。 200回の試験では平均誤差は6.01%+/-3.12 SD、圧力と速度はそれぞれ3.99%+/-0.93 SDであった。 MLモデルでは,解法よりも約0.075秒(4000倍高速)でCFDを行った。 本研究は, 従来の血管性cfdの結果をmlを用いて, 高速, 自動的, 高精度に再現できることを示す。

Computational fluid dynamics (CFD) can be used to simulate vascular haemodynamics and analyse potential treatment options. CFD has shown to be beneficial in improving patient outcomes. However, the implementation of CFD for routine clinical use is yet to be realised. Barriers for CFD include high computational resources, specialist experience needed for designing simulation set-ups, and long processing times. The aim of this study was to explore the use of machine learning (ML) to replicate conventional aortic CFD with automatic and fast regression models. Data used to train/test the model comprised of 3,000 CFD simulations performed on synthetically generated 3D aortic shapes. These subjects were generated from a statistical shape model (SSM) built on real patient-specific aortas (N=67). Inference performed on 200 test shapes resulted in average errors of 6.01% +/-3.12 SD and 3.99% +/-0.93 SD for pressure and velocity, respectively. Our ML-based models performed CFD in ~0.075 seconds (4,000x faster than the solver). This study shows that results from conventional vascular CFD can be reproduced using ML at a much faster rate, in an automatic process, and with high accuracy.
翻訳日:2022-08-26 14:06:24 公開日:2022-08-25
# 数学問題をゲームに変換する:強化学習と「オブナーベース」を合わせて整数実現可能性問題を解く

Turning Mathematics Problems into Games: Reinforcement Learning and Gr\"obner bases together solve Integer Feasibility Problems ( http://arxiv.org/abs/2208.12191v1 )

ライセンス: Link先を確認
Yue Wu, Jes\'us A. De Loera(参考訳) エージェントはゲームで難しい数学の質問に答えるように訓練できるのか? 線形方程式系と不等式系が整数値を持つ解を持つかどうかを判定する課題である整数実現可能性問題を考える。 これは数学と計算機科学の分野で応用された有名なNP完全問題である。 本稿では,整数実現可能性問題に相当するゲームをエージェントがプレイできる,代数的強化学習フレームワークについて述べる。 本稿では,固定マージン和を持つ配列の集合上での整数実現可能性問題をゲームに変換する方法について述べる。 ゲームは初期状態(配列)から始まり、マージンを変更せずに法的な動きを適用することで、最終的に特定の位置にゼロの勝利状態に到達することを目指している。 ゲームに勝つには、プレイヤーは初期状態と最終終了状態との間のパスを見つけなければならない。 そのような勝利状態を見つけることは、整数実現可能性問題の解法と等価である。 鍵となる代数的成分は、基礎となる軸輸送多面体に対するトーリックイデアルのgr\"obner基底である。 Gr\"オブナー基底はゲームの接続動作(アクション)の集合と見なすことができる。 次に, エージェントに連続空間における動きを予測させ, アクション空間の大規模化に対処する新しいRL手法を提案する。 連続移動は、その経路が常に有効な状態につながるように、一連の法的移動に投影される。 概念実証として,我々は実験で,エージェントが2方向テーブルの最も単純なバージョンをプレイできることを実証する。 本研究は,エージェントを訓練し,非自明な数学的問合せを解決するための,現代的機械学習手法の可能性を浮き彫りにする。

Can agents be trained to answer difficult mathematical questions by playing a game? We consider the integer feasibility problem, a challenge of deciding whether a system of linear equations and inequalities has a solution with integer values. This is a famous NP-complete problem with applications in many areas of Mathematics and Computer Science. Our paper describes a novel algebraic reinforcement learning framework that allows an agent to play a game equivalent to the integer feasibility problem. We explain how to transform the integer feasibility problem into a game over a set of arrays with fixed margin sums. The game starts with an initial state (an array), and by applying a legal move that leaves the margins unchanged, we aim to eventually reach a winning state with zeros in specific positions. To win the game the player must find a path between the initial state and a final terminal winning state if one exists. Finding such a winning state is equivalent to solving the integer feasibility problem. The key algebraic ingredient is a Gr\"obner basis of the toric ideal for the underlying axial transportation polyhedron. The Gr\"obner basis can be seen as a set of connecting moves (actions) of the game. We then propose a novel RL approach that trains an agent to predict moves in continuous space to cope with the large size of action space. The continuous move is then projected onto the set of legal moves so that the path always leads to valid states. As a proof of concept we demonstrate in experiments that our agent can play well the simplest version of our game for 2-way tables. Our work highlights the potential to train agents to solve non-trivial mathematical queries through contemporary machine learning methods used to train agents to play games.
翻訳日:2022-08-26 14:06:04 公開日:2022-08-25
# インクリメンタルな学習による公平さの維持

Sustaining Fairness via Incremental Learning ( http://arxiv.org/abs/2208.12212v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Snigdha Chaturvedi(参考訳) 機械学習システムは、クレジットレンディングや雇用など、重要な決定を下すためにデプロイされることが多い。 意思決定を行う際、そのようなシステムはユーザーの人口情報(性別、年齢など)を中間表現にエンコードすることが多い。 これは特定の人口動態に偏った決定につながる可能性がある。 以前の作業は、公平な決定を保証するために中間表現を偏りなくすることに重点を置いてきた。 しかし、これらのアプローチはタスクや人口分布の変化と一致しない。 野生の公平性を確保するためには、システムがインクリメンタルな方法で新しいデータにアクセスするため、このような変更に適応することが重要です。 本稿では,インクリメンタルな学習環境において,公平表現の学習の問題を導入することにより,この問題に対処することを提案する。 この目的のために,新たなタスクを段階的に学習しながら,公平性を維持できる表現学習システムであるFairness-Aware Incremental Representation Learning (FaIRL)を提案する。 FaIRLは、学習した表現の速度歪み関数を制御することにより、公平性を達成し、新しいタスクを学習することができる。 実験により,FIRLは目標タスクにおいて高い性能を達成し,複数のベースラインを上回りながら公平な決定を下せることを示す。

Machine learning systems are often deployed for making critical decisions like credit lending, hiring, etc. While making decisions, such systems often encode the user's demographic information (like gender, age) in their intermediate representations. This can lead to decisions that are biased towards specific demographics. Prior work has focused on debiasing intermediate representations to ensure fair decisions. However, these approaches fail to remain fair with changes in the task or demographic distribution. To ensure fairness in the wild, it is important for a system to adapt to such changes as it accesses new data in an incremental fashion. In this work, we propose to address this issue by introducing the problem of learning fair representations in an incremental learning setting. To this end, we present Fairness-aware Incremental Representation Learning (FaIRL), a representation learning system that can sustain fairness while incrementally learning new tasks. FaIRL is able to achieve fairness and learn new tasks by controlling the rate-distortion function of the learned representations. Our empirical evaluations show that FaIRL is able to make fair decisions while achieving high performance on the target task, outperforming several baselines.
翻訳日:2022-08-26 14:05:39 公開日:2022-08-25
# 音声と画像のハイブリッド融合による解釈可能なマルチモーダル感情認識

Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data ( http://arxiv.org/abs/2208.11868v1 )

ライセンス: Link先を確認
Puneet Kumar, Sarthak Malik and Balasubramanian Raman(参考訳) 本稿では,音声発話と対応する画像によって表される感情を離散クラスに分類するハイブリッド融合に基づくマルチモーダル感情認識システムを提案する。 特定の感情クラスの予測につながる重要な音声・画像の特徴を識別する新しい解釈可能性技術を開発した。 提案システムのアーキテクチャは集中的アブレーション研究によって決定されている。 音声と画像の特徴を融合させ、音声、画像、中間融合出力を組み合わせる。 提案手法は,各音声・画像特徴量の重要性を示す形状値を求める分割・征服手法を取り入れたものである。 また,大規模データセット(iit-r sierデータセット)を構築し,音声発話,対応画像,クラスラベル,すなわち"anger","happy","hate","sad"からなる。 提案システムは感情認識の精度を83.29%向上させた。 提案システムの性能向上は,感情認識に複数のモダリティからの補完的情報を活用することの重要性を示唆する。

This paper proposes a multimodal emotion recognition system based on hybrid fusion that classifies the emotions depicted by speech utterances and corresponding images into discrete classes. A new interpretability technique has been developed to identify the important speech & image features leading to the prediction of particular emotion classes. The proposed system's architecture has been determined through intensive ablation studies. It fuses the speech & image features and then combines speech, image, and intermediate fusion outputs. The proposed interpretability technique incorporates the divide & conquer approach to compute shapely values denoting each speech & image feature's importance. We have also constructed a large-scale dataset (IIT-R SIER dataset), consisting of speech utterances, corresponding images, and class labels, i.e., 'anger,' 'happy,' 'hate,' and 'sad.' The proposed system has achieved 83.29% accuracy for emotion recognition. The enhanced performance of the proposed system advocates the importance of utilizing complementary information from multiple modalities for emotion recognition.
翻訳日:2022-08-26 14:04:33 公開日:2022-08-25
# 組成アクティブ推論 II: 多項式動力学 近似推論ドクトリン

Compositional Active Inference II: Polynomial Dynamics. Approximate Inference Doctrines ( http://arxiv.org/abs/2208.12173v1 )

ライセンス: Link先を確認
Toby St. Clere Smithe(参考訳) 本研究では, 統計ゲームとゲームプレイの力学系を関連づけた, アクティビティの導入によるアクティブ推論の合成理論を, 近似推論の新たな概念を用いて開発する。 そのような関手を示すために、まず、必要なタイプの合成インターフェースを提供するために多項式関手の言語を一般化して、動的システムの必要な理論を開発する。 次に、'externally parameterized'' 統計ゲームについて記述し、'Laplace' と 'Hebb-Laplace' という2つの近似推論原理を構築する。

We develop the compositional theory of active inference by introducing activity, functorially relating statistical games to the dynamical systems which play them, using the new notion of approximate inference doctrine. In order to exhibit such functors, we first develop the necessary theory of dynamical systems, using a generalization of the language of polynomial functors to supply compositional interfaces of the required types: with the resulting polynomially indexed categories of coalgebras, we construct monoidal bicategories of differential and dynamical ``hierarchical inference systems'', in which approximate inference doctrines have semantics. We then describe ``externally parameterized'' statistical games, and use them to construct two approximate inference doctrines found in the computational neuroscience literature, which we call the `Laplace' and the `Hebb-Laplace' doctrines: the former produces dynamical systems which optimize the posteriors of Gaussian models; and the latter produces systems which additionally optimize the parameters (or `weights') which determine their predictions.
翻訳日:2022-08-26 14:04:18 公開日:2022-08-25
# CNNによるエッジ不足によるネットワークロバストネスの予測

CNN-based Prediction of Network Robustness With Missing Edges ( http://arxiv.org/abs/2208.11847v1 )

ライセンス: Link先を確認
Chengpei Wu and Yang Lou and Ruizi Wu and Wenwen Liu and Junli Li(参考訳) 複雑なネットワークの接続性と制御性は、ネットワークシステムが機能することを保証する2つの重要な問題である。 接続性と制御性のロバスト性は、システムが様々な悪意ある攻撃の下で適切に安定して機能することを保証する。 攻撃シミュレーションを用いたネットワークロバスト性の評価には時間を要するが、畳み込みニューラルネットワーク(CNN)ベースの予測アプローチは、ネットワークロバスト性を近似するコスト効率のよい方法を提供する。 本稿では,部分的ネットワーク情報が欠落した場合の接続性および制御性ロバストネス予測のためのcnnベースの手法,すなわち隣接行列が不完全である場合の性能について検討する。 広範な実験研究が行われている。 閾値は、7.29\%以上の情報の合計量が失われると、実験のすべてのケースでcnnベースの予測の性能が著しく低下することを示す。 エッジ表現の欠落の2つのシナリオを比較した。 1) 予測のための入力に不足したエッジが 'no edge' とマークされ、 2) 「未知」の特別なマーカーを用いて、欠落した端を示す。 実験の結果、最初の表現はcnnベースの予測者に誤解を招くことが明らかとなった。

Connectivity and controllability of a complex network are two important issues that guarantee a networked system to function. Robustness of connectivity and controllability guarantees the system to function properly and stably under various malicious attacks. Evaluating network robustness using attack simulations is time consuming, while the convolutional neural network (CNN)-based prediction approach provides a cost-efficient method to approximate the network robustness. In this paper, we investigate the performance of CNN-based approaches for connectivity and controllability robustness prediction, when partial network information is missing, namely the adjacency matrix is incomplete. Extensive experimental studies are carried out. A threshold is explored that if a total amount of more than 7.29\% information is lost, the performance of CNN-based prediction will be significantly degenerated for all cases in the experiments. Two scenarios of missing edge representations are compared, 1) a missing edge is marked `no edge' in the input for prediction, and 2) a missing edge is denoted using a special marker of `unknown'. Experimental results reveal that the first representation is misleading to the CNN-based predictors.
翻訳日:2022-08-26 14:04:00 公開日:2022-08-25
# 無線センサネットワークを用いた円形領域への侵入検知のためのkバリア数予測のための深層学習手法

A deep learning approach to predict the number of k-barriers for intrusion detection over a circular region using wireless sensor networks ( http://arxiv.org/abs/2208.11887v1 )

ライセンス: Link先を確認
Abhilash Singh, J. Amutha, Jaiprakash Nagar, Sandeep Sharma(参考訳) 無線センサネットワーク(WSNs)は、ほぼすべての人生で膨大な応用が期待できる技術である。 WSNの重要な応用の1つは、国境地帯や防衛施設における侵入検知と監視である。 国境地域は数百から数千マイルにも及ぶので、国境地域全体をパトロールすることは不可能である。 結果として、敵は監視の欠如から立ち入り、命を失ったり、軍事施設を破壊したりすることができる。 WSNは、国境地帯における侵入検知と監視の問題を解決することができる。 国境地帯や近くの軍用缶詰などの重要地域における敵の検出は、数秒の遅延が破壊的な結果をもたらす可能性があるため、時間に敏感な作業である。 したがって、配備されたシステムの範囲内になるとすぐに敵を識別し、検出できるシステムを設計することが不可欠となる。 本稿では,高速な侵入検知・防止のためのkバリア数の正確な予測を行うために,完全接続型フィードフォワードニューラルネットワーク(ANN)に基づくディープラーニングアーキテクチャを提案する。 我々は,循環領域の面積,センサの検知範囲,センサの伝送範囲,ガウス分布と均一なセンサ分布のセンサ数という4つの潜在的な特徴を用いて,フィードフォワードanモデルを訓練し,評価した。 これらの特徴はモンテカルロシミュレーションによって抽出される。 その結果, ガウス分布と一様センサ分布の両方において, 相関係数 (r = 0.78) と根平均二乗誤差 (rmse = 41.15) を前者, r = 0.79 と rmse = 48.36 で正確に予測できることがわかった。 さらに,提案手法は他のベンチマークアルゴリズムを精度と計算時間の複雑さで上回っている。

Wireless Sensor Networks (WSNs) is a promising technology with enormous applications in almost every walk of life. One of the crucial applications of WSNs is intrusion detection and surveillance at the border areas and in the defense establishments. The border areas are stretched in hundreds to thousands of miles, hence, it is not possible to patrol the entire border region. As a result, an enemy may enter from any point absence of surveillance and cause the loss of lives or destroy the military establishments. WSNs can be a feasible solution for the problem of intrusion detection and surveillance at the border areas. Detection of an enemy at the border areas and nearby critical areas such as military cantonments is a time-sensitive task as a delay of few seconds may have disastrous consequences. Therefore, it becomes imperative to design systems that are able to identify and detect the enemy as soon as it comes in the range of the deployed system. In this paper, we have proposed a deep learning architecture based on a fully connected feed-forward Artificial Neural Network (ANN) for the accurate prediction of the number of k-barriers for fast intrusion detection and prevention. We have trained and evaluated the feed-forward ANN model using four potential features, namely area of the circular region, sensing range of sensors, the transmission range of sensors, and the number of sensor for Gaussian and uniform sensor distribution. These features are extracted through Monte Carlo simulation. In doing so, we found that the model accurately predicts the number of k-barriers for both Gaussian and uniform sensor distribution with correlation coefficient (R = 0.78) and Root Mean Square Error (RMSE = 41.15) for the former and R = 0.79 and RMSE = 48.36 for the latter. Further, the proposed approach outperforms the other benchmark algorithms in terms of accuracy and computational time complexity.
翻訳日:2022-08-26 14:01:25 公開日:2022-08-25
# クレジットカード不正検出 - 分類器選択戦略

Credit card fraud detection - Classifier selection strategy ( http://arxiv.org/abs/2208.11900v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke(参考訳) 機械学習は金融詐欺検出のための新しいツールを公開した。 アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムが不正検出を学習する。 クレジットカード取引量の増加と不正率の増加により、検出に適切な機械学習分類器を見つけることへの関心が高まっている。 しかし、不正データセットは多様であり、一貫性のない特徴を示す。 その結果、与えられたデータセットに有効なモデルが他のデータセットで実行されることが保証されない。 また、時間経過に伴うデータパターンや特性の時間的ドリフトの可能性も高い。 さらに、不正データには、大きくて異なる不均衡がある。 本研究では,サンプリング手法を,不均衡を扱うための実行可能な前処理機構として評価し,特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択戦略を提案する。 選択戦略に基づくモデルは、より現実的な条件下で作業しながら、ピアモデルを超え、戦略の有効性を確立する。

Machine learning has opened up new tools for financial fraud detection. Using a sample of annotated transactions, a machine learning classification algorithm learns to detect frauds. With growing credit card transaction volumes and rising fraud percentages there is growing interest in finding appropriate machine learning classifiers for detection. However, fraud data sets are diverse and exhibit inconsistent characteristics. As a result, a model effective on a given data set is not guaranteed to perform on another. Further, the possibility of temporal drift in data patterns and characteristics over time is high. Additionally, fraud data has massive and varying imbalance. In this work, we evaluate sampling methods as a viable pre-processing mechanism to handle imbalance and propose a data-driven classifier selection strategy for characteristic highly imbalanced fraud detection data sets. The model derived based on our selection strategy surpasses peer models, whilst working in more realistic conditions, establishing the effectiveness of the strategy.
翻訳日:2022-08-26 14:00:56 公開日:2022-08-25
# 大規模不均衡・雑音データにおける機械学習分類器評価指標の検討

Empirical study of Machine Learning Classifier Evaluation Metrics behavior in Massively Imbalanced and Noisy data ( http://arxiv.org/abs/2208.11904v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke, Sugandika Samarakoon(参考訳) クレジットカードの取引量の増加に伴い、被害者と戦って補償する機関のオーバーヘッドコストなど、不正率も上昇している。 金融セクターにおける機械学習の使用は、詐欺やその他の経済犯罪に対するより効果的な保護を可能にする。 適切に訓練された機械学習分類器は、積極的に不正検出し、株主信頼と不正取引に対する堅牢性を向上させる。 しかし,機械学習に基づく不正検出アルゴリズムの設計は,不正データの極めて不均衡な性質と,不正を正確にかつ完全に識別することによる金本位制の真理の創出が困難で遅かった。 さらに、パフォーマンスのよい分類器を計測し識別するためのベンチマークや標準分類器評価指標は存在せず、研究者を暗く保ちます。 本研究では,実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。 一般的な現実世界のクレジットカード詐欺データセットに近似した合成データ分布を用いて仮想的分類器実験を行い,人間のアノテーションエラーと極端な不均衡をシミュレートし,一般的な機械学習分類器評価行列の挙動を観察する。 本稿では,f1スコアとg-meanの組み合わせが,典型的な不正検出モデル分類の最適評価指標であることを実証する。

With growing credit card transaction volumes, the fraud percentages are also rising, including overhead costs for institutions to combat and compensate victims. The use of machine learning into the financial sector permits more effective protection against fraud and other economic crime. Suitably trained machine learning classifiers help proactive fraud detection, improving stakeholder trust and robustness against illicit transactions. However, the design of machine learning based fraud detection algorithms has been challenging and slow due the massively unbalanced nature of fraud data and the challenges of identifying the frauds accurately and completely to create a gold standard ground truth. Furthermore, there are no benchmarks or standard classifier evaluation metrics to measure and identify better performing classifiers, thus keeping researchers in the dark. In this work, we develop a theoretical foundation to model human annotation errors and extreme imbalance typical in real world fraud detection data sets. By conducting empirical experiments on a hypothetical classifier, with a synthetic data distribution approximated to a popular real world credit card fraud data set, we simulate human annotation errors and extreme imbalance to observe the behavior of popular machine learning classifier evaluation matrices. We demonstrate that a combined F1 score and g-mean, in that specific order, is the best evaluation metric for typical imbalanced fraud detection model classification.
翻訳日:2022-08-26 14:00:44 公開日:2022-08-25
# ドメインインフォームグラフニューラルネットワーク:量子化学のケーススタディ

Domain-informed graph neural networks: a quantum chemistry case study ( http://arxiv.org/abs/2208.11934v1 )

ライセンス: Link先を確認
Jay Morgan, Adeline Paiement, and Christian Klinke(参考訳) 我々は、事前のドメイン知識をディープニューラルネットワーク(DNN)の設計に統合するためのさまざまな戦略を探求する。 グラフニューラルネットワーク(gnn)に注目し,グラフとして表される化学系(分子,結晶)のポテンシャルエネルギーを推定する。 ドメイン知識の2つの要素をGNNの設計に統合し、学習を制約し、規則化し、より高精度で一般化する。 まず、GNN内のノード間の相互作用を変調するために、原子間の異なる種類の関係(化学結合)の存在に関する知識が使用される。 第二に、いくつかの物理量の関連性に関する知識は、単純なマルチタスクパラダイムを用いて学習した特徴を高い物理的関連性に制限するために使用される。 ノード間の情報伝達とノード状態の更新に異なるメカニズムに依存する2つのアーキテクチャに適用することで、知識統合の汎用性を実証する。

We explore different strategies to integrate prior domain knowledge into the design of a deep neural network (DNN). We focus on graph neural networks (GNN), with a use case of estimating the potential energy of chemical systems (molecules and crystals) represented as graphs. We integrate two elements of domain knowledge into the design of the GNN to constrain and regularise its learning, towards higher accuracy and generalisation. First, knowledge on the existence of different types of relations (chemical bonds) between atoms is used to modulate the interaction of nodes in the GNN. Second, knowledge of the relevance of some physical quantities is used to constrain the learnt features towards a higher physical relevance using a simple multi-task paradigm. We demonstrate the general applicability of our knowledge integrations by applying them to two architectures that rely on different mechanisms to propagate information between nodes and to update node states.
翻訳日:2022-08-26 14:00:20 公開日:2022-08-25
# グラフの局所固有次元度測定とグラフ埋め込みへの応用

Local Intrinsic Dimensionality Measures for Graphs, with Applications to Graph Embeddings ( http://arxiv.org/abs/2208.11986v1 )

ライセンス: Link先を確認
Milo\v{s} Savi\'c, Vladimir Kurbalija, Milo\v{s} Radovanovi\'c(参考訳) 局所内在的次元性(LID)の概念は、データマイニング、機械学習、類似性探索問題に応用されたデータ次元解析における重要な進歩である。 既存の距離に基づくLID推定器はユークリッド空間のベクトルとして表されるデータポイントを含む表付きデータセットのために設計された。 グラフ埋め込みとグラフ距離を考慮したグラフ構造データに対する限界を議論した後,ノードの自然群落に対する最短経路距離の識別力の定量化のための新しいlid法であるnc-lidを提案する。 NC-LID値に応じて調整されたパーソナライズされたハイパーパラメータを持つノード2ベックの2つのLID弾性変種を定式化することにより、LID対応グラフ埋め込みアルゴリズムを設計するのにこの手法をどのように利用できるかを示す。 実世界の多数のグラフ上でのNC-LIDの実証分析により,ノード中心性測定値よりも優れたノード2vec埋め込みにおいて,高いリンク再構成誤差を持つノードを指し示すことができることを示した。 また,提案したLID-elastic node2vec拡張は,生成した埋め込みにおけるグラフ構造をよりよく保存することによりノード2vecを改善することを示す。

The notion of local intrinsic dimensionality (LID) is an important advancement in data dimensionality analysis, with applications in data mining, machine learning and similarity search problems. Existing distance-based LID estimators were designed for tabular datasets encompassing data points represented as vectors in a Euclidean space. After discussing their limitations for graph-structured data considering graph embeddings and graph distances, we propose NC-LID, a novel LID-related measure for quantifying the discriminatory power of the shortest-path distance with respect to natural communities of nodes as their intrinsic localities. It is shown how this measure can be used to design LID-aware graph embedding algorithms by formulating two LID-elastic variants of node2vec with personalized hyperparameters that are adjusted according to NC-LID values. Our empirical analysis of NC-LID on a large number of real-world graphs shows that this measure is able to point to nodes with high link reconstruction errors in node2vec embeddings better than node centrality metrics. The experimental evaluation also shows that the proposed LID-elastic node2vec extensions improve node2vec by better preserving graph structure in generated embeddings.
翻訳日:2022-08-26 14:00:05 公開日:2022-08-25
# 未知雑音分散を持つ効率的な停止線形回帰

Efficient Truncated Linear Regression with Unknown Noise Variance ( http://arxiv.org/abs/2208.12042v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Patroklos Stefanou, Rui Yao, Manolis Zampetakis(参考訳) 正則線形回帰は統計学における古典的な問題であり、ラベルにおいて、$y = w^T x + \varepsilon$ とその対応する特徴ベクトル $x \in \mathbb{R}^k$ は、ラベルがある部分集合$S \subseteq \mathbb{R}$ に該当する場合にのみ観測される。 トランケートされた観測による線形回帰は、~\citet{tobin 1958estimation,amemiya 1973regression} の初期の研究以来、その一般的な形での挑戦のままである。 誤差の分布が既知の分散で正規である場合、--\citet{daskalakis2019truncatedregression} の最近の研究は線形モデルの計算的かつ統計的に効率的な推定器である $w$ を提供する。 本稿では, 雑音の分散が未知の場合には, 線形回帰を計算的に, 統計的に効率的に推定し, 線形モデルと雑音の分散の両方を推定する。 提案手法は, トラッピング標本の負の対数類似度に基づいて, プロジェクテッド確率勾配 Descent の効率的な実装に基づく。 重要なことは、我々の推定の誤差が漸近的に正常であることを示し、これを用いて、我々の推定に対する明確な信頼領域を提供する。

Truncated linear regression is a classical challenge in Statistics, wherein a label, $y = w^T x + \varepsilon$, and its corresponding feature vector, $x \in \mathbb{R}^k$, are only observed if the label falls in some subset $S \subseteq \mathbb{R}$; otherwise the existence of the pair $(x, y)$ is hidden from observation. Linear regression with truncated observations has remained a challenge, in its general form, since the early works of~\citet{tobin1958estimation,amemiya1973regression}. When the distribution of the error is normal with known variance, recent work of~\citet{daskalakis2019truncatedregression} provides computationally and statistically efficient estimators of the linear model, $w$. In this paper, we provide the first computationally and statistically efficient estimators for truncated linear regression when the noise variance is unknown, estimating both the linear model and the variance of the noise. Our estimator is based on an efficient implementation of Projected Stochastic Gradient Descent on the negative log-likelihood of the truncated sample. Importantly, we show that the error of our estimates is asymptotically normal, and we use this to provide explicit confidence regions for our estimates.
翻訳日:2022-08-26 13:59:45 公開日:2022-08-25
# GeoRadarを用いた建築壁の材料層評価

Assesment of material layers in building walls using GeoRadar ( http://arxiv.org/abs/2208.12064v1 )

ライセンス: Link先を確認
Ildar Gilmutdinov, Ingrid Schloegel, Alois Hinterleitner, Peter Wonka and Michael Wimmer(参考訳) 非侵襲的な手法で建物の構造を評価することは重要な問題である。 可能なアプローチの1つは、GeoRadarを使用して、スキャンから得られたデータを分析することで、壁構造を調べることである。 本稿では,GPRレーダグラムから壁の材料組成を評価するためのデータ駆動手法を提案する。 トレーニングデータを生成するために,gprmaxを用いてスキャニングプロセスをモデル化する。 シミュレーションデータを用いて、畳み込みニューラルネットワークを用いて層ごとの壁の厚さと誘電特性を予測する。 実建物から収集したデータに基づいて,訓練モデルの一般化能力を評価する。

Assessing the structure of a building with non-invasive methods is an important problem. One of the possible approaches is to use GeoRadar to examine wall structures by analyzing the data obtained from the scans. We propose a data-driven approach to evaluate the material composition of a wall from its GPR radargrams. In order to generate training data, we use gprMax to model the scanning process. Using simulation data, we use a convolutional neural network to predict the thicknesses and dielectric properties of walls per layer. We evaluate the generalization abilities of the trained model on data collected from real buildings.
翻訳日:2022-08-26 13:58:50 公開日:2022-08-25
# 学習力場の自動モデリングのためのアルゴリズムによる微分

Algorithmic Differentiation for Automatized Modelling of Machine Learned Force Fields ( http://arxiv.org/abs/2208.12104v1 )

ライセンス: Link先を確認
Niklas Frederik Schmitz, Klaus-Robert M\"uller, Stefan Chmiela(参考訳) 原子シミュレーションデータからの力場(FF)の再構成は、精度の高いデータが高価であることから困難である。 ここで、機械学習(ml)モデルは、基礎となる対称性と物理学の保存法則を使って、うまく制約できるため、データ経済となるのに役立つ。 しかし、これまでのところ、MLモデルのために新しく提案された記述子はすべて、面倒で数学的に面倒なリモデリングを必要としている。 We therefore propose to use modern techniques from algorithmic differentiation within the ML modeling process -- effectively enabling the usage of novel descriptors or models fully automatically at an order of magnitude higher computational efficiency. This paradigmatic approach enables not only a versatile usage of novel representations, the efficient computation of larger systems -- all of high value to the FF community -- but also the simple inclusion of further physical knowledge such as higher-order information (e.g.~Hessians, more complex partial differential equations constraints etc.), even beyond the presented FF domain.

Reconstructing force fields (FF) from atomistic simulation data is a challenge since accurate data can be highly expensive. Here, machine learning (ML) models can help to be data economic as they can be successfully constrained using the underlying symmetry and conservation laws of physics. However, so far, every descriptor newly proposed for an ML model has required a cumbersome and mathematically tedious remodeling. We therefore propose to use modern techniques from algorithmic differentiation within the ML modeling process -- effectively enabling the usage of novel descriptors or models fully automatically at an order of magnitude higher computational efficiency. This paradigmatic approach enables not only a versatile usage of novel representations, the efficient computation of larger systems -- all of high value to the FF community -- but also the simple inclusion of further physical knowledge such as higher-order information (e.g.~Hessians, more complex partial differential equations constraints etc.), even beyond the presented FF domain.
翻訳日:2022-08-26 13:58:41 公開日:2022-08-25
# グローバル収束勾配型バイレベルハイパーパラメータ最適化法

A Globally Convergent Gradient-based Bilevel Hyperparameter Optimization Method ( http://arxiv.org/abs/2208.12118v1 )

ライセンス: Link先を確認
Ankur Sinha, Satender Gunwal and Shivam Kumar(参考訳) 機械学習におけるハイパーパラメータ最適化は、通常、近似したハイパーパラメータセットのみをもたらすナイーブなテクニックによって達成される。 ベイズ最適化のような手法は、与えられたハイパーパラメータの領域をインテリジェントに探索するが、最適解を保証しない。 これらのアプローチの大きな欠点は、ハイパーパラメータの数で探索領域が指数関数的に増加し、計算コストが増加し、アプローチが遅くなることである。 超パラメータ最適化問題は本質的には二段階最適化問題であり、この問題を解決するための二段階解法を試みている研究もある。 しかしながら、これらの研究はトレーニング損失を最小限にするユニークなモデル重み付けを仮定している。 本稿では,超パラメータ最適化問題の解法として,これらの欠点に対処する勾配法について述べる。 提案手法は,実験で正規化ハイパーパラメータを選択した連続ハイパーパラメータを扱うことができる。 この手法は、理論的に証明された最適パラメータの集合への収束を保証する。 この考え方はガウス過程回帰を用いた低レベル最適値関数の近似に基づいている。 その結果、二レベル問題は、拡張ラグランジアン法を用いて解決される単一レベル制約最適化タスクに還元される。 我々は,MNISTおよびCIFAR-10データセットを多層パーセプトロンおよびLeNetアーキテクチャ上で広範囲に計算し,提案手法の有効性を確認した。 格子探索, ランダム探索, ベイズ最適化, ハイバーバンド法の比較研究により, 提案アルゴリズムはより低い計算量に収束し, テストセットをより一般化するモデルが導かれることを示した。

Hyperparameter optimization in machine learning is often achieved using naive techniques that only lead to an approximate set of hyperparameters. Although techniques such as Bayesian optimization perform an intelligent search on a given domain of hyperparameters, it does not guarantee an optimal solution. A major drawback of most of these approaches is an exponential increase of their search domain with number of hyperparameters, increasing the computational cost and making the approaches slow. The hyperparameter optimization problem is inherently a bilevel optimization task, and some studies have attempted bilevel solution methodologies for solving this problem. However, these studies assume a unique set of model weights that minimize the training loss, which is generally violated by deep learning architectures. This paper discusses a gradient-based bilevel method addressing these drawbacks for solving the hyperparameter optimization problem. The proposed method can handle continuous hyperparameters for which we have chosen the regularization hyperparameter in our experiments. The method guarantees convergence to the set of optimal hyperparameters that this study has theoretically proven. The idea is based on approximating the lower-level optimal value function using Gaussian process regression. As a result, the bilevel problem is reduced to a single level constrained optimization task that is solved using the augmented Lagrangian method. We have performed an extensive computational study on the MNIST and CIFAR-10 datasets on multi-layer perceptron and LeNet architectures that confirms the efficiency of the proposed method. A comparative study against grid search, random search, Bayesian optimization, and HyberBand method on various hyperparameter problems shows that the proposed algorithm converges with lower computation and leads to models that generalize better on the testing set.
翻訳日:2022-08-26 13:58:28 公開日:2022-08-25
# 視覚観測による実世界のUASナビゲーション

UAS Navigation in the Real World Using Visual Observation ( http://arxiv.org/abs/2208.12125v1 )

ライセンス: Link先を確認
Yuci Han, Jianli Wei, Alper Yilmaz(参考訳) 本稿では、現実世界における長距離視覚ナビゲーションのための、新しいエンドツーエンド無人航空システム(uas)ナビゲーション手法を提案する。 環境理解とランドマーク認識という,人間の本能の二重プロセス視覚ナビゲーションシステムに着想を得て,UASナビゲーションタスクを2つの相に定式化する。 本システムは,強化学習(RL)と画像マッチングを併用する。 まず、エージェントは、指定された環境でRLを用いてナビゲーションポリシーを学習する。 そこで我々は,トレーニングプロセスのための対話型UASNAV環境を設計する。 エージェントが「環境に慣れている」という意味のナビゲーションポリシーを学習すると、UASは画像マッチング手法を用いてランドマークを認識させ、学習されたポリシーに従って行動を取る。 ナビゲーションプロセスの間、UASは唯一の視覚センサーとして単一のカメラが埋め込まれている。 我々は,UASが現実のシナリオにおいて最短経路で出発点から数百メートル離れた目的地への航路を学習できることを実証した。

This paper presents a novel end-to-end Unmanned Aerial System (UAS) navigation approach for long-range visual navigation in the real world. Inspired by dual-process visual navigation system of human's instinct: environment understanding and landmark recognition, we formulate the UAS navigation task into two same phases. Our system combines the reinforcement learning (RL) and image matching approaches. First, the agent learns the navigation policy using RL in the specified environment. To achieve this, we design an interactive UASNAV environment for the training process. Once the agent learns the navigation policy, which means 'familiarized themselves with the environment', we let the UAS fly in the real world to recognize the landmarks using image matching method and take action according to the learned policy. During the navigation process, the UAS is embedded with single camera as the only visual sensor. We demonstrate that the UAS can learn navigating to the destination hundreds meters away from the starting point with the shortest path in the real world scenario.
翻訳日:2022-08-26 13:54:59 公開日:2022-08-25
# 深層学習を用いた無人航空機システムにおけるgis支援手法

A Gis Aided Approach for Geolocalizing an Unmanned Aerial System Using Deep Learning ( http://arxiv.org/abs/2208.12251v1 )

ライセンス: Link先を確認
Jianli Wei, Deniz Karakay, Alper Yilmaz(参考訳) 地球測位システム(GPS)は、測地サービスの提供を主目的として、私たちの日常生活の一部となっている。 無人航空システム(UAS)では,GPSを心臓に設置した慣性航法システム(Inertial Navigation System,INS)を用いてジオローカライゼーション能力を実現することが極めて重要である。 測地サービスなしでは、UASは目的地への飛行や帰国はできない。 残念なことに、都市キャニオンではGPS信号が妨害され、マルチパス問題に悩まされることがある。 我々の目標は、GPS信号の劣化や拒否時にUASをジオローカライズする代替手法を提案することである。 UASは、プラットフォームが飛ぶとリアルタイム画像を取得することができる、下向きのカメラをプラットフォーム上に備えているので、ジオローカライゼーションを実現するために、最新のディープラーニング技術を適用します。 特に,UAS取得画像と衛星写真との遅延特徴共役を確立するために画像マッチングを行う。 特徴マッチングの典型的な応用は、高層建築物や、ホモグラフィ推定に不確実性を導入する分野における新しい構造に苦しめられ、その結果、局所化性能が低下する。 代わりに、OpenStreetMap (OSM) からGIS情報を抽出し、セマンティックにマッチした特徴をビルディングクラスとランドスケープクラスに分割する。 GISマスクは、コプレーナリティ条件とUASのジオローカライゼーション精度を高める意味的にマッチした特徴を選択するためのフィルタとして機能する。 論文が公開されたら、私たちのコードはhttps://github.com/OSUPCVLab/UbihereDrone2021で公開されます。

The Global Positioning System (GPS) has become a part of our daily life with the primary goal of providing geopositioning service. For an unmanned aerial system (UAS), geolocalization ability is an extremely important necessity which is achieved using Inertial Navigation System (INS) with the GPS at its heart. Without geopositioning service, UAS is unable to fly to its destination or come back home. Unfortunately, GPS signals can be jammed and suffer from a multipath problem in urban canyons. Our goal is to propose an alternative approach to geolocalize a UAS when GPS signal is degraded or denied. Considering UAS has a downward-looking camera on its platform that can acquire real-time images as the platform flies, we apply modern deep learning techniques to achieve geolocalization. In particular, we perform image matching to establish latent feature conjugates between UAS acquired imagery and satellite orthophotos. A typical application of feature matching suffers from high-rise buildings and new constructions in the field that introduce uncertainties into homography estimation, hence results in poor geolocalization performance. Instead, we extract GIS information from OpenStreetMap (OSM) to semantically segment matched features into building and terrain classes. The GIS mask works as a filter in selecting semantically matched features that enhance coplanarity conditions and the UAS geolocalization accuracy. Once the paper is published our code will be publicly available at https://github.com/OSUPCVLab/UbihereDrone2021.
翻訳日:2022-08-26 13:54:45 公開日:2022-08-25
# 逆ベイズシミュレーション

Adversarial Bayesian Simulation ( http://arxiv.org/abs/2208.12113v1 )

ライセンス: Link先を確認
Yuexi Wang, Veronika Ro\v{c}kov\'a(参考訳) 明示的あるいは扱いやすい可能性がない場合、ベイジアンはしばしば推定のために近似ベイジアン計算(abc)に頼る。 我々の研究は、GAN(Generative Adversarial Network)と逆効果ベイズに基づくディープ・ニューラル暗黙のサンプルでABCを橋渡しする。 abcとgansは、観測データと偽データとを比較して、それぞれ後方と確率からシミュレートする。 我々は, 逆最適化問題を解くことで, 直接後方を狙うベイズ型GAN(B-GAN)サンプリング器を開発した。 B-GANは条件付きGANによってABC参照で学習された決定論的マッピングによって駆動される。 マッピングがトレーニングされた後、ノイズを無視可能な追加コストでフィルタリングすることで、後部サンプルを得る。 本稿では,(1)データ駆動型リウィーディングと(2)変分ベイズを用いた局所改善処理の2つの方法を提案する。 本研究は,ニューラルネットワーク生成器や識別器において,真と近似後部の典型的な総変動距離が0に収束することを示す。 シミュレーションデータを用いた結果,近年の近未来型後方シミュレータと比較して高い競争性能を示した。

In the absence of explicit or tractable likelihoods, Bayesians often resort to approximate Bayesian computation (ABC) for inference. Our work bridges ABC with deep neural implicit samplers based on generative adversarial networks (GANs) and adversarial variational Bayes. Both ABC and GANs compare aspects of observed and fake data to simulate from posteriors and likelihoods, respectively. We develop a Bayesian GAN (B-GAN) sampler that directly targets the posterior by solving an adversarial optimization problem. B-GAN is driven by a deterministic mapping learned on the ABC reference by conditional GANs. Once the mapping has been trained, iid posterior samples are obtained by filtering noise at a negligible additional cost. We propose two post-processing local refinements using (1) data-driven proposals with importance reweighing, and (2) variational Bayes. We support our findings with frequentist-Bayesian results, showing that the typical total variation distance between the true and approximate posteriors converges to zero for certain neural network generators and discriminators. Our findings on simulated data show highly competitive performance relative to some of the most recent likelihood-free posterior simulators.
翻訳日:2022-08-26 13:54:09 公開日:2022-08-25
# 音楽ジャンル分類のための放送ネットワークに関する研究

A Study on Broadcast Networks for Music Genre Classification ( http://arxiv.org/abs/2208.12086v1 )

ライセンス: Link先を確認
Ahmed Heakl, Abdelrahman Abdelgawad, Victor Parque(参考訳) 音楽ストリーミング/リコンペンダーサービスの需要の増加と、近年の音楽情報検索フレームワークの発展により、音楽ジャンル分類(mgc)がコミュニティの注目を集めている。 しかし、畳み込みに基づくアプローチには、時間的特徴を効率的にエンコードし、ローカライズする能力がないことが知られている。 本稿では,小さなパラメータセット(約180k)で局所化と一般化性を改善することを目的としたブロードキャストベースニューラルネットワークについて検討し,ブロック構成,プーリング方法,アクティベーション機能,正規化機構,ラベルスムーシング,チャネル間依存性,LSTMブロック包摂性,インセプションスキームの変種など,12種類のブロードキャストネットワークについて検討する。 GTZAN,Extended Ballroom,HOMBURG,Free Music Archive (FMA) などの関連するデータセットを用いた計算実験により,音楽ジャンル分類における最先端の分類精度を示す。 我々のアプローチは、音楽と音声の分類のためのコンパクトで一般化可能なブロードキャストネットワークを実現するための洞察と可能性を提供する。

Due to the increased demand for music streaming/recommender services and the recent developments of music information retrieval frameworks, Music Genre Classification (MGC) has attracted the community's attention. However, convolutional-based approaches are known to lack the ability to efficiently encode and localize temporal features. In this paper, we study the broadcast-based neural networks aiming to improve the localization and generalizability under a small set of parameters (about 180k) and investigate twelve variants of broadcast networks discussing the effect of block configuration, pooling method, activation function, normalization mechanism, label smoothing, channel interdependency, LSTM block inclusion, and variants of inception schemes. Our computational experiments using relevant datasets such as GTZAN, Extended Ballroom, HOMBURG, and Free Music Archive (FMA) show state-of-the-art classification accuracies in Music Genre Classification. Our approach offers insights and the potential to enable compact and generalizable broadcast networks for music and audio classification.
翻訳日:2022-08-26 13:53:51 公開日:2022-08-25
# GENEA Challenge 2022に参加して

The ReprGesture entry to the GENEA Challenge 2022 ( http://arxiv.org/abs/2208.12133v1 )

ライセンス: Link先を確認
Sicheng Yang, Zhiyong Wu, Minglei Li, Mengchen Zhao, Jiuxin Lin, Liyang Chen, Weihong Bao(参考訳) 本稿では,エンボディドエージェント(genea)チャレンジ2022における非言語行動の生成と評価への帰結について述べる。 GENEAチャレンジは、処理されたデータセットを提供し、さまざまなジェスチャー生成システムのパフォーマンスを比較するためにクラウドソースによる評価を行う。 本稿では,マルチモーダル表現学習に基づくジェスチャ自動生成システムについて検討する。 音声にはwavlm機能、テキストにはfasttext機能、ジェスチャーには position and rotation matrix機能を使用します。 各モダリティは2つの異なる部分空間(モダリティ不変性とモダリティ特異)に射影される。 モダリティ-不変共通性を学習し、モダリティ固有表現の文字をキャプチャするために、勾配反転層に基づく逆数分類器およびモダリティ再構成復号器を用いる。 ジェスチャーデコーダは、音声のリズムに関連するすべての表現と特徴を用いて適切なジェスチャーを生成する。 私たちのコード、事前トレーニングされたモデル、デモはhttps://github.com/youngseng/reprgesture.comで利用可能です。

This paper describes the ReprGesture entry to the Generation and Evaluation of Non-verbal Behaviour for Embodied Agents (GENEA) challenge 2022. The GENEA challenge provides the processed datasets and performs crowdsourced evaluations to compare the performance of different gesture generation systems. In this paper, we explore an automatic gesture generation system based on multimodal representation learning. We use WavLM features for audio, FastText features for text and position and rotation matrix features for gesture. Each modality is projected to two distinct subspaces: modality-invariant and modality-specific. To learn inter-modality-invariant commonalities and capture the characters of modality-specific representations, gradient reversal layer based adversarial classifier and modality reconstruction decoders are used during training. The gesture decoder generates proper gestures using all representations and features related to the rhythm in the audio. Our code, pre-trained models and demo are available at https://github.com/YoungSeng/ReprGesture.
翻訳日:2022-08-26 13:53:28 公開日:2022-08-25
# 複数の基地局を有する無線システムにおけるフェデレーション学習のための微分プライバシーについて

On Differential Privacy for Federated Learning in Wireless Systems with Multiple Base Stations ( http://arxiv.org/abs/2208.11848v1 )

ライセンス: Link先を確認
Nima Tavangaran, Mingzhe Chen, Zhaohui Yang, Jos\'e Mairton B. Da Silva Jr., H. Vincent Poor(参考訳) 本研究では,複数の基地局とセル間干渉を有する無線システムにおける連合学習モデルについて検討する。 学習段階において,ユーザから対応する基地局へ情報を送信するために,差分プライベートスキームを適用する。 本稿では,その最適性ギャップの上界を導出することにより,学習プロセスの収束挙動を示す。 さらに,この上限とプライバシーの漏えいを低減させる最適化問題を定式化する。 この問題の局所最適解を求めるために,まず,リソースブロックとユーザをスケジュールするアルゴリズムを提案する。 次に、この方式を拡張して、差分プライバシー人工ノイズを最適化することにより、プライバシーの漏洩総量を削減する。 この2つの手順の解を連合学習システムのパラメータとして適用する。 この設定では、各ユーザが分類器を備えていると仮定する。 さらに、通信セルは、ユーザ数よりもリソースブロックがほとんど少ないと仮定される。 その結果,提案するスケジューラはランダムスケジューラと比較して予測平均精度が向上することがわかった。 さらに、ノイズオプティマイザを備えた拡張バージョンは、プライバシリークの量を大幅に削減する。

In this work, we consider a federated learning model in a wireless system with multiple base stations and inter-cell interference. We apply a differential private scheme to transmit information from users to their corresponding base station during the learning phase. We show the convergence behavior of the learning process by deriving an upper bound on its optimality gap. Furthermore, we define an optimization problem to reduce this upper bound and the total privacy leakage. To find the locally optimal solutions of this problem, we first propose an algorithm that schedules the resource blocks and users. We then extend this scheme to reduce the total privacy leakage by optimizing the differential privacy artificial noise. We apply the solutions of these two procedures as parameters of a federated learning system. In this setting, we assume that each user is equipped with a classifier. Moreover, the communication cells are assumed to have mostly fewer resource blocks than numbers of users. The simulation results show that our proposed scheduler improves the average accuracy of the predictions compared with a random scheduler. Furthermore, its extended version with noise optimizer significantly reduces the amount of privacy leakage.
翻訳日:2022-08-26 13:52:57 公開日:2022-08-25
# NeuralUQ:ニューラル微分方程式と演算子の不確実性定量化のための包括的ライブラリ

NeuralUQ: A comprehensive library for uncertainty quantification in neural differential equations and operators ( http://arxiv.org/abs/2208.11866v1 )

ライセンス: Link先を確認
Zongren Zou, Xuhui Meng, Apostolos F Psaros, and George Em Karniadakis(参考訳) 機械学習における不確実性定量化(UQ)は現在、コンピュータビジョン、自然言語処理、リスクに敏感なアプリケーションにおける信頼性ツールの必要性など、さまざまな分野にわたるディープニューラルネットワークの迅速な展開によって、研究の関心が高まっている。 近年、計算科学・工学(cse)への応用を含む科学計算分野の問題に取り組むために、様々な機械学習モデルが開発されている。 物理インフォームドニューラルネットワークとディープオペレータネットワークは、それぞれ偏微分方程式と学習オペレータマッピングを解くための2つのモデルである。 本稿では,[45]において,科学的機械学習(sciml)モデルに特化したuq手法の包括的研究を行った。 それにもかかわらず、理論的なメリットにもかかわらず、これらの手法の実装は、特に大規模CSEアプリケーションでは簡単ではなく、研究と産業の両方で広く採用されるのを妨げている。 本稿では,SciMLのUQメソッドを便利かつ構造化した方法で使用するための,NeuralUQと呼ばれるオープンソースのPythonライブラリ(https://github.com/Crunch-UQ4MI)について述べる。 このライブラリは教育と研究の両方のために設計されており、複数の現代的なUQメソッドとSciMLモデルをサポートしている。 これは簡潔なワークフローに基づいており、フレキシブルな雇用とユーザによる拡張を容易にする。 本稿ではまずNeuralUQのチュートリアルを紹介し,動的システムと高次元パラメトリックおよび時間依存PDEを含む4つの多種多様な例で適用性と効率性を示す。

Uncertainty quantification (UQ) in machine learning is currently drawing increasing research interest, driven by the rapid deployment of deep neural networks across different fields, such as computer vision, natural language processing, and the need for reliable tools in risk-sensitive applications. Recently, various machine learning models have also been developed to tackle problems in the field of scientific computing with applications to computational science and engineering (CSE). Physics-informed neural networks and deep operator networks are two such models for solving partial differential equations and learning operator mappings, respectively. In this regard, a comprehensive study of UQ methods tailored specifically for scientific machine learning (SciML) models has been provided in [45]. Nevertheless, and despite their theoretical merit, implementations of these methods are not straightforward, especially in large-scale CSE applications, hindering their broad adoption in both research and industry settings. In this paper, we present an open-source Python library (https://github.com/Crunch-UQ4MI), termed NeuralUQ and accompanied by an educational tutorial, for employing UQ methods for SciML in a convenient and structured manner. The library, designed for both educational and research purposes, supports multiple modern UQ methods and SciML models. It is based on a succinct workflow and facilitates flexible employment and easy extensions by the users. We first present a tutorial of NeuralUQ and subsequently demonstrate its applicability and efficiency in four diverse examples, involving dynamical systems and high-dimensional parametric and time-dependent PDEs.
翻訳日:2022-08-26 13:52:41 公開日:2022-08-25
# ビザンチンレジリエント確率勾配勾配の簡易収束理論

A simplified convergence theory for Byzantine resilient stochastic gradient descent ( http://arxiv.org/abs/2208.11879v1 )

ライセンス: Link先を確認
Lindon Roberts, Edward Smyth(参考訳) 分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。 不正な情報を送信する1つ以上の悪意のあるサーバ(ビザンティンの敵)が存在する場合、確率勾配降下(SGD)のようなモデルトレーニングのための標準的なアルゴリズムは収束しない。 本稿では,ブランチャードらによって提唱されたByzantine Resilient SGD法に対する簡易収束理論を提案する。 2017年発売。 既存の解析と比較すると、(おそらくは非凸な)目的関数の標準仮定と確率勾配の柔軟な仮定に基づいて、予想される定常点への収束を示した。

In distributed learning, a central server trains a model according to updates provided by nodes holding local data samples. In the presence of one or more malicious servers sending incorrect information (a Byzantine adversary), standard algorithms for model training such as stochastic gradient descent (SGD) fail to converge. In this paper, we present a simplified convergence theory for the generic Byzantine Resilient SGD method originally proposed by Blanchard et al. [NeurIPS 2017]. Compared to the existing analysis, we shown convergence to a stationary point in expectation under standard assumptions on the (possibly nonconvex) objective function and flexible assumptions on the stochastic gradients.
翻訳日:2022-08-26 13:52:16 公開日:2022-08-25
# TEP-GNN:グラフニューラルネットワークを用いた機能テストの正確な実行時間予測

TEP-GNN: Accurate Execution Time Prediction of Functional Tests using Graph Neural Networks ( http://arxiv.org/abs/2208.11947v1 )

ライセンス: Link先を確認
Hazem Peter Samoaa, Antonio Longa, Mazen Mohamad, Morteza Haghir Chehreghani and Philipp Leitner(参考訳) 実際に実行またはベンチマークする前に本番コードのパフォーマンスを予測することは、非常に難しいことが分かっています。 本稿では,tep-gnnと呼ばれる予測モデルを提案し,ユニットテストの実行時間を予測する特別な場合において,高精度な性能予測が可能であることを示す。 TEP-GNNは、グラフベースのコード表現アプローチとしてFA-ASTまたはフロー拡張ASTを使用し、強力なグラフニューラルネットワーク(GNN)ディープラーニングモデルを使用してテスト実行時間を予測する。 プロジェクト公開リポジトリから抽出した922のテストファイルに基づいて,4つのJavaオープンソースプログラムを用いてTEP-GNNを評価した。 提案手法はピアソン相関が0.789であり,ベースライン深層学習モデルよりもかなり優れていることがわかった。 しかし、トレーニングされたモデルが未発見のプロジェクトに一般化するためには、より多くの作業が必要であることも分かりました。 我々の研究は、FA-ASTとGNNが絶対的なパフォーマンス値を予測するための実現可能なアプローチであることを示し、実行前に任意のコードのパフォーマンスを予測するための重要な中間的なステップとして役立ちます。

Predicting the performance of production code prior to actually executing or benchmarking it is known to be highly challenging. In this paper, we propose a predictive model, dubbed TEP-GNN, which demonstrates that high-accuracy performance prediction is possible for the special case of predicting unit test execution times. TEP-GNN uses FA-ASTs, or flow-augmented ASTs, as a graph-based code representation approach, and predicts test execution times using a powerful graph neural network (GNN) deep learning model. We evaluate TEP-GNN using four real-life Java open source programs, based on 922 test files mined from the projects' public repositories. We find that our approach achieves a high Pearson correlation of 0.789, considerable outperforming a baseline deep learning model. However, we also find that more work is needed for trained models to generalize to unseen projects. Our work demonstrates that FA-ASTs and GNNs are a feasible approach for predicting absolute performance values, and serves as an important intermediary step towards being able to predict the performance of arbitrary code prior to execution.
翻訳日:2022-08-26 13:49:58 公開日:2022-08-25
# Goal-Directed Answer Set Programming を用いたUAV飛行準備承認の自動化

Automating UAV Flight Readiness Approval using Goal-Directed Answer Set Programming ( http://arxiv.org/abs/2208.12199v1 )

ライセンス: Link先を確認
Sarat Chandra Varanasi, Baoluo Meng, Christopher Alexander, Szabolcs Borgyos and Brendan Hall(参考訳) 本稿では,AMA(Academy of Model Aircrafts)安全コードに対するモデル航空機オペレータのコンプライアンス検証をデジタル化する,ゴール指向アンサーセットプログラミングの新たな適用法を提案する。 AMAの安全コードは、無人航空機(UAV)を限定的なレクリエーション目的で運用する方法を規定している。 飛行ドローンとそのオペレーターは、安全飛行を確保するために、航空機の運用前後の様々な規則に従う。 本稿では,AMAセーフティコードをエンコードし,コンプライアンスチェックを自動化するAnswer Set Programmingを利用する。 コンプライアンスの確認には、目標指向のASPエンジンであるs(CASP)を使用します。 s(CASP)を用いることで、オペレータは容易に違反をチェックでき、人間可読自然言語における違反の原因を説明する正当性木を得ることができる。 さらに,コンプライアンスチェックをパスするためには,条件を満たさなければならない最小限の条件を演算者が求めるのを助けるアルゴリズムを実装した。 各種条件を受け入れるフロントエンドアンケートインタフェースを開発し,バックエンドs(CASP)エンジンを用いて条件が規則に適合するかどうかを評価する。 また、SWI-Prologで実装されたs(CASP)を利用しています。 私たちの知る限りでは、これはAMAおよびAvionics Compliance and CertificationスペースにおけるASPの初めての応用です。

We present a novel application of Goal-Directed Answer Set Programming that digitizes the model aircraft operator's compliance verification against the Academy of Model Aircrafts (AMA) safety code. The AMA safety code regulates how AMA flyers operate Unmanned Aerial Vehicles (UAVs) for limited recreational purposes. Flying drones and their operators are subject to various rules before and after the operation of the aircraft to ensure safe flights. In this paper, we leverage Answer Set Programming to encode the AMA safety code and automate compliance checks. To check compliance, we use the s(CASP) which is a goal-directed ASP engine. By using s(CASP) the operators can easily check for violations and obtain a justification tree explaining the cause of the violations in human-readable natural language. Further, we implement an algorithm to help the operators obtain the minimal set of conditions that need to be satisfied in order to pass the compliance check. We develop a front-end questionnaire interface that accepts various conditions and use the backend s(CASP) engine to evaluate whether the conditions adhere to the regulations. We also leverage s(CASP) implemented in SWI-Prolog, where SWI-Prolog exposes the reasoning capabilities of s(CASP) as a REST service. To the best of our knowledge, this is the first application of ASP in the AMA and Avionics Compliance and Certification space.
翻訳日:2022-08-26 13:49:25 公開日:2022-08-25
# 単一脳波チャンネルに基づく新生児睡眠状態変動のベッドサイド尺度である睡眠状態傾向(SST)の開発

Development of Sleep State Trend (SST), a bedside measure of neonatal sleep state fluctuations based on single EEG channels ( http://arxiv.org/abs/2208.11933v1 )

ライセンス: Link先を確認
Saeed Montazeri Moghadam, P\"aivi Nevalainen, Nathan J. Stevenson, Sampsa Vanhatalo(参考訳) 目的:新生児集中治療室における睡眠状態変動のベッドサイドモニタリングの自動化手法の開発と検証を行う。 方法:30歳児における長期(a)EEGモニタリングから53脳波記録を用いて,ディープラーニングに基づくアルゴリズムを設計,訓練した。 その結果,30枚のポリソノグラフィー記録の外部データセットを用いて検証した。 そこで我々は,脳波チャンネルの静電気睡眠検知器のトレーニングと検証に加えて,ベッドサイド対応で分類器出力を可視化するスリープ状態トレンド(SST)を構築した。 結果: トレーニングデータにおける静時睡眠検出の精度は90%で, 4電極記録から得られる全双極子導出量(85~86%)と同等であった。 このアルゴリズムは外部データセットによく適用され、信号の導出が異なるにもかかわらず全体の81%の精度を示す。 SSTは直感的で明確な分類器出力の可視化を可能にした。 結論: 睡眠状態の変動は単一の脳波チャンネルから高い忠実度で検出でき、その結果はベッドサイドモニターの透明で直感的な傾向として可視化できる。 意義:睡眠状態傾向(SST)は、介護者が睡眠状態の変動とその周期性のリアルタイムなビューを提供する可能性がある。

Objective: To develop and validate an automated method for bedside monitoring of sleep state fluctuations in neonatal intensive care units. Methods: A deep learning -based algorithm was designed and trained using 53 EEG recordings from a long-term (a)EEG monitoring in 30 near-term neonates. The results were validated using an external dataset from 30 polysomnography recordings. In addition to training and validating a single EEG channel quiet sleep detector, we constructed Sleep State Trend (SST), a bedside-ready means for visualizing classifier outputs. Results: The accuracy of quiet sleep detection in the training data was 90%, and the accuracy was comparable (85-86%) in all bipolar derivations available from the 4-electrode recordings. The algorithm generalized well to an external dataset, showing 81% overall accuracy despite different signal derivations. SST allowed an intuitive, clear visualization of the classifier output. Conclusions: Fluctuations in sleep states can be detected at high fidelity from a single EEG channel, and the results can be visualized as a transparent and intuitive trend in the bedside monitors. Significance: The Sleep State Trend (SST) may provide caregivers a real-time view of sleep state fluctuations and its cyclicity.
翻訳日:2022-08-26 13:49:01 公開日:2022-08-25
# リアルな劣化モデルを用いた実写デノイジング

Practical Real Video Denoising with Realistic Degradation Model ( http://arxiv.org/abs/2208.11803v1 )

ライセンス: Link先を確認
Jiezhang Cao, Qin Wang, Jingyun Liang, Yulun Zhang, Kai Zhang, Luc Van Gool(参考訳) 既存のビデオデノージング手法では、ノイズの多いビデオはガウスノイズを加えることで、クリーンなビデオから劣化する。 しかし、このような劣化仮定に基づいて訓練された深層モデルは、必然的に、劣化ミスマッチによる実際のビデオの性能低下を引き起こす。 カメラが捉えたノイズやノイズのないビデオペアの深いモデルを訓練しようとする研究もあるが、そのようなモデルは特定のカメラでしかうまく動作せず、他のビデオでは一般化できない。 本稿では,この制限を緩和し,実世界の未認識映像の汎用化を目的とした汎用実映像デノイジングの問題に焦点をあてる。 まず,映像ノイズの共通挙動を調査し,2つの重要な特徴を観測することで,この問題に取り組む。 1)ダウンスケーリングは空間空間における騒音レベル低減に役立つ。 2)隣接するフレームからの情報は,時空間における現在のフレームのノイズを取り除くのに役立つ。 これら2つの観測結果から,上記の2つの特性をフル活用したマルチスケール再帰型アーキテクチャを提案する。 次に,様々なノイズタイプをランダムにシャッフルしてデノイジングモデルを訓練し,合成実雑音劣化モデルを提案する。 合成・濃縮された分解空間により, 学習データと実世界のデータとの分散ギャップを橋渡しできる。 提案手法は, 合成ガウス音化法と実写音化法の両方において, 既存の手法よりも, 最先端の性能と汎用性が向上することを示す。

Existing video denoising methods typically assume noisy videos are degraded from clean videos by adding Gaussian noise. However, deep models trained on such a degradation assumption will inevitably give rise to poor performance for real videos due to degradation mismatch. Although some studies attempt to train deep models on noisy and noise-free video pairs captured by cameras, such models can only work well for specific cameras and do not generalize well for other videos. In this paper, we propose to lift this limitation and focus on the problem of general real video denoising with the aim to generalize well on unseen real-world videos. We tackle this problem by firstly investigating the common behaviors of video noises and observing two important characteristics: 1) downscaling helps to reduce the noise level in spatial space and 2) the information from the adjacent frames help to remove the noise of current frame in temporal space. Motivated by these two observations, we propose a multi-scale recurrent architecture by making full use of the above two characteristics. Secondly, we propose a synthetic real noise degradation model by randomly shuffling different noise types to train the denoising model. With a synthesized and enriched degradation space, our degradation model can help to bridge the distribution gap between training data and real-world data. Extensive experiments demonstrate that our proposed method achieves the state-of-the-art performance and better generalization ability than existing methods on both synthetic Gaussian denoising and practical real video denoising.
翻訳日:2022-08-26 13:47:49 公開日:2022-08-25
# Video Temporal Pyramids による時間経過の可視化

Visualizing the Passage of Time with Video Temporal Pyramids ( http://arxiv.org/abs/2208.11885v1 )

ライセンス: Link先を確認
Melissa E. Swift (1 and 2), Wyatt Ayers (1), Sophie Pallanck (1), Scott Wehrwein (1) ((1) Western Washington University, (2) Pacific Northwest National Laboratory)(参考訳) 何ヶ月も何年も観察することで、シーンについて何が学べますか? 長いタイムパンで録画されたビデオは、複数のタイムスケールで興味深い現象を描いている。 ビデオはフルで見るには長すぎるし、氷河の後退など、リアルタイムに体験するには遅すぎる場合もある。 timelapse videographyは、長いビデオの要約とスロータイムスケールの可視化に一般的なアプローチである。 しかし、タイムラプスは1つの選択された時間周波数に制限され、フレーム間のエイリアスや時間的不連続によりしばしばフリッカリに現れる。 本稿では,これらの制限に対処し,時間経過を可視化する可能性を広げる手法であるビデオ時間ピラミッドを提案する。 コンピュータビジョンからの空間的画像ピラミッドに触発されて,時間領域に映像ピラミッドを構築するアルゴリズムを開発した。 例えば、月毎のタイムスケールのビデオは季節の変化を可視化するのに適しており、1分間のタイムスケールのビデオは日の出や空の雲の動きを視覚化するのに最適である。 また,ピラミッド全体の活動量を可視化するビデオスペクトログラムを提案し,シーンのダイナミクスの全体像と,時間と時間スケールにわたる現象を探索・発見する能力を提供する。 私たちのアプローチを実証するために、私たちは10の屋外シーンからビデオのテンポラリピラミッドを構築しました。 ビデオの時間的ピラミッド層をナイーブなタイムラプスと比較し、我々のピラミッドが長期的な変化をエイリアスフリーで見ることができることを発見した。 また,映像スペクトログラムは,概観と細部に焦点を当てた視点を両立させることで,ピラミッドレベルの現象の探索と発見を容易にすることを実証した。

What can we learn about a scene by watching it for months or years? A video recorded over a long timespan will depict interesting phenomena at multiple timescales, but identifying and viewing them presents a challenge. The video is too long to watch in full, and some occurrences are too slow to experience in real-time, such as glacial retreat. Timelapse videography is a common approach to summarizing long videos and visualizing slow timescales. However, a timelapse is limited to a single chosen temporal frequency, and often appears flickery due to aliasing and temporal discontinuities between frames. In this paper, we propose Video Temporal Pyramids, a technique that addresses these limitations and expands the possibilities for visualizing the passage of time. Inspired by spatial image pyramids from computer vision, we developed an algorithm that builds video pyramids in the temporal domain. Each level of a Video Temporal Pyramid visualizes a different timescale; for instance, videos from the monthly timescale are usually good for visualizing seasonal changes, while videos from the one-minute timescale are best for visualizing sunrise or the movement of clouds across the sky. To help explore the different pyramid levels, we also propose a Video Spectrogram to visualize the amount of activity across the entire pyramid, providing a holistic overview of the scene dynamics and the ability to explore and discover phenomena across time and timescales. To demonstrate our approach, we have built Video Temporal Pyramids from ten outdoor scenes, each containing months or years of data. We compare Video Temporal Pyramid layers to naive timelapse and find that our pyramids enable alias-free viewing of longer-term changes. We also demonstrate that the Video Spectrogram facilitates exploration and discovery of phenomena across pyramid levels, by enabling both overview and detail-focused perspectives.
翻訳日:2022-08-26 13:47:23 公開日:2022-08-25
# 眼内画像からの毛髪除去による3次元頭部形状制御の学習

Learning to regulate 3D head shape by removing occluding hair from in-the-wild images ( http://arxiv.org/abs/2208.12078v1 )

ライセンス: Link先を確認
Sohan Anisetty, Varsha Saravanabavan, Cai Yiyu(参考訳) 最近の3次元顔再構成法は、顔のみをモデル化した以前のアプローチと比較して頭部全体を再構築する。 これらの方法は顔の特徴を正確に再構築するが、頭部上部を明示的に調節するものではない。 頭部のこの部分に関する情報の抽出は、髪の閉塞度が異なるため困難である。 そこで本研究では, 頭髪の脱落と皮膚再構成による上頭部のモデリングを行い, 頭部形状に関する情報を明らかにする新しいアプローチを提案する。 3つの目的を紹介します 1)ソースの全体的な頭部形状とレンダリング画像との類似性を強制するサイス一貫性損失。 2 頭部の上部が見えない場合でも頭部形状が正確に再現されることを保証するスケールの整合性損失 3) 移動平均損失関数を用いて訓練した71個のランドマーク検出器で, 頭部に付加的なランドマークを検出する。 これらの目的は、未教師の方法でエンコーダを訓練し、フィールド内の入力画像からFLAMEパラメータを回帰するために使用される。 我々の教師なし3DMMモデルは、一般的なベンチマークで最先端の結果を得ることができ、頭部の形状、顔の特徴、テクスチャを推測してアニメーションやアバター作成に直接使用することができる。

Recent 3D face reconstruction methods reconstruct the entire head compared to earlier approaches which only model the face. Although these methods accurately reconstruct facial features, they do not explicitly regulate the upper part of the head. Extracting information about this part of the head is challenging due to varying degrees of occlusion by hair. We present a novel approach for modeling the upper head by removing occluding hair and reconstructing the skin, revealing information about the head shape. We introduce three objectives: 1) a dice consistency loss that enforces similarity between the overall head shape of the source and rendered image, 2) a scale consistency loss to ensure that head shape is accurately reproduced even if the upper part of the head is not visible, and 3) a 71 landmark detector trained using a moving average loss function to detect additional landmarks on the head. These objectives are used to train an encoder in an unsupervised manner to regress FLAME parameters from in-the-wild input images. Our unsupervised 3DMM model achieves state-of-the-art results on popular benchmarks and can be used to infer the head shape, facial features, and textures for direct use in animation or avatar creation.
翻訳日:2022-08-26 13:46:42 公開日:2022-08-25
# 不均衡分類における異なるサンプリング手法の有効性に関する実証分析

An Empirical Analysis of the Efficacy of Different Sampling Techniques for Imbalanced Classification ( http://arxiv.org/abs/2208.11852v1 )

ライセンス: Link先を確認
Asif Newaz, Shahriar Hassan, Farhan Shahriyar Haq(参考訳) 不均衡なデータから学ぶことは難しい課題です。 標準分類アルゴリズムは、不均衡なデータでトレーニングされた場合、性能が悪い傾向がある。 データ分散を変更するか、望ましいパフォーマンスを達成するために基礎となる分類アルゴリズムを再設計することで、いくつかの特別な戦略を採用する必要がある。 現実世界のデータセットにおける不均衡の発生は、クラス不均衡問題に対する多数の戦略の作成につながった。 しかしながら、すべての戦略が有用あるいは異なる不均衡シナリオで優れたパフォーマンスを提供するわけではない。 不均衡なデータを扱うためのアプローチは数多く存在するが、これらの技法の有効性や実験的な比較は行われていない。 本研究では,26種類の一般的なサンプリング手法を包括的に分析し,不均衡データに対するその効果について考察する。 これらの技術の性能を徹底的に調査するため、50のデータセットに対して異なる不均衡度を持つ厳密な実験が行われた。 テクニックの利点と限界に関する詳細な議論と、そのような制限を克服する方法が提示されている。 サンプリング戦略に影響を与えるいくつかの重要な要因を特定し、特定のアプリケーションに対して適切なサンプリング手法を選択する方法を推奨する。

Learning from imbalanced data is a challenging task. Standard classification algorithms tend to perform poorly when trained on imbalanced data. Some special strategies need to be adopted, either by modifying the data distribution or by redesigning the underlying classification algorithm to achieve desirable performance. The prevalence of imbalance in real-world datasets has led to the creation of a multitude of strategies for the class imbalance issue. However, not all the strategies are useful or provide good performance in different imbalance scenarios. There are numerous approaches to dealing with imbalanced data, but the efficacy of such techniques or an experimental comparison among those techniques has not been conducted. In this study, we present a comprehensive analysis of 26 popular sampling techniques to understand their effectiveness in dealing with imbalanced data. Rigorous experiments have been conducted on 50 datasets with different degrees of imbalance to thoroughly investigate the performance of these techniques. A detailed discussion of the advantages and limitations of the techniques, as well as how to overcome such limitations, has been presented. We identify some critical factors that affect the sampling strategies and provide recommendations on how to choose an appropriate sampling technique for a particular application.
翻訳日:2022-08-26 13:42:50 公開日:2022-08-25
# 学習率摂動: フレッター局所最小化に向けた学習率スケジュールのジェネリックプラグイン

Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule towards Flatter Local Minima ( http://arxiv.org/abs/2208.11873v1 )

ライセンス: Link先を確認
Hengyu Liu, Qiang Fu, Lun Du, Tiancheng Zhang, Ge Yu, Shi Han and Dongmei Zhang(参考訳) 学習速度は、ニューラルネットワークトレーニングに大きな影響を与える最も重要なハイパーパラメータの1つである。 学習率スケジュールは、高速収束と優れた一般化のための事前定義されたスケジュールに従って学習率を調整するために、実際に広く利用されている。 しかし、既存の学習率スケジュールはすべてヒューリスティックなアルゴリズムであり、理論的サポートが欠けている。 したがって、通常、複数のアドホックな試行を通じて学習率スケジュールを選択し、得られた学習率スケジュールは準最適である。 得られた最適学習率スケジュールの性能を向上させるために,様々な学習率スケジュールに適用可能なleap(learning rate perturbation)と呼ばれる汎用学習率スケジュールプラグインを提案し,学習率に一定の摂動を導入することによりモデルトレーニングを改善する。 このような単純かつ効果的な戦略により、トレーニング処理は、収束が保証されたシャープなミニマよりも、指数関数的に平坦なミニマを好むことが分かり、一般化能力の向上につながった。 さらに,様々なデータセットにおける学習速度スケジュール(定常学習率を含む)を用いて,leapを用いた学習が様々な深層学習モデルの性能を向上させることを示す広範な実験を行った。

Learning rate is one of the most important hyper-parameters that has a significant influence on neural network training. Learning rate schedules are widely used in real practice to adjust the learning rate according to pre-defined schedules for fast convergence and good generalization. However, existing learning rate schedules are all heuristic algorithms and lack theoretical support. Therefore, people usually choose the learning rate schedules through multiple ad-hoc trials, and the obtained learning rate schedules are sub-optimal. To boost the performance of the obtained sub-optimal learning rate schedule, we propose a generic learning rate schedule plugin, called LEArning Rate Perturbation (LEAP), which can be applied to various learning rate schedules to improve the model training by introducing a certain perturbation to the learning rate. We found that, with such a simple yet effective strategy, training processing exponentially favors flat minima rather than sharp minima with guaranteed convergence, which leads to better generalization ability. In addition, we conduct extensive experiments which show that training with LEAP can improve the performance of various deep learning models on diverse datasets using various learning rate schedules (including constant learning rate).
翻訳日:2022-08-26 13:42:34 公開日:2022-08-25
# グラフデータのためのデータ拡張:最近の進歩

Data Augmentation for Graph Data: Recent Advancements ( http://arxiv.org/abs/2208.11973v1 )

ライセンス: Link先を確認
Maria Marrium and Arif Mahmood(参考訳) グラフニューラルネットワーク(GNN)ベースの手法は,構造情報を組み込んだグラフデータを扱うツールとして最近人気が高まっている。 GNNのパフォーマンスにおける唯一のハードルは、ラベル付きデータの欠如である。 画像やテキストデータのためのデータ拡張技術は、グラフデータの複雑で非ユークリッド構造のため、グラフデータには使用できない。 このギャップにより、研究者はグラフデータのためのデータ拡張技術の開発に焦点を移さざるを得なくなった。 提案されたグラフデータ拡張(gda)技術のほとんどはタスク固有である。 本稿では,グラフタスクの異なる既存のGDA手法について検討する。 この調査は、gdaの研究コミュニティへの言及だけでなく、他の分野の研究者にも必要な情報を提供するものである。

Graph Neural Network (GNNs) based methods have recently become a popular tool to deal with graph data because of their ability to incorporate structural information. The only hurdle in the performance of GNNs is the lack of labeled data. Data Augmentation techniques for images and text data can not be used for graph data because of the complex and non-euclidean structure of graph data. This gap has forced researchers to shift their focus towards the development of data augmentation techniques for graph data. Most of the proposed Graph Data Augmentation (GDA) techniques are task-specific. In this paper, we survey the existing GDA techniques based on different graph tasks. This survey not only provides a reference to the research community of GDA but also provides the necessary information to the researchers of other domains.
翻訳日:2022-08-26 13:42:14 公開日:2022-08-25
# 校正選択分類

Calibrated Selective Classification ( http://arxiv.org/abs/2208.12084v1 )

ライセンス: Link先を確認
Adam Fisch, Tommi Jaakkola, Regina Barzilay(参考訳) 選択分類(Selective classification)は、モデルがより効果的な精度を得るために、疑わしい時に予測(例えば「私は知らない」など)を控えることを可能にする。 典型的な選択モデルは、平均でより正確な予測を生成するのに有効であるが、信頼度の高い誤った予測や、信頼度の低い正確な予測をスキップすることができる。 予測(真の周波数に対応する確率)と共に校正の不確実性推定を提供することは、平均で単に正確である予測を持つのと同じくらい重要である。 しかし、不確実性推定は特定の入力に対して信頼できない。 本稿では,「不確か」な不確実性のある事例を拒否する手法を提案する。 そこで我々は, 許容例の分布に関する不確実性推定値を用いた予測を行うことを目標とし, 選択校正と呼ぶ特性について検討した。 本稿では,与えられたベースモデルの選択キャリブレーション誤差を改善するために,分離セレクタネットワークを訓練する手法を提案する。 特に本研究はロバストなキャリブレーションの実現に重点を置いている。モデルが意図的にドメイン外データでテストするように設計されている。 分散的ロバストな最適化に触発されたトレーニング戦略により、既知のドメイン内トレーニングデータにシミュレートされた入力摂動を適用する。 われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。

Selective classification allows models to abstain from making predictions (e.g., say "I don't know") when in doubt in order to obtain better effective accuracy. While typical selective models can be effective at producing more accurate predictions on average, they may still allow for wrong predictions that have high confidence, or skip correct predictions that have low confidence. Providing calibrated uncertainty estimates alongside predictions -- probabilities that correspond to true frequencies -- can be as important as having predictions that are simply accurate on average. However, uncertainty estimates can be unreliable for certain inputs. In this paper, we develop a new approach to selective classification in which we propose a method for rejecting examples with "uncertain" uncertainties. By doing so, we aim to make predictions with {well-calibrated} uncertainty estimates over the distribution of accepted examples, a property we call selective calibration. We present a framework for learning selectively calibrated models, where a separate selector network is trained to improve the selective calibration error of a given base model. In particular, our work focuses on achieving robust calibration, where the model is intentionally designed to be tested on out-of-domain data. We achieve this through a training strategy inspired by distributionally robust optimization, in which we apply simulated input perturbations to the known, in-domain training data. We demonstrate the empirical effectiveness of our approach on multiple image classification and lung cancer risk assessment tasks.
翻訳日:2022-08-26 13:41:32 公開日:2022-08-25
# 時間グラフ表現学習と生成モデルに関する研究

A Survey on Temporal Graph Representation Learning and Generative Modeling ( http://arxiv.org/abs/2208.12126v1 )

ライセンス: Link先を確認
Shubham Gupta and Srikanta Bedathur(参考訳) 時間グラフは、実体間の動的関係を表し、ソーシャルネットワーク、eコマース、コミュニケーション、道路ネットワーク、生物学的システムなど、多くの実生活アプリケーションで発生する。 彼らは生成的モデリングと表現学習の観点から、静的グラフに関連する研究以上の研究を必要としている。 本稿では,近年提案されている時間依存グラフ表現学習と生成モデルによる時間グラフ処理手法について概観的に検討する。 最後に、既存のアプローチの弱点を特定し、最近発表された論文TIGGER[24]の研究提案について議論する。

Temporal graphs represent the dynamic relationships among entities and occur in many real life application like social networks, e commerce, communication, road networks, biological systems, and many more. They necessitate research beyond the work related to static graphs in terms of their generative modeling and representation learning. In this survey, we comprehensively review the neural time dependent graph representation learning and generative modeling approaches proposed in recent times for handling temporal graphs. Finally, we identify the weaknesses of existing approaches and discuss the research proposal of our recently published paper TIGGER[24].
翻訳日:2022-08-26 13:41:08 公開日:2022-08-25
# feedforwardユニタリ同変ニューラルネットワーク

A Feedforward Unitary Equivariant Neural Network ( http://arxiv.org/abs/2208.12146v1 )

ライセンス: Link先を確認
Pui-Wai Ma and T.-H. Hubert Chan(参考訳) 我々は新しいタイプのフィードフォワードニューラルネットワークを考案する。 これはユニタリ群 $U(n)$ に対して同変である。 入力と出力は任意の次元 $n$ を持つ$\mathbb{c}^n$ のベクトルでもよい。 私たちの実装では畳み込み層は不要です。 フーリエ様変換における高次項の停止による誤差を避ける。 各層の実装は簡単な計算で効率的に行うことができる。 概念実証として,原子運動の力学の予測について実証的な結果を与え,本手法の実用性を実証した。

We devise a new type of feedforward neural network. It is equivariant with respect to the unitary group $U(n)$. The input and output can be vectors in $\mathbb{C}^n$ with arbitrary dimension $n$. No convolution layer is required in our implementation. We avoid errors due to truncated higher order terms in Fourier-like transformation. The implementation of each layer can be done efficiently using simple calculations. As a proof of concept, we have given empirical results on the prediction of the dynamics of atomic motion to demonstrate the practicality of our approach.
翻訳日:2022-08-26 13:41:00 公開日:2022-08-25
# SONAR: 統合アーキテクチャとシステム最適化検索

SONAR: Joint Architecture and System Optimization Search ( http://arxiv.org/abs/2208.12218v1 )

ライセンス: Link先を確認
Elias J\"a\"asaari, Michelle Ma, Ameet Talwalkar, Tianqi Chen(参考訳) さまざまなタスクのための機械学習を、さまざまな新しいハードウェアプラットフォームにデプロイする必要性が高まっている。 このようなデプロイメントシナリオでは、適切な予測精度(アーキテクチャ検索)を達成するモデルアーキテクチャの特定や、レイテンシ(システム最適化検索)などのハードウェア固有のシステムの制約を満たすための効率的なモデル実装など、複数の課題に取り組む必要がある。 既存の研究では、アーキテクチャ検索とシステム最適化検索を別個の問題として扱い、逐次的に解決している。 本稿では,これらの問題を共同で解決し,SONARと呼ばれるシンプルで効果的なベースライン手法を導入し,これらの2つの探索問題を解き明かす。 SONARは、両方の検索プロセスに早期停止を適用することにより、予測精度と推論遅延を効率的に最適化することを目的としている。 複数の異なるハードウェアバックエンドに関する実験から、sonarはブルートフォースアプローチの30倍の速度で最適なアーキテクチャを識別できることがわかった。

There is a growing need to deploy machine learning for different tasks on a wide array of new hardware platforms. Such deployment scenarios require tackling multiple challenges, including identifying a model architecture that can achieve a suitable predictive accuracy (architecture search), and finding an efficient implementation of the model to satisfy underlying hardware-specific systems constraints such as latency (system optimization search). Existing works treat architecture search and system optimization search as separate problems and solve them sequentially. In this paper, we instead propose to solve these problems jointly, and introduce a simple but effective baseline method called SONAR that interleaves these two search problems. SONAR aims to efficiently optimize for predictive accuracy and inference latency by applying early stopping to both search processes. Our experiments on multiple different hardware back-ends show that SONAR identifies nearly optimal architectures 30 times faster than a brute force approach.
翻訳日:2022-08-26 13:40:54 公開日:2022-08-25
# クロスドメイン広告推薦のための動的協調フィルタリングトンプソンサンプリング

Dynamic collaborative filtering Thompson Sampling for cross-domain advertisements recommendation ( http://arxiv.org/abs/2208.11926v1 )

ライセンス: Link先を確認
Shion Ishikawa, Young-joo Chung, Yu Hirate(参考訳) 近年,オンライン広告主はディスプレイ広告にレコメンダーシステム(RS)を活用し,ユーザのエンゲージメントを向上させる。 コンテキストバンディットモデルは、ユーザーのエンゲージメントを活用し、クリックや変換のような長期的な報酬を最大化するために広く使われているrsである。 しかし、現在のモデルは、特定のドメインでのみ広告を最適化し、複数のドメインで他のモデルと情報を共有することを目的としている。 本稿では,複数のバンディットモデル間で知識を伝達する新しい簡易モデルである動的協調フィルタリングトンプソンサンプリング(dcts)を提案する。 DCTSはユーザと広告間の類似性を利用して、トンプソンサンプリングの事前分布を推定する。 このような類似性は、ユーザと広告のコンテキスト的特徴に基づいて得られる。 類似性により、知識を転送することで、あまりデータを持っていないドメインのモデルをより迅速に収束させることができる。 さらに、DCTSはユーザの最近の好みの変化を追跡するために、ユーザの時間的ダイナミクスを取り入れている。 まず,伝達知識を示し,時間的ダイナミクスを取り入れることで,合成データセット上でのベースラインモデルの性能を向上させる。 次に,実世界のデータセットについて実証分析を行い,dctsが最先端モデルよりもクリックスルー率を9.7%向上させることを示した。 また,時間ダイナミクスと類似度を調整するハイパーパラメータを分析し,ctrを最大化する最善のパラメータを示す。

Recently online advertisers utilize Recommender systems (RSs) for display advertising to improve users' engagement. The contextual bandit model is a widely used RS to exploit and explore users' engagement and maximize the long-term rewards such as clicks or conversions. However, the current models aim to optimize a set of ads only in a specific domain and do not share information with other models in multiple domains. In this paper, we propose dynamic collaborative filtering Thompson Sampling (DCTS), the novel yet simple model to transfer knowledge among multiple bandit models. DCTS exploits similarities between users and between ads to estimate a prior distribution of Thompson sampling. Such similarities are obtained based on contextual features of users and ads. Similarities enable models in a domain that didn't have much data to converge more quickly by transferring knowledge. Moreover, DCTS incorporates temporal dynamics of users to track the user's recent change of preference. We first show transferring knowledge and incorporating temporal dynamics improve the performance of the baseline models on a synthetic dataset. Then we conduct an empirical analysis on a real-world dataset and the result showed that DCTS improves click-through rate by 9.7% than the state-of-the-art models. We also analyze hyper-parameters that adjust temporal dynamics and similarities and show the best parameter which maximizes CTR.
翻訳日:2022-08-26 13:40:38 公開日:2022-08-25
# 角度閉包分類のためのマルチスケールマルチターゲットドメイン適応

Multi-Scale Multi-Target Domain Adaptation for Angle Closure Classification ( http://arxiv.org/abs/2208.12157v1 )

ライセンス: Link先を確認
Zhen Qiu and Yifan Zhang and Fei Li and Xiulan Zhang and Yanwu Xu and Mingkui Tan(参考訳) ディープラーニング (dl) は前部セグメント光コヒーレンストモグラフィ (as-oct) 画像を用いた角度閉鎖分類において有意な進歩を遂げている。 これらのAS-OCT画像は、しばしば異なる撮像装置/条件によって取得され、基礎となるデータ分布(「データ領域」と呼ばれる)が大きく変化する。 さらに、実用的なラベル付けの難しさのため、いくつかのドメイン(例えばデバイス)にはデータラベルがない場合がある。 その結果、ある特定のドメイン(例えば、特定のデバイス)で訓練された深層モデルは適応が困難であり、他のドメイン(例えば、他のデバイス)では性能が低下する可能性がある。 この問題に対処するために,ラベル付きソースドメインでトレーニングされたモデルを複数のラベル付きターゲットドメインに転送するマルチターゲットドメイン適応パラダイムを提案する。 具体的には,アングルクロージャ分類のためのM2DAN(Multi-scale Multi-target Domain Adversarial Network)を提案する。 M2DANは、ドメイン不変の特徴を抽出するマルチドメイン逆学習を行い、AS-OCT画像の局所的およびグローバルな情報をキャプチャするマルチスケールモジュールを開発する。 異なる規模のドメイン不変性に基づいて、ソースドメインで訓練されたディープモデルは、アノテーションがなくても、複数のターゲットドメイン上の角度クロージャを分類することができる。 実世界のAS-OCTデータセットに対する実験により,提案手法の有効性が示された。

Deep learning (DL) has made significant progress in angle closure classification with anterior segment optical coherence tomography (AS-OCT) images. These AS-OCT images are often acquired by different imaging devices/conditions, which results in a vast change of underlying data distributions (called "data domains"). Moreover, due to practical labeling difficulties, some domains (e.g., devices) may not have any data labels. As a result, deep models trained on one specific domain (e.g., a specific device) are difficult to adapt to and thus may perform poorly on other domains (e.g., other devices). To address this issue, we present a multi-target domain adaptation paradigm to transfer a model trained on one labeled source domain to multiple unlabeled target domains. Specifically, we propose a novel Multi-scale Multi-target Domain Adversarial Network (M2DAN) for angle closure classification. M2DAN conducts multi-domain adversarial learning for extracting domain-invariant features and develops a multi-scale module for capturing local and global information of AS-OCT images. Based on these domain-invariant features at different scales, the deep model trained on the source domain is able to classify angle closure on multiple target domains even without any annotations in these domains. Extensive experiments on a real-world AS-OCT dataset demonstrate the effectiveness of the proposed method.
翻訳日:2022-08-26 13:38:00 公開日:2022-08-25
# 自己監督学習による受動的食事モニタリングにおける自己中心画像のクラスタリング

Clustering Egocentric Images in Passive Dietary Monitoring with Self-Supervised Learning ( http://arxiv.org/abs/2208.12160v1 )

ライセンス: Link先を確認
Jiachuan Peng, Peilun Shi, Jianing Qiu, Xinwei Ju, Frank P.-W. Lo, Xiao Gu, Wenyan Jia, Tom Baranowski, Matilda Steiner-Asiedu, Alex K. Anderson, Megan A McCrory, Edward Sazonov, Mingui Sun, Gary Frost and Benny Lo(参考訳) ガーナにおける受動的食事監視に関する最近の食事評価フィールド調査では,約250万枚の眼内画像を収集した。 このデータセットは、受動的監視カメラ技術を用いて、低所得国と中所得国で個々の食品と栄養素の正確な測定を容易にするための継続的な取り組みである。 現在のデータセットはガーナの農村部と都市部の20世帯(74名)で、2種類のウェアラブルカメラが研究に使用された。 一度始めると、ウェアラブルカメラは被験者の活動を継続的に捉え、分析が行われる前に大量のデータを浄化し、注釈を付ける。 データの処理とアノテーションのタスクを容易にするために,多量のエゴセントリック画像を別々のイベントにまとめる,新しい自己教師付き学習フレームワークを提案する。 各イベントは、時間的に連続し、文脈的に類似した画像からなる。 画像を別々のイベントにクラスタリングすることで、注釈家と栄養士はデータをより効率的に調べて分析し、その後の食事アセスメントプロセスを促進できる。 基本真理ラベル付きホールドアウトテストセットで検証し、クラスタリングの品質と分類精度において、提案フレームワークはベースラインを上回った。

In our recent dietary assessment field studies on passive dietary monitoring in Ghana, we have collected over 250k in-the-wild images. The dataset is an ongoing effort to facilitate accurate measurement of individual food and nutrient intake in low and middle income countries with passive monitoring camera technologies. The current dataset involves 20 households (74 subjects) from both the rural and urban regions of Ghana, and two different types of wearable cameras were used in the studies. Once initiated, wearable cameras continuously capture subjects' activities, which yield massive amounts of data to be cleaned and annotated before analysis is conducted. To ease the data post-processing and annotation tasks, we propose a novel self-supervised learning framework to cluster the large volume of egocentric images into separate events. Each event consists of a sequence of temporally continuous and contextually similar images. By clustering images into separate events, annotators and dietitians can examine and analyze the data more efficiently and facilitate the subsequent dietary assessment processes. Validated on a held-out test set with ground truth labels, the proposed framework outperforms baselines in terms of clustering quality and classification accuracy.
翻訳日:2022-08-26 13:37:38 公開日:2022-08-25
# 効率的な知識蒸留が可能なマスクオートエンコーダ

Masked Autoencoders Enable Efficient Knowledge Distillers ( http://arxiv.org/abs/2208.12256v1 )

ライセンス: Link先を確認
Yutong Bai, Zeyu Wang, Junfei Xiao, Chen Wei, Huiyu Wang, Alan Yuille, Yuyin Zhou, Cihang Xie(参考訳) 本稿では,事前学習モデル,特にマスク付きオートエンコーダから知識を蒸留する可能性について検討する。 提案手法は,マスク入力における画素再構成損失の最適化に加えて,教師モデルの中間特徴写像と学生モデルの距離を最小化する。 この設計は 計算効率の良い 知識蒸留の枠組みをもたらします 1) パッチの小さな可視部分のみを使用し、 2)(面倒な)教師モデルは、中間的特徴マップを得るために、最初の数層を通して入力を転送する、部分的に実行されるだけでよい。 微調整モデルの直接蒸留と比較すると、事前訓練されたモデルの蒸留は下流の性能を大幅に向上させる。 例えば、事前訓練したViT-Lの知識をViT-Bに蒸留することにより、84.0%のImageNet top-1精度を達成し、微調整したViT-Lを直接蒸留する基準線を1.2%上回る。 さらに興味深いことに、我々の方法では、非常に高いマスキング比でも教師モデルから知識をしっかりと抽出することができる。例えば、95%のマスキング比では、蒸留中にTENパッチだけが見えるが、VT-Bは競争的にトップ-1イメージネットの精度83.6%に達し、驚くべきことに、FOUR可視パッチだけでアグレッシブにトレーニングすることで、82.4%のトップ-1イメージネットの精度を確保できる(98%マスキング比)。 コードとモデルはhttps://github.com/UCSC-VLAA/DMAEで公開されている。

This paper studies the potential of distilling knowledge from pre-trained models, especially Masked Autoencoders. Our approach is simple: in addition to optimizing the pixel reconstruction loss on masked inputs, we minimize the distance between the intermediate feature map of the teacher model and that of the student model. This design leads to a computationally efficient knowledge distillation framework, given 1) only a small visible subset of patches is used, and 2) the (cumbersome) teacher model only needs to be partially executed, \ie, forward propagate inputs through the first few layers, for obtaining intermediate feature maps. Compared to directly distilling fine-tuned models, distilling pre-trained models substantially improves downstream performance. For example, by distilling the knowledge from an MAE pre-trained ViT-L into a ViT-B, our method achieves 84.0% ImageNet top-1 accuracy, outperforming the baseline of directly distilling a fine-tuned ViT-L by 1.2%. More intriguingly, our method can robustly distill knowledge from teacher models even with extremely high masking ratios: e.g., with 95% masking ratio where merely TEN patches are visible during distillation, our ViT-B competitively attains a top-1 ImageNet accuracy of 83.6%; surprisingly, it can still secure 82.4% top-1 ImageNet accuracy by aggressively training with just FOUR visible patches (98% masking ratio). The code and models are publicly available at https://github.com/UCSC-VLAA/DMAE.
翻訳日:2022-08-26 13:37:19 公開日:2022-08-25
# ビデオモバイルフォーマー:グローバル空間時間モデリングの効率化によるビデオ認識

Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling ( http://arxiv.org/abs/2208.12257v1 )

ライセンス: Link先を確認
Rui Wang and Zuxuan Wu and Dongdong Chen and Yinpeng Chen and Xiyang Dai and Mengchen Liu and Luowei Zhou and Lu Yuan and Yu-Gang Jiang(参考訳) トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高性能を達成した。 自己着脱機構の利点により、これらのモデルはcnnベースのモデルよりも長距離依存性をモデル化する能力が強い。 しかし、重大な計算オーバーヘッドは、膨大な数のトークンの上に自己注意の二次的な複雑さから生じ、モバイルデバイスのような限られたリソースを持つアプリケーションにおける既存のビデオトランスフォーマーの使用を制限する結果となった。 本稿では,モバイルフォーマをビデオモバイルフォーマに拡張し,ビデオアーキテクチャをローカルコンテキストモデリングのための軽量な3d-cnnsと,グローバルインタラクションモデリングのためのトランスフォーマモジュールを並列に分離する。 ビデオ中の多数のローカルパッチ間の自己アテンションを計算することで発生する計算コストを大幅に低減するため,トランスフォーマー内のビデオ全体に対して,クロスアテンション機構で3D-CNNと情報を交換するために,非常に少ないグローバルトークン(例:6)を使用することを提案する。 効率的なグローバル時空間モデリングにより、ビデオモバイルフォーマーは、代替の軽量ベースラインの映像認識性能を大幅に向上させ、様々なビデオ認識タスクにおいて、5Mから6GのFLOP状態において、他の効率的なCNNベースのモデルよりも優れる。 Video Mobile-Formerは1G FLOP内で計算予算を制限した最初のTransformerベースのビデオモデルである。

Transformer-based models have achieved top performance on major video recognition benchmarks. Benefiting from the self-attention mechanism, these models show stronger ability of modeling long-range dependencies compared to CNN-based models. However, significant computation overheads, resulted from the quadratic complexity of self-attention on top of a tremendous number of tokens, limit the use of existing video transformers in applications with limited resources like mobile devices. In this paper, we extend Mobile-Former to Video Mobile-Former, which decouples the video architecture into a lightweight 3D-CNNs for local context modeling and a Transformer modules for global interaction modeling in a parallel fashion. To avoid significant computational cost incurred by computing self-attention between the large number of local patches in videos, we propose to use very few global tokens (e.g., 6) for a whole video in Transformers to exchange information with 3D-CNNs with a cross-attention mechanism. Through efficient global spatial-temporal modeling, Video Mobile-Former significantly improves the video recognition performance of alternative lightweight baselines, and outperforms other efficient CNN-based models at the low FLOP regime from 500M to 6G total FLOPs on various video recognition tasks. It is worth noting that Video Mobile-Former is the first Transformer-based video model which constrains the computational budget within 1G FLOPs.
翻訳日:2022-08-26 13:36:54 公開日:2022-08-25
# Pix4Point:3Dポイントクラウド理解のためのイメージ事前トレーニングトランスフォーマー

Pix4Point: Image Pretrained Transformers for 3D Point Cloud Understanding ( http://arxiv.org/abs/2208.12259v1 )

ライセンス: Link先を確認
Guocheng Qian, Xingdi Zhang, Abdullah Hamdi, Bernard Ghanem(参考訳) 純粋なトランスフォーマーモデルは自然言語処理とコンピュータビジョンで素晴らしい成功を収めた。 しかし、トランスフォーマーの1つの制限は、大規模なトレーニングデータの必要性である。 3dポイントクラウドの領域では、大規模なデータセットの可用性が課題となり、3dタスクのためのトランスフォーマーのトレーニングの問題が悪化する。 本研究では,多数の画像から得た知識をポイントクラウド理解に活用する効果を実証的に研究し,検討する。 私たちは、イメージ領域で事前訓練されたトランスフォーマーを使用してダウンストリームポイントクラウドタスクを改善する、‘textit{Pix4Point}’と呼ばれるパイプラインを定式化します。 これは、3Dドメインに特化したトークン化層とデコーダ層の助けを借りて、モダリティに依存しない純粋なトランスフォーマーバックボーンによって実現される。 画像プリトレーニングトランスを用いて,scanobjectnn,shapenetpart,s3disベンチマークにおける3dポイントクラウド分類,部分セグメンテーション,意味セグメンテーションのタスクにおけるpix4pointの有意な性能向上を観察した。 私たちのコードとモデルは、 \url{https://github.com/guochengqian/pix4point} で利用可能です。

Pure Transformer models have achieved impressive success in natural language processing and computer vision. However, one limitation with Transformers is their need for large training data. In the realm of 3D point clouds, the availability of large datasets is a challenge, which exacerbates the issue of training Transformers for 3D tasks. In this work, we empirically study and investigate the effect of utilizing knowledge from a large number of images for point cloud understanding. We formulate a pipeline dubbed \textit{Pix4Point} that allows harnessing pretrained Transformers in the image domain to improve downstream point cloud tasks. This is achieved by a modality-agnostic pure Transformer backbone with the help of tokenizer and decoder layers specialized in the 3D domain. Using image-pretrained Transformers, we observe significant performance gains of Pix4Point on the tasks of 3D point cloud classification, part segmentation, and semantic segmentation on ScanObjectNN, ShapeNetPart, and S3DIS benchmarks, respectively. Our code and models are available at: \url{https://github.com/guochengqian/Pix4Point}.
翻訳日:2022-08-26 13:36:31 公開日:2022-08-25
# MaskCLIP:Masked Self-Distillation Advances Contrastive Language- Image Pretraining

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining ( http://arxiv.org/abs/2208.12262v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Yinglin Zheng and Jianmin Bao and Ting Zhang and Dongdong Chen and Hao Yang and Ming Zeng and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu(参考訳) 本稿では, マスク付き自己蒸留をコントラスト型言語画像事前学習に組み込んだ, シンプルで効果的なフレームワークMaskCLIPを提案する。 マスク付き自己蒸留の基本的な考え方は、完全な画像からマスク付き画像から予測された表現に表現を蒸留することである。 このような法人化は2つの重要な利益をもたらす。 第1に、マスク付き自己蒸留は、テキスト関連表現に焦点をあてた視覚的コントラストに補完する局所的パッチ表現学習を目標とし、第2に、マスク付き自己蒸留は、訓練対象の観点からの視覚的コントラストとも一致している。 この2つの利点を検証するための総合的な分析を特別に設計した実験を行う。 経験的に,様々な課題下流タスクに適用した場合,maskclipは,言語エンコーダの指導によりゼロショット性能だけでなく,線形探索や微調整においても優れた結果が得られることを示した。

This paper presents a simple yet effective framework MaskCLIP, which incorporates a newly proposed masked self-distillation into contrastive language-image pretraining. The core idea of masked self-distillation is to distill representation from a full image to the representation predicted from a masked image. Such incorporation enjoys two vital benefits. First, masked self-distillation targets local patch representation learning, which is complementary to vision-language contrastive focusing on text-related representation.Second, masked self-distillation is also consistent with vision-language contrastive from the perspective of training objective as both utilize the visual encoder for feature aligning, and thus is able to learn local semantics getting indirect supervision from the language. We provide specially designed experiments with a comprehensive analysis to validate the two benefits. Empirically, we show that MaskCLIP, when applied to various challenging downstream tasks, achieves superior results in linear probing, finetuning as well as the zero-shot performance with the guidance of the language encoder.
翻訳日:2022-08-26 13:36:12 公開日:2022-08-25
# GANインバージョンによる高忠実像のインペイント

High-Fidelity Image Inpainting with GAN Inversion ( http://arxiv.org/abs/2208.11850v1 )

ライセンス: Link先を確認
Yongsheng Yu and Libo Zhang and Heng Fan and Tiejian Luo(参考訳) image inpaintingは、意図的に一貫性のある方法で、未表示のコンテンツに照らして、腐敗した画像を復元する。 従来のアプローチでは、よく訓練されたGANを有効に再利用し、GAN逆転による行方不明穴に対する現実的なパッチを生成する。 それでも、これらのアルゴリズムにおける厳密な制約の無知は、gan反転と画像インパインティングの間のギャップをもたらす可能性がある。 本稿では,前変調モジュールを有するエンコーダと,f&w+潜在空間を持つgan生成器を主成分とする,インバートフィルと呼ばれる画像インパインティングのための新しいganインバージョンモデルを考案する。 エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。 GANインバージョンと画像インペインティングのギャップを埋めるために,色差や意味的矛盾を解消するためにF&W+遅延空間を提案する。 忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成するより多様なドメイン内パターンをキャプチャするように設計されている。 Places2、CelebA-HQ、MetFaces、Sceneryを含む4つの挑戦的なデータセットに関する総合的な実験は、InvertFillが高度なアプローチを質的かつ定量的に上回り、ドメイン外の画像の補完もサポートしていることを示す。

Image inpainting seeks a semantically consistent way to recover the corrupted image in the light of its unmasked content. Previous approaches usually reuse the well-trained GAN as effective prior to generate realistic patches for missing holes with GAN inversion. Nevertheless, the ignorance of a hard constraint in these algorithms may yield the gap between GAN inversion and image inpainting. Addressing this problem, in this paper, we devise a novel GAN inversion model for image inpainting, dubbed InvertFill, mainly consisting of an encoder with a pre-modulation module and a GAN generator with F&W+ latent space. Within the encoder, the pre-modulation network leverages multi-scale structures to encode more discriminative semantics into style vectors. In order to bridge the gap between GAN inversion and image inpainting, F&W+ latent space is proposed to eliminate glaring color discrepancy and semantic inconsistency. To reconstruct faithful and photorealistic images, a simple yet effective Soft-update Mean Latent module is designed to capture more diverse in-domain patterns that synthesize high-fidelity textures for large corruptions. Comprehensive experiments on four challenging datasets, including Places2, CelebA-HQ, MetFaces, and Scenery, demonstrate that our InvertFill outperforms the advanced approaches qualitatively and quantitatively and supports the completion of out-of-domain images well.
翻訳日:2022-08-26 13:32:55 公開日:2022-08-25
# ニューラルノベル・アクター:人間アクターのための汎用アニマタブルニューラル表現学習

Neural Novel Actor: Learning a Generalized Animatable Neural Representation for Human Actors ( http://arxiv.org/abs/2208.11905v1 )

ライセンス: Link先を確認
Yiming Wang, Qingzhe Gao, Libin Liu, Lingjie Liu, Christian Theobalt, Baoquan Chen(参考訳) 本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラルヒューマン表現を学習するための新しい手法を提案する。 学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。 既存の手法は、新しい人に一般化したり、ユーザー制御でアニメーションを合成したりできるが、どちらも同時に実現できない。 この成果は、共有多人モデルにおける3Dプロキシの活用によるものであり、さらに、異なるポーズの空間を、ニューラルネットワークを学習し、人やポーズに依存した変形を予測し、入力画像から抽出した特徴と出現する共有正準ポーズ空間に変形させるものである。 身体の形状やポーズ、衣服の変形の複雑さに対処するため、脳の形状や外観が異なっていたニューラル・ヒューマン・モデルを設計する。 さらに,3dプロキシの空間的および表面的両面で画像特徴を活用し,人物・ポーズ依存特性の予測を行う。 実験の結果,本手法は両タスクの最先端性を大幅に向上することがわかった。 ビデオとコードはhttps://talegqz.github.io/neural_novel_actorで入手できる。

We propose a new method for learning a generalized animatable neural human representation from a sparse set of multi-view imagery of multiple persons. The learned representation can be used to synthesize novel view images of an arbitrary person from a sparse set of cameras, and further animate them with the user's pose control. While existing methods can either generalize to new persons or synthesize animations with user control, none of them can achieve both at the same time. We attribute this accomplishment to the employment of a 3D proxy for a shared multi-person human model, and further the warping of the spaces of different poses to a shared canonical pose space, in which we learn a neural field and predict the person- and pose-dependent deformations, as well as appearance with the features extracted from input images. To cope with the complexity of the large variations in body shapes, poses, and clothing deformations, we design our neural human model with disentangled geometry and appearance. Furthermore, we utilize the image features both at the spatial point and on the surface points of the 3D proxy for predicting person- and pose-dependent properties. Experiments show that our method significantly outperforms the state-of-the-arts on both tasks. The video and code are available at https://talegqz.github.io/neural_novel_actor.
翻訳日:2022-08-26 13:32:13 公開日:2022-08-25
# 時間的行動定位のための適応知覚変換器

Adaptive Perception Transformer for Temporal Action Localization ( http://arxiv.org/abs/2208.11908v1 )

ライセンス: Link先を確認
Yizheng Ouyang, Tianjin Zhang, Weibo Gu, Hongfa Wang, Liming Wang, and Xiaojie Guo(参考訳) 時間的動作の局所化は、未トリミングのロングビデオにおける各アクションインスタンスの境界とカテゴリを予測することを目的としている。 アンカーや提案に基づく従来の手法のほとんどは、ビデオシーケンス全体のグローバルなコンテキスト相互作用を無視している。 さらに、多段階設計では、アクション境界やカテゴリを直接生成することはできない。 そこで本研究では,適応知覚変換器(AdaPerFormer,略してAdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。 具体的には、adaperformerはデュアルブランチのマルチヘッドセルフアテンション機構を探索する。 あるブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。 他方の分岐部は局所的な畳み込みシフトに集中し、双方向シフト操作を通じてフレーム内およびフレーム間情報を集約する。 エンドツーエンドの性質は、追加ステップなしでビデオアクションの境界とカテゴリを生成する。 本設計の有効性を明らかにするため,アブレーション実験とともに広範な実験を行った。 本手法は,THUMOS14データセットの最先端精度(mAP@0.5,42.6\% mAP@0.7,62.7\% mAP@Avg)を実現し,平均mAP36.1\%のActivityNet-1.3データセットの競合性能を得る。 コードとモデルはhttps://github.com/soupero/adaperformerで入手できる。

Temporal action localization aims to predict the boundary and category of each action instance in untrimmed long videos. Most of previous methods based on anchors or proposals neglect the global-local context interaction in entire video sequences. Besides, their multi-stage designs cannot generate action boundaries and categories straightforwardly. To address the above issues, this paper proposes a novel end-to-end model, called adaptive perception transformer (AdaPerFormer for short). Specifically, AdaPerFormer explores a dual-branch multi-head self-attention mechanism. One branch takes care of the global perception attention, which can model entire video sequences and aggregate global relevant contexts. While the other branch concentrates on the local convolutional shift to aggregate intra-frame and inter-frame information through our bidirectional shift operation. The end-to-end nature produces the boundaries and categories of video actions without extra steps. Extensive experiments together with ablation studies are provided to reveal the effectiveness of our design. Our method achieves a state-of-the-art accuracy on the THUMOS14 dataset (65.8\% in terms of mAP@0.5, 42.6\% mAP@0.7, and 62.7\% mAP@Avg), and obtains competitive performance on the ActivityNet-1.3 dataset with an average mAP of 36.1\%. The code and models are available at https://github.com/SouperO/AdaPerFormer.
翻訳日:2022-08-26 13:31:41 公開日:2022-08-25
# 3次元線雲から3次元ワイヤーフレームを構築するための学習

Learning to Construct 3D Building Wireframes from 3D Line Clouds ( http://arxiv.org/abs/2208.11948v1 )

ライセンス: Link先を確認
Yicheng Luo, Jing Ren, Xuefei Zhe, Di Kang, Yajing Xu, Peter Wonka and Linchao Bao(参考訳) ライン雲は、以前の研究では未検討であったが、多視点画像から抽出された点雲よりも、建物の構造情報をよりコンパクトにエンコードする可能性がある。 本稿では,ワイヤフレームの抽象化を実現するために,ラインクラウドを処理する最初のネットワークを提案する。 ネットワークは、多視点画像から抽出された非構造的および非秩序的な3次元ラインセグメントの集合を入力として、ラインセグメントで接続されたスパース3次元ジャンクションからなる下層の3次元ワイヤフレームを出力する。 線パッチ、すなわち近隣の線分群は、潜在的な接合の存在と3次元位置を予測するための十分な輪郭情報を符号化し、2つのクエリ接合間の接続可能性を示す。 そこで我々は2層ラインパッチ変換器を導入し、サンプルラインパッチから接合と接続性を抽出し、3次元ワイヤフレームモデルを構築する。 また,地上3次元ワイヤフレームを用いた多視点画像合成データセットも導入する。 我々は,再建した3次元ワイヤフレームモデルが,複数のベースライン構造復元法において著しく改善されていることを広く正当化する。

Line clouds, though under-investigated in the previous work, potentially encode more compact structural information of buildings than point clouds extracted from multi-view images. In this work, we propose the first network to process line clouds for building wireframe abstraction. The network takes a line cloud as input , i.e., a nonstructural and unordered set of 3D line segments extracted from multi-view images, and outputs a 3D wireframe of the underlying building, which consists of a sparse set of 3D junctions connected by line segments. We observe that a line patch, i.e., a group of neighboring line segments, encodes sufficient contour information to predict the existence and even the 3D position of a potential junction, as well as the likelihood of connectivity between two query junctions. We therefore introduce a two-layer Line-Patch Transformer to extract junctions and connectivities from sampled line patches to form a 3D building wireframe model. We also introduce a synthetic dataset of multi-view images with ground-truth 3D wireframe. We extensively justify that our reconstructed 3D wireframe models significantly improve upon multiple baseline building reconstruction methods.
翻訳日:2022-08-26 13:31:16 公開日:2022-08-25
# fusepose: パラメトリックな人間のポーズ推定のための運動空間におけるイムビジョンセンサ融合

FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation ( http://arxiv.org/abs/2208.11960v1 )

ライセンス: Link先を確認
Yiming Bao, Xu Zhao and Dahong Qian(参考訳) 3次元ポーズ推定ミッションには、閉塞や自己閉塞によるパフォーマンスの低下など、困難な問題がある。 近年, imuビジョンセンサの融合は, この問題の解決に有用であると考えられている。 しかし、IMUとビジョンデータの融合に関する以前の研究は、異種であり、IMUの生データや信頼性の高い高レベルの視覚特徴を適切に利用できなかった。 本研究では,より効率的なセンサ融合を実現するために,パラメトリックな人体運動モデルに基づく「emph{FusePose}」というフレームワークを提案する。 具体的には、IMUまたは視覚データの異なる情報を集約し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合アプローチを導入する。 NaiveFuseサーバは、単純化されたIMUデータと推定された3Dポーズをユークリッド空間で融合する基本的なアプローチである。 キネマティック空間では、KineFuseはキャリブレーションとアライメントされたIMUの生データを変換された3Dポーズパラメータと統合することができる。 AdaDeepFuseは、このキネマティック融合プロセスを適応的およびエンドツーエンドのトレーニング可能な方法でさらに発展させる。 アブレーション研究による総合的な実験は、提案フレームワークの合理性と優越性を実証している。 3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。 トータルキャプチャデータセットでは、KineFuseはテストのみにIMUを使用する従来の最先端技術を8.6\%上回る。 AdaDeepFuseは、トレーニングとテストの両方にIMUを使用している最先端を8.5\%上回る。 さらに、Human3.6Mデータセットの実験を通して、フレームワークの一般化能力を検証する。

There exist challenging problems in 3D human pose estimation mission, such as poor performance caused by occlusion and self-occlusion. Recently, IMU-vision sensor fusion is regarded as valuable for solving these problems. However, previous researches on the fusion of IMU and vision data, which is heterogeneous, fail to adequately utilize either IMU raw data or reliable high-level vision features. To facilitate a more efficient sensor fusion, in this work we propose a framework called \emph{FusePose} under a parametric human kinematic model. Specifically, we aggregate different information of IMU or vision data and introduce three distinctive sensor fusion approaches: NaiveFuse, KineFuse and AdaDeepFuse. NaiveFuse servers as a basic approach that only fuses simplified IMU data and estimated 3D pose in euclidean space. While in kinematic space, KineFuse is able to integrate the calibrated and aligned IMU raw data with converted 3D pose parameters. AdaDeepFuse further develops this kinematical fusion process to an adaptive and end-to-end trainable manner. Comprehensive experiments with ablation studies demonstrate the rationality and superiority of the proposed framework. The performance of 3D human pose estimation is improved compared to the baseline result. On Total Capture dataset, KineFuse surpasses previous state-of-the-art which uses IMU only for testing by 8.6\%. AdaDeepFuse surpasses state-of-the-art which uses IMU for both training and testing by 8.5\%. Moreover, we validate the generalization capability of our framework through experiments on Human3.6M dataset.
翻訳日:2022-08-26 13:30:55 公開日:2022-08-25
# 小人数者のための二重解剖センターによる底上げ2次元姿勢推定

Bottom-Up 2D Pose Estimation via Dual Anatomical Centers for Small-Scale Persons ( http://arxiv.org/abs/2208.11975v1 )

ライセンス: Link先を確認
Yu Cheng, Yihao Ai, Bo Wang, Xinchao Wang, Robby T. Tan(参考訳) 多人数の2次元ポーズ推定では、ボトムアップ法は全員のポーズを同時に予測し、トップダウンの手法とは異なり、人間検出に依存しない。 しかし, sotaボトムアップ法の精度は, 従来のトップダウン法に比べまだ劣っている。 これは、予測された人間のポーズが、一貫性のない人間境界箱センターと人間のスケールの正規化の欠如に基づいて後退しているためである。 ボトムアップポーズ推定のエンベロープをプッシュするために,まず,ネットワークのスケール変動に対応するためのネットワーク強化,特に小規模者を対象としたマルチスケールトレーニングを提案する。 第2に,人間のポーズをより正確に,かつ確実に予測できる2つの解剖学的中心(すなわち頭と体)を導入する。 さらに,既存のボトムアップ法では,複数回のボトムアップ法に比べてボトムアップ法効率,コア強度を低下させるため,複数のフォワードパスの価格でポーズ推定の精度を高めるために,マルチスケールテストが用いられている。 対照的に、我々のマルチスケールトレーニングにより、モデルは単一の前方通過(すなわちシングルスケールテスト)で高品質なポーズを予測することができる。 本手法は,COCOの小規模サブセットに挑戦する技術(SOTA)に対して,バウンディングボックス精度の38.4\%,バウンディングボックスリコールの39.1\%の改善を実現する。 ヒトのポーズAP評価では,COCOテストデフセット上で新しいSOTA(71.0 AP)を単一スケールテストで達成する。 また、OCHumanデータセット上での最高性能(40.3 AP)をクロスデータセット評価で達成する。

In multi-person 2D pose estimation, the bottom-up methods simultaneously predict poses for all persons, and unlike the top-down methods, do not rely on human detection. However, the SOTA bottom-up methods' accuracy is still inferior compared to the existing top-down methods. This is due to the predicted human poses being regressed based on the inconsistent human bounding box center and the lack of human-scale normalization, leading to the predicted human poses being inaccurate and small-scale persons being missed. To push the envelope of the bottom-up pose estimation, we firstly propose multi-scale training to enhance the network to handle scale variation with single-scale testing, particularly for small-scale persons. Secondly, we introduce dual anatomical centers (i.e., head and body), where we can predict the human poses more accurately and reliably, especially for small-scale persons. Moreover, existing bottom-up methods use multi-scale testing to boost the accuracy of pose estimation at the price of multiple additional forward passes, which weakens the efficiency of bottom-up methods, the core strength compared to top-down methods. By contrast, our multi-scale training enables the model to predict high-quality poses in a single forward pass (i.e., single-scale testing). Our method achieves 38.4\% improvement on bounding box precision and 39.1\% improvement on bounding box recall over the state of the art (SOTA) on the challenging small-scale persons subset of COCO. For the human pose AP evaluation, we achieve a new SOTA (71.0 AP) on the COCO test-dev set with the single-scale testing. We also achieve the top performance (40.3 AP) on OCHuman dataset in cross-dataset evaluation.
翻訳日:2022-08-26 13:30:29 公開日:2022-08-25
# 単眼深度と流れ推定によるクロスドメイン学習のためのコンパクト構造

A Compacted Structure for Cross-domain learning on Monocular Depth and Flow Estimation ( http://arxiv.org/abs/2208.11993v1 )

ライセンス: Link先を確認
Yu Chen, Xu Cao, Xiaoyi Lin, Baoru Huang, Xiao-Yun Zhou, Jian-Qing Zheng, Guang-Zhong Yang(参考訳) 正確な動きと深度の回復は、自動運転を含む多くのロボットビジョンタスクにとって重要である。 これまでの研究のほとんどは、事前定義された損失関数またはクロスドメイン予測によって協調的なマルチタスクインタラクションを達成している。 本稿では,F2D(Flow to Depth),D2F(Depth to Flow),EMA(Exponential moving Average)による相互支援を実現するマルチタスク方式を提案する。 F2DおよびD2F機構は、異なる浅層ネットに基づく光フローと深度領域のマルチスケール情報統合を可能にする。 二重ヘッド機構は、剛性および非剛性運動の光学的流れを分割・コンカレントな方法で予測し、光学的フロー推定性能を著しく向上させる。 さらに、予測をより堅牢で安定したものにするため、EMAはマルチタスクトレーニングに使用しています。 KITTIデータセットの実験結果から,我々のマルチタスクスキームは他のマルチタスクスキームよりも優れ,予測結果に顕著な改善が得られた。

Accurate motion and depth recovery is important for many robot vision tasks including autonomous driving. Most previous studies have achieved cooperative multi-task interaction via either pre-defined loss functions or cross-domain prediction. This paper presents a multi-task scheme that achieves mutual assistance by means of our Flow to Depth (F2D), Depth to Flow (D2F), and Exponential Moving Average (EMA). F2D and D2F mechanisms enable multi-scale information integration between optical flow and depth domain based on differentiable shallow nets. A dual-head mechanism is used to predict optical flow for rigid and non-rigid motion based on a divide-and-conquer manner, which significantly improves the optical flow estimation performance. Furthermore, to make the prediction more robust and stable, EMA is used for our multi-task training. Experimental results on KITTI datasets show that our multi-task scheme outperforms other multi-task schemes and provide marked improvements on the prediction results.
翻訳日:2022-08-26 13:30:01 公開日:2022-08-25
# 衣服交換者再識別のためのアイデンティティ・センシティブな知識伝播

Identity-Sensitive Knowledge Propagation for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2208.12023v1 )

ライセンス: Link先を確認
Jianbing Wu, Hong Liu, Wei Shi, Hao Tang, Jingwen Guo(参考訳) 近年,衣服の着替えによる身元確認を目的とした衣服交換者再識別(CC-ReID)が注目されている。 しかし、典型的なバイオメトリックスに基づくCC-ReID法は、高い計算コストを伴う人間の生体特性から布に関係のない特徴を学習するために、面倒なポーズや身体部分推定器を必要とすることが多い。 さらに、監視画像の分解能低下により、性能が著しく制限されている。 上記の制限に対処するため,我々はcc-reidのための効果的なid-sensitive knowledge propagation framework (deskpro)を提案する。 具体的には、人間のパーシングモジュールから知識を得ることにより、衣服の外観の邪魔をなくすために、衣服非関連空間注意モジュールを導入する。 人間の顔からの分解能劣化問題と識別に敏感な手がかりのマイニングを緩和するため,従来の顔情報を用いて顔の詳細を復元し,より小さなネットワークに伝播させることを提案する。 訓練後、人間の解析や顔の復元のための余分な計算はもはや不要となる。 広範な実験によって、我々のフレームワークは最先端のメソッドよりも大きなマージンで優れています。 私たちのコードはhttps://github.com/KimbingNg/DeskProで利用可能です。

Cloth-changing person re-identification (CC-ReID), which aims to match person identities under clothing changes, is a new rising research topic in recent years. However, typical biometrics-based CC-ReID methods often require cumbersome pose or body part estimators to learn cloth-irrelevant features from human biometric traits, which comes with high computational costs. Besides, the performance is significantly limited due to the resolution degradation of surveillance images. To address the above limitations, we propose an effective Identity-Sensitive Knowledge Propagation framework (DeSKPro) for CC-ReID. Specifically, a Cloth-irrelevant Spatial Attention module is introduced to eliminate the distraction of clothing appearance by acquiring knowledge from the human parsing module. To mitigate the resolution degradation issue and mine identity-sensitive cues from human faces, we propose to restore the missing facial details using prior facial knowledge, which is then propagated to a smaller network. After training, the extra computations for human parsing or face restoration are no longer required. Extensive experiments show that our framework outperforms state-of-the-art methods by a large margin. Our code is available at https://github.com/KimbingNg/DeskPro.
翻訳日:2022-08-26 13:29:43 公開日:2022-08-25
# マルチモーダル核融合3次元物体検出のためのレーダーとカメラの視差の橋渡し

Bridging the View Disparity of Radar and Camera Features for Multi-modal Fusion 3D Object Detection ( http://arxiv.org/abs/2208.12079v1 )

ライセンス: Link先を確認
Taohua Zhou, Yining Shi, Junjie Chen, Kun Jiang, Mengmeng Yang, Diange Yang(参考訳) レーダとカメラのマルチモーダル融合による環境認識は、精度、完全性、堅牢性を高めるために自律運転において不可欠である。 本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。 より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。 まず、レーダの特徴を時間的蓄積で拡張し、レーダ特徴抽出のために時間空間エンコーダに送信する。 一方、画像バックボーンとネックモデルにより、様々な空間スケールに対応するマルチスケール画像2D特徴を得る。 そして、デザインされたビュー変換器で画像特徴をBEVに変換する。 さらに、この研究は、点融合とROI融合と呼ばれる2段階の融合モデルで多モード特徴を融合させる。 最後に、検出ヘッドはオブジェクトカテゴリと3Dロケーションを回帰する。 実験により,提案手法は,最も重要な検出基準である平均精度(mAP)とNDS(nuScenes detection score)に基づいて,挑戦的なnuScenesデータセット上での最先端性能を実現することを示した。

Environmental perception with multi-modal fusion of radar and camera is crucial in autonomous driving to increase the accuracy, completeness, and robustness. This paper focuses on how to utilize millimeter-wave (MMW) radar and camera sensor fusion for 3D object detection. A novel method which realizes the feature-level fusion under bird-eye view (BEV) for a better feature representation is proposed. Firstly, radar features are augmented with temporal accumulation and sent to a temporal-spatial encoder for radar feature extraction. Meanwhile, multi-scale image 2D features which adapt to various spatial scales are obtained by image backbone and neck model. Then, image features are transformed to BEV with the designed view transformer. In addition, this work fuses the multi-modal features with a two-stage fusion model called point fusion and ROI fusion, respectively. Finally, a detection head regresses objects category and 3D locations. Experimental results demonstrate that the proposed method realizes the state-of-the-art performance under the most important detection metrics, mean average precision (mAP) and nuScenes detection score (NDS) on the challenging nuScenes dataset.
翻訳日:2022-08-26 13:28:58 公開日:2022-08-25
# 文脈更新に基づく条件的弱オンティクスの必要性の論理理論

A logical theory for conditional weak ontic necessity based on context update ( http://arxiv.org/abs/2208.11917v1 )

ライセンス: Link先を確認
Fengkui Ju(参考訳) 弱オンティックな必要性は、英語で『should』または『ought to』で表されるオンティックな必要性である。 その一例が ``i should be dead by now''' である。 この必要性の1つの特徴は、その存在が先行するかどうかに何の関係も持たないかどうかである。 本稿では,文脈更新に基づく条件的弱オンティック性の必要性の論理理論を提案する。 コンテキストは順序付けられたデフォルトのセットであり、現在の世界の期待される状態を決定する。 文は文脈に関して評価される。 文脈に関して条件の弱いオンティック性の必要性を評価する際、まず先行者を用いて文脈を更新し、その状況が更新された文脈に対して保持されるかどうかを確認する。 論理は完全です。 我々の理論は前提セマンティクスと条件セマンティクスの更新を組み合わせる。

Weak ontic necessity is the ontic necessity expressed by ``should'' or ``ought to'' in English. An example of it is ``I should be dead by now''. A feature of this necessity is whether it holds does not have anything to do with whether its prejacent holds. In this paper, we present a logical theory for conditional weak ontic necessity based on context update. A context is a set of ordered defaults, determining expected possible states of the present world. Sentences are evaluated with respect to contexts. When evaluating the conditional weak ontic necessity with respect to a context, we first update the context with the antecedent, then check whether the consequent holds with respect to the updated context. The logic is complete. Our theory combines premise semantics and update semantics for conditionals.
翻訳日:2022-08-26 13:25:59 公開日:2022-08-25
# 分岐時間における強および弱オンティック必要性の論理理論

A logical theory for strong and weak ontic necessities in branching time ( http://arxiv.org/abs/2208.11922v1 )

ライセンス: Link先を確認
Fengkui Ju(参考訳) オンティックな必要性は、オンティックな可能性の領域を普遍的に定量化するモダリティである。 弱いオンティック必需品と呼ばれるオンティック必需品は、興味深い疑問を引き起こす。 その一例が ``i should be dead by now''' である。 この必要性の特徴は、ある状態における保持が、その前発的な状態が保持しているかどうかに何の関係も持たないかどうかである。 should''で表される弱い認識的必要性はあるか? `must'' で表される強いオンティックな必需品はあるか? 強くて弱いオンティックな必需品をどう理解すればいいのか? 本稿では,以下の研究を行う。 まず,強固かつ弱弱なオンティック/エピステミクスの必要性を認識し,それらの一般的な考え方を述べる。 第二に、分岐時間における強で弱いオンティックな必要条件に対する完全な論理理論を示す。 この理論は以下のアプローチに基づいている。 弱いオンティックの必要性は、エージェントのオンティックルールのシステムによって決定される期待されるタイムラインの領域上で定量化される。 強いオンティックの必要性は、決定不能なオンティック規則によって決定される、受け入れられたタイムラインの領域上で定量化される。

Ontic necessities are those modalities universally quantifying over domains of ontic possibilities, whose ``existence'' is independent of our knowledge. An ontic necessity, called the weak ontic necessity, causes interesting questions. An example for it is ``I should be dead by now''. A feature of this necessity is whether it holds at a state has nothing to do with whether its prejacent holds at the state. Is there a weak epistemic necessity expressed by ``should''? Is there a strong ontic necessity expressed by ``must''? How do we make sense of the strong and weak ontic necessities formally? In this paper, we do the following work. Firstly, we recognize strong/weak ontic/epistemic necessities and give our general ideas about them. Secondly, we present a complete logical theory for the strong and weak ontic necessities in branching time. This theory is based on the following approach. The weak ontic necessity quantifies over a domain of expected timelines, determined by the agent's system of ontic rules. The strong ontic necessity quantifies over a domain of accepted timelines, determined by undefeatable ontic rules.
翻訳日:2022-08-26 13:25:46 公開日:2022-08-25
# Kencorpus: 自然言語処理タスクのためのKenyan Language Corpus of Swahili, Dholuo, Luhya

Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for Natural Language Processing Tasks ( http://arxiv.org/abs/2208.12081v1 )

ライセンス: Link先を確認
Barack Wanjawa, Lilian Wanzare, Florence Indede, Owen McOnyango, Edward Ombui, Lawrence Muchemi(参考訳) アフリカ原住民の言語は、人工知能では不足しており、デジタルの傾向や情報アクセスに乏しい。 課題は、必要なデータなしで機械学習とディープラーニングモデルを使用する方法だ。 kencorpusはケニア語のコーパスで、機械翻訳、質問応答、多言語コミュニティでの書き起こしといったアプリケーションにおけるデータ駆動ソリューションを可能にするのに十分なテキストや音声データの収集と保存のギャップを埋めることを目的としている。 ケンコーパス(Kencorpus)は、ケニアのスワヒリ語、ドゥルーオ語、ルヒャ語(Lumarachi, Lulogooli, Lubukusu)で主に話される3つの言語のためのコーパスである。 このコーパスは、低リソース言語のための自然言語処理と機械学習タスクに使用できるデータセットの開発ギャップを埋めようとしている。 これらの言語はそれぞれ、言語コーパスにテキストと音声データを提供した。 データ収集は、コミュニティ、学校、協力パートナー(メディア、出版社)の研究者によって行われた。 ケンコーパスには5,594点のテキスト(5.6万語)と1,152の音声ファイル(177時間)がある。 このデータに基づいて、DholuoとLuhyaのPOSタグセット(それぞれ5万語と9万3000語)、Swahiliのテキスト(7,537 QAペア)からのQ&A対、Swahiliのテキストの翻訳(12,400文)などのデータセットも開発された。 データセットは、テキスト処理、アノテーション、翻訳などの機械学習タスクに有用である。 このプロジェクトはまた、QAタスクのための音声からテキスト、機械学習の概念システムの実証も行っており、最初の結果は、Kencorpusが機械学習コミュニティに利用可能であることを確認した。 Kencorpusはこのような低リソース言語のための最初のコーパスであり、同様の作品の学習と共有経験の基礎を形成している。

Indigenous African languages are categorized as under-served in Artificial Intelligence and suffer poor digital inclusivity and information access. The challenge has been how to use machine learning and deep learning models without the requisite data. Kencorpus is a Kenyan Language corpus that intends to bridge the gap on how to collect, and store text and speech data that is good enough to enable data-driven solutions in applications such as machine translation, question answering and transcription in multilingual communities. Kencorpus is a corpus (text and speech) for three languages predominantly spoken in Kenya: Swahili, Dholuo and Luhya (dialects Lumarachi, Lulogooli and Lubukusu). This corpus intends to fill the gap of developing a dataset that can be used for Natural Language Processing and Machine Learning tasks for low-resource languages. Each of these languages contributed text and speech data for the language corpus. Data collection was done by researchers from communities, schools and collaborating partners (media, publishers). Kencorpus has a collection of 5,594 items, being 4,442 texts (5.6million words) and 1,152 speech files (177hrs). Based on this data, other datasets were also developed e.g POS tagging sets for Dholuo and Luhya (50,000 and 93,000 words tagged respectively), Question-Answer pairs from Swahili texts (7,537 QA pairs) and Translation of texts into Swahili (12,400 sentences). The datasets are useful for machine learning tasks such as text processing, annotation and translation. The project also undertook proof of concept systems in speech to text and machine learning for QA task, with initial results confirming the usability of the Kencorpus to the machine learning community. Kencorpus is the first such corpus of its kind for these low resource languages and forms a basis of learning and sharing experiences for similar works.
翻訳日:2022-08-26 13:25:29 公開日:2022-08-25
# ラボサイズの資源を用いたt5訓練

Training a T5 Using Lab-sized Resources ( http://arxiv.org/abs/2208.12097v1 )

ライセンス: Link先を確認
Manuel R. Ciosici, Leon Derczynski(参考訳) 大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間を要する。 これらの要件は、リソースが少ない人は競合モデルを構築することができないため、参入への障壁を生み出します。 本稿では,その実現に向けて様々な手法を提案する。 (a)研究機関が持つであろう資源を用いて、大規模な言語モデルを訓練し、 (b)適度な時間内に訓練すること。 デンマーク語のためのT5モデルとして,この言語を最初に用いたケーススタディを,実践者に対して具体的なレコメンデーションとして提示する。

Training large neural language models on large datasets is resource- and time-intensive. These requirements create a barrier to entry, where those with fewer resources cannot build competitive models. This paper presents various techniques for making it possible to (a) train a large language model using resources that a modest research lab might have, and (b) train it in a reasonable amount of time. We provide concrete recommendations for practitioners, which we illustrate with a case study: a T5 model for Danish, the first for this language.
翻訳日:2022-08-26 13:24:52 公開日:2022-08-25
# リレーショナル・サイクリゼーションによるサイクル付き関係因果モデル学習

Learning Relational Causal Models with Cycles through Relational Acyclification ( http://arxiv.org/abs/2208.12210v1 )

ライセンス: Link先を確認
Ragib Ahsan, David Arbour, Elena Zheleva(参考訳) 相互影響や相互結合単位間の因果効果を含む実世界の現象では、平衡状態は典型的にはグラフィカルモデルのサイクルで表される。 グラフィカルモデルの表現型クラス \textit{relational causal model} は、そのようなサイクルやフィードバックループを示す複雑な力学系を表現し、推論することができる。 観測データから因果モデルを学習するための既存の巡回因果発見アルゴリズムは、データインスタンスが独立で同一に分散していると仮定し、関係因果モデルには適さない。 同時に、関係因果モデルに対する因果発見アルゴリズムが非巡回性を仮定する。 本研究では,制約に基づく関係因果探索アルゴリズムが正当かつ完全である必要十分条件について検討する。 循環関係因果モデルの識別可能性に関する推論を可能にする関係モデル専用に設計された演算である \textit{relational acyclification} を導入する。 関係の循環化と$\sigma$-faithfulnessという仮定の下では、関係因果発見アルゴリズムrcd(maier et al. 2013)は巡回モデルに対して健全かつ完全であることが示されている。 我々の主張を支持する実験結果を示す。

In real-world phenomena which involve mutual influence or causal effects between interconnected units, equilibrium states are typically represented with cycles in graphical models. An expressive class of graphical models, \textit{relational causal models}, can represent and reason about complex dynamic systems exhibiting such cycles or feedback loops. Existing cyclic causal discovery algorithms for learning causal models from observational data assume that the data instances are independent and identically distributed which makes them unsuitable for relational causal models. At the same time, causal discovery algorithms for relational causal models assume acyclicity. In this work, we examine the necessary and sufficient conditions under which a constraint-based relational causal discovery algorithm is sound and complete for \textit{cyclic relational causal models}. We introduce \textit{relational acyclification}, an operation specifically designed for relational models that enables reasoning about the identifiability of cyclic relational causal models. We show that under the assumptions of relational acyclification and $\sigma$-faithfulness, the relational causal discovery algorithm RCD (Maier et al. 2013) is sound and complete for cyclic models. We present experimental results to support our claim.
翻訳日:2022-08-26 13:24:33 公開日:2022-08-25
# 洗練と表現: 領域間表現学習

Refine and Represent: Region-to-Object Representation Learning ( http://arxiv.org/abs/2208.11821v1 )

ライセンス: Link先を確認
Akash Gokul, Konstantinos Kallidromitis, Shufan Li, Yusuke Kato, Kazuki Kozuka, Trevor Darrell, and Colorado J Reed(参考訳) 自己教師付き学習における最近の研究は、オブジェクト中心または領域ベースの対応目標を事前学習することで、シーンレベルの密集した予測タスクにおいて強いパフォーマンスを示している。 本稿では,領域ベースとオブジェクト中心の事前学習を統合する領域間表現学習(r2o)を提案する。 r2oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練し、マスク内のコンテンツの表現を共同で学習する。 r2oは「領域リファインメントモジュール」を使用して、領域レベルの先行で生成された小さな画像領域を、領域レベルの特徴をクラスタリングすることでオブジェクトに対応する傾向がある大きな領域にグループ化する。 事前学習が進むにつれて、R2Oは早期に地域レベルの特徴を学習し、徐々にオブジェクト中心の表現を訓練する領域間カリキュラムに従う。 R2Oを用いて学んだ表現は、PASCAL VOC(+0.7 mIOU)とCityscapes(+0.4 mIOU)のセマンティックセグメンテーションにおける最先端技術のパフォーマンスと、MS COCO(+0.3 mask AP)のインスタンスセグメンテーションにつながった。 さらに、ImageNetで事前トレーニングを行った後、R2O事前訓練されたモデルは、Caltech-UCSD Birds 200-2011データセット(+2.9 mIoU)の教師なしオブジェクトセグメンテーションにおいて、それ以上のトレーニングをすることなく既存の最先端のオブジェクトセグメンテーションを超えることができる。 この作業から得られたコード/モデルは、https://github.com/kkallidromitis/r2oで提供します。

Recent works in self-supervised learning have demonstrated strong performance on scene-level dense prediction tasks by pretraining with object-centric or region-based correspondence objectives. In this paper, we present Region-to-Object Representation Learning (R2O) which unifies region-based and object-centric pretraining. R2O operates by training an encoder to dynamically refine region-based segments into object-centric masks and then jointly learns representations of the contents within the mask. R2O uses a "region refinement module" to group small image regions, generated using a region-level prior, into larger regions which tend to correspond to objects by clustering region-level features. As pretraining progresses, R2O follows a region-to-object curriculum which encourages learning region-level features early on and gradually progresses to train object-centric representations. Representations learned using R2O lead to state-of-the art performance in semantic segmentation for PASCAL VOC (+0.7 mIOU) and Cityscapes (+0.4 mIOU) and instance segmentation on MS COCO (+0.3 mask AP). Further, after pretraining on ImageNet, R2O pretrained models are able to surpass existing state-of-the-art in unsupervised object segmentation on the Caltech-UCSD Birds 200-2011 dataset (+2.9 mIoU) without any further training. We provide the code/models from this work at https://github.com/KKallidromitis/r2o.
翻訳日:2022-08-26 13:24:10 公開日:2022-08-25
# Identical Twins を用いた人間の顔類似性のベンチマーク

Benchmarking Human Face Similarity Using Identical Twins ( http://arxiv.org/abs/2208.11822v1 )

ライセンス: Link先を確認
Shoaib Meraj Sami, John McCauley, Sobhan Soleymani, Nasser Nasrabadi, Jeremy Dawson(参考訳) 顔認識(FR)アプリケーションにおける同一の双子と非双子の外観を区別する問題は、顔バイオメトリックスの普及によってますます重要になっている。 同一の双子と見た目の類似性が高いため、顔のペアは顔認識ツールに提示される最も難しいケースである。 この研究は、2つのFR課題に対処するために、これまでにコンパイルされた最大のツインデータセットの1つを応用する。 1)同一の双子と顔の類似性の基準値を決定する 2)大顔データセットのfr性能に対するdoppelgangersやlook-alikesの影響を決定するために、この類似性尺度を適用する。 顔類似度尺度は、深い畳み込みニューラルネットワークを介して決定される。 このネットワークは、ネットワークが埋め込み空間内で非常に類似した顔ペアをグループ化するように設計されたカスタマイズされた検証タスクに基づいて訓練され、テストauc 0.9799 となる。 提案したネットワークは,任意の2つの顔に対して定量的な類似度スコアを提供し,類似した顔対を特定するために大規模な顔データセットに適用されている。 また、顔認識ツールが返す比較スコアと、提案したネットワークが返す類似度スコアとを関連づけた分析を行った。

The problem of distinguishing identical twins and non-twin look-alikes in automated facial recognition (FR) applications has become increasingly important with the widespread adoption of facial biometrics. Due to the high facial similarity of both identical twins and look-alikes, these face pairs represent the hardest cases presented to facial recognition tools. This work presents an application of one of the largest twin datasets compiled to date to address two FR challenges: 1) determining a baseline measure of facial similarity between identical twins and 2) applying this similarity measure to determine the impact of doppelgangers, or look-alikes, on FR performance for large face datasets. The facial similarity measure is determined via a deep convolutional neural network. This network is trained on a tailored verification task designed to encourage the network to group together highly similar face pairs in the embedding space and achieves a test AUC of 0.9799. The proposed network provides a quantitative similarity score for any two given faces and has been applied to large-scale face datasets to identify similar face pairs. An additional analysis which correlates the comparison score returned by a facial recognition tool and the similarity score returned by the proposed network has also been performed.
翻訳日:2022-08-26 13:23:38 公開日:2022-08-25
# 透明形状復元のためのポラリメトリック逆レンダリング

Polarimetric Inverse Rendering for Transparent Shapes Reconstruction ( http://arxiv.org/abs/2208.11836v1 )

ライセンス: Link先を確認
Mingqi Shao, Chongkun Xia, Dongxu Duan, Xueqian Wang(参考訳) 本研究では,偏波計を用いて透明物体の詳細な再構成を行う新しい手法を提案する。 既存の手法のほとんどは、通常十分な制約を欠き、過剰なスムース問題に苦しむ。 そこで我々は,補足的な手がかりとして分極情報を導入する。 我々は物体の形状をニューラルネットワークとして暗黙的に表現し、偏光レンダリングは物体の偏光画像を所定の形状と照明構成からレンダリングすることができる。 レンダリングされた偏光画像と実世界の撮像画像との直接比較は、透明なオブジェクトの伝送による追加のエラーをもたらす。 この問題に対処するために、反射成分の割合を表す反射率の概念を導入する。 反射率はレイトレーサによって計算され、偏光損失の重み付けに用いられる。 本手法を検証するため,多視点透明形状再構成のための偏光データセットを構築した。 実験結果から, 詳細な形状を復元し, 透明物体の再現性を向上させることができることがわかった。 データセットとコードはhttps://github.com/shaomq2187/TransPIRで公開されます。

In this work, we propose a novel method for the detailed reconstruction of transparent objects by exploiting polarimetric cues. Most of the existing methods usually lack sufficient constraints and suffer from the over-smooth problem. Hence, we introduce polarization information as a complementary cue. We implicitly represent the object's geometry as a neural network, while the polarization render is capable of rendering the object's polarization images from the given shape and illumination configuration. Direct comparison of the rendered polarization images to the real-world captured images will have additional errors due to the transmission in the transparent object. To address this issue, the concept of reflection percentage which represents the proportion of the reflection component is introduced. The reflection percentage is calculated by a ray tracer and then used for weighting the polarization loss. We build a polarization dataset for multi-view transparent shapes reconstruction to verify our method. The experimental results show that our method is capable of recovering detailed shapes and improving the reconstruction quality of transparent objects. Our dataset and code will be publicly available at https://github.com/shaomq2187/TransPIR.
翻訳日:2022-08-26 13:23:15 公開日:2022-08-25
# 画像インパインティングのための非バイアスマルチモダリティガイダンス

Unbiased Multi-Modality Guidance for Image Inpainting ( http://arxiv.org/abs/2208.11844v1 )

ライセンス: Link先を確認
Yongsheng Yu, Dawei Du, Libo Zhang, Tiejian Luo(参考訳) 画像インペインティングは、マスク付きの不完全な画像に基づいて、行方不明または損傷した画像コンテンツを復元する不適切な問題である。 以前の作品は通常補助構造(エッジ、セグメンテーション、輪郭など)を予測し、視覚的に現実的なパッチを多段階的に埋めるのに役立つ。 しかし、不正確な補助前駆体は、偏りのある塗装結果をもたらす可能性がある。 さらに、複雑なニューラルネットワークの複数の段階によって実装されるメソッドには時間がかかる。 この問題を解決するために,1つの塗り込み分岐と2つの補助分岐を含む,エンド・ツー・エンドのマルチモダリティ誘導変圧器ネットワークを開発し,セマンティクスセグメンテーションとエッジテクスチャについて述べる。 各変圧器ブロック内で提案するマルチスケール空間認識アテンションモジュールは、補助的非正規化により、マルチモーダル構造を効率的に学習することができる。 従来の手法と異なり,複数モーダルからの識別的インタープレイ情報に基づいて,画像中の意味的一貫した文脈を充実させる手法である。 いくつかの難解な画像インパインティングデータセットに関する総合的な実験により,本手法は様々な正規/不規則マスクを効率的に処理するための最先端性能を実現する。

Image inpainting is an ill-posed problem to recover missing or damaged image content based on incomplete images with masks. Previous works usually predict the auxiliary structures (e.g., edges, segmentation and contours) to help fill visually realistic patches in a multi-stage fashion. However, imprecise auxiliary priors may yield biased inpainted results. Besides, it is time-consuming for some methods to be implemented by multiple stages of complex neural networks. To solve this issue, we develop an end-to-end multi-modality guided transformer network, including one inpainting branch and two auxiliary branches for semantic segmentation and edge textures. Within each transformer block, the proposed multi-scale spatial-aware attention module can learn the multi-modal structural features efficiently via auxiliary denormalization. Different from previous methods relying on direct guidance from biased priors, our method enriches semantically consistent context in an image based on discriminative interplay information from multiple modalities. Comprehensive experiments on several challenging image inpainting datasets show that our method achieves state-of-the-art performance to deal with various regular/irregular masks efficiently.
翻訳日:2022-08-26 13:23:01 公開日:2022-08-25
# グラフにおけるシュタイナー木問題のpruneインスタンスへの学習

Learning to Prune Instances of Steiner Tree Problem in Graphs ( http://arxiv.org/abs/2208.11985v1 )

ライセンス: Link先を確認
Jiwei Zhang and Deepak Ajwani(参考訳) 我々は、ノードの集合が与えられたグラフ上のSteiner木問題を考える。その目標は、与えられた集合にすべてのノードを含む最小限の重みのツリー部分グラフを見つけることである。 これは古典的なNPハード組合せ最適化問題である。 近年、機械学習フレームワークであるLearning-to-pruneは、様々な組合せ最適化問題の解決に成功している。 本稿では,このスタイナー木問題に関する学習フレームワークを用いて,この問題においても,学習から学習までのフレームワークが,商用のilpソルバが要求する時間にほんの少しの時間で最適に近い解を計算できることを示す。 本研究は,様々な組合せ最適化問題の解法における学習から学習までの枠組みの可能性を強調した。

We consider the Steiner tree problem on graphs where we are given a set of nodes and the goal is to find a tree sub-graph of minimum weight that contains all nodes in the given set, potentially including additional nodes. This is a classical NP-hard combinatorial optimisation problem. In recent years, a machine learning framework called learning-to-prune has been successfully used for solving a diverse range of combinatorial optimisation problems. In this paper, we use this learning framework on the Steiner tree problem and show that even on this problem, the learning-to-prune framework results in computing near-optimal solutions at a fraction of the time required by commercial ILP solvers. Our results underscore the potential of the learning-to-prune framework in solving various combinatorial optimisation problems.
翻訳日:2022-08-26 13:19:57 公開日:2022-08-25
# 影響モデリングのための教師付きコントラスト学習

Supervised Contrastive Learning for Affect Modelling ( http://arxiv.org/abs/2208.12238v1 )

ライセンス: Link先を確認
Kosmas Pinitas, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis(参考訳) 伝統的に、測定可能なマッピングのプロセスは、ラベルに影響を与えるユーザ入力の複数のモードからのマニフェストに影響を及ぼす。 このマッピングは通常、エンドツーエンドの機械学習プロセスを通じて推論される。 代わりに、情報に影響を与えることを考慮し、その表現を使って影響をモデル化する主題不変表現を訓練するとしたらどうでしょう? 本稿では,影響ラベルが感情表現の訓練信号だけでなく,重要な部分を形成していると仮定し,近年のコントラスト学習のパラダイムを応用して,感情表現をモデル化するための一般的なハイレベルな感情注入表現を発見する方法について検討する。 情報に影響を与える表現を学習するための3つの異なる教師付きコントラスト学習手法を提案する。 本稿では,複数のモーダルからのユーザ情報に基づいて,RECOLAデータセットの覚醒予測手法を提案する。 その結果、比較学習の表現能力と影響モデルの精度を高める効果が示された。 エンド・ツー・エンドの覚醒分類よりも高いパフォーマンスを示すだけでなく、トレーニングはマルチモーダルコーパスで利用可能な一般的な影響情報によって誘導されるため、結果として得られる表現は汎用的で主題に依存しない。

Affect modeling is viewed, traditionally, as the process of mapping measurable affect manifestations from multiple modalities of user input to affect labels. That mapping is usually inferred through end-to-end (manifestation-to-affect) machine learning processes. What if, instead, one trains general, subject-invariant representations that consider affect information and then uses such representations to model affect? In this paper we assume that affect labels form an integral part, and not just the training signal, of an affect representation and we explore how the recent paradigm of contrastive learning can be employed to discover general high-level affect-infused representations for the purpose of modeling affect. We introduce three different supervised contrastive learning approaches for training representations that consider affect information. In this initial study we test the proposed methods for arousal prediction in the RECOLA dataset based on user information from multiple modalities. Results demonstrate the representation capacity of contrastive learning and its efficiency in boosting the accuracy of affect models. Beyond their evidenced higher performance compared to end-to-end arousal classification, the resulting representations are general-purpose and subject-agnostic, as training is guided though general affect information available in any multimodal corpus.
翻訳日:2022-08-26 13:19:16 公開日:2022-08-25
# JAXFit:GPU上の非線形最小二乗曲線の信頼領域法

JAXFit: Trust Region Method for Nonlinear Least-Squares Curve Fitting on the GPU ( http://arxiv.org/abs/2208.12187v1 )

ライセンス: Link先を確認
Lucas R. Hofer, Milan Krstaji\'c, Robert P. Smith(参考訳) JAXと呼ばれる新しいディープラーニングPythonライブラリを用いて,非線形最小二乗曲線整合問題に対するGPU上の信頼領域法を実装した。 私たちのオープンソースパッケージであるjaxfitは、制約のない曲線フィット問題の両方に対応し、gpuやcudaプログラミングの専門知識なしに、pythonだけでfit関数を定義することができます。 JAXFitはGPUで動作するため、非常に簡単に使えるにもかかわらず、CPUベースのライブラリや他のGPUベースのライブラリよりもはるかに高速である。 さらに、JAX の深層学習基盤により、JAXFit の信頼領域アルゴリズムのヤコビアンは、微分近似を用いることや、ユーザが適合関数の部分微分を定義することよりも、自動微分によって計算される。

We implement a trust region method on the GPU for nonlinear least squares curve fitting problems using a new deep learning Python library called JAX. Our open source package, JAXFit, works for both unconstrained and constrained curve fitting problems and allows the fit functions to be defined in Python alone -- without any specialized knowledge of either the GPU or CUDA programming. Since JAXFit runs on the GPU, it is much faster than CPU based libraries and even other GPU based libraries, despite being very easy to use. Additionally, due to JAX's deep learning foundations, the Jacobian in JAXFit's trust region algorithm is calculated with automatic differentiation, rather than than using derivative approximations or requiring the user to define the fit function's partial derivatives.
翻訳日:2022-08-26 13:18:56 公開日:2022-08-25
# イメージングのためのマルチレゾリューションニューラルネットワーク

Multiresolution Neural Networks for Imaging ( http://arxiv.org/abs/2208.11813v1 )

ライセンス: Link先を確認
Hallison Paz, Tiago Novello, Vinicius Silva, Luiz Schirmer, Guilherme Schardong, Luiz Velho(参考訳) 本稿では,マルチレゾリューションニューラルネットワークの汎用アーキテクチャであるMR-Netと,このアーキテクチャに基づくアプリケーションイメージングフレームワークを提案する。 座標に基づくネットワークは、空間的にも規模的にも連続的であり、さらに細部を段階的に追加する複数のステージで構成されている。 さらに、それらはコンパクトで効率的な表現である。 マルチレゾリューション画像表現の例とテクスチャの倍率化と小型化,アンチエイリアス化への応用について述べる。

We present MR-Net, a general architecture for multiresolution neural networks, and a framework for imaging applications based on this architecture. Our coordinate-based networks are continuous both in space and in scale as they are composed of multiple stages that progressively add finer details. Besides that, they are a compact and efficient representation. We show examples of multiresolution image representation and applications to texture magnification and minification, and antialiasing.
翻訳日:2022-08-26 13:18:41 公開日:2022-08-25
# 線形ガウス状態空間モデルの混合に対するEMアルゴリズムによる時系列クラスタリング

Time Series Clustering with an EM algorithm for Mixtures of Linear Gaussian State Space Models ( http://arxiv.org/abs/2208.11907v1 )

ライセンス: Link先を確認
Ryohei Umatani, Takashi Imai, Kaoru Kawamoto, Shutaro Kunimasa(参考訳) 本稿では,各クラスタ,すなわちモデルに基づく時系列クラスタリングをモデル化しながら,個々の時系列をクラスタリングするタスクについて検討する。 このタスクは、様々な時系列のダイナミクスを記述するのに十分な柔軟性を持つパラメトリックモデルを必要とする。 この問題に対処するために,線形ガウス状態空間モデルを混合したモデルベース時系列クラスタリング手法を提案する。 提案手法では,混合モデルに対する新たな期待最大化アルゴリズムを用いてモデルパラメータを推定し,ベイズ情報基準を用いてクラスタ数を決定する。 シミュレーションデータセットの実験は、クラスタリング、パラメータ推定、モデル選択における手法の有効性を示す。 本手法は,提案した時系列クラスタリング手法が精度の低い実データセットに適用される。 その結果,本手法は従来手法よりも正確なクラスタリング結果が得られることがわかった。

In this paper, we consider the task of clustering a set of individual time series while modeling each cluster, that is, model-based time series clustering. The task requires a parametric model with sufficient flexibility to describe the dynamics in various time series. To address this problem, we propose a novel model-based time series clustering method with mixtures of linear Gaussian state space models, which have high flexibility. The proposed method uses a new expectation-maximization algorithm for the mixture model to estimate the model parameters, and determines the number of clusters using the Bayesian information criterion. Experiments on a simulated dataset demonstrate the effectiveness of the method in clustering, parameter estimation, and model selection. The method is applied to a real dataset for which previously proposed time series clustering methods exhibited low accuracy. Results showed that our method produces more accurate clustering results than those obtained using the previous methods.
翻訳日:2022-08-26 13:18:34 公開日:2022-08-25
# 皮膚病変解析 : 現状調査,システムレビュー,将来動向

Skin Lesion Analysis: A State-of-the-Art Survey, Systematic Review, and Future Trends ( http://arxiv.org/abs/2208.12232v1 )

ライセンス: Link先を確認
Md. Kamrul Hasan, Md. Asif Ahamad, Choon Hwai Yap, Guang Yang(参考訳) 皮膚病変解析のためのコンピュータ支援診断システム(CAD)は、皮膚がん検診の負担とコストを軽減できる可能性を持つ研究分野である。 近年,手動検査による課題の軽減を目的として,皮膚科医にユーザフレンドリーなツールを提供することを目的として,CADシステムの開発への関心が高まっている。 本論文の目的は,2011年から2020年にかけて発行された最先端CAD技術の完全な文献レビューを提供することである。 組織的レビューおよびメタアナリシス法(prisma)に好ましい報告項目を用い,365冊の出版物,221冊,皮膚病変分類144冊を同定した。 これらの論文は、CADシステムの進化の方法に関する重要な情報を提供するために、様々な方法で分析・要約されている。 これらの方法には、関連する定義と理論、入力データ(データセットの利用、前処理、拡張、不均衡問題の修正)、メソッド設定(技術、アーキテクチャ、モジュールフレームワーク、損失)、トレーニング戦術(ハイパーパラメータ設定)、評価基準(メトリクス)が含まれる。 また,アンサンブルやポストプロセッシングなど,様々なパフォーマンス向上手法についても検討する。 また,本調査では,最小限のデータセットを用いた皮膚病変の分類と分類システムの評価に関する主な問題点と,これらの点に対する潜在的な解決策について述べる。 結論として,今後の関心分野における研究監視の目的として,発見の啓蒙,勧告,トレンドについて論じる。 皮膚病変解析のための、自動化された堅牢なCADシステムの開発において、初心者から専門家まで、あらゆるレベルの研究者をガイドすることが予想される。

The Computer-aided Diagnosis (CAD) system for skin lesion analysis is an emerging field of research that has the potential to relieve the burden and cost of skin cancer screening. Researchers have recently indicated increasing interest in developing such CAD systems, with the intention of providing a user-friendly tool to dermatologists in order to reduce the challenges that are raised by manual inspection. The purpose of this article is to provide a complete literature review of cutting-edge CAD techniques published between 2011 and 2020. The Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) method was used to identify a total of 365 publications, 221 for skin lesion segmentation and 144 for skin lesion classification. These articles are analyzed and summarized in a number of different ways so that we can contribute vital information about the methods for the evolution of CAD systems. These ways include: relevant and essential definitions and theories, input data (datasets utilization, preprocessing, augmentations, and fixing imbalance problems), method configuration (techniques, architectures, module frameworks, and losses), training tactics (hyperparameter settings), and evaluation criteria (metrics). We also intend to investigate a variety of performance-enhancing methods, including ensemble and post-processing. In addition, in this survey, we highlight the primary problems associated with evaluating skin lesion segmentation and classification systems using minimal datasets, as well as the potential solutions to these plights. In conclusion, enlightening findings, recommendations, and trends are discussed for the purpose of future research surveillance in related fields of interest. It is foreseen that it will guide researchers of all levels, from beginners to experts, in the process of developing an automated and robust CAD system for skin lesion analysis.
翻訳日:2022-08-26 13:17:53 公開日:2022-08-25
# DreamBooth: 被験者駆動生成のための微調整テキスト-画像拡散モデル

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation ( http://arxiv.org/abs/2208.12242v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein and Kfir Aberman(参考訳) 大規模なテキスト画像モデルは、AIの進化において顕著な飛躍を遂げ、与えられたテキストプロンプトから画像の高品質で多様な合成を可能にした。 しかし、これらのモデルには、与えられた参照セットの被写体を模倣し、異なる文脈でそれらの新しい再帰を合成する能力がない。 本稿では,テキストから画像への拡散モデルの「パーソナライズ」のための新しいアプローチを提案する。 入力対象の少数の画像が与えられた場合、トレーニング済みのテキスト・ツー・イメージ・モデル(画像nは特定のモデルに限らないが、我々の方法は特定の対象に固有の識別子を結び付けることを学習する)を微調整する。 被写体がモデルの出力領域に埋め込まれると、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全ヌーベルな光現実像を合成することができる。 本手法は,モデル内に埋め込まれたセマンティクスを,新たな自己固有のクラス固有の事前保存損失に活用することにより,参照画像にない多様なシーン,ポーズ,ビュー,照明条件で対象を合成することができる。 本手法は, 被験者の主観的特徴を保ちながら, 主題再構成, テキスト誘導ビュー合成, 外観修正, 芸術的レンダリングなど, 今までにない課題に適用する。 プロジェクトページ: https://dreambooth.github.io/

Large text-to-image models achieved a remarkable leap in the evolution of AI, enabling high-quality and diverse synthesis of images from a given text prompt. However, these models lack the ability to mimic the appearance of subjects in a given reference set and synthesize novel renditions of them in different contexts. In this work, we present a new approach for "personalization" of text-to-image diffusion models (specializing them to users' needs). Given as input just a few images of a subject, we fine-tune a pretrained text-to-image model (Imagen, although our method is not limited to a specific model) such that it learns to bind a unique identifier with that specific subject. Once the subject is embedded in the output domain of the model, the unique identifier can then be used to synthesize fully-novel photorealistic images of the subject contextualized in different scenes. By leveraging the semantic prior embedded in the model with a new autogenous class-specific prior preservation loss, our technique enables synthesizing the subject in diverse scenes, poses, views, and lighting conditions that do not appear in the reference images. We apply our technique to several previously-unassailable tasks, including subject recontextualization, text-guided view synthesis, appearance modification, and artistic rendering (all while preserving the subject's key features). Project page: https://dreambooth.github.io/
翻訳日:2022-08-26 13:17:24 公開日:2022-08-25
# 適応円周境界による能率的活性化量子化による後訓練量子化

Efficient Activation Quantization via Adaptive Rounding Border for Post-Training Quantization ( http://arxiv.org/abs/2208.11945v1 )

ライセンス: Link先を確認
Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian Gao, Jingwen Leng, Minyi Guo(参考訳) ポストトレーニング量子化(PTQ)は、量子化されたニューラルネットワークのデプロイの利便性により、注目を集める。 量子化エラーの主な原因である丸めはモデル重みのみに最適化されているが、アクティベーションはまだ丸め-ネアレスト操作を使用している。 本研究は,アクティベーションのための健全なラウンドリングスキームが最終精度を向上させることを初めて実証する。 活性化ラウンドリングスキームの動的性の課題に対処するため、簡単な関数でラウンドリング境界を適応的に調整し、推論段階でラウンドリングスキームを生成する。 境界関数は、重み誤差、アクティベーションエラー、伝播エラーの影響をカバーし、要素単位の誤差のバイアスを排除し、モデルの精度をさらに向上させる。 我々はまた、国境にグローバルなエラーを認識させ、異なるアクティベーションに適合させる。 最後に,境界関数を学習するためのAQuantフレームワークを提案する。 広範な実験により、aquantは最先端の作業に比べて無視できないオーバーヘッドで目立った改善を達成し、resnet-18の2ビット重みとトレーニング後のアクティベーションの量子化の下で60.3\%まで精度を向上できることが示されている。

Post-training quantization (PTQ) attracts increasing attention due to its convenience in deploying quantized neural networks. Rounding, the primary source of quantization error, is optimized only for model weights, while activations still use the rounding-to-nearest operation. In this work, for the first time, we demonstrate that well-chosen rounding schemes for activations can improve the final accuracy. To deal with the challenge of the dynamicity of the activation rounding scheme, we adaptively adjust the rounding border through a simple function to generate rounding schemes at the inference stage. The border function covers the impact of weight errors, activation errors, and propagated errors to eliminate the bias of the element-wise error, which further benefits model accuracy. We also make the border aware of global errors to better fit different arriving activations. Finally, we propose the AQuant framework to learn the border function. Extensive experiments show that AQuant achieves noticeable improvements with negligible overhead compared with state-of-the-art works and pushes the accuracy of ResNet-18 up to 60.3\% under the 2-bit weight and activation post-training quantization.
翻訳日:2022-08-26 13:13:56 公開日:2022-08-25
# 拡散モデルを理解する:統一的な視点

Understanding Diffusion Models: A Unified Perspective ( http://arxiv.org/abs/2208.11970v1 )

ライセンス: Link先を確認
Calvin Luo(参考訳) 拡散モデルは生成モデルとして素晴らしい能力を示しており、実際、ImagenやDALL-E 2.0のようなテキスト条件の画像生成において現在の最先端モデルに電力を供給している。 本稿では,変動モデルとスコアモデルの両方の観点から,拡散モデルの理解をレビュー,デミスタライズし,統一する。 まず,可変拡散モデル(vdm)をマルコフ階層型変分オートエンコーダの特殊な場合として導出する。 次に、VDMの最適化はニューラルネットワークを学習して、任意の雑音化からの原音源入力、任意の雑音レベルからの原音源ノイズ、任意の雑音レベルにおける雑音化入力のスコア関数の3つの潜在的目標のうちの1つを予測することを証明した。 次に、スコア関数の学習の意味を深く掘り下げ、拡散モデルの変分的視点を、ツイーディのフォーミュラを通してスコアベースの生成モデリングの視点と明示的に結びつける。 最後に,拡散モデルを用いた条件分布の学習法を指導により紹介する。

Diffusion models have shown incredible capabilities as generative models; indeed, they power the current state-of-the-art models on text-conditioned image generation such as Imagen and DALL-E 2. In this work we review, demystify, and unify the understanding of diffusion models across both variational and score-based perspectives. We first derive Variational Diffusion Models (VDM) as a special case of a Markovian Hierarchical Variational Autoencoder, where three key assumptions enable tractable computation and scalable optimization of the ELBO. We then prove that optimizing a VDM boils down to learning a neural network to predict one of three potential objectives: the original source input from any arbitrary noisification of it, the original source noise from any arbitrarily noisified input, or the score function of a noisified input at any arbitrary noise level. We then dive deeper into what it means to learn the score function, and connect the variational perspective of a diffusion model explicitly with the Score-based Generative Modeling perspective through Tweedie's Formula. Lastly, we cover how to learn a conditional distribution using diffusion models via guidance.
翻訳日:2022-08-26 13:13:33 公開日:2022-08-25
# Anytime-Lidar: デッドライン対応の3Dオブジェクト検出

Anytime-Lidar: Deadline-aware 3D Object Detection ( http://arxiv.org/abs/2208.12181v1 )

ライセンス: Link先を確認
Ahmet Soyyigit, Shuochao Yao, Heechul Yun(参考訳) 本研究では,ディープニューラルネットワーク(DNN)に基づく3次元物体検出パイプラインのリアルタイム認識を可能にする新しいスケジューリングフレームワークを提案する。 本稿では,3次元オブジェクト検出パイプラインに共通する計算コストの高い領域提案ネットワーク(RPN)とカテゴリごとのマルチヘッド検出コンポーネントに着目し,遅延認識を行う。 本研究では,コンポーネントのサブセットをインテリジェントに選択し,有効時間と精度のトレードオフを行うスケジューリングアルゴリズムを提案する。 従来検出されたオブジェクトを現在のシーンに投影することで、ニューラルネットワークのサブコンポーネントの一部をスキップする精度の損失を最小限に抑える。 我々は最先端の3Dオブジェクト検出ネットワークであるPointPillarsにアプローチを適用し、nuScenesデータセットを用いてJetson Xavier AGXの性能を評価する。 ベースラインと比較すると,本手法は様々な期限制約下でネットワークの精度を大幅に向上させる。

In this work, we present a novel scheduling framework enabling anytime perception for deep neural network (DNN) based 3D object detection pipelines. We focus on computationally expensive region proposal network (RPN) and per-category multi-head detector components, which are common in 3D object detection pipelines, and make them deadline-aware. We propose a scheduling algorithm, which intelligently selects the subset of the components to make effective time and accuracy trade-off on the fly. We minimize accuracy loss of skipping some of the neural network sub-components by projecting previously detected objects onto the current scene through estimations. We apply our approach to a state-of-art 3D object detection network, PointPillars, and evaluate its performance on Jetson Xavier AGX using nuScenes dataset. Compared to the baselines, our approach significantly improve the network's accuracy under various deadline constraints.
翻訳日:2022-08-26 13:13:12 公開日:2022-08-25
# 非構造化サイバー脅威インテリジェンスの自動マッピング--実験的検討

Automatic Mapping of Unstructured Cyber Threat Intelligence: An Experimental Study ( http://arxiv.org/abs/2208.12144v1 )

ライセンス: Link先を確認
Vittorio Orbinato, Mariarosaria Barbaraci, Roberto Natella, Domenico Cotroneo(参考訳) 敵エミュレーションのようなセキュリティに対する積極的なアプローチは、脅威アクターとその技術(Cyber Threat Intelligence, CTI)に関する情報を活用する。 しかし、ほとんどのCTIは、インシデントレポートや漏洩文書など、構造化されていない形式(自然言語など)が残っている。 本研究では,機械学習(ML)を用いた攻撃手法への非構造化CTIの自動分類に関する実験的検討を行った。 CTI分析のための2つの新しいデータセットにコントリビュートし、従来の学習モデルとディープラーニングモデルの両方を含むいくつかのMLモデルを評価する。 本稿では,このタスクにおいてMLがどのように機能するか,どの分類器が最も機能し,どの条件下でどの分類誤りの原因となるか,そしてCTI分析の課題について学ぶ。

Proactive approaches to security, such as adversary emulation, leverage information about threat actors and their techniques (Cyber Threat Intelligence, CTI). However, most CTI still comes in unstructured forms (i.e., natural language), such as incident reports and leaked documents. To support proactive security efforts, we present an experimental study on the automatic classification of unstructured CTI into attack techniques using machine learning (ML). We contribute with two new datasets for CTI analysis, and we evaluate several ML models, including both traditional and deep learning-based ones. We present several lessons learned about how ML can perform at this task, which classifiers perform best and under which conditions, which are the main causes of classification errors, and the challenges ahead for CTI analysis.
翻訳日:2022-08-26 13:12:57 公開日:2022-08-25
# 音楽のコントラスト型音声言語学習

Contrastive Audio-Language Learning for Music ( http://arxiv.org/abs/2208.12208v1 )

ライセンス: Link先を確認
Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gy\"orgy Fazekas(参考訳) 人間にとって最も直感的なインターフェイスの1つとして、自然言語は、特に音楽情報検索のようなアプリケーション中心の分野において、人間とコンピュータの相互作用に関わる多くのタスクを仲介する可能性がある。 本研究では,音楽分野における音声と言語を橋渡しするクロスモーダル学習について検討する。 そこで我々は,音楽コントラスト学習のためのフレームワークMusCALLを提案する。 私たちのアプローチは、音楽オーディオと記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャから成り、テキストから音声への検索や音声からテキストへの検索に使用できるマルチモーダル埋め込みを生成する。 このプロパティのおかげで、MusCALLはテキストベースの検索としてキャストできる任意のタスクに転送できる。 提案手法は,テキスト記述にマッチする音声検索や,逆に音声クエリにマッチするテキスト検索において,ベースラインよりもはるかに優れた性能を示す。 また,本モデルのマルチモーダルアライメント能力は,ジャンル分類と2つの公開データセットの自動タグ付けにおいて,ゼロショット転送シナリオにまで拡張可能であることを示す。

As one of the most intuitive interfaces known to humans, natural language has the potential to mediate many tasks that involve human-computer interaction, especially in application-focused fields like Music Information Retrieval. In this work, we explore cross-modal learning in an attempt to bridge audio and language in the music domain. To this end, we propose MusCALL, a framework for Music Contrastive Audio-Language Learning. Our approach consists of a dual-encoder architecture that learns the alignment between pairs of music audio and descriptive sentences, producing multimodal embeddings that can be used for text-to-audio and audio-to-text retrieval out-of-the-box. Thanks to this property, MusCALL can be transferred to virtually any task that can be cast as text-based retrieval. Our experiments show that our method performs significantly better than the baselines at retrieving audio that matches a textual description and, conversely, text that matches an audio query. We also demonstrate that the multimodal alignment capability of our model can be successfully extended to the zero-shot transfer scenario for genre classification and auto-tagging on two public datasets.
翻訳日:2022-08-26 13:12:44 公開日:2022-08-25
# CMOSを用いた時間領域アナログスパイクニューラルネットワークのための領域と電力効率のよいニューロンとシナプス回路

CMOS-based area-and-power-efficient neuron and synapse circuits for time-domain analog spiking neural networks ( http://arxiv.org/abs/2208.11881v1 )

ライセンス: Link先を確認
Xiangyu Chen, Takeaki Yajima, Hisashi Inoue, Isao H. Inoue, Zolboo Byambadorj and Tetsuya Iizuka(参考訳) 従来の神経構造は電流や電圧などのアナログ量を介して通信する傾向があるが、cmosデバイスが縮小して供給電圧が減少するにつれて、電圧/電流領域のアナログ回路のダイナミックレンジが狭くなり、利用可能なマージンが小さくなり、ノイズ免疫が減少する。 さらに、従来の設計でオペアンプ(オプトアンプ)とクロックまたは非同期コンパレータを使用すると、高エネルギー消費とチップ面積が増加し、スパイクニューラルネットワークの構築に支障が生じる。 そこで本研究では,ニューロンモジュール,シナプスモジュール,および2つの重みモジュールを含む時間領域信号の生成と送信を行うニューラルネットワーク構造を提案する。 提案する神経構造はトランジスタトリオード領域のリーク電流によって駆動され、オペアンプやコンパレータは使用せず、従来の設計よりも高いエネルギーと面積効率を提供する。 さらに、この構造は時間領域信号による内部通信によるノイズの免れを増大させ、モジュール間の配線を単純化する。 提案する神経構造はtsmc 65 nm cmos技術を用いて作製された。 提案されたニューロンとシナプスはそれぞれ127 um2と231 um2の領域を占有し、ミリ秒の時間定数を得る。 実測値から,提案手法は時間定数がミリ秒である時間信号通信機能の実現に成功し,人-コンピュータインタラクションのためのハードウェア貯水池コンピューティングへの重要な一歩であることが示された。

Conventional neural structures tend to communicate through analog quantities such as currents or voltages, however, as CMOS devices shrink and supply voltages decrease, the dynamic range of voltage/current-domain analog circuits becomes narrower, the available margin becomes smaller, and noise immunity decreases. More than that, the use of operational amplifiers (op-amps) and clocked or asynchronous comparators in conventional designs leads to high energy consumption and large chip area, which would be detrimental to building spiking neural networks. In view of this, we propose a neural structure for generating and transmitting time-domain signals, including a neuron module, a synapse module, and two weight modules. The proposed neural structure is driven by leakage currents in the transistor triode region and does not use op-amps and comparators, thus providing higher energy and area efficiency compared to conventional designs. In addition, the structure provides greater noise immunity due to internal communication via time-domain signals, which simplifies the wiring between the modules. The proposed neural structure is fabricated using TSMC 65 nm CMOS technology. The proposed neuron and synapse occupy an area of 127 um2 and 231 um2, respectively, while achieving millisecond time constants. Actual chip measurements show that the proposed structure successfully implements the temporal signal communication function with millisecond time constants, which is a critical step toward hardware reservoir computing for human-computer interaction.
翻訳日:2022-08-26 13:12:23 公開日:2022-08-25
# ベイズ進化最適化における探索バイアスの緩和

Alleviating Search Bias in Bayesian Evolutionary Optimization with Many Heterogeneous Objectives ( http://arxiv.org/abs/2208.12217v1 )

ライセンス: Link先を確認
Xilu Wang, Yaochu Jin, Sebastian Schmitt, Markus Olhofer(参考訳) 評価コストが異なる目的の多目的最適化問題は実世界でよく見られる。 このような問題は現在では多目的最適化問題(HE-MOP)として知られている。 しかし、HE-MOPに対処する研究はほとんど報告されておらず、そのほとんどは高速な目標と遅い目標を持つ双目的の問題に焦点をあてている。 本研究では、2つ以上のブラックボックスと異種目的を持つHE-MOPを扱うことを目的とする。 この目的のために, HE-MOP の安価で高価な目的に対して, 異なるデータセットを用いて, 異種評価コストによる探索バイアスを軽減することで, HE-MOP に対する多目的ベイズ進化最適化手法を開発した。 2つの異なるトレーニングデータセットを最大限に活用するために、1つは全ての目標に対して評価された解を持ち、もう1つは高速な目標に対してのみ評価された解を持つ。 さらに,探索バイアスを高速な目標に向けて緩和し,収束と多様性のバランスをとる新たな獲得関数を提案する。 目的が不均一に高価であると考えられる多目的・多目的のベンチマーク問題に対して,提案アルゴリズムの有効性を検証した。

Multi-objective optimization problems whose objectives have different evaluation costs are commonly seen in the real world. Such problems are now known as multi-objective optimization problems with heterogeneous objectives (HE-MOPs). So far, however, only a few studies have been reported to address HE-MOPs, and most of them focus on bi-objective problems with one fast objective and one slow objective. In this work, we aim to deal with HE-MOPs having more than two black-box and heterogeneous objectives. To this end, we develop a multi-objective Bayesian evolutionary optimization approach to HE-MOPs by exploiting the different data sets on the cheap and expensive objectives in HE-MOPs to alleviate the search bias caused by the heterogeneous evaluation costs for evaluating different objectives. To make the best use of two different training data sets, one with solutions evaluated on all objectives and the other with those only evaluated on the fast objectives, two separate Gaussian process models are constructed. In addition, a new acquisition function that mitigates search bias towards the fast objectives is suggested, thereby achieving a balance between convergence and diversity. We demonstrate the effectiveness of the proposed algorithm by testing it on widely used multi-/many-objective benchmark problems whose objectives are assumed to be heterogeneously expensive.
翻訳日:2022-08-26 13:11:55 公開日:2022-08-25
# 教師なし人物再同定のための多レベルグラフ関係モデルを用いたスケルトンプロトタイプコントラスト学習

Skeleton Prototype Contrastive Learning with Multi-Level Graph Relation Modeling for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2208.11814v1 )

ライセンス: Link先を確認
Haocong Rao and Chunyan Miao(参考訳) 3Dスケルトンによる人物再識別(re-ID)は多くの利点を持つ重要な話題である。 既存のソリューションは骨格構造や運動における価値ある身体-コンポーネント関係を探索することは稀であり、通常、人の再IDのためのラベルのない骨格データで一般的な表現を学習する能力は欠如している。 本稿では,マルチレベルグラフ関係学習(SPC-MGR)を用いた汎用的教師なしSkeleton Prototype Contrastive Learningパラダイムを提案する。 具体的には、まず、骨格内部の全身構造を完全にモデル化するために、統一された多層骨格グラフを構築する。 そこで本研究では,物理的に連結された体成分ノードの関係をグラフで包括的に捉えるマルチヘッド構造関係層を提案する。 フルレベルコラボレーティブ・リレーション・レイヤを用いて、動作関連体部間のコラボレーションを様々なレベルで推測し、リッチな身体特徴と認識可能な歩行パターンを捉える。 最後に,非ラベルグラフ表現の特徴相関インスタンスをクラスタリングし,その特徴類似性を代表的骨格特徴(スケルトンプロトタイプ)と対比し,人物のre-IDの識別的骨格表現を学習するスケルトンプロトタイプを提案する。 実証評価の結果、SPC-MGRはいくつかの最先端スケルトンベースの手法よりも優れており、より一般的なシナリオにおいて高い競争力を持つ人物のリID性能も達成している。

Person re-identification (re-ID) via 3D skeletons is an important emerging topic with many merits. Existing solutions rarely explore valuable body-component relations in skeletal structure or motion, and they typically lack the ability to learn general representations with unlabeled skeleton data for person re-ID. This paper proposes a generic unsupervised Skeleton Prototype Contrastive learning paradigm with Multi-level Graph Relation learning (SPC-MGR) to learn effective representations from unlabeled skeletons to perform person re-ID. Specifically, we first construct unified multi-level skeleton graphs to fully model body structure within skeletons. Then we propose a multi-head structural relation layer to comprehensively capture relations of physically-connected body-component nodes in graphs. A full-level collaborative relation layer is exploited to infer collaboration between motion-related body parts at various levels, so as to capture rich body features and recognizable walking patterns. Lastly, we propose a skeleton prototype contrastive learning scheme that clusters feature-correlative instances of unlabeled graph representations and contrasts their inherent similarity with representative skeleton features ("skeleton prototypes") to learn discriminative skeleton representations for person re-ID. Empirical evaluations show that SPC-MGR significantly outperforms several state-of-the-art skeleton-based methods, and it also achieves highly competitive person re-ID performance for more general scenarios.
翻訳日:2022-08-26 13:08:09 公開日:2022-08-25
# ヒト骨格データを用いた2段階転倒イベント分類

Two-stage Fall Events Classification with Human Skeleton Data ( http://arxiv.org/abs/2208.12027v1 )

ライセンス: Link先を確認
Leiyu Xie, Yang Sun, Jonathon A. Chambers, Syed Mohsen Naqvi(参考訳) 転倒の検出と分類は、高齢化が進む医療アプリケーションにとって重要な問題となっている。 現在、フォール・クラス・シフィケーションアルゴリズムのほとんどがバイナリ・フォールまたはno-fall分類を提供している。 より良い医療のために、バイナリフォール分類を行うだけでは十分ではなく、複数のフォールイベント分類に拡張できる。 本研究では,複数の転倒イベントの分類において,人間の骨格データを緩和するプライバシーを利用する。 骨格の特徴は、元のRGB画像から抽出され、個人のプライバシーを緩和するだけでなく、動的照明の影響を低減する。 提案手法は,2段階に分けられる。 第一段階では、モデルは二項分類を達成し、ノンフォールイベントをフィルタリングするように訓練される。 次に、第2段階では、ディープニューラルネットワーク(DNN)モデルを使用して、5種類の転倒イベントをさらに分類する。 提案手法の有効性を確認するため,up-fallデータセットの実験は最先端データよりも優れていた。

Fall detection and classification become an imper- ative problem for healthcare applications particularity with the increasingly ageing population. Currently, most of the fall clas- sification algorithms provide binary fall or no-fall classification. For better healthcare, it is thus not enough to do binary fall classification but to extend it to multiple fall events classification. In this work, we utilize the privacy mitigating human skeleton data for multiple fall events classification. The skeleton features are extracted from the original RGB images to not only mitigate the personal privacy, but also to reduce the impact of the dynamic illuminations. The proposed fall events classification method is divided into two stages. In the first stage, the model is trained to achieve the binary classification to filter out the no-fall events. Then, in the second stage, the deep neural network (DNN) model is trained to further classify the five types of fall events. In order to confirm the efficiency of the proposed method, the experiments on the UP-Fall dataset outperform the state-of-the-art.
翻訳日:2022-08-26 13:07:42 公開日:2022-08-25
# マニフォールドエントロピー推定によるGANの圧縮モード崩壊

Combating Mode Collapse in GANs via Manifold Entropy Estimation ( http://arxiv.org/abs/2208.12055v1 )

ライセンス: Link先を確認
Haozhe Liu, Bing Li, Haoqian Wu, Hanbang Liang, Yawen Huang, Yuexiang Li, Bernard Ghanem, Yefeng Zheng(参考訳) generative adversarial networks (gans) は近年、様々なタスクやアプリケーションにおいて魅力的な結果を示している。 しかし、モード崩壊はGANにとって重要な問題である。 本稿では,gansのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。 既存の手法とは異なり,識別器を特徴埋め込みとして一般化し,判別器が学習する埋め込み空間における分布のエントロピーを最大化する。 具体的には,2つの正規化用語であるDLLE (Deep Local Linear Embedding) とDIsoMap (Deep Isometric Feature Mapping) は,識別者がデータに埋め込まれた構造情報を学習するよう促すように設計されている。 判別器が支持するよく学習された埋め込み空間に基づいて、非パラメトリックエントロピー推定器は、埋め込みベクトルのエントロピーを効率的に最大化し、生成した分布のエントロピーを最大化する近似として機能する。 識別器の改良と埋め込み空間における最も類似した試料の距離の最大化により, 生成した試料の品質を犠牲にすることなく, 効果的にモード崩壊を低減することができる。 GANベースラインであるMaF-GANをCelebA(FIDでは9.13対12.43)で上回り、ANIME-FACEデータセット(インセプションスコアでは2.80対2.26)の最近の最先端エネルギーベースモデルを上回った。

Generative Adversarial Networks (GANs) have shown compelling results in various tasks and applications in recent years. However, mode collapse remains a critical problem in GANs. In this paper, we propose a novel training pipeline to address the mode collapse issue of GANs. Different from existing methods, we propose to generalize the discriminator as feature embedding, and maximize the entropy of distributions in the embedding space learned by the discriminator. Specifically, two regularization terms, i.e.Deep Local Linear Embedding (DLLE) and Deep Isometric feature Mapping (DIsoMap), are designed to encourage the discriminator to learn the structural information embedded in the data, such that the embedding space learned by the discriminator can be well formed. Based on the well-learned embedding space supported by the discriminator, a non-parametric entropy estimator is designed to efficiently maximize the entropy of embedding vectors, playing as an approximation of maximizing the entropy of the generated distribution. Through improving the discriminator and maximizing the distance of the most similar samples in the embedding space, our pipeline effectively reduces the mode collapse without sacrificing the quality of generated samples. Extensive experimental results show the effectiveness of our method which outperforms the GAN baseline, MaF-GAN on CelebA (9.13 vs. 12.43 in FID) and surpasses the recent state-of-the-art energy-based model on the ANIME-FACE dataset (2.80 vs. 2.26 in Inception score).
翻訳日:2022-08-26 13:07:29 公開日:2022-08-25
# 自然言語理解における大規模言語モデルのショートカット学習

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey ( http://arxiv.org/abs/2208.11857v1 )

ライセンス: Link先を確認
Mengnan Du, Fengxiang He, Na Zou, Dacheng Tao and Xia Hu(参考訳) 大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 しかし、これらのllmは予測の近道としてデータセットのバイアスとアーティファクトに依存するかもしれない。 これにより、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性は大きく損なわれた。 本稿では,llmsのロバスト性問題に対処する最近の開発動向について概観する。 まず,LLMの概念と堅牢性について紹介する。 次に,LLMにおけるショートカット学習行動の同定手法を導入し,ショートカット学習の理由を特徴付けるとともに,緩和ソリューションを導入する。 最後に、重要な課題を特定し、この研究ラインの他の方向への接続を紹介します。

Large language models (LLMs) have achieved state-of-the-art performance on a series of natural language understanding tasks. However, these LLMs might rely on dataset bias and artifacts as shortcuts for prediction. This has significantly hurt their Out-of-Distribution (OOD) generalization and adversarial robustness. In this paper, we provide a review of recent developments that address the robustness challenge of LLMs. We first introduce the concepts and robustness challenge of LLMs. We then introduce methods to identify shortcut learning behavior in LLMs, characterize the reasons for shortcut learning, as well as introduce mitigation solutions. Finally, we identify key challenges and introduce the connections of this line of research to other directions.
翻訳日:2022-08-26 13:06:39 公開日:2022-08-25
# 深層学習によるシェル名詞の自動検出とWikiText-2の評価

Deep Learning-based approaches for automatic detection of shell nouns and evaluation on WikiText-2 ( http://arxiv.org/abs/2208.11867v1 )

ライセンス: Link先を確認
Chengdong Yao, Cuihua Wang(参考訳) 認知言語学など一部の分野では、研究者はまだ手動の規則やパターンに基づいた伝統的な技術を使っている。 シェル名詞の定義はかなり主観的であり、多くの例外があるため、ディープラーニング技術が十分に成熟していなかった過去には、この時間を要する作業は手作業で行う必要があった。 ネットワーク言語の増加に伴い、これらのルールは役に立たないものになりつつある。 しかし、今ではもっと良い選択肢がある。 ディープラーニングの開発により、事前訓練された言語モデルは自然言語処理の優れた技術基盤となった。 ディープラーニングアプローチに基づく自動化プロセスは、より現代的なニーズに合わせています。 本稿では,シェル名詞の自動検出とWikiText-2データセット実験のための2つのニューラルネットワークモデルを提案する。 提案されたアプローチでは、プロセス全体を自動化できるだけでなく、人間のアノテーションに匹敵する、完全に見えない記事であっても、精度は94%に達している。 このことは、モデルの性能と一般化能力が研究目的に十分であることを示している。 多くの新しい名詞がシェル名詞の定義に非常によく適合している。 発見されたシェル名詞と事前学習されたモデルとコードはgithubで入手できる。

In some areas, such as Cognitive Linguistics, researchers are still using traditional techniques based on manual rules and patterns. Since the definition of shell noun is rather subjective and there are many exceptions, this time-consuming work had to be done by hand in the past when Deep Learning techniques were not mature enough. With the increasing number of networked languages, these rules are becoming less useful. However, there is a better alternative now. With the development of Deep Learning, pre-trained language models have provided a good technical basis for Natural Language Processing. Automated processes based on Deep Learning approaches are more in line with modern needs. This paper collaborates across borders to propose two Neural Network models for the automatic detection of shell nouns and experiment on the WikiText-2 dataset. The proposed approaches not only allow the entire process to be automated, but the precision has reached 94% even on completely unseen articles, comparable to that of human annotators. This shows that the performance and generalization ability of the model is good enough to be used for research purposes. Many new nouns are found that fit the definition of shell noun very well. All discovered shell nouns as well as pre-trained models and code are available on GitHub.
翻訳日:2022-08-26 13:06:31 公開日:2022-08-25
# 隠れマルコフモデルを用いた強化学習のためのタスク自動学習

Learning Task Automata for Reinforcement Learning using Hidden Markov Models ( http://arxiv.org/abs/2208.11838v1 )

ライセンス: Link先を確認
Alessandro Abate (1), Yousif Almulla (1), James Fox (1), David Hyland (1), Michael Wooldridge (1) ((1) University of Oxford)(参考訳) スカラー報酬信号を用いた訓練強化学習(RL)エージェントは、環境がまばらで非マルコフ報酬を持つ場合、しばしば実現不可能である。 さらに、トレーニング前にこれらの報酬関数を手作りすることは、特に環境のダイナミクスが部分的にしか知られていない場合、不特定に陥る傾向がある。 本稿では,未知環境におけるエージェント体験のエピソードから,非マルコフタスク仕様を簡潔な有限状態「タスクオートマトン」として学習するための新しいパイプラインを提案する。 2つの重要なアルゴリズムの洞察を活用します。 まず、その仕様のオートマトンと環境のMDP(どちらも当初不明)で構成されたモデルである製品MDPを、部分的に観察可能なMDPとして扱い、隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。 第2に、学習した製品MDPからタスクオートマトン(決定論的有限オートマトンと仮定される)を蒸留する方法を提案する。 我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。 また、高レベルの環境やタスクの特徴を解釈可能なエンコーディングを提供しており、エージェントが不特定性のないコヒーレントなタスクを学習したことを容易に確認することができる。 さらに,学習オートマトンが環境非依存であることを保証するための一歩を踏み出し,転校学習に適するようにした。 最後に、異なる環境やタスクにおけるアルゴリズムのパフォーマンスと、より効率的な学習を促進するために、事前のドメイン知識を組み込む能力を示す実験結果を提供する。

Training reinforcement learning (RL) agents using scalar reward signals is often infeasible when an environment has sparse and non-Markovian rewards. Moreover, handcrafting these reward functions before training is prone to misspecification, especially when the environment's dynamics are only partially known. This paper proposes a novel pipeline for learning non-Markovian task specifications as succinct finite-state `task automata' from episodes of agent experience within unknown environments. We leverage two key algorithmic insights. First, we learn a product MDP, a model composed of the specification's automaton and the environment's MDP (both initially unknown), by treating it as a partially observable MDP and using off-the-shelf algorithms for hidden Markov models. Second, we propose a novel method for distilling the task automaton (assumed to be a deterministic finite automaton) from the learnt product MDP. Our learnt task automaton enables the decomposition of a task into its constituent sub-tasks, which improves the rate at which an RL agent can later synthesise an optimal policy. It also provides an interpretable encoding of high-level environmental and task features, so a human can readily verify that the agent has learnt coherent tasks with no misspecifications. In addition, we take steps towards ensuring that the learnt automaton is environment-agnostic, making it well-suited for use in transfer learning. Finally, we provide experimental results to illustrate our algorithm's performance in different environments and tasks and its ability to incorporate prior domain knowledge to facilitate more efficient learning.
翻訳日:2022-08-26 13:06:16 公開日:2022-08-25
# 確率的グラフモデリングによる鉄道破壊・脱線予測

Rail break and derailment prediction using Probabilistic Graphical Modelling ( http://arxiv.org/abs/2208.11940v1 )

ライセンス: Link先を確認
Rebecca M.C. Taylor and Johan A. du Preez(参考訳) 鉄道遮断は国際的な脱線の原因の1つである。 これは南アフリカの鉄鉱石ラインと変わらない。 列車がひび割れや大きな欠陥、欠陥のある溶接部を通過すると、多くのレールが破損する。 この場合、列車が脱線を防ぐために速度を落とすには遅すぎるのが普通である。 鉄道区間を通過する列車に付随する列車の故障のリスクを知ることにより、メンテナンスイニシアチブのより良い実施と緩和策が実現される。 本稿では,鉱石ラインの具体的な課題を議論し,レールブレークリスク予測モデルの作成に使用できる現在利用可能なデータについて検討する。 次に, 鉄鉱石線におけるレールブレークリスク予測モデルの開発について述べる。 最後に、モデルから得られた洞察は、様々な鉄道破壊リスクの様々なシナリオについて議論することで示される。 今後,この基本モデルを拡張して,超音波破壊鉄道検知システムなどのライブ監視システムからの入力を可能にする計画である。

Rail breaks are one of the most common causes of derailments internationally. This is no different for the South African Iron Ore line. Many rail breaks occur as a heavy-haul train passes over a crack, large defect or defective weld. In such cases, it is usually too late for the train to slow down in time to prevent a de-railment. Knowing the risk of a rail break occurring associated with a train passing over a section of rail allows for better implementation of maintenance initiatives and mitigating measures. In this paper the Ore Line's specific challenges are discussed and the currently available data that can be used to create a rail break risk prediction model is reviewed. The development of a basic rail break risk prediction model for the Ore Line is then presented. Finally the insight gained from the model is demonstrated by means of discussing various scenarios of various rail break risk. In future work, we are planning on extending this basic model to allow input from live monitoring systems such as the ultrasonic broken rail detection system.
翻訳日:2022-08-26 13:05:49 公開日:2022-08-25
# 説明可能な人工知能手法のベンチマークに向けて

Towards Benchmarking Explainable Artificial Intelligence Methods ( http://arxiv.org/abs/2208.12120v1 )

ライセンス: Link先を確認
Lars Holmberg(参考訳) 現在、人工知能と機械学習技術であるニューラルネットワークは、帰納的統計学習に基づいている。 今日のニューラルネットワークは、理解と推論能力のない情報処理システムであるため、人間に有効な形式での事前決定を説明できない。 本研究では,ニューラルネットワークによって促進される決定を説明する手法から,科学理論の基本哲学を再考し,分析レンズとして利用し,期待できるもの,期待できないものを明らかにすることを目的としている。 ケーススタディにより,動物と頭部の2つの常在領域における説明可能性法の性能の選択を検討した。 本研究を通じて,これらの手法の有用性は,人間のドメイン知識と理解,一般化,理性に依存している,と結論づけた。 トレーニングされたニューラルネットワークの強みと弱みに関するさらなる洞察を得ることが目的である場合、説明可能性の方法が有用である。 私たちの目的が、アクション可能な決定を促進するためにこれらの説明可能性メソッドを使用することや、MLモデルへの信頼を構築することならば、現在よりも曖昧さを欠く必要があります。 本稿では,本研究の結論として,説明可能性のベンチマーク手法は,信頼できる人工知能と機械学習への中心的探求である,と結論づける。

The currently dominating artificial intelligence and machine learning technology, neural networks, builds on inductive statistical learning. Neural networks of today are information processing systems void of understanding and reasoning capabilities, consequently, they cannot explain promoted decisions in a humanly valid form. In this work, we revisit and use fundamental philosophy of science theories as an analytical lens with the goal of revealing, what can be expected, and more importantly, not expected, from methods that aim to explain decisions promoted by a neural network. By conducting a case study we investigate a selection of explainability method's performance over two mundane domains, animals and headgear. Through our study, we lay bare that the usefulness of these methods relies on human domain knowledge and our ability to understand, generalise and reason. The explainability methods can be useful when the goal is to gain further insights into a trained neural network's strengths and weaknesses. If our aim instead is to use these explainability methods to promote actionable decisions or build trust in ML-models they need to be less ambiguous than they are today. In this work, we conclude from our study, that benchmarking explainability methods, is a central quest towards trustworthy artificial intelligence and machine learning.
翻訳日:2022-08-26 13:05:34 公開日:2022-08-25
# 深層ニューラルネットワークの摂動抵抗変換と分類システム

A Perturbation Resistant Transformation and Classification System for Deep Neural Networks ( http://arxiv.org/abs/2208.11839v1 )

ライセンス: Link先を確認
Nathaniel Dean, Dilip Sarkar(参考訳) 深層畳み込みニューラルネットワークは、様々な自然画像の正確な分類を行うが、設計時には容易に認識でき、知覚できない摂動が画像に埋め込まれる。 本稿では,攻撃非依存かつ容易に推定できないマルチプログレッシブトレーニング,入力変換,画像アンサンブルシステムを設計する。 我々のシステムは2つの新しい特徴を取り入れている。 1つ目は、クラスレベルのトレーニングデータサンプルから特徴レベル多項式カーネルを計算し、特徴カーネルの違いに基づいて入力画像コピーを推論時に反復的に更新し、変換された入力のアンサンブルを作成する変換層である。 2つ目は、未定義のネットワークの予測をフィルター画像のアンサンブルにハード投票で組み込んだ分類システムである。 CIFAR10データセットを用いた評価では, クリーンな画像にほとんど精度を犠牲にしつつ, 距離の異なる有界・無界のホワイトボックス攻撃に対する無防備なネットワークの堅牢性の向上が示されている。 エンド・ツー・エンド・エンド・アタックを発生させる適応的なフル知識攻撃に対して、我々のシステムは敵に訓練されたネットワークの既存の堅牢性を高めることに成功した。

Deep convolutional neural networks accurately classify a diverse range of natural images, but may be easily deceived when designed, imperceptible perturbations are embedded in the images. In this paper, we design a multi-pronged training, input transformation, and image ensemble system that is attack agnostic and not easily estimated. Our system incorporates two novel features. The first is a transformation layer that computes feature level polynomial kernels from class-level training data samples and iteratively updates input image copies at inference time based on their feature kernel differences to create an ensemble of transformed inputs. The second is a classification system that incorporates the prediction of the undefended network with a hard vote on the ensemble of filtered images. Our evaluations on the CIFAR10 dataset show our system improves the robustness of an undefended network against a variety of bounded and unbounded white-box attacks under different distance metrics, while sacrificing little accuracy on clean images. Against adaptive full-knowledge attackers creating end-to-end attacks, our system successfully augments the existing robustness of adversarially trained networks, for which our methods are most effectively applied.
翻訳日:2022-08-26 13:02:02 公開日:2022-08-25
# 言語データの現実性と限界について

On Reality and the Limits of Language Data ( http://arxiv.org/abs/2208.11981v1 )

ライセンス: Link先を確認
Nigel H. Collier, Fangyu Liu and Ehsan Shareghi(参考訳) 近年のニューラルネットワークモデルの進歩により、大規模自然言語データにおける言語関連を利用して表現的意味表現を導出できることが示されている。 これらのgestalt表現は、多くの実用的なアプリケーションで最先端のパフォーマンスを実現している。 私たちは、堅牢で表現力のある計算可能な意味論を経験的に導き出す道のりにいるようです。 重要な疑問は、言語データだけでは、コンピュータが物理的世界に関する必要な真実をどこまで理解できるかということだ。 この疑問への注意は、我々の知的機械との将来の相互作用は、人間が一般的に観察する概念(対象、性質、プロセス)をいかに正しく表現し処理するかに依存しているため保証される。 既存のプロトコルをレビューした後、本研究の目的は、新鮮で厳密に制御された推論テストを用いてこの問題を探求し、純粋な言語データから直接モデルがどのように学習するかを明らかにすることである。

Recent advances in neural network language models have shown that it is possible to derive expressive meaning representations by leveraging linguistic associations in large-scale natural language data. These potentially Gestalt representations have enabled state-of-the-art performance for many practical applications. It would appear that we are on a pathway to empirically deriving a robust and expressive computable semantics. A key question that arises is how far can language data alone enable computers to understand the necessary truth about the physical world? Attention to this question is warranted because our future interactions with intelligent machines depends on how well our techniques correctly represent and process the concepts (objects, properties, and processes) that humans commonly observe to be true. After reviewing existing protocols, the objective of this work is to explore this question using a novel and tightly controlled reasoning test and to highlight what models might learn directly from pure linguistic data.
翻訳日:2022-08-26 13:01:37 公開日:2022-08-25
# fix-a-step:uncured unlabeled setからの効果的な半教師付き学習

Fix-A-Step: Effective Semi-supervised Learning from Uncurated Unlabeled Sets ( http://arxiv.org/abs/2208.11870v1 )

ライセンス: Link先を確認
Zhe Huang, Mary-Joy Sidhom, Benjamin S. Wessler, Michael C. Hughes(参考訳) 半教師付き学習(SSL)は、小さなラベル付きデータセット上のトレーニング分類器と比較して、多くのラベル付きイメージをトレーニングすることで精度の向上を約束する。 医用イメージングのような現実のアプリケーションでは、ラベルなしのセットは、即時に収集され、それゆえ未キュレーションになる:おそらく、表現されたクラスまたはクラス周波数のラベル付きセットとは異なる。 残念ながら、最新のディープSSLは、未修正の未ラベルセットが与えられた場合、しばしば精度が悪くなる。 最近の改善は、非配布例を検出し、それらを破棄または減量するフィルタリングアプローチを提案する。 代わりに、ラベルのないすべての例が潜在的に有用であると考えています。 我々は、キュレーションの欠如にもかかわらず、一般的なディープSSLメソッドのホールドアウト精度を向上させるFix-A-Stepと呼ばれる手順を導入する。 主要なイノベーションは、ラベルなしデータにインスパイアされたラベル付きセットの強化と、マルチタスクsslの損失がラベル付きセットの精度を損なうことを防ぐために勾配降下更新の変更である。 CIFAR-10とCIFAR-100のベンチマークでは, ラベルなし集合に対する人工汚染のすべての試験レベルにおいて, 精度が一貫した結果が得られた。 さらに、SSLの実際の医療ベンチマークとして、心臓の超音波画像のビュータイプを認識することを提案する。 本手法は,353,500枚の真に未完な画像から学習し,病院に普及する成果を提供する。

Semi-supervised learning (SSL) promises gains in accuracy compared to training classifiers on small labeled datasets by also training on many unlabeled images. In realistic applications like medical imaging, unlabeled sets will be collected for expediency and thus uncurated: possibly different from the labeled set in represented classes or class frequencies. Unfortunately, modern deep SSL often makes accuracy worse when given uncurated unlabeled sets. Recent remedies suggest filtering approaches that detect out-of-distribution unlabeled examples and then discard or downweight them. Instead, we view all unlabeled examples as potentially helpful. We introduce a procedure called Fix-A-Step that can improve heldout accuracy of common deep SSL methods despite lack of curation. The key innovations are augmentations of the labeled set inspired by all unlabeled data and a modification of gradient descent updates to prevent following the multi-task SSL loss from hurting labeled-set accuracy. Though our method is simpler than alternatives, we show consistent accuracy gains on CIFAR-10 and CIFAR-100 benchmarks across all tested levels of artificial contamination for the unlabeled sets. We further suggest a real medical benchmark for SSL: recognizing the view type of ultrasound images of the heart. Our method can learn from 353,500 truly uncurated unlabeled images to deliver gains that generalize across hospitals.
翻訳日:2022-08-26 13:01:03 公開日:2022-08-25
# CNN-LSTMを用いたハイブリッドディープラーニングによるMonkeypoxツイートの感情極性検出

A CNN-LSTM-based hybrid deep learning approach to detect sentiment polarities on Monkeypox tweets ( http://arxiv.org/abs/2208.12019v1 )

ライセンス: Link先を確認
Krishna Kumar Mohbey, Gaurav Meena, Sunil Kumar, K Lokesh(参考訳) 近年,ソーシャル・ネットワーキング・ウェブサイト上でユーザ生成のマルチメディア・マテリアルを通じて考えや視点を伝え始めている。 この情報は、画像、テキスト、ビデオ、音声でもよい。 近年,このパターンの発生頻度が増加している。 Twitterは、最も広く利用されているソーシャルメディアサイトの1つであり、Monkeypoxの病に結びついている出来事について人々がどう感じるかを理解するための、最も優れた場所の1つでもある。 これはTwitter上のツイートが短縮され、しばしば更新されるためであり、どちらもプラットフォームの特徴に寄与している。 本研究の基本的な目的は、この状態の存在に反応して、人々が持つ多様な反応をより深く理解することである。 本研究は,CNNとLSTMに基づくハイブリッド技術であるサルポックス病について,個々人がどう考えるかを明らかにすることに焦点を当てた。 我々は、ユーザーのツイートの3つの極性(ポジティブ、ネガティブ、中立)全てを検討した。 CNNとLSTM上に構築されたアーキテクチャを用いて、予測モデルがどの程度正確かを決定する。 推奨モデルの精度はサルポックスのツイートデータセットで94%であった。 精度、リコール、F1スコアなどの他のパフォーマンス指標は、我々のモデルをテストするために使われ、最も時間とリソース効率のよい方法で結果が得られた。 この結果は、機械学習に対する従来のアプローチと比較される。 本研究の結果は,一般住民のサルポックス感染に対する意識の向上に寄与した。

People have recently begun communicating their thoughts and viewpoints through user-generated multimedia material on social networking websites. This information can be images, text, videos, or audio. Recent years have seen a rise in the frequency of occurrence of this pattern. Twitter is one of the most extensively utilized social media sites, and it is also one of the finest locations to get a sense of how people feel about events that are linked to the Monkeypox sickness. This is because tweets on Twitter are shortened and often updated, both of which contribute to the platform's character. The fundamental objective of this study is to get a deeper comprehension of the diverse range of reactions people have in response to the presence of this condition. This study focuses on finding out what individuals think about monkeypox illnesses, which presents a hybrid technique based on CNN and LSTM. We have considered all three possible polarities of a user's tweet: positive, negative, and neutral. An architecture built on CNN and LSTM is utilized to determine how accurate the prediction models are. The recommended model's accuracy was 94% on the monkeypox tweet dataset. Other performance metrics such as accuracy, recall, and F1-score were utilized to test our models and results in the most time and resource-effective manner. The findings are then compared to more traditional approaches to machine learning. The findings of this research contribute to an increased awareness of the monkeypox infection in the general population.
翻訳日:2022-08-26 13:00:40 公開日:2022-08-25
# 深部領域適応を用いた画像ベース食品エネルギー推定

Image Based Food Energy Estimation With Depth Domain Adaptation ( http://arxiv.org/abs/2208.12153v1 )

ライセンス: Link先を確認
Gautham Vinod, Zeman Shao, Fengqing Zhu(参考訳) 食事摂取量の評価は、主に測定誤差のやすい自己報告機器に依存している。 食事アセスメント手法は、特にモバイル技術、画像ベースのアプローチによってこれらの制限に対処し、さらに自動化されている。 モバイルで画像ベースの手法は、モバイルデバイスが捉えた機会画像の食事摂取量を自動的に推定することで、ユーザの負担とバイアスを軽減することができる。 本稿では,rgb画像から食品のエネルギー密度への画素対画素マッピングである「エネルギー密度マップ」を提案する。 次に「エネルギー密度マップ」と関連する深度マップを、深度センサで捉えた食品エネルギーを推定する。 提案手法は栄養5kデータセット上で評価される。 実験の結果, 平均誤差が13.29kCal, 平均誤差が13.57%であったのに対し, 食品の平均エネルギーは13.57%であった。

Assessment of dietary intake has primarily relied on self-report instruments, which are prone to measurement errors. Dietary assessment methods have increasingly incorporated technological advances particularly mobile, image based approaches to address some of these limitations and further automation. Mobile, image-based methods can reduce user burden and bias by automatically estimating dietary intake from eating occasion images that are captured by mobile devices. In this paper, we propose an "Energy Density Map" which is a pixel-to-pixel mapping from the RGB image to the energy density of the food. We then incorporate the "Energy Density Map" with an associated depth map that is captured by a depth sensor to estimate the food energy. The proposed method is evaluated on the Nutrition5k dataset. Experimental results show improved results compared to baseline methods with an average error of 13.29 kCal and an average percentage error of 13.57% between the ground-truth and the estimated energy of the food.
翻訳日:2022-08-26 13:00:19 公開日:2022-08-25
# 畳み込みオートエンコーダによる次元の削減と分類

Supervised Dimensionality Reduction and Classification with Convolutional Autoencoders ( http://arxiv.org/abs/2208.12152v1 )

ライセンス: Link先を確認
Ioannis A. Nellas, Sotiris K. Tasoulis, Vassilis P. Plagianakos and Spiros V. Georgakopoulos(参考訳) 再構成と分類誤差の合同最適化は、特に非線型写像を利用する場合、困難な非凸問題である。 この障害を克服するために、次元低減のための畳み込みオートエンコーダと、完全連結ネットワークからなる分類器とを組み合わせることで、教師付き次元低減と予測を同時に行う新しい最適化戦略を提案する。 この方法論は、ディープラーニングアーキテクチャの説明可能性を高める上で、非常に有益であることが判明した。 さらに、結果として生じる潜在空間は分類タスクに最適化され、従来の解釈可能な分類アルゴリズムを改善するのに利用できる。 実験の結果,提案手法は,パラメータ数の観点からははるかに効率的でありながら,最先端の深層学習手法と競合する結果を得た。 最後に,提案手法が,生成した潜在空間を通したデータ構造だけでなく,分類行動についても,高度な説明可能性を導入することを実証的に証明した。

The joint optimization of the reconstruction and classification error is a hard non convex problem, especially when a non linear mapping is utilized. In order to overcome this obstacle, a novel optimization strategy is proposed, in which a Convolutional Autoencoder for dimensionality reduction and a classifier composed by a Fully Connected Network, are combined to simultaneously produce supervised dimensionality reduction and predictions. It turned out that this methodology can also be greatly beneficial in enforcing explainability of deep learning architectures. Additionally, the resulting Latent Space, optimized for the classification task, can be utilized to improve traditional, interpretable classification algorithms. The experimental results, showed that the proposed methodology achieved competitive results against the state of the art deep learning methods, while being much more efficient in terms of parameter count. Finally, it was empirically justified that the proposed methodology introduces advanced explainability regarding, not only the data structure through the produced latent space, but also about the classification behaviour.
翻訳日:2022-08-26 13:00:03 公開日:2022-08-25
# マルチモーダル感度解析のためのクロスモーダルGated Attention Fusion

Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2208.11893v1 )

ライセンス: Link先を確認
Ming Jiang and Shaoxiong Ji(参考訳) マルチモーダル感情分析は、特定の意見ビデオからの異なるモダリティデータに基づいて感情スコアを予測するための重要な研究課題である。 これまでの多くの研究は、異なるモダリティ間で共有情報とユニークな情報を活用することの重要性を証明してきた。 しかし、マルチモーダルデータからの高次結合信号は、満足した表現を抽出するのに役立つ。 本稿では,MSAに対して,異なるモード対間で適切な相互作用を行う傾向のあるCMGAを提案する。 CMGAは、インタラクション手順で導入されたノイズと冗長な信号をフィルタリングする、忘れゲートも追加する。 MSA、MOSI、MOSEIの2つのベンチマークデータセットを実験し、CMGAの性能を複数のベースラインモデルで評価した。 また,CMGA内における各種成分の機能を示すアブレーション実験を行った。

Multimodal sentiment analysis is an important research task to predict the sentiment score based on the different modality data from a specific opinion video. Many previous pieces of research have proved the significance of utilizing the shared and unique information across different modalities. However, the high-order combined signals from multimodal data would also help extract satisfied representations. In this paper, we propose CMGA, a Cross-Modality Gated Attention fusion model for MSA that tends to make adequate interaction across different modality pairs. CMGA also adds a forget gate to filter the noisy and redundant signals introduced in the interaction procedure. We experiment on two benchmark datasets in MSA, MOSI, and MOSEI, illustrating the performance of CMGA over several baseline models. We also conduct the ablation study to demonstrate the function of different components inside CMGA.
翻訳日:2022-08-26 12:59:46 公開日:2022-08-25
# オートエンコーダと遺伝的アルゴリズムを用いたセマンティック保存逆襲生成

Semantic Preserving Adversarial Attack Generation with Autoencoder and Genetic Algorithm ( http://arxiv.org/abs/2208.12230v1 )

ライセンス: Link先を確認
Xinyi Wang, Simon Yusuf Enoch, Dong Seong Kim(参考訳) 広く使われているディープラーニングモデルは、堅牢性に乏しい。 小さなノイズは最先端のモデルを騙して誤った予測をする。 多くの高性能な攻撃生成手法があるが、そのほとんどは元のデータに直接摂動を加えてL_pノルムで測定する。 本稿では,自動エンコーダによって抽出されたデータの潜在特性を変更する代わりに,データのセマンティクスを保護するために,セマンティクス空間におけるノイズを測定するブラックボックス攻撃を提案する。 mnistとcifar-10のデータセットでオートエンコーダを訓練し,遺伝的アルゴリズムを用いて最適な逆摂動を見出した。 提案手法は,FGSMよりも摂動が少ないMNISTとCIFAR-10データセットの最初の100データに対して100%の攻撃成功率を達成した。

Widely used deep learning models are found to have poor robustness. Little noises can fool state-of-the-art models into making incorrect predictions. While there is a great deal of high-performance attack generation methods, most of them directly add perturbations to original data and measure them using L_p norms; this can break the major structure of data, thus, creating invalid attacks. In this paper, we propose a black-box attack, which, instead of modifying original data, modifies latent features of data extracted by an autoencoder; then, we measure noises in semantic space to protect the semantics of data. We trained autoencoders on MNIST and CIFAR-10 datasets and found optimal adversarial perturbations using a genetic algorithm. Our approach achieved a 100% attack success rate on the first 100 data of MNIST and CIFAR-10 datasets with less perturbation than FGSM.
翻訳日:2022-08-26 12:59:32 公開日:2022-08-25
# オンライン変動テンソル回帰を用いたソーシャルネットワーク上のターゲット広告

Targeted Advertising on Social Networks Using Online Variational Tensor Regression ( http://arxiv.org/abs/2208.10627v2 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Keerthiram Murugesan, Djallel Bouneffouf, Naoki Abe(参考訳) 本稿では,ソーシャルネットワーク上でのオンラインターゲティング広告について述べる。 私たちが取り組んでいる主な技術的タスクは、ユーザペアのアクティベーション確率を見積もることです。 1つのマーケティングエピソードには、非常に多様な顧客のために、さまざまな製品のマーケティングキャンペーンや戦略が伴うため、これは難しい作業です。 本稿では,オンラインターゲティング広告のためのテンソルベースのコンテキスト・バンディット・フレームワークとして最初のものを提案する。 提案フレームワークは,複数の特徴ベクトルをマルチモードテンソル形式で対応させることで,ユーザの選好や製品,キャンペーン戦略を越えて存在する不均一性を統一的に捉えることができるように設計されている。 テンソルモードの相互依存を扱うために,平均場近似を用いたオンライン変分アルゴリズムを導入する。 提案したTensorUCBアルゴリズムは,ユーザ生成の不均一性を捕捉する能力に起因して,ベンチマークに対する影響の最大化タスクを大幅に改善することを確認した。

This paper is concerned with online targeted advertising on social networks. The main technical task we address is to estimate the activation probability for user pairs, which quantifies the influence one user may have on another towards purchasing decisions. This is a challenging task because one marketing episode typically involves a multitude of marketing campaigns/strategies of different products for highly diverse customers. In this paper, we propose what we believe is the first tensor-based contextual bandit framework for online targeted advertising. The proposed framework is designed to accommodate any number of feature vectors in the form of multi-mode tensor, thereby enabling to capture the heterogeneity that may exist over user preferences, products, and campaign strategies in a unified manner. To handle inter-dependency of tensor modes, we introduce an online variational algorithm with a mean-field approximation. We empirically confirm that the proposed TensorUCB algorithm achieves a significant improvement in influence maximization tasks over the benchmarks, which is attributable to its capability of capturing the user-product heterogeneity.
翻訳日:2022-08-26 11:23:35 公開日:2022-08-25
# スパース多項式最適化:理論と実際

Sparse Polynomial Optimization: Theory and Practice ( http://arxiv.org/abs/2208.11158v2 )

ライセンス: Link先を確認
Victor Magron and Jie Wang(参考訳) 多項式の不等式の集合上で多項式を最小化する問題はNP-ハード非凸問題である。 実代数幾何学の強力な結果のおかげで、この問題を有限次元凸問題のネスト列に変換することができる。 関連する階層の各ステップでは、固定サイズの半定義プログラムを解く必要があり、効率的な数値ツールで解くことができる。 しかし実用面では、フリーランチはなく、このような最適化手法は通常、厳しいスケーラビリティの問題を含んでいる。 幸いなことに、多くのアプリケーションにおいて、問題を目に見て、例えばスパーシリティや対称性といった問題を記述するコストと制約から生じる固有のデータ構造を利用することができます。 この本は、この科学的課題に重要な計算含意で取り組むためのいくつかの研究成果を提示し、少なくともいくつかの特定された問題のクラスにおいて、計算複雑性の観点からうまくスケールする代替最適化スキームの開発を提供する。 本書のアルゴリズムフレームワークは主に入力データのスパーシティ構造を利用して、大規模多項式最適化問題を解く。 我々は、制約のない問題や制約のある問題に対して、リラクゼーションの散発的な階層を提示する。 密度階層とは対照的に、実際には解のより高速な近似を提供するが、同じ理論的収束を保証する。 我々のフレームワークは静的多項式最適化に限らず、力学系の解析から生じる利害の値に対する近似の階層性を明らかにする。 また、任意のサイズの行列や量子物理演算子など、非可換変数を含む問題に対する様々な拡張も提示する。

The problem of minimizing a polynomial over a set of polynomial inequalities is an NP-hard non-convex problem. Thanks to powerful results from real algebraic geometry, one can convert this problem into a nested sequence of finite-dimensional convex problems. At each step of the associated hierarchy, one needs to solve a fixed size semidefinite program, which can be in turn solved with efficient numerical tools. On the practical side however, there is no-free lunch and such optimization methods usually encompass severe scalability issues. Fortunately, for many applications, we can look at the problem in the eyes and exploit the inherent data structure arising from the cost and constraints describing the problem, for instance sparsity or symmetries. This book presents several research efforts to tackle this scientific challenge with important computational implications, and provides the development of alternative optimization schemes that scale well in terms of computational complexity, at least in some identified class of problems. The presented algorithmic framework in this book mainly exploits the sparsity structure of the input data to solve large-scale polynomial optimization problems. We present sparsity-exploiting hierarchies of relaxations, for either unconstrained or constrained problems. By contrast with the dense hierarchies, they provide faster approximation of the solution in practice but also come with the same theoretical convergence guarantees. Our framework is not restricted to static polynomial optimization, and we expose hierarchies of approximations for values of interest arising from the analysis of dynamical systems. We also present various extensions to problems involving noncommuting variables, e.g., matrices of arbitrary size or quantum physic operators.
翻訳日:2022-08-26 11:23:16 公開日:2022-08-25
# Prompting as Probing:知識ベース構築のための言語モデルの利用

Prompting as Probing: Using Language Models for Knowledge Base Construction ( http://arxiv.org/abs/2208.11057v2 )

ライセンス: Link先を確認
Dimitrios Alivanistos, Selene B\'aez Santamar\'ia, Michael Cochez, Jan-Christoph Kalo, Emile van Krieken, Thiviyan Thanapalasingam(参考訳) 言語モデル(LM)は、要約、翻訳、質問応答、テキスト分類など、様々な下流アプリケーションで有用であることが証明されている。 LMは、膨大な量の情報を保存できるため、人工知能においてますます重要なツールになりつつある。 本稿では,OpenAIが2020年に提案した大規模言語モデルであるGPT-3を用いて,知識ベース構築(KBC)のタスクを実行するProP(Prompting as Probing)を提案する。 ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。 本研究の結果から,手動によるプロンプトキュレーションが不可欠であること,特に空の回答セットを含む可変長の解答セットが推奨されること,真/偽の質問がLMが生成する提案の精度向上に役立つこと,LMのサイズが重要な要因であること,エンティティエイリアスの辞書がLMスコアを改善すること,などが示唆された。 ProPはLM-KBCコンペティションのトラック2に勝利し,ベースラインを36.4ポイント上回った。 私たちの実装はhttps://github.com/hemile/iswc-challengeで利用可能です。

Language Models (LMs) have proven to be useful in various downstream applications, such as summarisation, translation, question answering and text classification. LMs are becoming increasingly important tools in Artificial Intelligence, because of the vast quantity of information they can store. In this work, we present ProP (Prompting as Probing), which utilizes GPT-3, a large Language Model originally proposed by OpenAI in 2020, to perform the task of Knowledge Base Construction (KBC). ProP implements a multi-step approach that combines a variety of prompting techniques to achieve this. Our results show that manual prompt curation is essential, that the LM must be encouraged to give answer sets of variable lengths, in particular including empty answer sets, that true/false questions are a useful device to increase precision on suggestions generated by the LM, that the size of the LM is a crucial factor, and that a dictionary of entity aliases improves the LM score. Our evaluation study indicates that these proposed techniques can substantially enhance the quality of the final predictions: ProP won track 2 of the LM-KBC competition, outperforming the baseline by 36.4 percentage points. Our implementation is available on https://github.com/HEmile/iswc-challenge.
翻訳日:2022-08-26 11:22:21 公開日:2022-08-25
# 薬物・薬物相互作用予測のための分子サブ構造認識ネットワーク

Molecular Substructure-Aware Network for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2208.11267v2 )

ライセンス: Link先を確認
Xinyu Zhu, Yongliang Shen, Weiming Lu(参考訳) 薬物の併用投与は薬物と薬物の相互作用(DDI)を引き起こす。 いくつかの薬物の組み合わせは有益であるが、以前は記録されていない負の効果を引き起こすこともある。 DDI予測に関するこれまでの研究は、通常手作業によるドメイン知識に依存しており、入手は困難である。 本研究では,薬物対の分子構造から潜在的DDIを効果的に予測するための分子サブ構造認識ネットワーク(MSAN)を提案する。 我々はトランスフォーマー様のサブ構造抽出モジュールを用いて、薬物分子の様々なサブ構造パターンに関連する固定数の代表ベクトルを取得する。 次に、2つの薬物のサブ構造間の相互作用強度は類似性に基づく相互作用モジュールによって捉えられる。 また、オーバーフィッティングを軽減するため、グラフエンコーディングの前にサブストラクチャの削減も行う。 実世界のデータセットから得られた実験結果から,提案モデルが最先端の性能を達成できることが判明した。 また,本モデルの予測は,ケーススタディを通じて高い解釈性を示す。

Concomitant administration of drugs can cause drug-drug interactions (DDIs). Some drug combinations are beneficial, but other ones may cause negative effects which are previously unrecorded. Previous works on DDI prediction usually rely on hand-engineered domain knowledge, which is laborious to obtain. In this work, we propose a novel model, Molecular Substructure-Aware Network (MSAN), to effectively predict potential DDIs from molecular structures of drug pairs. We adopt a Transformer-like substructure extraction module to acquire a fixed number of representative vectors that are associated with various substructure patterns of the drug molecule. Then, interaction strength between the two drugs' substructures will be captured by a similarity-based interaction module. We also perform a substructure dropping augmentation before graph encoding to alleviate overfitting. Experimental results from a real-world dataset reveal that our proposed model achieves the state-of-the-art performance. We also show that the predictions of our model are highly interpretable through a case study.
翻訳日:2022-08-26 11:21:56 公開日:2022-08-25
# ウィンドウ長に対する微分可能な短時間フーリエ変換

A differentiable short-time Fourier transform with respect to the window length ( http://arxiv.org/abs/2208.10886v2 )

ライセンス: Link先を確認
Maxime Leiber, Axel Barrau, Yosra Marnissi, Dany Abboud(参考訳) 本稿では,経験的に調整された整数値のハイパーパラメータではなく,勾配降下によってウィンドウ長を最適化可能な連続パラメータにすることで,ニューラルネットワークにおけるスペクトログラムの使用を再検討する。 この貢献は主に理論的に理論的だが、修正されたSTFTを既存のニューラルネットワークに接続するのは簡単である。 まず、局所的なビン中心が固定され、ウィンドウ長パラメータから独立している場合、STFTの微分可能バージョンを定義する。 次に、ウィンドウ長がビンの位置と数に影響を与えるより難しいケースについて議論する。 本稿では,このツールのニューラルネットワークだけでなく,sftに基づく信号処理アルゴリズムにも興味があることを示す。

In this paper, we revisit the use of spectrograms in neural networks, by making the window length a continuous parameter optimizable by gradient descent instead of an empirically tuned integer-valued hyperparameter. The contribution is mostly theoretical at this point, but plugging the modified STFT into any existing neural network is straightforward. We first define a differentiable version of the STFT in the case where local bins centers are fixed and independent of the window length parameter. We then discuss the more difficult case where the window length affects the position and number of bins. We illustrate the benefits of this new tool on an estimation and a classification problems, showing it can be of interest not only to neural networks but to any STFT-based signal processing algorithm.
翻訳日:2022-08-26 11:21:41 公開日:2022-08-25
# オブジェクト・シーン関係に基づくRGB-Dシーン認識

RGB-D Scene Recognition based on Object-Scene Relation ( http://arxiv.org/abs/2208.10833v2 )

ライセンス: Link先を確認
Yuhui Guo, Xun Liang(参考訳) オブジェクト・シーン関係(RSBR)に基づくRGB-Dシーン認識モデルを開発した。 まず、すべてのオブジェクトタイプのラベルに基づいてシーンのラベルを分類するセマンティックドメインでセマンティックネットワークを学習します。 そこで我々は,そのシーンをローカルキャプションに従って認識する外観領域の外観ネットワークを設計する。 我々は,セマンティクスネットワークを実践し,学習過程における出現ネットワークの指導を行う。 提案したRSBRモデルに基づいて,SUN RGB-DおよびNYUD2データセット上でのRGB-Dシーン認識の最先端結果を得る。

We develop a RGB-D scene recognition model based on object-scene relation(RSBR). First learning a Semantic Network in the semantic domain that classifies the label of a scene on the basis of the labels of all object types. Then, we design an Appearance Network in the appearance domain that recognizes the scene according to local captions. We enforce the Semantic Network to guide the Appearance Network in the learning procedure. Based on the proposed RSBR model, we obtain the state-of-the-art results of RGB-D scene recognition on SUN RGB-D and NYUD2 datasets.
翻訳日:2022-08-26 11:21:29 公開日:2022-08-25
# 人的基準と自動指標について:ストーリー生成評価のベンチマーク

Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation of Story Generation ( http://arxiv.org/abs/2208.11646v2 )

ライセンス: Link先を確認
Cyril Chhun, Pierre Colombo, Chlo\'e Clavel, Fabian M. Suchanek(参考訳) 自動ストーリー生成(ASG)の研究は人間と自動評価に大きく依存している。 しかし,どの評価基準を使うべきかの合意は得られず,自動評価基準がどの程度の相関性を持つかの分析は行われていない。 本稿では,ASG評価の再評価を提案する。 我々は,社会科学文献に注意深く動機づけられた,直交的で包括的な6つの人間の基準を導入する。 また、10種類のASGシステムによって生成される1,056ストーリーの注釈付きデータセットであるHANNAも提示する。 HANNAにより、72の自動測定値と人間の基準との相関を定量的に評価できる。 分析では,現在のasg指標の弱点を強調し,asg評価のための実用的な勧告を定式化する。

Research on Automatic Story Generation (ASG) relies heavily on human and automatic evaluation. However, there is no consensus on which human evaluation criteria to use, and no analysis of how well automatic criteria correlate with them. In this paper, we propose to re-evaluate ASG evaluation. We introduce a set of 6 orthogonal and comprehensive human criteria, carefully motivated by the social sciences literature. We also present HANNA, an annotated dataset of 1,056 stories produced by 10 different ASG systems. HANNA allows us to quantitatively evaluate the correlations of 72 automatic metrics with human criteria. Our analysis highlights the weaknesses of current metrics for ASG and allows us to formulate practical recommendations for ASG evaluation.
翻訳日:2022-08-26 11:21:21 公開日:2022-08-25
# 生成された画像を理解する上で,深層モデルがどの程度優れているか?

How good are deep models in understanding the generated images? ( http://arxiv.org/abs/2208.10760v2 )

ライセンス: Link先を確認
Ali Borji(参考訳) この論文の目標は2つある: dall-e 2 と midjourney が生成した画像を深く理解し、これらの生成モデルを定量的に評価することである。 オブジェクト認識と視覚質問応答(vqa)タスクのために2つの生成画像が収集される。 オブジェクト認識では、10の最先端オブジェクト認識モデルのうち、それぞれ60\%と80\%のトップ-1とトップ5の精度を達成している。 これらの数値は、ImageNetデータセット(91\%と99\%)の最高の精度よりもはるかに低い。 VQAでは、50の画像で241のバイナリ質問に答えると77.3\%のOFAスコアが与えられる。 このモデルは、バイナリVQA-v2データセットで94.7\%となる。 人間は生成された画像を認識し、簡単に質問に答えることができる。 結論として a) 深層モデルが生成した内容を理解するのに苦労し、微調整後に改善する可能性があること、 b)生成された画像と実際の写真との間には大きな分布シフトがある。 分布シフトはカテゴリー依存であるようだ。 https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view? usp=共有。

My goal in this paper is twofold: to study how well deep models can understand the images generated by DALL-E 2 and Midjourney, and to quantitatively evaluate these generative models. Two sets of generated images are collected for object recognition and visual question answering (VQA) tasks. On object recognition, the best model, out of 10 state-of-the-art object recognition models, achieves about 60\% and 80\% top-1 and top-5 accuracy, respectively. These numbers are much lower than the best accuracy on the ImageNet dataset (91\% and 99\%). On VQA, the OFA model scores 77.3\% on answering 241 binary questions across 50 images. This model scores 94.7\% on the binary VQA-v2 dataset. Humans are able to recognize the generated images and answer questions on them easily. We conclude that a) deep models struggle to understand the generated content, and may do better after fine-tuning, and b) there is a large distribution shift between the generated images and the real photographs. The distribution shift appears to be category-dependent. Data is available at: https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view?usp=sharing.
翻訳日:2022-08-26 11:21:11 公開日:2022-08-25
# ssfpn: オブジェクト検出のためのスケールシーケンス(s^2)特徴型ピラミッドネットワーク

ssFPN: Scale Sequence (S^2) Feature Based-Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2208.11533v2 )

ライセンス: Link先を確認
Hye-Jin Park, Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) 特徴ピラミッドネットワーク(FPN)は、オブジェクトの様々なスケールを考慮するために、オブジェクト検出モデルに不可欠なモジュールである。 しかし、小物体の平均精度(AP)は中・大物体のAPよりも比較的低い。 その理由は、cnnの深い層が機能抽出レベルとして情報損失を引き起こす理由である。 小型物体の特徴情報を強化するため,FPNの特徴抽出(S^2)を提案する。 我々はFPNの構造を,FPNの水平軸上の3次元畳み込みによるスケール空間と抽出スケールシーケンス(S^2)の特徴とみなす。 基本的にはスケール不変機能であり、小さなオブジェクトのための高解像度ピラミッド特徴マップ上に構築されている。 さらに、提案したS^2機能は、FPNに基づくほとんどのオブジェクト検出モデルに拡張することができる。 提案したS2機能は,MS COCOデータセット上での1段および2段検出器の性能向上を実証する。 提案したS2機能に基づいて, YOLOv4-P5とYOLOv4-P6のAP改善の最大1.3%と1.1%を達成する。 Faster RCNN と Mask R-CNN では,提案した S^2 機能による AP 改善の最大2.0% と 1.6% を観測した。

Feature Pyramid Network (FPN) has been an essential module for object detection models to consider various scales of an object. However, average precision (AP) on small objects is relatively lower than AP on medium and large objects. The reason is why the deeper layer of CNN causes information loss as feature extraction level. We propose a new scale sequence (S^2) feature extraction of FPN to strengthen feature information of small objects. We consider FPN structure as scale-space and extract scale sequence (S^2) feature by 3D convolution on the level axis of FPN. It is basically scale invariant feature and is built on high-resolution pyramid feature map for small objects. Furthermore, the proposed S^2 feature can be extended to most object detection models based on FPN. We demonstrate the proposed S2 feature can improve the performance of both one-stage and two-stage detectors on MS COCO dataset. Based on the proposed S2 feature, we achieve upto 1.3% and 1.1% of AP improvement for YOLOv4-P5 and YOLOv4-P6, respectively. For Faster RCNN and Mask R-CNN, we observe upto 2.0% and 1.6% of AP improvement with the suggested S^2 feature, respectively.
翻訳日:2022-08-26 11:20:52 公開日:2022-08-25
# 多言語知識転送による映像検索の改善

Improving video retrieval using multilingual knowledge transfer ( http://arxiv.org/abs/2208.11553v2 )

ライセンス: Link先を確認
Avinash Madasu, Estelle Aflalo, Gabriela Ben Melech Stan, Shao-Yen Tseng, Gedas Bertasius, Vasudev Lal(参考訳) 映像検索は視覚言語モデルの開発で大きな進歩を遂げている。 しかし、これらのモデルをさらに改善するには、追加のラベル付きデータが必要である。 本稿では,多言語モデルからの知識伝達を活用し,映像検索の性能を向上させるフレームワークであるmktvrを提案する。 まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語ビデオテキストペアを構築する。 そして、このデータを用いて、事前訓練された多言語モデルに基づいて、英語と非英語のテキストクエリが共通の埋め込み空間で表現されるビデオテキスト表現を学ぶ。 提案手法は,MSRVTT,MSVD,DiDeMo,Charadesの4つの英語ビデオ検索データセットに対して検討した。 実験結果から,本手法は過去のモデルよりも優れた結果が得られることが示された。 最後に,6言語にまたがる多言語ビデオリトライバルデータセット上でのモデルの評価を行い,ゼロショット設定で従来の多言語ビデオ検索モデルを上回ることを示す。

Video retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MKTVR, that utilizes knowledge transfer from a multilingual model to boost the performance of video retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual video-text pairs. We then use this data to learn a video-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on four English video retrieval datasets such as MSRVTT, MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach achieves state-of-the-art results on all datasets outperforming previous models. Finally, we also evaluate our model on a multilingual video-retrieval dataset encompassing six languages and show that our model outperforms previous multilingual video retrieval models in a zero-shot setting.
翻訳日:2022-08-26 11:20:32 公開日:2022-08-25
# コンパクト潜在行動空間における効率的な計画

Efficient Planning in a Compact Latent Action Space ( http://arxiv.org/abs/2208.10291v2 )

ライセンス: Link先を確認
Zhengyao Jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim Rockt\"aschel, Edward Grefenstette, Yuandong Tian(参考訳) 計画に基づくシーケンスモデリング手法は連続制御において大きな可能性を秘めているが、高次元のステートアクションシーケンスにスケールすることは、高い計算複雑性と高次元空間における計画の自然な難しさのために、まだ未解決の課題である。 本稿では,高動作次元にスケールする計画ベースシーケンスモデリングRL法であるTorjectory Autoencoding Planner (TAP)を提案する。 状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、TAPは現在の状態が与えられた軌跡の条件分布をモデル化する。 RLエージェントとしてデプロイされると、TAPは高次元連続的なアクション空間におけるステップバイステップの計画を避けるが、ビームサーチにより最適な遅延コードシーケンスを求める。 軌道トランスフォーマーの$o(d^3)$複雑性とは異なり、tapは状態作用次元に関する計算複雑性を一定の$o(c)$で計画する。 我々の経験的評価は、次元の増大に伴うTAPの強みも示している。 高度な状態と動作の次元を持つロボットハンド操作タスクの場合、tapはttを含む既存のモデルベースのメソッドを大きなマージンで上回り、強力なモデルフリーのアクタ批判ベースラインを上回っている。

While planning-based sequence modelling methods have shown great potential in continuous control, scaling them to high-dimensional state-action sequences remains an open challenge due to the high computational complexity and innate difficulty of planning in high-dimensional spaces. We propose the Trajectory Autoencoding Planner (TAP), a planning-based sequence modelling RL method that scales to high state-action dimensionalities. Using a state-conditional Vector-Quantized Variational Autoencoder (VQ-VAE), TAP models the conditional distribution of the trajectories given the current state. When deployed as an RL agent, TAP avoids planning step-by-step in a high-dimensional continuous action space but instead looks for the optimal latent code sequences by beam search. Unlike $O(D^3)$ complexity of Trajectory Transformer, TAP enjoys constant $O(C)$ planning computational complexity regarding state-action dimensionality $D$. Our empirical evaluation also shows the increasingly strong performance of TAP with the growing dimensionality. For Adroit robotic hand manipulation tasks with high state and action dimensionality, TAP surpasses existing model-based methods, including TT, with a large margin and also beats strong model-free actor-critic baselines.
翻訳日:2022-08-26 11:20:18 公開日:2022-08-25
# AIM 2022 圧縮画像・映像の超解像に関する課題:データセット,方法,結果

AIM 2022 Challenge on Super-Resolution of Compressed Image and Video: Dataset, Methods and Results ( http://arxiv.org/abs/2208.11184v2 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Xin Li, Qi Zhang, Lin Zhang, Fanglong Liu, Dongliang He, Fu li, He Zheng, Weihang Yuan, Pavel Ostyakov, Dmitry Vyal, Magauiya Zhussip, Xueyi Zou, Youliang Yan, Lei Li, Jingzhu Tang, Ming Chen, Shijie Zhao, Yu Zhu, Xiaoran Qin, Chenghua Li, Cong Leng, Jian Cheng, Claudio Rota, Marco Buzzelli, Simone Bianco, Raimondo Schettini, Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin, Bingchen Li, Xin Li, Mingxi Li, Ding Liu, Wenbin Zou, Peijie Dong, Tian Ye, Yunchen Zhang, Ming Tan, Xin Niu, Mustafa Ayazoglu, Marcos Conde, Ui-Jin Choi, Zhuang Jia, Tianyu Xu, Yijian Zhang, Mao Ye, Dengyan Luo, Xiaofeng Pan, and Liuhan Peng(参考訳) 本稿では,AIM 2022における圧縮画像・映像の超解像に関する課題について概説する。 この挑戦には2つのトラックが含まれる。 track 1は圧縮画像の超解像を目標とし、track~2は圧縮ビデオの超解像を目標としている。 Track 1では、トレーニング、検証、テストセットとして人気のあるデータセットDIV2Kを使用します。 Track 2では,LDV 2.0データセット(335本)と30本の追加ビデオを含む365本のビデオを含むLDV 3.0データセットを提案する。 このチャレンジでは12のチームと2つのチームがそれぞれトラック1とトラック2に最終結果を提出しました。 提案手法と解法は,圧縮画像およびビデオにおける超解像の最先端性を評価する。 提案されているLDV 3.0データセットはhttps://github.com/RenYang-home/LDV_datasetで公開されている。 このチャレンジのホームページはhttps://github.com/RenYang-home/AIM22_CompressSRにある。

This paper reviews the Challenge on Super-Resolution of Compressed Image and Video at AIM 2022. This challenge includes two tracks. Track 1 aims at the super-resolution of compressed image, and Track~2 targets the super-resolution of compressed video. In Track 1, we use the popular dataset DIV2K as the training, validation and test sets. In Track 2, we propose the LDV 3.0 dataset, which contains 365 videos, including the LDV 2.0 dataset (335 videos) and 30 additional videos. In this challenge, there are 12 teams and 2 teams that submitted the final results to Track 1 and Track 2, respectively. The proposed methods and solutions gauge the state-of-the-art of super-resolution on compressed image and video. The proposed LDV 3.0 dataset is available at https://github.com/RenYang-home/LDV_dataset. The homepage of this challenge is at https://github.com/RenYang-home/AIM22_CompressSR.
翻訳日:2022-08-26 11:19:55 公開日:2022-08-25